Google Translate: "grossmutter" = "blowjob"

Über eine Redaktionskollegin (danke, Ursula!) kam mir zu Ohren, dass Google Translate der Meinung ist, dass „grossmutter“ am besten mit „blowjob“ übersetzt wird. Und zwar nicht nur Deutsch – Englisch, sondern auch in sehr vielen anderen Sprachen.

Googletranslate

Aufgefallen ist das bis jetzt nur wenigen, man sagt mir, dass ein Email im italienischen Sprachraum die Runde mache, schriftlich habe ich nur diesen einen Blogpost gefunden.

Was steckt dahinter? Nachdem ich Beweismaterial gesammelt hatte (diese Screenshots), habe ich bei Google angefragt. Dort hatte man den Fehler noch nicht bemerkt, korrigierte ihn aber natürlich sofort („grossmutter“ wird jetzt korrekt übersetzt, Tschuldigung, ich bin schuld). 

Zuerst eine Beschreibung des Fehlers:

  • Google Translate übersetzt in 52 Sprachen.
  • „Grossmutter“ (mit einem grossen G) oder „Großmutter“ (mit dem scharfen S) werden korrekt übersetzt, der Fehler taucht nur auf, wenn man „grossmutter“ mit Doppel-S und kleinem g schreibt.
  • „grossmutter“ wird in 38 Sprachen mit „blowjob“ oder „Blowjob“ oder „blowjobs“ übersetzt (z.B. Englisch, Französisch, Albanisch, etc.).
  • 9 Sprachen haben andere Schriftsätze (Chinesisch, Japanisch, Griechisch etc.), dort kann ich mangels Kenntnis nicht feststellen, ob es eine korrekte Übersetzung oder einfach das chinesische, japanische Wort für Blowjob ist.
  • In 5 Sprachen wird „grossmutter“ in Übersetzungen/Slang von Blowjob übersetzt (z.B. schwedisch: „avsugning“, spanisch/katalanisch: „mamada“, polnisch: „oral“).
SchwedischPolnischKatalan

Bei Google widersprach man meiner ersten Vermutung, dass der Fehler durch die „Eine bessere Übersetzung vorschlagen„-Funktion entstand; dass also jemand sich einen Scherz machte und „blowjob“ als Übersetzung vorschlug, und dass das irgendwie ungeprüft ins Live-System rutschte. Google sagt, dass alle Vorschläge von Menschen geprüft werden, was es sehr unwahrscheinlich macht, dass eine solche Lausbuben-Übersetzung durchkommen könnte.

Man verwies mich stattdessen an Jeff Chin in Singapur, den Product Manager von Google Translate. Er erklärte mir, wie der Fehler entstehen konnte. Zunächst: Es gibt zwei verschiedene Wege, wie man maschinelle Übersetzung angehen kann: entweder mit Regeln, oder per Statistik.

Die Regel-Methode arbeitet mit Computerlinguistik, versucht also, die Regeln einer Sprache zu definieren und so Methoden der Übersetzung abzuleiten. Die meisten kommerziell schon länger erhältlichen Produkte arbeiten so. Computational Linguistics ist komplex, Spezialisten sind rar, die Produkte, die daraus entstehen, deshalb teuer.

Die Statistik-Methode wertet dagegen zwei Dokumente mit dem gleichen Inhalt in zwei verschiedenen Sprachenaus (das eine ist bekannt als eine Übersetzung des anderen) und versucht so, Wörter und Wortgruppen einander zuzuordnen. Zusätzlich wird auch die Sprache selber statistisch analysiert (welche Wortgruppen sind häufiger als andere z.B.). Aus diesen statischen Daten werden dann Übersetzungsalgorithmen abgeleitet.

Google Translate gibt es schon seit 2001; Google arbeitete damals aber noch mit einer lizensierten Technologie einer Drittfirma (mit der Regel-Methode). Seit 2004 betreibt man selber Forschung im Bereich der Statistik-Methode; auch unterstützt von der US-Regierung, fokussiert auf chinesisch und arabisch. Später weitete man die Arbeit auf andere Sprachen aus und begann, das Produkt allen zugänglich zu machen. Mittlerweile benutzt Google Translate nur noch Google-eigene Technologie.

Die statistische Methode macht für Google sehr viel Sinn: Wohl niemand sonst hat Zugriff auf eine solche Datenmenge und Prozessor-Kraft. Und es ist klar, dass eine statistische Methode umso besser wird, je mehr Daten man ihr verfüttern kann. Chin sagt mir, dass die Qualität der Übersetzung von vielen Faktoren abhängt (sprachspezifisch, auch abhängig vom Inhalt), dass sie aber gut wird bei einigen Millionen Wörtern als Grundlage für die statistische Analyse.

Trotzdem schlug die Methode bei „grossmutter“ fehl. Hier wurde das Doppel-S zum Stolperstein: weil die meisten Deutschsprachigen „Großmutter“ mit dem scharfen S schreiben, reduziert das Doppel-S die Datengrundlage stark. In welchem Zusammenhang diese Blowjob-Zuordnung genau passierte, darf sich jeder gerne selber ausmalen (wer es expliziter braucht, stellt bei einer Suche nach den beiden Begriffen fest, dass sie sich durchaus häufig in der Nähe von einander befinden können). Es ist klar, dass ein statistisches System nie völlig fehlerlos sein kann, dass es gerade ein so peinlicher Fehler war, ist schlicht Pech.

Also gut, eine einzelne falsche statistische Zuordnung ist erklärbar. Warum dann aber die falsche Übersetzung in so vielen verschiedenen Sprachen? Diese Erklärung ist einfach: Google Translate übersetzt nie direkt von Deutsch z.B. auf Französisch (Haha! Entschuldigung.), sondern macht immer den Umweg über Englisch. Also Deutsch -> Englisch -> Französisch. Google legt die ganzen statistischen Analysen immer in Bezug auf Englisch an – das ist nachvollziehbar, weil der Aufwand bei so vielen Sprachen schlicht zu gross wäre, wenn man die statistischen Auswertungen direkt für jede mögliche Sprachkombination anlegen würde.

Damit ist nicht nur erklärt, warum die falsche Übersetzung in vielen Sprachen auftritt (weil die Übersetzung von Deutsch in Englisch schon falsch ist), sondern auch, warum es in einigen Sprachen zu Abwandlungen von „blowjob“ kommt (weil in diesen Sprachen dann das englische „blowjob“ korrekt auf spanisch oder schwedisch &uuml
;bersetzt wurde).

Korrigiert hat man den Fehler übrigens manuell, also von Hand in einer Datenbank eingetragen, dass die statistisch gewonnene Übersetzung falsch ist. So kann man schnell auf Fehler reagieren und sich in Ruhe dran machen, die statistisch generierte Übersetzung zu verbessern. Wenn die Algorithmen verändert werden, kann man dann überprüfen, ob die Fehler nun nicht mehr auftreten.

So ist das. Ich bin gespannt, ob dieser Post nun Leute anzieht, die auf der Suche nach etwas ganz anderem waren.

 

Advertisements

3 Gedanken zu “Google Translate: "grossmutter" = "blowjob"

  1. also ich war genau auf der suche nach sowas :)dankeschön werd ich in mein deutschreferat einbauen.. vllt bis auf die sache mit dem blowjob 😉

Sag was!

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s