Operujący sztuczną inteligencją Google Tłumacz zauważalnie poprawił wyniki tłumaczeń we wszystkich językach. Czy dodany do usługi syntezator mowy wystarczy, by w satysfakcjonujący sposób dogadać się po polsku na przykład w Kambodży? Oto teraźniejszość i przyszłość tłumaczy symultanicznych, które bazują na algorytmach AI.
elektroniczne translatory a tłumacz
Jak pisze dr hab. Agnieszka Chmiel z Uniwersytetu im. Adama Mickiewicza w Poznaniu, w swojej pracy zatytułowanej „Dydaktyka tłumaczenia ustnego” (Katowice 2015), tłumaczenie symultaniczne często nazywane jest niezwykłą umiejętnością, choć tak naprawdę składa się na nie bardzo wiele różnych umiejętności składowych.

W rozdziale 11., dotyczącym przetwarzania w tłumaczeniu symultanicznym, naukowczyni rozbiera proces na elementy pierwsze. Wskazuje, że tłumaczenie symultaniczne to: słuchanie, przewidywanie, rozumienie, analiza mikrostruktury, aktywacja jednostek leksykalnych i produkcja. Czynności te, wykonywane oczywiście w odpowiedniej kolejności i wciąż od nowa, zachodzą dodatkowo w pewnych uwarunkowaniach – ograniczeniu czasowym i treściowym.

Proces przekładu w wykonaniu tłumacza maszynowego

Nie dziwi zatem, że zatrudnienie profesjonalnego tłumacza ustnego to skomplikowane zadanie. Praca ta wymaga wieloletniego doświadczenia w tłumaczeniu, perfekcyjnej znajomości języka, umiejętności szybkiego analizowania danych, charyzmy i elastyczności. Stąd tłumaczy symultanicznych jest niewielu, a sama usługa – droga.

Xiaolin Wang, Andrew Finch, Masao Utiyama i Eiichiro Sumita[1] to partnerzy biznesowi, twórcy The ATR Multilingual Speech-to-speech Translation System, czyli systemu do tłumaczenia symultanicznego, pracującego w trybie online. W pracy „A Prototype Automatic Simultaneous Interpretation System” wynalazcy dzielą się schematem, w jakim pracuje ich urządzenie. Proces dekodowania i kodowania odbywa się poprzez narzędzia: silnik rozpoznawania mowy, internetowy segmentator zdań, stanowisko przewidywania znaków interpunkcyjnych, silnik tłumaczenia maszynowego, a na końcu syntetyzator mowy.

Zadania systemu różnią się nieco od tych, które stoją przed tłumaczem w formie człowieczej. Wang, Finch, Utiyama i Sumita chwalą się, że ich algorytm potrafi utrzymać tempo w tłumaczeniu nawet najszybciej mówiących gości Ted Talks.

Asystent ukryty w małżowinie

System opracowany przez międzynarodowe grono to nie pierwszy i nie jedyny konstrukt tego typu w państwie zachodnim. Coraz to nowsze tłumaczące ekraniki i słuchawki pojawiają się na rynku od kilku ładnych lat.

Przykłady?

  • Translate One2One to system słuchawek, połączonych z superkomputerem IBM, który w ciągu 3 do 5 sekund tłumaczy mowę w ośmiu językach bez korzystania z technologii Wi-Fi czy Bluetooth;
  • słuchawki Pixel korzystające z Google Tłumacz. Kilkanaście lat temu wyniki z Google Tłumacz można by nazwać „nędzną próbą przekładu”. Dziś, gdy algorytmy operują sztuczną inteligencją, zyskuje na tym także tłumaczenie głosowe;
  • dodatek tłumaczący do aplikacji Skype, który obsługuje 10 języków.

Czy masz już swoją słuchawkę tłumaczącą?

Dlaczego urządzenia tłumaczące symultanicznie nie pojawiają się na półkach sieciówek ze sprzętem elektronicznym i nie widujemy ich w użyciu na ulicy? Po pierwsze – może i pozwalają na tłumaczenie wiadomości głosowej od kolegi Hiszpana czy nawet wykładu akademickiego wygłoszonego na uniwersytecie w Anglii, jednak w codziennym użytkowaniu obecny system by się nie sprawdził.

Problemem jest tzw. „background noise”, czyli hałas w tle. Silnikowi tłumaczącemu trudno rozdzielić ścieżki dźwiękowe, nakładające się na brzmienie typowego dużego miasta. Ktoś pyta o drogę do dworca, ktoś  kupuje gazetę, w restauracji grupka znajomych rozprawia tuż obok… Algorytm gubi się w strzępkach rozmów, omija słowa zagłuszane rykiem klaksonów.

Po drugie, nawet społeczeństwa w krajach wysoko rozwiniętych nie są jeszcze na etapie swobodnego rozmawiania „z maszynami”. O tym, że trudno mówić „do smartfona” (a nie przezeń) informują aspirujący influencerzy, którzy z wypiekami na policzkach, łamiącym głosem nagrywają swoje pierwsze stories. Czy stojąc w kolejce po bułeczki w paryskiej patisserie, sięgniemy po telefon, by wypowiedzieć po polsku: „Poproszę chleb razowy i dwie jagodzianki”? Być może będziemy tak robić. Za kilka lat.

Ewaluacja działania systemu

Kolejna przeszkoda w korzystaniu z elektronicznego tłumacza ustnego? Niedokładność przekładu. Twórcy systemu ATR przeprowadzili test, a jego wyniki przedstawili opisowo. Przeanalizowali tłumaczenie z języka angielskiego na japoński początku wystąpienia TED Talks, wygłoszonego przez pisarkę Elizabeth Gilbert („Jedz, módl się, kochaj”),.

Wypowiedziane przez panią Gilbert zdanie pierwsze, „I am a writer” (ang. Jestem pisarzem), system w ciągu 1,5 sekundy przetłumaczył najzupełniej poprawnie, jako 私は作家です(Watashi wa sakka desu). W zdaniu drugim translator ominął słowo „books” (ang. książki), co szczęśliwie nie zmieniło wydźwięku informacji. Jednak już w zdaniu trzecim system źle rozpoznał wymowę, więc tłumaczenie finalnie okazało się niepoprawne. Przekład zdania czwartego był prawidłowy, choć brzmiał nienaturalnie, w piątym natomiast system ominął słowo „career” (ang. kariera). Bez dużej szkody dla tłumaczenia, choć jest to oczywiście niedoinformowanie.

Wniosek? Słuchawki tłumaczące to akcesorium używane przez nielicznych. Gros świata dogaduje się po angielsku, rosyjsku, niemiecku i francusku. Kierowcy tirów wpisują frazy w Google Tłumacz i pokazują je celnikom przy przekraczaniu granicy, europejscy turyści z arabskimi kupcami dogadują się na migi.

Profesor Alex Weibel z Instytutu Technologii Karlsruhe[2] twierdzi jednak, że społeczeństwo dąży do językowej transparencji – by dogadywać się z każdym w swoim języku rodzimym. Z wygody, potrzeby naturalności i nieograniczania się w słowach.

I gdy tylko sztuczna inteligencja spełni te wymagania, słuchawki staną się naszymi kompanami w podróżach zawodowych i rekreacyjnych. Póki co, polegamy na językowym (szóstym) zmyśle i wierze, że nośnikiem mowy może być głos… serca.

[1]Z Advanced Translation Research and Development Promotion Center National Institute of Information and Communications Technology w Japonii

[2]Informacja z artykułu Marka Kohna „Is the era of artificial speech translation upon us?” opublikowanego w theguardian.com. 17.02.2019