Eugeniusz Bodo, który śpiewa Despacito. Audiobook Lśnienia, czytany przez samego mistrza Kinga. „Przekraczasz dozwoloną prędkość o 10 kilometrów na godzinę” wypowiedziane głosem współmałżonka… To akurat nie był zbyt fortunny przykład. Choć adekwatny. Wszystkie powyższe to realne możliwości technologii klonowania głosu, rozwijanej obecnie przez kilka amerykańskich przedsiębiorstw.

komunikacja Odtwarzanie głosu ludzkiego nie jest ideą roku 2018. Znamy niedoskonały, stosowany do amatorskiego dubbingu i licealnych żartów syntezator Ivonę, dostępny obecnie w liczbie 47 głosów w 24 językach. „Witaj, mam na imię Maja. Nie jestem człowiekiem, jestem po prostu głosem syntezatora mowy Ivona” – informuje jeden z nich. Słucha się tego nieswojo. Jeśli nie człowiekiem, to czym? Zacinająca się, potykająca na końcach wyrazów, „kanciasta”, ale jednak mowa. Generowane przez algorytm głosy niedługo mogą nam towarzyszyć w życiu codziennym.

Żeby uniknąć nieporozumienia: już to robią. Asystentki smartfonowe (Siri, Cortana), maszynowi lektorzy stron internetowych, którymi posługują się osoby niewidome. Już 5 lat temu widać było z daleka nadchodzącą rewolucję, w zeszłym roku poczuliśmy jej oddech. W 2013 firma CereVoce Me oferowała odtworzenie głosu tych, którzy z powodów zdrowotnych (np. jako skutek stwardnienia zanikowego bocznego lub po zabiegu usunięcia krtani) musieli go stracić. Wystarczyło kilka godzin przeprowadzonych w warunkach domowych nagrań, by zyskać podstawę do wykreowania komputerowego głosu pacjenta. W 2017 kanadyjski start up Lyrebird ogłosił, że opracowana przezeń technologia jest w stanie zrobić to lepiej. Bazując na nagraniu o długości jednej minuty.

Na dowód swoich możliwości, trójka założycieli-studentów Uniwersytetu Montrealskiego zamieściła w sieci wygenerowaną komputerowo rozmowę pomiędzy Donaldem Trumpem, Barackiem Obamą i Hillary Clinton – rozważania na temat Lyrebird. W jaki sposób udało się skrócić czas trwania wymaganego do syntezy materiału o kilkaset razy? Odpowiedź stanowi sztuczna inteligencja. I w tym wypadku wykreowanym głosom brakuje do ideału. Drżą, wahają się, potykają. Lyrebird zaznacza jednak, że prace nad technologią trwają, więc odtworzone głosy będą coraz lepsze.

Głos drżący od emocji

Klonowanie głosu niesie z sobą wiele perspektyw, pozytywnych, jak i negatywnych. Kolejne z przedsiębiorstw, iSpeech (niezwiązane z nadgryzionym jabłkiem), wymienia m.in.: wykorzystywanie głosów celebrytów w aplikacjach, tworzenie głosowych przewodników turystycznych, personalizację gier wideo, odtwarzanie głosów zmarłych, prowadzone przez popularne głosy kursy internetowe. Do tego należy dodać te bardziej tradycyjne formy wykorzystania generowanych mów – wszelkie zamiany tekstu pisanego na język mówiony. Firma przewiduje, że nawet w call centers będą pracowały głosowe roboty! Głosy Lyrebird biorą pod uwagę wybrane przez użytkownika emocje. Może się okazać, że będą bardziej empatyczne od żywych pracowników „na słuchawkach”.

Niebezpieczeństwa modulowania głosu

Nad tworzeniem i modyfikacją głosów pracuje również Adobe. Swoje narzędzie, VoCo, porównuje do Photoshopa. W programie można wykreować głos, ale i bawić się nim na różne sposoby. Podobnie jak popularna „fotoszopka”, VoCo może mieć setki wspaniałych, cieszących zmysły zastosowań (co gdyby naprawdę przedwojenny artysta zaśpiewał nam współczesny szlagier?), z drugiej strony jednak zakłamuje rzeczywistość. Wyobraźmy sobie przykład podany przez jedno z zagranicznych mediów: wideo, w którym Donald Trump oznajmia atak bombowy USA na Koreę Północną. Za kilka lat (miesięcy?) taki film może wyglądać całkiem realistycznie, technologia nakładania twarzy również korzysta ze sztucznej inteligencji. (Patrz: stworzone przez internautę filmy pornograficzne z twarzami znanych aktorek, m.in. Gal Gadot).

Do celów zawodowych

Niewątpliwie, klonowanie głosu w perfekcyjnej jakości przysłużyłoby się wziętym artystom. Dubbing? Audiobook? Nie ma problemu. Podpisują przekazanie praw autorskich do głosu na potrzeby projektu i załatwione. Oczywiście, w takiej rzeczywistości wykreowany komputerowo na zupełne podobieństwo głos musiałby być chroniony. Tylko ile niejasności wzbudziłyby kwestie prawne? Neal Conan, prezenter wiadomości radiowych, już sklonował swój głos. Spędził przy mikrofonie 9 godzin, by zarejestrować wszystkie tony i odcienie, a tym samym poprawić swoją zawodową wydajność.

Czy do dubbingowania filmów i prezentowania wiadomości aktorzy/lektorzy będą w ogóle potrzebni? Świat przedstawiony z filmu Ona Spike’a Joneza wkracza w naszą rzeczywistość. Rankiem przywita nas ulubiony głos: poleci ekspresowi zaparzyć kawę, przeczyta wiadomości, a jeśli zajdzie potrzeba, nawet poflirtuje.

Lirogony (ang. lyrebirds) niezmiennie będą zachwycać zdolnościami naśladowania ptasich i ludzkich odgłosów. One to mają w naturze.