Українська компанія вже два роки працює над штучним інтелектом, здатним синтезувати голос будь-якої людини.
Штучний інтелект (ШІ) підробляє будь-який голос? Нічого дивного, українці з Respeecher освоїли технологію і вже навіть уклали контракт з голлівудською студією.
Але технологію можна використовувати не тільки в індустрії розваг, а й для шахрайства.
Як це працює
Respeecher може навчитися імітувати будь-який голос. Для початку потрібні дві аудіодоріжки: на одній – запис оригінального голосу, на іншій – запис актора, який слово в слово повторює промовлений текст.
На цьому етапі програма тренується: порівнює обидва записи і виявляє, чим один голос відрізняється від іншого.
Тепер, коли штучний інтелект розуміє різницю, він здатний перетворювати голос актора на очікуваний – хоч який текст той зачитуватиме.
Щоб програма спрацювала ефективно, їй потрібно проаналізувати принаймні годину запису цільового голосу – того, який треба зімітувати. З високою ймовірністю за цей час вона почує достатню різноманітність слів і звукосполучень, проаналізує особливості цільового голосу і зрозуміє, як їх слід відтворювати.
Приклади
Нещодавно в Мережі з’явилося відео, на якому Річард Ніксон, президент США в 1969-1974 роках, розповідає про загибель астронавтів місії Аполлон-11, яка в 1969 році доставила людей на Місяць.
У реальності місія пройшла успішно, жоден з астронавтів не загинув. Відео створили в Массачусетському інституті технологій. Ніксона “змусили” зачитати промову, текст якої колись було написано на випадок провалу космічної місії, але з якою президент так ніколи і не вийшов на публіку.
Для створення образу знадобилися дві основні технології: штучний інтелект від Respeecher, який синтезує голос Ніксона, і штучний інтелект від компанії Canny AI, який змінив архівний відеозапис однієї зі справжніх промов президента США так, щоб рухи губ і міміка Ніксона збігалися з тим текстом, який він промовляє завдяки Respeecher.
Шахрайство
Однак, технологія підробки голосу за допомогою штучного інтелекту служить не тільки для наукових і розважальних цілей.
У вересні 2019 року генеральний директор однієї британської енергетичної компанії поговорив по телефону зі своїм начальником – керівником головного офісу в Німеччині. Той попросив його терміново перерахувати угорському постачальнику майже 250 тисяч доларів. Гроші пішли на рахунок угорського банку, а британський топ-менеджер навіть і не запідозрив, що весь цей час розмовляв з роботом.
Голос на іншому кінці лінії був так схожий на голос його начальника: штучний інтелект імітував не тільки манеру спілкування, а й легкий німецький акцент. Афера розкрилася, лише коли шахраї спробували провернути цей трюк вдруге.
Гроші кіберзлочинці відправили спочатку до Мексики, а потім розподілили їх по різних рахунках. Поки що поліція не змогла їх знайти.
“Побоювання небезпідставні, але люди завжди схильні дещо перебільшувати. Поки реалістичне синтезування голосу – це процес, що вимагає достатню кількість значних ресурсів. Є серйозні вимоги до якості записів, є великий обсяг роботи, який потрібно виконати, є чимало інших аспектів, що впливають на результат. Технологія поки не на тому рівні, коли хтось з легкістю може її використовувати в якихось нехороших цілях”, – говорить засновник Respeecher Олександр Сердюк в інтерв’ю BBC News Україна.
Источник: www.ua.korrespondent.net