Как понять любой язык?

Этот текст часть гида Ничего невозможного, в котором мы вместе с учеными разбираемся, какие из технологий давно перестали быть фантастикой, а какие навсегда останутся только в книгах и фильмах.Умный прибор, который умеет переводить инопланетную речь, мог бы в действительности пригодиться человечеству. Возможно, встреча с пришельцами нам не грозит, но мы все еще вынуждены заучивать один, два и даже 43 иностранных языка, чтобы убрать лингвистический барьер, разделяющий нас с жителями разных уголков планеты. Универсальный переводчик Хоси Сато, офицера связи на знаменитом звездолете Энтерпрайз, на деле представляет собой некоторую машинку, которая слушает речь, воспринимает ее, переводит и выводит на экране в виде текста.Мы не будем ставить себе ограничений и предположим, что такая машинка также умеет озвучивать перевод голосом говорящего его же голосом, но на другом языке. Такое устройство действительно выглядит фантастически, однако все технологические предпосылки для его создания у человека на самом деле уже есть. Мы в первую очередь рассмотрим технологии, которые лежат в основе такого переводика, засунуть их в физическую коробку несложно.У задачи создания универсального переводчика есть несколько подзадач, и многие из них уже решены.Что здесь нужно? Во-первых, чтобы переводчик воспринимал человеческую речь и отличал ее от постороннего шума. С этим хорошо справляются голосовые ассистенты в наших смартфонах, которых можно вызвать одной кодовой фразой. При этом переводчику нужно определить язык, на котором говорят. Идентификация языка также вполне успешно работает в сервисах онлайн-перевода: мы можем написать что-то, а система сама предложит язык, на котором мы, по ее мнению, пишем.С задачей отличить речь от шума справится и вполне простой алгоритм. Другой вопрос как разобрать, что за слова в ней говорятся? Когда мы слышим иностранную речь, мы знаем, что имеем дело не просто с шумом, а вот отдельных слов вычленить не можем. Но такие алгоритмы существуют. Это задача распознавания речи, она решена, и решена довольно неплохо. Однако есть два принципиальных ограничения. Машинные алгоритмы могут распознавать многие языки, но не все. Как тепловозам нужно топливо, так алгоритмам нужны данные. Дело не в технологиях, они работают исправно, а в данных, которыми располагает человечество о языках разных народов мира. Есть даже специальное понятие малоресурсные языки. Это языки, у которых обычно не так много носителей или просто нет денег у людей, которые на них говорят. Например, на некоторых африканских языках могут говорить миллионы, при этом они неинтересны крупным коммерческим компаниям. Поэтому данные на этих языках не собираются (носители не могут заплатить за интернет, чтобы писать в Сети тексты) и не обрабатываются.Второе ограничение связано с количеством говорящих, речь которых нужно распознать в моменте. Наш мозг успешно справляется с этой задачей: мы прекрасно различаем говорящих и не спутаем, даже если не видим человека вживую. Алгоритмы машинного обучения хорошо работают, если имеют дело с двумя людьми, особенно разных полов, но распознать большее количество голосов уже проблема. Ее так и назвали проблема коктейльной вечеринки.Очевидно, что устройство должно уметь переводить речь с одного языка на другой. Такие технологии уже есть и очень хорошо работают благодаря тому же машинному обучению. Для того чтобы обучить алгоритмы, нужно потрудиться, но задача в целом несложная. Нужны данные очень много текстов с параллельным переводом. Благодаря большому объему данных хорошо работает автоматический перевод для английского и испанского языков, с каждым годом точнее становится перевод русскоязычных текстов. При этом ситуация нефатальна и для малоресурсных языков. У них часто есть другие, этимологически близкие к ним языки, о которых уже было собрано достаточно информации. Такие языки, например, тюркские. Их всего в мире несколько десятков, но они все очень близки между собой, так же как, например, русский и украинский, русский и белорусский. Так, на кумыцком языке есть мало текстов в электронном виде, но хорошая база собрана для казахского или узбекского их тоже можно использовать для обучения алгоритмов.Следующая амбициозная задача, которую мы сами перед собой поставили в начале этой статьи: такое устройство должно порождать речь. Сам перевод с одного языка на другой осуществляется скорее в письменной форме, внутри машинки. Теперь нам нужно, чтобы вместо написанного текста зазвучал голос. К счастью, и эта задача тоже решена. С нами разговаривают смартфоны, колонки, телевизоры и автомобили, а мы не сильно этому удивляемся. Здесь разработчики сталкиваются с аналогичным ограничением: если язык большой, есть много данных, много текстов в электронном виде, много носителей, то задачу решить несложно.Наконец, последняя задача: мы хотим, чтобы из машинки звучал не просто механический голос, а ровно тот же самый голос, что и произносил изначальную речь. То есть устройство должно подстраиваться под тембр и другие характеристики, которые придают нашему голосу индивидуальность. Нужно сказать, что и эта задача тоже решена. Дипфейки технология наложения одного лица на другое, которая работает и для речи и может фактически подделывать любой голос, для которого у нас есть достаточно данных.В реальности каждый из этапов создания универсального переводчика пройден. Сегодня проводят научные конференции, где речь докладчиков переводится на лету, правда в виде субтитров. Пока такие системы работают неидеально и путают, например, слово it (это) со словом eat (есть, кушать). Постепенно такого рода проблемы будут решаться за счет того, что количество данных, которые мы получаем о популярных языках, постоянно увеличивается.Плохо синхронные автопереводчики пока справляются с художественными текстами. Дело в том, что слова в художественных текстах часто употребляются не в своих обычных значениях. Машинное обучение основано на статистике, поэтому для перевода слова используется наиболее частотный вариант его употребления. Писательское дело всегда индивидуально и уникально, а алгоритм, который с ним должен иметь дело, наоборот, принципиально неуникален и ориентируется на статистику.Последнее, о чем хочется сказать в связи с универсальным переводчиком, путешествия во времени и встреча с инопланетянами. Как будет вести себя автопереводчик, когда столкнется с языком, существенно отличающимся от тех, что уже есть у него в базе? Задача перевода нового для машины (и для человечества) языка очень похожа на задачу расшифровки мертвых или придуманных, искусственных языков. Такие задачи действительно ставятся, и их пробуют решить. Например, знаменитую рукопись Войнича, написанную на непонятном языке, пытаются расшифровать с помощью алгоритмов машинного обучения. Пока этого сделать не удалось. Возможно, это принципиально нерешаемая задача: даже если у всех языков есть универсальная грамматическая структура, о которой ПостНауке рассказывал Ноам Хомскийи которуюв теории можно разгадать, нужно учитывать еще и лексику. Она ничем не обусловлена и до известной степени случайна. Как понять, какой смысл стоит за неизвестным набором звуков? Не исключено, что мы пока просто не нашли правильный алгоритм.

Источник: postnauka.ru

К списку статей

admin

Опубликовано: 04.05.2021 10:07:50

Сейчас читают

Нейросеть Sora превращает текст в видео можно ли пользоваться ею прямо сейчас?

Комментариев (0)

Имя

Электронная почта

Общее

5 фактов о магии

В колдовство верили вездеВ 1980 году американский антрополог Джордж Мердок опубликовал книгу Теория болезней. В этой книге он привел сведения по 139 обществам, известным на тот момент, в основном доиндустриальным, домодерным. Мердок сгруппировал по типам все теории болезни, объяснения причин и способы их лечения и обнаружил, что такая причина болезней, как колдовство, распространена почти повсеместно. Из 139 обществ она встречается в 132, и лишь в 7 обществах ее нет или она не зафиксирована.Вера
5 фактов о математике

Многовариантность доказательства математической теоремы отнюдь не требуется: перечисление всех случаев одна из наиболее скучных форм математического доказательства. Математическое доказательство должно напоминать созвездие с ясными и четкими очертаниями, а не скопление звезд с размытыми границами в Млечном Пути, Годфри Харди, Апология Математика.Математика продолжает интуициюХотя математика дисциплина точная, нередко прорывы в ее области совершаются интуитивно. Математик говорит: мне кажется, чт
Где живет иммунитет и каким он бывает?

Иммунитет система, которая во многом определяет качество нашей жизни и потому представляет интерес для каждого читателя. При этом разобраться в работе иммунного аппарата не так легко он многокомпонентен и непосредственно связан с работой самых разных органов, а также имеет индивидуальные характеристики в каждом отдельном случае.Говорим об иммунитете с кандидато
5 фактов о языке

Долгое время язык не был проблемой философии она оставалась равнодушной к языку. Первым периодом, когда язык стал интересен, было раннее Средневековье. В процессе толкования священных текстов стали замечать, что язык не является чем-то нейтральным и прозрачным, что он представляет собой трудность, которая заслоняет смыслы от того, кто к этим смыслам пробирается. В XX веке языком начинают активно интересоваться, его рассматривают как содержательную структуру, действующую по своим собственным зако
5 фактов об ученых

За долгие годы работы команда ПостНауки повстречалась с тысячами ученых разных уровней, направлений и из разных стран. Что они рассказывают о себе, своем научном направлении и о том, каково быть ученым? Об этом мы решили собрать подборку интересных диалогов.Физики это люди против правилПо мнению физика Айка Саркисяна, все физики друг на друга во многом похожи: они свободно одеваются, шутят похожие шутки и даже слушают одну и ту же музыку независимо от того, в какой стране они живут.Однажды делег
5 фактов о потреблении

О потреблении в современном обществе, обществе модерна, начали говорить только после Второй мировой войны. Дело в том, что классическая теоретическая мысль модерна была сконцентрирована на производстве и труде. Вопросы потребления стали значимыми лишь тогда, когда значительная часть населения смогла обеспечить себя ресурсами и досугом. Это стало возможным лишь в развитых странах и преимущественно во второй половине XX века.Демонстративное потреблениеМы не просто лично хотим удовлетворить свои ба

Как понять любой язык?

Сейчас читают

Общее

5 фактов о магии

5 фактов о математике

Где живет иммунитет и каким он бывает?

5 фактов о языке

5 фактов об ученых

5 фактов о потреблении

Категории

Последние комментарии

	Русский
	English