Искусственный интеллект и борьба с исчезновением языков меньшинств

На данный момент ChatGPT официально поддерживает 95 языков из существующих в мире 7000. Это означает, что почти 99% языков пока не были реализованы в сфере искусственного интеллекта. Согласно официальной странице OpenAI, компании-разработчика ChatGPT, ежемесячно 180 миллионов пользователей по всему миру используют эту систему. Ежедневно создаются миллиарды диалогов между человеком и машиной. Однако в этих диалогах отсутствуют языки меньшинств. Каждый язык - это гордость своей нации, не только средство общения, но и носитель уникальных знаний. Тем не менее, в эре искусственного интеллекта многие языки могут быть забыты. Машины обучаются 'говорить' и 'слышать' на популярных языках, в то время как голоса меньшинств, говорящих на уникальных языках, остаются незамеченными или вовсе могут исчезнуть.

Большие языковые модели (LLM)

Среди множества направлений в исследованиях искусственного интеллекта особое место занимает область генеративного ИИ, и в рамках этой области выделяются большие языковые модели (LLM). Простыми словами, каждая такая модель представляет собой систему, задача которой — предсказать следующее слово. Это похоже на участие в телевизионной викторине, где ведущий задаёт вопрос, и нужно угадать ответ, зная лишь количество букв в нём.

Эти машины демонстрируют высокую эффективность в языковых задачах. Они используют статистические вероятности в сочетании с контекстом для того, чтобы предположить, какая буква или слово с наибольшей вероятностью будет следующей. На продвинутом уровне они могут выбирать наиболее подходящие предложения, абзацы и идеи для ответа на вопрос. Как и в случае с людьми, для ответа на вопросы машинам необходим словарный запас и знания, которые в мире информатики называются данными.

Согласно BBC Science Focus, модель GPT-3 была обучена на 570 ГБ отфильтрованных текстовых данных. Это составляет около 300 миллиардов слов, что равносильно примерно 850 миллионам страниц текста, напечатанного на бумаге формата A4 с размером шрифта Arial 12pt.

Эти цифры впечатляют, однако этот источник данных всё равно представляет собой лишь небольшую часть всего информационного массива человечества. Качество этого массива данных не сравнимо с фондами крупнейших библиотек мира, и стоит отметить, что его составляет в основном англоязычный контент. Другие языки, такие как французский, немецкий, испанский и итальянский, занимают большую долю. Все остальные языки мира составляют лишь небольшую долю в этом информационном объёме, их вклад можно сравнить с толщиной рисового листа.

Основные источники данных для ChatGPT

Это сразу же отражается на качестве ChatGPT. Версии GPT 3.5 и 4 могут эффективно работать на английском языке, но они часто допускают грубые ошибки при использовании вьетнамского языка, создавая бессвязные и неполные предложения. В конечном счете, качество моделей напрямую зависит от качества и объема данных: чем лучше и больше данных, тем точнее модель. И наоборот, недостаток качественных данных приводит к снижению качества моделей, что подтверждает известное в технологической сфере правило: 'мусор на входе - мусор на выходе'.

Поэтому, несмотря на наличие современных технологий, большие языковые модели все еще не способны полностью охватить богатство и разнообразие языков и культур человечества. Согласно Международной декаде коренных языков ЮНЕСКО, из 7000 существующих языков мира каждые две недели исчезает один. Большинство 'умирающих' языков принадлежат коренным народам-меньшинствам, которые, стремясь к развитию, часто вынуждены отказываться от своих традиционных языков в пользу более доминирующих. Это приводит к потере уникального языкового и культурного наследия.

Согласно Международной декаде коренных языков ЮНЕСКО, в мире существует около 7000 языков. Однако каждые две недели человечество теряет один из них, что означает, что последний носитель этого языка умирает или теряет способность к общению. Прогнозы говорят, что к концу 21 века может исчезнуть до 3000 языков.

'Умирающие' языки

Большинство 'умирающих' языков принадлежит коренным народам-меньшинствам. В поисках возможностей для развития многие из этих сообществ вынуждены отказываться от своих традиционных языков в пользу более распространенных. Доминирующие языки богатых наций занимают важные позиции в экономике, политике, образовании и технологиях.

Например, если вы - коренной житель, говорящий на языке Наати на одном из островов Южной Тихоокеанской области, вы можете использовать китайский для общения с туристами, английский для чтения газет, французский для оформления брачных документов, а Биласма - в профессиональной сфере. Таким образом, возможности для использования языка Наати ограничиваются, возможно, лишь личной сферой.

В ещё более крайних случаях, как, например, с коренными американцами в конце 19-го века, местные власти использовали насилие, чтобы заставить людей отказаться от своего языка. Народы, потерявшие свой язык, теряют возможность учиться у своих предков. Они блуждают в психологическом вакууме, лишённые идентичности и происхождения. Не понимая, кто они, они не могут связаться со своим сообществом. Одиночество в шумном мире приводит к чувствам бессилия, грусти, потери и риску культурного исчезновения.

С каждым исчезающим языком мир культуры, знаний и творчества человечества теряет часть своего разнообразия. Без языка человеческое восприятие становится более однообразным. Без множества языков взгляды человечества становятся предвзятыми и искажёнными. Несколько доминирующих идей в сильных языках становятся более популярными без должной критики и необходимого обсуждения. Информация, которая была популярной на этих языках, становится ещё более популярной. В то же время другая информация, выраженная на менее популярных языках, постепенно исчезает, несмотря на то, что она также очень ценна.

ИИ: большие предубеждения

В 2017 году внутреннее расследование журнала National Geographic показало, что до 1970 года их подход к освещению новостей содержал предубеждения на почве расовых различий. Журнал, возникший в эпоху колониализма, сильно повлиял на распространения расизма.

Люди цвета обычно изображались в одежде, плохо прикрывающей тело, особенно это касалось женщин. Они представлялись экзотичными, дикими и отсталыми, часто восхищенными современными западными технологиями.

Историк и фотограф Джон Эдвин Мэйсон, участвовавший в расследовании, выразил мнение, что американцы черпали представления о других народах из популярных фильмов, таких как "Тарзан", и грубых карикатур, изображающих расовые стереотипы. Похожие предвзятости заметны и на французских фотографиях, сделанных во Вьетнаме в начале 20 века.

В 2015 году фотография под названием 'Come up for air', опубликованная в журнале, вызвала споры. Она показывала вид сверху на крышу в индийском городе Варанаси, где находилась большая семья из более чем десяти человек, включая женщин и детей, которые спали, причём один из детей был полностью обнажен.

Критики утверждали, что National Geographic использовал двойные стандарты. Если бы фотография показывала белую семью на Западе, журнал бы её не опубликовал, опасаясь нарушения частной жизни. Однако, поскольку это была Индия, вероятность иска была ниже, и журнал не беспокоился.

На просторах Интернета, где много предвзятой информации, подобной пластиковому мусору, LLM проходят миллионы текстов из интернета, включая предвзятости и неточную информацию. Обучаясь на этом ИИ может генерировать предвзятые ответы, особенно по чувствительным вопросам, таким как раса, религия, пол и политика.

OpenAI заявляет, что они всегда заботятся о защите уязвимых групп и делают всё возможное, чтобы предотвратить вредные мысли, стремясь создать искусственный интеллект без предвзятости, который отражает мир этично. Если это правда, это будет заслуживающим уважения и значимым усилием для человечества на сегодняшнем этапе.

Тем не менее, крупные интернет-сервисы, такие как YouTube, TikTok, Instagram и Facebook, также заявляли об аналогичных целях, но результаты их действий уже видны пользователям. Как говорит певец Ден Вау в песне 'Сегодня много облаков': 'В лесу безопаснее, чем в сети'.

Опрос, проведенный в январе 2024 года и опубликованный на arxiv.org под названием 'Тысячи авторов ИИ о будущем ИИ', представил множество интересных прогнозов о будущем ИИ. Например, есть по крайней мере 50% шансов, что к 2028 году ИИ сможет создавать песни, неотличимые от творений известных артистов, или автоматически разрабатывать веб-сайты от А до Я. Это опрос среди 2778 ведущих исследователей искусственного интеллекта по всему миру, проводимый ежегодно. И каждый год исследователи делают новые, более ранние и смелые предсказания о будущих вехах ИИ, что означает, что развитие идет быстрее, чем ожидали эксперты.

Если эти прогнозы верны, то каждый, кто умеет использовать ИИ, может стать музыкантом или писателем. Это также означает, что если предвзятость или искажение проскользнут через фильтр ИИ, они могут быть умножены во много раз. В такой среде, полной предвзятостей и искажений, дискриминация и разногласия между сообществами и культурами будут расти, и в итоге права уязвимых людей будут серьезно нарушены.

Вызовы для менее популярных языков

Разработка LLM для менее распространённых языков сталкивается с рядом трудностей. Во-первых, множество малочисленных языков страдают от недостатка текстовых и речевых данных, необходимых для обучения языковых моделей. Это включает в себя необходимость наличия данных высокого качества, разнообразных и адекватно представляющих конкретный язык.

Во-вторых, даже при наличии обширных языковых ресурсов, сбор данных не так прост, как кажется. Требуется создание мультидисциплинарной команды из лингвистов, этнографов, историков, культурологов и других специалистов для тщательного и профессионального сбора, оценки и проверки данных. Поднимается вопрос о том, где найти достаточное количество социальных и гуманитарных учёных для цифровизации оставшихся 7000 языков мира.

В-третьих, многие меньшинства не имеют доступа к интернету, что ограничивает количество данных, создаваемых ими о собственных языках и культурах.

В-четвертых, меньшинственные языки часто обладают уникальной структурой и лексиконом, что делает необходимым разработку специализированных языковых моделей, адаптированных к этим особенностям.

И, наконец, финансирование. Кто готов оплатить эту сложную работу? Современные крупные языковые модели разрабатываются частными компаниями, которые стремятся к прибыли. В то время как коммерческая выгода от языков, на которых говорит небольшое количество людей, кажется сомнительной.

Тем не менее, есть основания для оптимизма. Современные большие языковые модели, такие как ChatGPT, становятся всё более продвинутыми, требуют меньше данных для обучения и обеспечивают более точные результаты. Кроме того, искусственный интеллект может помочь лингвистам в восстановлении языков, находящихся на грани исчезновения.

Согласно данным сайта Statistica, в 2023 году размер глобального рынка искусственного интеллекта был оценен примерно в 207,9 миллиарда долларов США. Прогнозируется, что к 2030 году этот показатель увеличится в 3-7 раз. Такой значительный рост финансирования в сфере ИИ вселяет надежду на то, что человечество сможет развивать LLM для менее распространенных языков. В настоящее время энтузиасты по всему миру объединяются через социальные сети для создания собственных LLM. Хотя эти начинания пока носят небольшой масштаб, они тают в себе большую надежду на будущее, когда сообщества смогут самостоятельно разрабатывать LLM для своих языков по мере того, как доступ к ИИ становится шире.

Важно, чтобы разработчики ИИ, особенно в области LLM, уделяли внимание сохранению языков меньшинств, которые являются неотъемлемой частью культурного и цивилизационного наследия человечества. Ведь, в отличие от бездушных алгоритмов и машин, создатели ИИ обладают человеческим сердцем.

Борьба с фейковой информацией в киберпространстве

Вьетнамский язык занял 21-ое место среди самых распространённых языков мира

URL: https://huunghivietnga.thoidai.com.vn/detail-article-34361.html