История моей диссертации с упоминанием рок-группы Queen 🎸

Расскажу, что скрывается за фразой «пишу диссертацию о правовых проблемах обработки естественного языка». На самом деле под этой строгой академической формулировкой находится история о том, как компьютеры учатся понимать людей и как это соотносится с современным правопорядком.
💡 Естественный язык — это язык, на котором разговаривают люди.
💡 Обработка естественного языка (Natural Language Processing, NLP) — технология машинного обучения, которая дает возможность компьютеру понимать устную и письменную речь людей.
Почему это может быть интересно?
Вот несколько примеров: в корейском телешоу с лаконичным названием «ИИ против человека» воссоздали голос Фредди Меркьюри и озвучили им песню на корейском языке (youtube). На слух от оригинала практически не отличить, по крайней мере, мне не удалось 🤔.
Другой пример уже из России: голос умершего руководителя Александринского театра, Юрия Юрьева был восстановлен и использован для озвучивания утраченных монологов (youtube). И снова голос очень похож🎙️.
Впечатляет? Меня очень. Поэтому я решил исследовать эту тему, хотя сначала хотел, конечно, писать про блокчейн и смарт-контракты, куда уж без этого 🙈.
Почему это важно?
Яркие и запоминающиеся примеры с голосом — не единственные случаи использования технологии обработки естественного языка. Ее широко применяют в более рутинных и повседневных ситуациях, таких как использование нейронных переводчиков (Google Translate, Deepl, Яндекс переводчик), чат-ботов, голосовых помощников, сервисов проверки орфографии и пунктуации и многих других. Каждый день мы сталкиваемся с этой технологией. Даже часть этой статьи была отредактирована с помощью сервиса Notion AI 😀.
Широкое распространение технологии заставляет относиться к ней более внимательно. С одной стороны, если что-то пойдет не так, то это может нанести значительный вред большому количеству людей. С другой стороны, если все ограничить и строго урегулировать, это может замедлить или даже остановить развитие технологии, а значит, снова навредить обществу. Задача состоит в том, чтобы найти баланс между развитием технологии и защитой прав.
А исследование точно юридическое? ⚖️
Да, точно. Если повернуть разговор в правовую плоскость, то выглядеть это будет примерно так:

Исследование разделено на две части. В первой части рассматривается создание продуктов с использованием технологии обработки естественного языка. Основной фокус сделан на юридическом статусе данных, используемых для обучения компьютера языку (создания речевых корпусов).
Существует две проблемы: во-первых, эти данные часто включают в себя объекты интеллектуальной собственности, во-вторых, они могут также содержать персональные данные. Следовательно, вопрос заключается в том, как использовать их без нарушения закона и как долго этот статус будет действовать для самих данных. Например, следует ли задумываться об этом при использовании языковой модели, созданной на базе данных, содержащих персональные данные и объекты интеллектуальной собственности.
Вторая часть исследования посвящена распространению продуктов, использующих технологию обработки естественного языка. Как правило, эти продукты реализуются бесплатно, то есть без встречного денежного вознаграждения. Вместо этого поставщик получает выгоду от использования данных, которые были предоставлены пользователем, автоматически собраны или созданы поставщиком. Использование такой бизнес-модели вызывает дискуссию о том, можно ли вообще платить данными (необязательно персональными), и главное, если можно, то как это реализовать с учетом существующей правоприменительной практики. Вторая часть исследования у меня сравнительно-правовая 🤓.
В общем, если заинтересовал, то вот ссылка на мои публикации. 📝 Всегда рад читателям и комментариям. Скоро, кстати, выйдет публикация, над которой я работал несколько лет, обязательно расскажу об этом отдельно 😎