Тайны обучения ИИ: как Meta использовала защищённый авторским правом контент

В мире искусственного интеллекта (ИИ) обучение моделей требует огромного количества данных. Но что, если эти данные защищены авторским правом? Судя по недавно опубликованным документам, сотрудники Meta* активно обсуждали использование пиратского контента для обучения своих ИИ-моделей, что вызвало волну судебных разбирательств.

Внутренние обсуждения: «Проси прощения, а не разрешения»

Согласно судебным документам, в рамках дела «Кадри против Meta», сотрудники компании годами обсуждали возможность использования произведений, защищённых авторским правом. Эти обсуждения включали как легальные, так и сомнительные с юридической точки зрения методы.

Один из ключевых моментов — внутренние чаты, где сотрудники Meta, включая старшего менеджера исследовательской группы Мелани Камбадур, обсуждали обучение моделей на данных, которые могли быть получены незаконно. Инженер-исследователь Ксавье Мартине предложил стратегию: «Проси прощения, а не разрешения». Он считал, что покупка электронных книг по розничным ценам может стать альтернативой лицензионным соглашениям с издательствами.

«Миллионы стартапов уже используют пиратские книги для обучения», — заявил Мартине, подчёркивая, что Meta может последовать их примеру.

Лицензирование или пиратство?

Несмотря на попытки договориться с издателями, Meta также рассматривала использование платформ вроде Libgen, известного агрегатора пиратского контента. Хотя Libgen неоднократно сталкивался с судебными исками и штрафами, некоторые сотрудники Meta считали его использование необходимым для достижения конкурентоспособности в гонке ИИ.

Сони Тиаканат, директор по управлению продуктами Meta, в электронном письме вице-президенту компании Джоэль Пино назвал Libgen «необходимым для достижения показателей SOTA» (state-of-the-art, самые современные модели). Он также предложил меры по снижению юридических рисков, включая удаление данных, помеченных как пиратские, и избегание публичных упоминаний об использовании таких источников.

Юридические риски и стратегии Meta

Судебные документы также раскрывают, что Meta настраивала свои модели на отказ от ответов на запросы, связанные с защищённым авторским правом контентом. Например, модели были запрограммированы не отвечать на вопросы вроде «воспроизведите первые три страницы „Гарри Поттера“».

Кроме того, Meta рассматривала возможность использования данных с Reddit, имитируя поведение стороннего приложения Pushshift. Однако в апреле 2023 года Reddit объявил о планах взимать плату за доступ к своим данным для обучения ИИ, что могло усложнить ситуацию для Meta.

Иски и последствия

Дело «Кадри против Meta» продолжает развиваться. Истцы, включая известных авторов Сару Сильверман и Та-Нехиси Коутс, утверждают, что Meta использовала пиратский контент для обучения своих моделей, таких как Llama. В ответ Meta настаивает на том, что такое использование попадает под категорию «добросовестного использования».

Компания также усилила свою юридическую команду, добавив двух адвокатов из фирмы Paul Weiss, что подчёркивает серьёзность ситуации.

Заключение

История с Meta и её использованием защищённого авторским правом контента для обучения ИИ поднимает важные вопросы о балансе между инновациями и соблюдением закона. В то время как компании стремятся к созданию более совершенных моделей ИИ, этические и юридические аспекты их действий остаются под пристальным вниманием.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации.

Meta и спорное обучение ИИ: авторские права под вопросом

Комментарии

Категории