У набори даних, якими “годують” штучний інтелект, входять сайти з російською пропагандою – WP

myua

2 года ago

За останні місяці популярність чат-ботів зі штучним інтелектом стрімко зросла. Водночас попри очевидні переваги технологій, це може загрожувати поширенням пропаганди та дезінформації.

Про це пише The Washington Post.

Зазначено, що чат-боти не можуть думати, як люди. Вони можуть імітувати людську мову, тому що штучний інтелект, який їх живить, “проковтнув” гігантську кількість тексту, здебільшого взятого з інтернету.

Технологічні компанії стали приховувати інформацію про те, чим вони “годують” штучний інтелект. Тому The Washington Post вирішила проаналізувати один з таких наборів даних, щоб повністю розкрити типи веб-сайтів, які потрапляють до навчальних даних штучного інтелекту.

Так, WP проаналізувала набір даних C4 від Google – масивний знімок вмісту 15 мільйонів веб-сайтів, які були використані для навчання деяких відомих англомовних ШІ, зокрема T5 від Google і LLaMA від Facebook.

Близько третини веб-сайтів не вдалося класифікувати, здебільшого тому, що вони більше не з’являються в інтернеті.

Потім ранжували решту 10 мільйонів сайтів на основі того, скільки токенів з’явилося від кожного з них у наборі даних. Токени – це невеликі фрагменти тексту, які використовуються для обробки неорганізованої інформації – зазвичай це слово або фраза.

У наборі даних переважали веб-сайти з таких галузей, як журналістика, розваги, розробка програмного забезпечення, медицина та створення контенту.

Трьома найбільшими сайтами стали patents.google.com, який містить тексти патентів, виданих у всьому світі; wikipedia.org, безкоштовна онлайн-енциклопедія; і scribd.com, цифрова бібліотека, доступ до якої здійснюється лише за передплатою.

Також у список потрапили сайти, визначені американським урядом як ринки піратської та контрафактної продукції. Окрім того, деякі джерела викликають значні занепокоєння щодо конфіденційності.

Найбільшу категорію (16% категоризованих токенів) склали веб-сайти для бізнесу та промисловості. Вони, зокрема, надають інвестиційні поради, дозволяють користувачам збирати кошти на творчі проекти і отримувати щомісячну плату з передплатників за ексклюзивний контент.

Водночас такі сайти, зазначають у матеріалі, можуть надати ШІ доступ до ідей митців і маркетингових копій, що викликає занепокоєння, що технологія може копіювати цю роботу в пропозиціях для користувачів, що призведе до ще більших проблем з авторським правом.

Категорія Новини та медіа посідає третє місце серед усіх категорій. Так, половина з 10 найвживаніших сайтів загалом були новинними виданнями.

Однак журналісти знайшли у наборі даних кілька ЗМІ, які не можна назвати надійним джерелом інформації. Так, у список потрапив російський пропагандистський сайт RT, який просуває наративи Кремля; також breitbart.com, відоме джерело ультраправих новин і думок; і vdare.com, антиімміграційний сайт, який пропагує дискримінацію.

– Чат-боти впевнено поширюють неправдиву інформацію, але не завжди пропонують посилання на джерела. Ненадійні навчальні дані можуть призвести до поширення упередженості, пропаганди та дезінформації, – попереджає WP.

Зазначено, що як і більшість компаній, Google ретельно фільтрує дані перед тим, як передати їх штучному інтелекту. Окрім того, компанії зазвичай використовують високоякісні набори даних для точного налаштування моделей, захищаючи користувачів від небажаного контенту. Однак навіть попри це можна знайти сотні прикладів використання ШІ заборонених веб-сайтів і термінів.