/ categories / Блоги / @brodetsky / post #1922
5904

Блог дата-саентиста из Google о том, почему модерацию невозможно автоматизировать: https://moultano.wordpress.com/2019/10/02/why-do-companies-with-huge-resources-still-have-terrible-moderation/

Чтобы создать модель, распознающую хейтспич, нужно создать датасет с "плохими" и "хорошими" комментариями. Для этого нужно написать гайдлайны, по которым подрядчики будут размечать комментарии. Это непросто — слова могут иметь разное значение в зависимости от контекста, разные носители языка могут видеть в тексте разные смыслы.

Разметкой данных для обучения языковых моделей обычно занимаются подрядчики — как правило, люди из других культур. Индусы не знают расистских мемов с американских имиджбордов — как итог, в размеченном ими датасете будет много неправильно интерпретированных слов. Они упустят часть реальных угроз, а сарказм и иронию наоборот могут посчитать оскорблением. Язык хейтспича быстро меняется, подстраиваясь под новые правила модерации, так что такой датасет надо будет постоянно обновлять.

Imagine what would it look like to have a system that could do content moderation perfectly, that understood the nuances of every culture on earth, that could see the intention behind everything that everyone could write and would know whether it was meant in jest or in hate, that could really see into our hearts, that would know if we deserve forgiveness.

It would look like a lot like a God, and I think that’s a bit much to expect out of any group of people, let alone a big pile of linear algebra.
(отсылка к комиксу про машинное обучение)


10:10 10.10.19
@brodetsky
40.63K -22

Привет, я Андрей Бродецкий, журналист. Пишу о технологиях и о том, как они меняют мир. Связь: @politehnik Реклама: http://bit.ly/ad-faq Блог: @brodetsky_2 Дружественный канал: @denissexy