Как Python помогает «увидеть» текст по-новому
Руководитель мастер-класса – старший преподаватель кафедры «Теория и практика перевода» гуманитарно-педагогический института Александра Москалюк. Она показала студентам, как компьютер «видит» текст, и что можно из него извлечь, если подойти к нему как к набору данных. На мастер-классе участники загрузили текст и выполнили базовый набор операций. С помощью Python они очистили текст от лишних символов, привели некоторые слова в начальную форму и посмотрели, какие слова или словосочетания встречаются в тексте чаще всего. Компьютер замечает всё то, что читатель может упустить.
– С большими объёмами текста вручную работать очень трудно. Python позволяет этот процесс автоматизировать – быстро и точно, – отметила Александра Москалюк.
Чтобы не только обработать текст, но и визуализировать результат, участники мастер-класса работали с онлайн-платформой Voyant Tools. Это сервис, который визуально представляет результаты анализа текста (количество частотных слов, статистку ключевых терминов) в виде таблицы.
Студенты сравнили две версии одного и того же текста – необработанную и обработанную. И увидели, что в обработанном тексте статистика наиболее точная, а выводы – надёжнее.
Главный вывод мастер-класса в том, что компьютерный анализ – это не сухая статистика, а мощный способ получить объективные данные о тексте. Поэтому освоенные студентами навыки важны не только для учёбы. Для лингвистов это ключ к стилю, для журналистов – инструмент для быстрого анализа тем, а для всех студентов – суперспособность в мире, переполненном информацией.
Алина Смирнова, студентка ТГУ