Linguistic Battlefield: Анализ аргументации в лингвистических статьях
|
Участники |
Анастасия Зуева, Анна Колесникова, Полина Пилипец |
|||||||||||||||||||||||||||||||||||
|
Постановка задачи |
Адаптация задачи анализа аргументации для лингвистических статей (на материале аннотаций): создание датасета, разработка схемы разметки, тестирование различных методов |
|||||||||||||||||||||||||||||||||||
|
Данные |
210 аннотаций (abstract) к лингвистическим статьям на английском языке по трем темам (70 аннотаций на каждую тему): 1) когнитивное преимущество билингвов, 2) универсальная грамматика, врожденность языка, 3) гипотеза лингвистической относительности. Всего 1398 предложений. Статьи были найдены с помощью Google Scholar. Использована следующая схема разметки, содержащая 4 параметра:
Пример аннотированного предложения:
|
|||||||||||||||||||||||||||||||||||
|
Метод |
Для тестирования различных подходов рассматривались параметры “тип предложения” и “позиция”. В качестве метрики была выбрала взвешенная F-мера
|
|||||||||||||||||||||||||||||||||||
| Результат |
Среди трансформерных моделей наилучшим методом оказалась модель SciBERT с учетом порядкового номера предложения в аннотации для определения типа предложения, в качестве классификатора использована логистическая регрессия. Из рекуррентных моделей лучшие результаты показала непредобученная BiLSTM с использованием эмбеддингов, созданных SciBERT и включающих номер предложения в аннотации для категории “тип предложения”. В работе с большими языковыми моделями наилучший результат показал метод few-shot для всех категорий, кроме “тип” х “универсальная грамматика” - для этой категории более высокие значения F-меры показал zero-shot. Значения метрик представлены в таблице, заливкой выделены наивысшие метрики в каждой из категорий.
|
|||||||||||||||||||||||||||||||||||
| Содержательный вывод |
В рамках данного проекта был создан датасет для задачи анализа аргументации и структуры аннотации на материале англоязычных лингвистических статей. Также были протестированы различные подходы к определению типа предложения в аннотации и позиции относительно темы статьи. Наилучшие результаты в определении типа предложения показал feature-based подход с использованием модели SciBERT с учетом порядкового номера предложения для создания эмбеддингов и логистической регрессии для классификации. С определением позиции для двух тем лучше справилась двунаправленная рекуррентная сеть BiLSTM без предобучения с использованием эмбеддингов, созданных SciBERT. С темой “универсальная грамматика” лучше справилась большая языковая модель Qwen2.5-7B-Instruct с использованием few-shot подхода |
|||||||||||||||||||||||||||||||||||
| Материалы | ||||||||||||||||||||||||||||||||||||