Извлечение именованных сущностей – одна из самых востребованных на практике задач извлечения информации – предполагает поиск в тексте упоминаний имен, организаций, топонимов и других сущностей. Соревнование RuNNE посвящено задаче извлечения вложенных именованных сущностей. Разметка данных допускает следующие случаи: внутри одной именованной сущности находится другая именованная сущность. Так, например в сущность класса Organization “Московский драматический театр имени М. Н. Ермоловой” вложена сущность типа Person – “М. Н. Ермоловой”.
Соревнование проводится на материале корпуса NEREL [1], собранного из новостных текстов WikiNews на русском языке. В корпусе NEREL представлено 29 классов различных сущностей, а глубина вложенности сущностей достигает 6 уровней разметки.
Данные предоставляются участникам в виде размеченных документов. Формат разметки – BRAT.
В рамках соревнования RuNNE мы предлагаем участникам рассмотреть few shot постановку задачи. Задача предполагает извлечение вложенных именованных сущностей, В обучающем множестве большая часть типов именованных сущностей встречается достаточно часто, а некоторое количество специально отобранных типов – встречается всего несколько раз. В тестовом множестве все типы сущностей представлены одинаково. Оценка обычных типов сущностей и few-shot типов сущностей осуществляется раздельно.
Таким образом, участникам предстоит разработать модели извлечения вложенных именованных сущностей, поддерживающие few-shot режим.
Следующие типы сущностей относятся к few-shot типам: DISEASE, PENALTY, WORK_OF_ART.
* overall macro-f1 для всех сущностей, кроме few-shot сущностей
* few-shot macro-f1
Чтобы сдать решение, нужно создать test.jsonl файл и запаковать его в zip-архив командой "zip test test.jsonl". Полученный файл test.zip можно отправлять как решение.
Start: Jan. 4, 2022, midnight
Description: Публичное тестирование RuNNE
Feb. 14, 2022, 11 p.m.
You must be logged in to participate in competitions.
Sign In