### <b>GeoQA: питально-відповідальна система для фактологічних питань українською мовою про географію</b>

Проста програма, яка працює на основі даних з української вікіпедії.

In [1]:
question = 'Скільки людей мешкає в Італії?'

In [2]:
from qa_code import QuestionParser
qp = QuestionParser()
qp.answer_the_question(question)

'Населення Італії - 61261254 осіб'

Система може дати відповідь на питання, які стосуються країн, міст, морів, океанів, річок, озер, гір і запитують про площу, населення, висоту і кілька десятків інших властивостей.

#### <b>Дані</b>

Простота створення такої програми полягає в тому, що вікіпедія (в тому числі українська) містить інфобокси ![](img/infobox.png)

Складність полягає в якості цих даних: незважаючи на існування шаблонів, інфобокси зазвичай не дотримуються їх і по-різному представляють ту саму інформацію, з різним маркуванням і з різними іменами для тої самої властивості, або з відсутньою інформацією про властивість. Це основна причина відсутності великої кількості нібито простої інформації в базі програми.

Етапи роботи з даними:

- завдяки таким сторінкам, як "Список країн світу", з вікіпедії було витягнуто і оброблено тисячі інфобоксів;ґ

- різні імена для тої самої властивості були вручну зведені до однієї - "площа", "area", "areakm2", "площа_території" всі стали просто "Площа". Інфобокси містять досить обмежений набір властивостей, тому це не зайняло дуже багато часу;

- сутності з тією самою назвою було промарковано в квадратних дужках - місто Дніпро став "Дніпро \[місто\]", аналогічно для річки;

- окремо було створено словник одиниць для тих властивостей, для яких потрібно вказувати одиницю виміру ("км" або "осіб на квадратний кілометр");

- усе це стало базою даних у формі "словника словників": база містить словник властивостей для кожного географічного об'єкта.

#### <b>Метрики</b>

Для оцінювання системи я попросив свою дівчину написати якомога більше питань для системи, на які я згодом намагався не дивитись дуже часто, щоб не підлаштовувати систему під відповіді на саме ці питання. До кожного питання я додав правильну властивість, яку система повинна знайти, шукаючи відповідь на питання. Навіть якщо виявиться, що в базі даних немає інформації про конкретну властивість для цього географічного об'єкту, відповідь вважається "правильною", якщо система правильно ідентифікує в тестовому питанні іменовану сутність + властивість. На основі цього я оцінював accuracy score системи.

In [3]:
import pandas as pd
test = pd.read_csv('test.csv')
test.head()

Unnamed: 0,Q,K
0,яка площа Мексики,Площа
1,яка площа території Португалії,Площа
2,яка територія Гвінеї,Площа
3,який розмір Гвінеї,Площа
4,яка столиця Мексики,Столиця


In [4]:
print(len(test))

117


#### <b>Бейзлайн</b>

У якості бейзлайну було створено систему, засновану на правилах. Вона використовувала дамп інфобоксів української вікіпедії з сайту http://dbpedia.org і шукала відповіді на питання через прості SPARQL-запити в базу знань, яку створювала бібліотека rdflib на основі дампу. Незважаючи на десятки прописаних вручну правил, система працює дуже погано і показує близько 10% точності на тестовому датасеті.

In [5]:
from baseline.geo_qa_baseline import Question, load_KB
G = load_KB('baseline/geoproperties_uk.ttl.gz')

Зачекайте, будь ласка, триває завантаження бази знань!

...Базу завантажено!


In [6]:
question_1 = 'Яка столиця Угорщини'
question_2 = 'Яке місто є столицею Угорщини?'
q1 = Question(question_1)
q2 = Question(question_2)

In [7]:
print(q1.process_a_question(G))

Відповідь на запитання:
Столиця Угорщини - Будапешт



In [8]:
print(q2.process_a_question(G))

Вибачте, відповідь на запитання не знайшлась!



#### <b> Парсинг питання</b>

Проблема правил - ними важко покрити всі можливі формулювання запитань, вони негнучкі і дуже чутливі до дрібних помилок. Система, яка покращує бейзлайн, повинна вирішити ці проблеми.

Оскільки система відповідає на питання дуже простої форми, я виходив із того, що кожне питання можна розділити на дві частини: іменована сутність (географічний об'єкт, в ідеалі, написаний з великої літери) та власне текст питання (із якого можна зрозуміти, про яку властивість об'єкта ставиться питання).

Для парсингу власне тексту питання я написав якомога більше тренувальних питань (ще більше, ніж тестових), проставив для кожного клас (властивість, яку потрібно шукати у базі даних) і натренував класифікатор. У якості ознак було взято окремі слова, біграми та триграми на рівні літер (character-level trigrams). Завдяки останній ознаці, класифікатор не дуже чутливий до помилок у словах або різних граматичних формах слова, навіть якщо таких форм не було у тренувальних даних.

Точніше, було використано два класифікатори - averaged perceptron та логістична регресія (з бібліотеки sklearn). Я так і не вирішив, який краще залишити, тому система може працювати з будь-яким класифікатором або з обома одночасно (інтерфейс у командному рядку так і працює: спершу шукає відповідь через один класифікатор, а потім пробує інший, якщо відповідь не знайшлась).

In [9]:
qp.parse_question(question)

('Італія', 'скільки люди мешкати в ?')

Класифікатори працюють із питанням, із якого попередньо був вилучений географічний об'єкт (щоб не додавати шуму). Спершу цей об'єкт потрібно знайти. Для цього я взяв набір абзаців із вікіпедії про різні географічні об'єкти і вручну проанотував там географічні об'єкти (ігноруючи інші іменовані сутності) і на основі цих даних натренував NER-систему (на основі логістичної регресії з sklearn). NER серед ознак використовує POS-теги, які проставляє теггер, натренований на даних універсальних залежностей (там є тег PROPN - власна назва - що дуже корисно для NER).

Даних для тренування NER було не дуже багато, тому він працює з помилками. На випадок, якщо сутність у питанні не знайдено, спрацьовує функція на основі правил - вона шукає слова з великої літери, лематизує їх і дивиться, чи в базі даних є щось із такою назвою.

In [10]:
qp.ner_recognize(question)

[('Скільки', '-'),
 ('людей', '-'),
 ('мешкає', '-'),
 ('в', '-'),
 ('Італії', 'LOC')]

In [11]:
qp.get_entity(question)

'Італія'

In [12]:
qp.get_entity_pymorphy(question)

'Італія'

#### <b>Пошук правильної відповіді та генерація тексту</b>

Далі все дуже просто. Знайдена іменована сутність шукається у базі даних. Якщо назву написано з помилкою або можливі різні варіанти написання, система шукає найбільш схожі, за редакторською відстанню, об'єкти в базі.

Тим часом класифікатор видає список із трьох найбільш імовірних класів (властивостей), про які запитується в питанні, і ці властивості по черзі шукаються в базі для відповідного об'єкту.

In [13]:
ent, feats = qp.get_features(question)
pred_classes = qp.qa_model.get_scored_classes(feats)[:3]
pred_classes

['Населення', 'Густота населення', 'Середня глибина']

Генерація тексту відповіді просто заповнює шаблон, додаючи, за потреби, одиницю виміру та уточнення (якщо є кілька об'єктів з такою назвою). Якщо для кількох об'єктів є та сама властивість, видаються всі відповіді. У родовий відмінок слова ставить pymorphy2.

In [14]:
print(qp.answer_the_question('Яка площа Куби?'))

Площа Куби (острів) - 110.861 км²
Площа Куби (країна) - 110.861 км²


#### <b>Тестування</b>

Перевіримо точність системи на наших тестових питаннях.

In [15]:
from sklearn.metrics import accuracy_score
true_labels = list(test['K'])
pred_labels = []
for q in test['Q']:
    try:
        ent, feats = qp.get_features(q)
        pred_class = qp.qa_model.get_scored_classes(feats)[0]
    except:
        pred_class = ''
    pred_labels.append(pred_class)
    
round(accuracy_score(true_labels, pred_labels), 3)

0.821

82% - це вже непогано. Можна було б досягнути кращих результатів, маючи більше тренувальних даних і які були б більш схожими на тестові, і, можливо, використавши додаткові ознаки.

Реально система дає відповідь менше ніж на 82% питань, тому що для багатьох речей у базі нема інформації або вона втратилась при парсингу інфобоксів через використане в них криве форматування.

Додатково слід сказати про обмеження системи: вона відповідає тільки на ті питання, на які можуть відповісти інфобокси. На жаль, сказати "які річки протікають у Німеччині" чи "який найбільший острів у Тихому океані" вона ніяк не зможе, хоч це, здавалось би, дуже прості питання.

#### <b>Висновки</b>

- якість даних має дуже велике значення. Навіть попрацювавши багато з ними "вручну", я не можу сказати, що якість покращилась до задовільного рівня;

- проблема з якістю даних виявилась більшою, ніж проблема з нерозвиненістю засобів для обробки української мови (як я думав спочатку в процесі роботи над проектом);

- створити/анотувати тренувальні дані для нескладної задачі своїми руками - це цілком реально. Навіть невелика кількість тренувальних даних дасть кращий результат, ніж правила або pymorphy2;

- н-грами на основі літер - це круте вирішення проблем з варіативністю форм, які система отримуватиме на вхід.