# Отчет по домашней работе по АОТ №3

### Язык программирования python3 (задание Е). С использованием Яндекс.XML API

Подключим необходимые модули. 
ElementTree – для парсинга XML ответов от Яндекс.XML  
Pandas – для удобного хранения "мешка слов"  
Requests – для GET-запросов к API  
Некоторые элементы scikit-learn для удобного моделирования и скоринга

In [158]:
import pandas as pd
import xml.etree.ElementTree as ET
import requests
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

Напишем функцию, возвращающую сырой текст XML-ответа. На вход принимается текст запроса в формате слово1+слово2+слово3 и т.д.

In [96]:
def get_responses(request):
    request_template = """https://yandex.com/search/xml?user=a-o-butenko&key=03.436483824:4ebd34aa3a703fffc928a8bb470cbab3
                          &query={}
                          &l10n=en
                          &sortby=tm.order%3Dascending
                          &filter=strict
                          &groupby=attr%3D%22%22.mode%3Dflat.groups-on-page%3D10.docs-in-group%3D1"""
    response = requests.get(request_template.format(request))
    return response

Зададим список запросов и список имен файлов для создания и сохранения

In [145]:
requests_list = ['логистическая+регрессия+с+регуляризацией',
                 'парсинг+xml+для+самых+маленьких',
                 'мультиколлинеарность+в+линейных+моделях',
                 'Дэвид+Линч+съемки+Твин+Пикса',
                 'лекарства+от+простуды']
files_list = ['xml1.xml', 'xml2.xml', 'xml3.xml', 'xml4.xml', 'xml5.xml']

Сохраним все запросы в отдельные xml документы

In [None]:
for i, req in enumerate(requests_list):
    xml_resp = get_responses(req)
    with open(files_list[i], 'w') as fin:
        fin.write(xml_resp.text)

Теперь считываем полученные ответы, моделируем "мешки слов" и ищем расстояния

In [178]:
pd.set_option('precision', 3)
for i, file in enumerate(files_list):
    texts = []
    text = ''
    tree = ET.parse(file)
    root = tree.getroot()
    groups = root.findall('./response/results/grouping/group/doc/passages')
    for group in groups:
        text = ''
        for inner in group.iter():
            if inner.text==None:
                continue
            text = text + ' ' + inner.text
        
        texts.append(text)
        
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(texts)
    print('Обрабатывается запрос "{}"'.format(requests_list[i]))
    print('Срез слов в текущей модели "мешка слов":\n')
    print(vectorizer.get_feature_names()[7:11])
    print('\nПопарные cosine similarities:\n')
    sim_matrix = cosine_similarity(X)
    sim_df = pd.DataFrame(sim_matrix)
    print(sim_df)
    print('\n')
    

Обрабатывается запрос "логистическая+регрессия+с+регуляризацией"
Срез слов в текущей модели "мешка слов":

['slope', 'vx', 'vy', 'анализ']

Попарные cosine similarities:

       0      1      2      3      4      5      6      7      8      9
0  1.000  0.177  1.000  0.000  0.000  0.500  0.324  0.000  0.577  0.000
1  0.177  1.000  0.177  0.000  0.000  0.177  0.115  0.000  0.102  0.000
2  1.000  0.177  1.000  0.000  0.000  0.500  0.324  0.000  0.577  0.000
3  0.000  0.000  0.000  1.000  0.095  0.000  0.000  0.123  0.000  0.164
4  0.000  0.000  0.000  0.095  1.000  0.000  0.000  0.000  0.000  0.344
5  0.500  0.177  0.500  0.000  0.000  1.000  0.162  0.000  0.289  0.136
6  0.324  0.115  0.324  0.000  0.000  0.162  1.000  0.000  0.187  0.000
7  0.000  0.000  0.000  0.123  0.000  0.000  0.000  1.000  0.000  0.000
8  0.577  0.102  0.577  0.000  0.000  0.289  0.187  0.000  1.000  0.000
9  0.000  0.000  0.000  0.164  0.344  0.136  0.000  0.000  0.000  1.000


Обрабатывается запрос "парсинг+xml+

В программе использовался Яндекс.XML API, программа отправляет GET-запрос на сервера яндекса и получает XML-ответ и вытаскивает из него тексты, находящиеся в листах passages (это легко видеть в структуре XML-ответа). В целом можно сказать, что поиск выдал много мусорных ответов, особенно на запрос, в котором слова "парсинг" и "xml" соседствуют со словом "маленких" – ни одного релевантного результата (можно заметить тенденцию по срезам слов), в отличие от тех результатов, которые можно получить с помощью веб-интерфейса (для сравнения yandex.ru выдает в числе первых запросов сразу несколько подходящих под запрос ссылок). Что касается остальных запросов, то было получено очень много замусоренных ответов, в которых ключевые слова находятся не в том контексте, в котором были запрошены, но были и такие, которые вполне подошли. Возможно, такое поведение связано с тем, что XML API выдает набор случайных поисковых результатов, не упорядоченных по релевантности запроса, и не учитывающих предыдушие запросы пользователя, что почти наверняка реализовано в поиске через веб-интерфейс yandex.ru.