## Лекция 3  NER

### __Задача 1__:

Реализуйте 2 функции препроцессинга:

- Удалить именованные сущности с помощью natasha (https://github.com/natasha/yargy)
- Удалить именованные сущности с помощью deepmipt (https://github.com/deepmipt/ner)

In [None]:
! pip install natasha

In [None]:
! pip install deeppavlov

In [None]:
text1 = """Школа анализа данных за 25 млрд долларов возникла в 2007 году на улице Крылова, д. 6 с целью восполнить недостаток квалифицированных кадров на рынке труда, с которым столкнулся Яндекс в то время. 24.02.13 Научным руководителем ШАД стал профессор Ратгерского университета Илья Мучник, директором — Елена Бунина."""

In [None]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    DatesExtractor,
    MoneyExtractor,
    AddrExtractor,
    NamesExtractor,

    Doc
)

segmenter = Segmenter()

morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

In [None]:
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

In [None]:
def preprocess_with_natasha(text: str) -> str:
    extractors = [
              dates_extractor,
              money_extractor,
              addr_extractor
    ]
    
    doc = Doc(text)

    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    doc.parse_syntax(syntax_parser)
    doc.tag_ner(ner_tagger)

    indices = []
    for span in doc.spans:
        if span.type == "PER":
            indices.append((span.start, span.stop))
    for pair in indices[::-1]:
        text = text[:pair[0]] + text[pair[1]:]

    for extractor in extractors:
        idx = []
        for match in extractor(text):
            idx.append((match.start, match.stop))
        for pair in idx[::-1]:
            text = text[:pair[0]] + text[pair[1]:]
    
    return text

In [None]:
from deeppavlov import configs, build_model

In [None]:
! python -m deeppavlov install ner_rus_bert

In [None]:
ner_model = build_model(configs.ner.ner_rus_bert, download=True)

In [None]:
! pip install razdel

In [None]:
from razdel import sentenize

def preprocess_with_deeppavlov(text: str) -> str:
    clean_text = []
    sents = [j.text for j in sentenize(text)]
    result = ner_model(sents)
    for i in range(len(result[0])):
        clean_text += [word for word, tag in zip(result[0][i], result[1][i]) if tag == 'O']
    return ' '.join(clean_text)

In [None]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [None]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
from nltk.corpus import stopwords

russian_stopwords = stopwords.words("russian")

In [None]:
def preprocess(f):
    sym = "0123456789.,?!…:;()[]-—_|/\"'«»*{}<>@#$%^&№"
    s = []
    words = f.strip().lower().split()
    for word in words:
        word = word.strip(sym)
        if word != '':
            word = morph.parse(word)[0].normal_form
            if word not in russian_stopwords:
                s.append(word)
    return s

In [None]:
preprocess_with_natasha(text1)

'Школа анализа данных за  возникла в  на ,  целью восполнить недостаток квалифицированных кадров на рынке труда, с которым столкнулся Яндекс в то время.  Научным руководителем ШАД стал профессор Ратгерского университета , директором — .'

In [None]:
preprocess_with_deeppavlov(text1)

'Школа анализа данных за 25 млрд долларов возникла в 2007 году на улице , д . 6 с целью восполнить недостаток квалифицированных кадров на рынке труда , с которым столкнулся в то время . 24 . 02 . 13 Научным руководителем стал профессор , директором — .'

### __Задача 2__:    
На предыдущем занятии вы реализовывали функции поиска ближайших ответов на запросы через TF-IDF и BM25. 
Сравните качество нахождения верного ответа для обоих методов в трех случаях:
- с функцией ```preprocess_with_natasha```
- с функцией ```preprocess_with_deepmipt```
- без препроцессинга

Для измерения качества используйте метрику accuracy. Считаем, что ответ верный, если он входит в топ-1.

In [None]:
import pandas as pd

In [None]:
ans = pd.read_excel('answers_base.xlsx')

In [None]:
ans.head()

Unnamed: 0,Номер связки,Текст вопросов,Текст ответа,Тематика
0,57,У ребенка в школе продлили каникулы. Могу ли я...,Листок временной нетрудоспособности (больничны...,БОЛЬНИЧНЫЙ ЛИСТ
1,78,Где сделать вакцинацию от коронавируса?\nСущес...,"Коронавирусы - это целое семейство вирусов, ко...",ВАКЦИНАЦИЯ
2,326,Сколько стоит сделать вакцину от гриппа?\nМожн...,Бесплатно пройти вакцинацию можно в Вашей меди...,ВАКЦИНАЦИЯ
3,327,Могу я отказаться от вакцинации?\nВ каких случ...,Согласно приказу Министерства здравоохранения ...,ВАКЦИНАЦИЯ
4,328,Безопасна ли вакцинация?\nОпасна ли вакцинация...,В соответствии с пунктами 1 и 2 статьи 12 Феде...,ВАКЦИНАЦИЯ


In [None]:
answers = pd.DataFrame(ans[['Номер связки', 'Текст ответа']])

In [None]:
ans['Вопросы'] = ans['Текст вопросов'].apply(lambda text: text.split('\n'))

In [None]:
ans = ans.explode('Вопросы')

In [None]:
ans.reset_index(drop=True, inplace=True)
ans.drop(['Текст вопросов', 'Текст ответа', 'Тематика'], axis=1, inplace=True)

In [None]:
ans.head()

Unnamed: 0,Номер связки,Вопросы
0,57,У ребенка в школе продлили каникулы. Могу ли я...
1,57,Больничный лист?
2,57,"Есть ли компенсация, в случае если есть разниц..."
3,57,как оплачивается больничный при коронавирусе?
4,57,"Я контактный, дадут ли больничный?"


In [None]:
q = pd.read_excel('queries_base.xlsx', usecols='A, B', names=['Вопросы', 'Номер связки'])

In [None]:
q = q[['Номер связки', 'Вопросы']]

In [None]:
data = pd.concat([ans, q], ignore_index=True)

In [None]:
data['Preprocessed'] = data['Вопросы'].apply(lambda text: ' '.join(preprocess(str(text))))

In [None]:
from tqdm.auto import tqdm

In [None]:
tqdm.pandas()

In [None]:
data['Natasha'] = data['Вопросы'].progress_apply(lambda text: ' '.join(preprocess(preprocess_with_natasha(str(text)))))

HBox(children=(FloatProgress(value=0.0, max=3080.0), HTML(value='')))




In [None]:
data.shape

(3080, 4)

In [None]:
len(data[data.Preprocessed != data.Natasha]) # кол-во текстов, из которых были удалены сущности Natasha

1625

In [None]:
data['DeepPavlov'] = data['Вопросы'].progress_apply(lambda text: ' '.join(preprocess(preprocess_with_deeppavlov(str(text)))))

HBox(children=(FloatProgress(value=0.0, max=3080.0), HTML(value='')))




In [None]:
data.head()

Unnamed: 0,Номер связки,Вопросы,Preprocessed,Natasha,DeepPavlov
0,57.0,У ребенка в школе продлили каникулы. Могу ли я...,ребёнок школа продлить каникулы мочь взять бол...,ребёнок школа продлить каникулы мочь взять бол...,ребёнок школа продлить каникулы мочь взять бол...
1,57.0,Больничный лист?,больничный лист,больничный лист,больничный лист
2,57.0,"Есть ли компенсация, в случае если есть разниц...",компенсация случай разница оплата больничный з...,компенсация случай разница оплата больничный з...,компенсация случай разница оплата больничный з...
3,57.0,как оплачивается больничный при коронавирусе?,оплачиваться больничный коронавирус,оплачиваться больничный коронавирус,оплачиваться больничный коронавирус
4,57.0,"Я контактный, дадут ли больничный?",контактный дать больничный,контактный дать больничный,контактный дать больничный


In [None]:
len(data[data.Preprocessed != data.DeepPavlov]) # кол-во текстов, из которых были удалены сущности DP

2060

In [None]:
data.to_excel('data.xlsx')

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

In [None]:
def make_tfidf(corpus):
    vectorizer = TfidfVectorizer(stop_words=russian_stopwords)
    X = vectorizer.fit_transform(corpus)
    tfidf = pd.DataFrame(X.A, columns=vectorizer.get_feature_names())
    return tfidf, vectorizer


def get_similar(query, vectorizer, tfidf_matrix, corpus):
    query_tfidf = vectorizer.transform([query]).toarray()
    result = tfidf_matrix.to_numpy().dot(query_tfidf.transpose())
    for i in np.argsort(result, axis=0)[::-1].transpose()[0]:
        return corpus.loc[i, 'Номер связки']

In [None]:
data_train, data_test = data[:2150], data[2150:]

In [None]:
tfidf_p, vec_p = make_tfidf(data_train.Preprocessed)
data_test['TfIdf_Pred'] = data_test.apply(lambda x: get_similar(x.Preprocessed, vec_p, tfidf_p, data_train), axis=1)

In [None]:
tfidf_n, vec_n = make_tfidf(data_train.Natasha)
data_test['TfIdf_Natasha_Pred'] = data_test.apply(lambda x: get_similar(x.Natasha, vec_n, tfidf_n, data_train), axis=1)

In [None]:
tfidf_d, vec_d = make_tfidf(data_train.DeepPavlov)
data_test['TfIdf_DP_Pred'] = data_test.apply(lambda x: get_similar(x.DeepPavlov, vec_d, tfidf_d, data_train), axis=1)

In [None]:
data_test.sample(5)

Unnamed: 0,Номер связки,Вопросы,Preprocessed,Natasha,DeepPavlov,TfIdf_Pred,TfIdf_Natasha_Pred,TfIdf_DP_Pred
2339,6.0,"пн, 24 авг. 2020 г., 21:23 Илхомжон Абдукахоро...",пн авг год илхомжон абдукахор abdukahorovilhom...,пн авг abdukahorovilhomzon@gmail.com резултать...,пн авг год gmail com резултать анализ отправит...,308.0,308.0,308.0
2926,308.0,Заблаговременно заполнили и отправили анкету д...,заблаговременно заполнить отправить анкета пре...,заблаговременно заполнить отправить анкета пре...,заблаговременно заполнить отправить анкета пре...,308.0,308.0,308.0
2395,308.0,Добрый день!\nЕсли туристы по прилёту в РФ из ...,добрый день турист прилёт рф турция успеть уло...,добрый день турист прилёт турция успеть уложит...,добрый день турист прилёт успеть уложиться х д...,308.0,308.0,308.0
2732,37.0,Добрый день. Необходимо ли в Нижегородской обл...,добрый день необходимый нижегородский область ...,добрый день необходимый возобновление деятельн...,добрый день необходимый возобновление деятельн...,286.0,286.0,286.0
2851,324.0,Здравствуйте! Мы планируем поездку в санаторий...,здравствовать планировать поездка санаторий им...,здравствовать планировать поездка санаторий им...,здравствовать планировать поездка санаторий го...,324.0,324.0,324.0


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from math import log

In [None]:
def bm25(item, avgdl, ld, k=2.0, b=0.75) -> float:
    score = (item * (k + 1)) / (item + k * (1 - b + ((b * ld) / avgdl)))
    return score


def get_bm(N, tf, avgdl, ld):
    bm = np.zeros((N, tf.shape[1]))
    for i in range(N):
        bm[i] = [bm25(word[i], avgdl, ld[i]) for word in tf.T]
    return bm


def get_similar_bm(query, vectorizer, corpus, bm, idf):
    query_vec = vectorizer.transform([query]).toarray() * idf
    result = bm.dot(query_vec.transpose())
    
    for i in np.argsort(result, axis=0)[::-1].transpose()[0]:
        return corpus.iloc[i]['Номер связки']

In [None]:
k = 2.0
b = 0.75

In [None]:
data_train.Preprocessed.fillna('', inplace=True)

corpus = data_train.Preprocessed

count_vectorizer = CountVectorizer()
tf = count_vectorizer.fit_transform(corpus).toarray()

N = len(tf)
lens = 0
ld = []
for text in corpus:
    l = len(text.split())
    lens += l
    ld.append(l)
avgdl = lens / N
ld = np.array(ld)

n_qi = [len(word.nonzero()[0]) for word in tf.T]
idf = [log((N - n_qi[i] + 0.5)/(n_qi[i] + 0.5)) for i in range(len(n_qi))]

In [None]:
bm = get_bm(N, tf, avgdl, ld)

In [None]:
bm.shape

(2150, 5833)

In [None]:
data_test['BM25_Pred'] = data_test.apply(lambda x: get_similar_bm(x.Preprocessed, count_vectorizer, data_train, bm, idf), axis=1)

In [None]:
data_train.Natasha.fillna('', inplace=True)

corpus_n = data_train.Natasha

count_vectorizer_n = CountVectorizer()
tf_n = count_vectorizer_n.fit_transform(corpus_n).toarray()

N_n = len(tf_n)
lens_n = 0
ld_n = []
for text in corpus_n:
    l = len(text.split())
    lens_n += l
    ld_n.append(l)
avgdl_n = lens_n / N_n
ld_n = np.array(ld_n)

n_qi_n = [len(word.nonzero()[0]) for word in tf_n.T]
idf_n = [log((N_n - n_qi_n[i] + 0.5)/(n_qi_n[i] + 0.5)) for i in range(len(n_qi_n))]

In [None]:
bm_n = get_bm(N_n, tf_n, avgdl_n, ld_n)

In [None]:
bm_n.shape

(2150, 5063)

In [None]:
data_test['BM25_Natasha_Pred'] = data_test.apply(lambda x: get_similar_bm(x.Natasha, count_vectorizer_n, data_train, bm_n, idf_n), axis=1)

In [None]:
data_train.DeepPavlov.fillna('', inplace=True)

corpus_d = data_train.DeepPavlov

count_vectorizer_d = CountVectorizer()
tf_d = count_vectorizer_d.fit_transform(corpus_d).toarray()

N_d = len(tf_d)
lens_d = 0
ld_d = []
for text in corpus_d:
    l = len(text.split())
    lens_d += l
    ld_d.append(l)
avgdl_d = lens_d / N_d
ld_d = np.array(ld_d)

n_qi_d = [len(word.nonzero()[0]) for word in tf_d.T]
idf_d = [log((N_d - n_qi_d[i] + 0.5)/(n_qi_d[i] + 0.5)) for i in range(len(n_qi_d))]

In [None]:
bm_d = get_bm(N_d, tf_d, avgdl_d, ld_d)

In [None]:
bm_d.shape

(2150, 4378)

In [None]:
data_test['BM25_DP_Pred'] = data_test.apply(lambda x: get_similar_bm(x.DeepPavlov, count_vectorizer_d, data_train, bm_d, idf_d), axis=1)

In [None]:
data_test.sample(5)

Unnamed: 0,Номер связки,Вопросы,Preprocessed,Natasha,DeepPavlov,TfIdf_Pred,TfIdf_Natasha_Pred,TfIdf_DP_Pred,BM25_Pred,BM25_Natasha_Pred,BM25_DP_Pred
2244,308.0,Добрый день! Я являюсь иностранным гражданином...,добрый день являться иностранный гражданин рф ...,добрый день являться иностранный гражданин име...,добрый день являться иностранный гражданин име...,308.0,308.0,308.0,308.0,308.0,308.0
2793,70.0,Здравствуйте! \nПравомерны ли действия со рудн...,здравствовать правомерный действие рудник служ...,здравствовать правомерный действие рудник служ...,здравствовать правомерный действие рудник служ...,70.0,70.0,70.0,70.0,70.0,70.0
2789,308.0,Добрый день. Могу ли я после поездки за границ...,добрый день мочь поездка граница сдать обязате...,добрый день мочь поездка граница сдать обязате...,добрый день мочь поездка граница сдать обязате...,6.0,6.0,6.0,308.0,308.0,308.0
2261,1.0,"Здравствуйте! Ответьте, пожалуйста, на следующ...",здравствовать ответить пожалуйста следующий во...,здравствовать ответить пожалуйста следующий во...,здравствовать ответить пожалуйста следующий во...,74.0,74.0,74.0,74.0,74.0,74.0
2176,308.0,"Добрый день, мама прибыла вывозным рейсом сего...",добрый день мама прибыть вывозной рейс сегодня...,добрый день мама прибыть вывозной рейс сегодня...,добрый день мама прибыть вывозной рейс сегодня...,308.0,308.0,308.0,308.0,308.0,308.0


Accuracy для TF-IDF без удаления NER:

In [None]:
results = {}

In [None]:
results['tfidf_pred'] = len(data_test[data_test['Номер связки'] == data_test.TfIdf_Pred]) / len(data_test)

Accuracy для TF-IDF после удаления NER с помощью Natasha:

In [None]:
results['tfidf_natasha_pred'] = len(data_test[data_test['Номер связки'] == data_test.TfIdf_Natasha_Pred]) / len(data_test)

Accuracy для TF-IDF после удаления NER с помощью DeepPavlov:

In [None]:
results['tfidf_dp_pred'] = len(data_test[data_test['Номер связки'] == data_test.TfIdf_DP_Pred]) / len(data_test)

Accuracy для BM25 без удаления NER

In [None]:
results['bm25_pred'] = len(data_test[data_test['Номер связки'] == data_test.BM25_Pred]) / len(data_test)

Accuracy для BM25 после удаления NER с помощью Natasha

In [None]:
results['bm25_natasha_pred'] = len(data_test[data_test['Номер связки'] == data_test.BM25_Natasha_Pred]) / len(data_test)

Accuracy для BM25 после удаления NER с помощью DeepPavlov

In [None]:
results['bm25_dp_pred'] = len(data_test[data_test['Номер связки'] == data_test.BM25_DP_Pred]) / len(data_test)

In [None]:
d = {'method':list(results.keys()), 'accuracy':list(results.values())}

In [None]:
acc = pd.DataFrame.from_dict(d)

In [None]:
acc

Unnamed: 0,method,accuracy
0,tfidf_pred,0.497849
1,tfidf_natasha_pred,0.490323
2,tfidf_dp_pred,0.474194
3,bm25_pred,0.54086
4,bm25_natasha_pred,0.536559
5,bm25_dp_pred,0.529032


### __Задача 3__:    
Улучшить правила в natasha. Написать правила, которые ловят даты в следующих примерах и пересчитать статистику из Задачи 2:
- Уехал 8-9 ноября в Сочи
- Уезжаю 5 числа                           
- 20го сентября заболел

Пример можно посмотреть тут: https://github.com/natasha/yargy

In [None]:
! pip install yargy



In [None]:
from yargy import Parser, rule, and_, or_
from yargy.interpretation import fact
from yargy.predicates import (
    lte,
    gte,
    caseless,
    dictionary
)

Date = fact(
    'Date',
    ['year', 'month', 'day']
)

MONTHS = {
    'январь',
    'февраль',
    'март',
    'апрель',
    'май',
    'июнь',
    'июль',
    'август',
    'сентябрь',
    'октябрь',
    'ноябрь',
    'декабрь'
}

MONTH_NAME = dictionary(MONTHS)
DAY = and_(
    gte(1),
    lte(31)
)
DATE = or_(
    rule(
        DAY.interpretation(
            Date.day
            ),
        'го',
        MONTH_NAME.interpretation(
            Date.month
        )
    ),
    rule(
        DAY.interpretation(
            Date.day
            ),
         caseless('числа')
    ),
    rule(
        DAY.interpretation(
            Date.day
            ),
        '-',
        DAY.interpretation(
            Date.day
            ),
        MONTH_NAME.interpretation(
            Date.month
        )
    )
).named('DATE')
parser = Parser(DATE)

In [None]:
import yargy
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    DatesExtractor,
    MoneyExtractor,
    AddrExtractor,

    Doc
)

segmenter = Segmenter()

morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

In [None]:
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

In [None]:
extractors = [
              dates_extractor,
              money_extractor,
              addr_extractor,
]

def preprocess_with_natasha(text: str) -> str:

    doc = Doc(text)

    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    doc.parse_syntax(syntax_parser)
    doc.tag_ner(ner_tagger)

    id = []
    for match in parser.findall(text):
        id.append((match.span.start, match.span.stop))
    for pair in sorted(id)[::-1]:
        text = text[:pair[0]] + text[pair[1]:]

    indices = []
    for span in doc.spans:
        if span.type == "PER":
            indices.append((span.start, span.stop))
    for pair in sorted(indices)[::-1]:
        text = text[:pair[0]] + text[pair[1]:]

    for extractor in extractors:
        idx = []
        for match in list(extractor(text)):
            idx.append((match.start, match.stop))
        for pair in sorted(idx)[::-1]:
            text = text[:pair[0]] + text[pair[1]:]
    
    return text

In [None]:
data_train['Natasha_New'] = data_train['Вопросы'].progress_apply(lambda text: ' '.join(preprocess(preprocess_with_natasha(str(text)))))

HBox(children=(FloatProgress(value=0.0, max=2150.0), HTML(value='')))




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
data_test['Natasha_New'] = data_test['Вопросы'].progress_apply(lambda text: ' '.join(preprocess(preprocess_with_natasha(str(text)))))

HBox(children=(FloatProgress(value=0.0, max=930.0), HTML(value='')))




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
tfidf_nn, vec_nn = make_tfidf(data_train.Natasha_New)
data_test['TfIdf_Natasha_New_Pred'] = data_test.apply(lambda x: get_similar(x.Natasha_New, vec_nn, tfidf_nn, data_train), axis=1)

In [None]:
data_train.Natasha_New.fillna('', inplace=True)

corpus_nn = data_train.Natasha_New

count_vectorizer_nn = CountVectorizer()
tf_nn = count_vectorizer_nn.fit_transform(corpus_nn).toarray()

N_nn = len(tf_nn)
lens_nn = 0
ld_nn = []
for text in corpus_nn:
    l = len(text.split())
    lens_nn += l
    ld_nn.append(l)
avgdl_nn = lens_nn / N_nn
ld_nn = np.array(ld_nn)

n_qi_nn = [len(word.nonzero()[0]) for word in tf_nn.T]
idf_nn = [log((N_nn - n_qi_nn[i] + 0.5)/(n_qi_nn[i] + 0.5)) for i in range(len(n_qi_nn))]

In [None]:
bm_nn = get_bm(N_nn, tf_nn, avgdl_nn, ld_nn)

In [None]:
bm_nn.shape

(2150, 5080)

In [None]:
data_test['BM25_Natasha_New_Pred'] = data_test.apply(lambda x: get_similar_bm(x.Natasha_New, count_vectorizer_nn, data_train, bm_nn, idf_nn), axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
data_test.sample(10)

Unnamed: 0,Номер связки,Вопросы,Preprocessed,Natasha,DeepPavlov,TfIdf_Pred,TfIdf_Natasha_Pred,TfIdf_DP_Pred,BM25_Pred,BM25_Natasha_Pred,BM25_DP_Pred,Natasha_New,TfIdf_Natasha_New_Pred,BM25_Natasha_New_Pred
2998,308.0,"Доброе утро, я со своей женой 1 сентября приле...",добрый утро свой жена сентябрь прилететь грани...,добрый утро свой жена прилететь граница турция...,добрый утро свой жена сентябрь прилететь грани...,12.0,12.0,12.0,12.0,12.0,12.0,добрый утро свой жена прилететь граница турция...,12.0,12.0
2946,286.0,Добрый день. Меня интересует такой вопрос. В н...,добрый день интересовать вопрос настоящий моме...,добрый день интересовать вопрос настоящий моме...,добрый день интересовать вопрос настоящий моме...,5.0,5.0,5.0,1.0,5.0,1.0,добрый день интересовать вопрос настоящий моме...,5.0,5.0
2535,308.0,"Добрый день! Проконсультируйте пожалуйста, как...",добрый день проконсультировать пожалуйста дейс...,добрый день проконсультировать пожалуйста дейс...,добрый день проконсультировать пожалуйста дейс...,308.0,308.0,308.0,308.0,308.0,308.0,добрый день проконсультировать пожалуйста дейс...,308.0,308.0
2702,308.0,"--Добрый вечер! Скажите пожалуйста, нужно ли с...",добрый вечер сказать пожалуйста нужно сдавать ...,добрый вечер сказать пожалуйста нужно сдавать ...,добрый вечер сказать пожалуйста нужно сдавать ...,308.0,308.0,308.0,308.0,308.0,308.0,добрый вечер сказать пожалуйста нужно сдавать ...,308.0,308.0
2937,257.0,"Добрый день! \nСкажите, пожалуйста, как получи...",добрый день сказать пожалуйста получить уведом...,добрый день сказать пожалуйста получить уведом...,добрый день сказать пожалуйста получить уведом...,6.0,6.0,6.0,1.0,1.0,1.0,добрый день сказать пожалуйста получить уведом...,6.0,1.0
2927,308.0,"Добрый день.\n\nПодскажите пожалуйста, при воз...",добрый день подсказать пожалуйста возвращение ...,добрый день подсказать пожалуйста возвращение ...,добрый день подсказать пожалуйста возвращение ...,173.0,173.0,173.0,308.0,308.0,173.0,добрый день подсказать пожалуйста возвращение ...,173.0,308.0
3031,308.0,"Добрый день, подскажите пожалуйста. Если иност...",добрый день подсказать пожалуйста иностранный ...,добрый день подсказать пожалуйста иностранный ...,добрый день подсказать пожалуйста иностранный ...,308.0,308.0,308.0,308.0,308.0,308.0,добрый день подсказать пожалуйста иностранный ...,308.0,308.0
2802,308.0,Здравствуйте! В воскресенье прилетаю из Турции...,здравствовать воскресение прилетать турция сда...,здравствовать воскресение прилетать турция сда...,здравствовать воскресение прилетать сдавать ма...,308.0,135.0,135.0,308.0,308.0,135.0,здравствовать воскресение прилетать турция сда...,135.0,308.0
2759,6.0,Здравствуйте! 27 августа у трёх членов нашей с...,здравствовать август член наш семья взять тест...,здравствовать член наш семья взять тест корона...,здравствовать август член наш семья взять тест...,6.0,6.0,6.0,6.0,6.0,6.0,здравствовать член наш семья взять тест корона...,6.0,6.0
2803,308.0,"Добрый вечер, 31.08. с детьми вернулись из Абх...",добрый вечер ребёнок вернуться абхазия ребёнок...,добрый вечер ребёнок вернуться абхазия ребёнок...,добрый вечер ребёнок вернуться ребёнок учиться...,94.0,10.0,10.0,94.0,57.0,57.0,добрый вечер ребёнок вернуться абхазия ребёнок...,10.0,57.0


Accuracy для Tf-Idf после удаления NER с помощью Natasha с новыми правилами

In [None]:
acc.loc[len(acc)] = ['tfidf_yargy_pred', len(data_test[data_test['Номер связки'] == data_test.TfIdf_Natasha_New_Pred]) / len(data_test)]

Accuracy для BM25 после удаления NER с помощью Natasha с новыми правилами

In [None]:
acc.loc[len(acc)] = ['bm25_yargy_pred', len(data_test[data_test['Номер связки'] == data_test.BM25_Natasha_New_Pred]) / len(data_test)]

In [None]:
acc

Unnamed: 0,method,accuracy
0,tfidf_pred,0.497849
1,tfidf_natasha_pred,0.490323
2,tfidf_dp_pred,0.474194
3,bm25_pred,0.54086
4,bm25_natasha_pred,0.536559
5,bm25_dp_pred,0.529032
6,tfidf_yargy_pred,0.491398
7,bm25_yargy_pred,0.536559


Показатели немного улучшились в случае с tfidf (по сравнению с обычной Наташей), но остались прежними в случае с bm25

In [None]:
len(data_test[data_test.BM25_Natasha_Pred != data_test.BM25_Natasha_New_Pred])

4

In [None]:
len(data_test[data_test.TfIdf_Natasha_Pred != data_test.TfIdf_Natasha_New_Pred])

3