# Лингвистическая предобработка

In [18]:
import pandas as pd
import numpy as np

import nltk
from nltk.stem import SnowballStemmer
from nltk.corpus import stopwords
import pymorphy2

## 1. Выгружаем заранее подготовленные базы данных:

In [3]:
clean_df = pd.read_csv("reviews_data_base_clean.csv")
clean_df_company = pd.read_csv("rgs_reviews_data_base_clean.csv")

In [6]:
clean_df = clean_df.drop('Unnamed: 0', 1)
clean_df_company = clean_df_company.drop('Unnamed: 0', 1)

## 2. Выполним процедуру токенизации
*Токенизация* - выделение слов и знаков пунктуации – токенов

In [8]:
clean_df["tokens"] = clean_df["full_review"].apply(nltk.word_tokenize)
clean_df_company["tokens"] = clean_df_company["full_review"].apply(nltk.word_tokenize)

## 3. Проведем процедуру удаления стоп-слов

In [11]:
stops = set(stopwords.words("russian"))                  

def remove_stop(row):
    my_list = row['tokens']
    meaningful_words = [w for w in my_list if not w in stops]
    return (meaningful_words)

In [14]:
clean_df['tokens_meaningful'] = clean_df.apply(remove_stop, axis=1)
clean_df_company['tokens_meaningful'] = clean_df_company.apply(remove_stop, axis=1)

In [15]:
clean_df

Unnamed: 0,company,city,product,header,review,mark,date,link,full_review,class,tokens,tokens_meaningful
0,renessans-strahovanie,Санкт-Петербург,Каско,По каско отлично работают,В январе 2020 произошла не очень приятная ситу...,5.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/re...,по каско отлично работают в январе произо...,1.0,"[по, каско, отлично, работают, в, январе, прои...","[каско, отлично, работают, январе, произошла, ..."
1,alfastrahovanie-jizn,Калининград,Инвестиционное страхование,3 года назад оформила договор страхования жизн...,Срок действия договора закончился и начались п...,1.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/al...,года назад оформила договор страхования жизн...,-1.0,"[года, назад, оформила, договор, страхования, ...","[года, назад, оформила, договор, страхования, ..."
2,astro-volga,Смоленск,ОСАГО,Покупка ОСАГО,Благодарю сотрудников Астро-Волга за оперативн...,5.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/as...,покупка осаго благодарю сотрудников астро волг...,1.0,"[покупка, осаго, благодарю, сотрудников, астро...","[покупка, осаго, благодарю, сотрудников, астро..."
3,absolute-insurance,Краснодар,Страхование жизни,Профессионализм,Много лет являюсь клиентом данной страховой ко...,5.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/ab...,профессионализм много лет являюсь клиентом да...,1.0,"[профессионализм, много, лет, являюсь, клиенто...","[профессионализм, лет, являюсь, клиентом, данн..."
4,yugoriya,Самара,ОСАГО,Очень приятное обслуживание,Хотелось бы выразить благодарность специалисту...,5.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/yu...,очень приятное обслуживание хотелось бы выраз...,1.0,"[очень, приятное, обслуживание, хотелось, бы, ...","[очень, приятное, обслуживание, хотелось, выра..."
5,ingosstrah-jizn,Москва,Страхование жизни,выплата страховки,Год спустя получил страховочную выплату так ка...,4.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/in...,выплата страховки год спустя получил страховоч...,1.0,"[выплата, страховки, год, спустя, получил, стр...","[выплата, страховки, год, спустя, получил, стр..."
6,renessans-zhizn,Москва,Инвестиционное страхование,Мне подходит по всем параметрам,Вместо банковского депозита в этот раз отложил...,5.0,10-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/re...,мне подходит по всем параметрам вместо банковс...,1.0,"[мне, подходит, по, всем, параметрам, вместо, ...","[подходит, всем, параметрам, вместо, банковско..."
7,astro-volga,Тольятти,ОСАГО,Отличное обслуживание,Здравствуйте!Много лет являемся клиентами данн...,5.0,10-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/as...,отличное обслуживание здравствуйте много лет я...,1.0,"[отличное, обслуживание, здравствуйте, много, ...","[отличное, обслуживание, здравствуйте, лет, яв..."
8,yugoriya,Челябинск,ОСАГО,Отличная страховая компания!,"Очень давно являюсь клиентом ЮГОРИИ, в начале ...",5.0,10-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/yu...,отличная страховая компания очень давно явля...,1.0,"[отличная, страховая, компания, очень, давно, ...","[отличная, страховая, компания, очень, давно, ..."
9,sberbank-strah-zhizn,Санкт-Петербург,Другое,"СБЕРБАНК - последний банк, куда рекомендую обр...",27 октября 2020 года у меня закончился срок до...,2.0,10-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/sb...,сбербанк последний банк куда рекомендую обр...,-1.0,"[сбербанк, последний, банк, куда, рекомендую, ...","[сбербанк, последний, банк, рекомендую, обрати..."


## 4. Проведем стемминг
Стемминг – процесс выделения основы у слов для приведения к единой форме

In [16]:
snowball = SnowballStemmer(language="russian")

def stem_list(row):
    my_list = row['tokens_meaningful']
    stemmed_list = [snowball.stem(word) for word in my_list]
    return (stemmed_list)

In [17]:
clean_df['stemmed_words'] = clean_df.apply(stem_list, axis=1)
clean_df_company['stemmed_words'] = clean_df.apply(stem_list, axis=1)

## 5. Проведем лемматизацию
Лемматизация - процесс приведения словоформы к лемме (начальной форме слова)

In [19]:
morph = pymorphy2.MorphAnalyzer()

def lemma_list(row):
    my_list = row['tokens_meaningful']
    lemma_list = [morph.parse(word)[0].normal_form for word in my_list]
    return (lemma_list)

In [20]:
clean_df['lemmas'] = clean_df.apply(lemma_list, axis=1)
clean_df_company['lemmas'] = clean_df_company.apply(lemma_list, axis=1)

In [21]:
clean_df.head()

Unnamed: 0,company,city,product,header,review,mark,date,link,full_review,class,tokens,tokens_meaningful,stemmed_words,lemmas
0,renessans-strahovanie,Санкт-Петербург,Каско,По каско отлично работают,В январе 2020 произошла не очень приятная ситу...,5.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/re...,по каско отлично работают в январе произо...,1.0,"[по, каско, отлично, работают, в, январе, прои...","[каско, отлично, работают, январе, произошла, ...","[каск, отличн, работа, январ, произошл, очен, ...","[каско, отлично, работать, январь, произойти, ..."
1,alfastrahovanie-jizn,Калининград,Инвестиционное страхование,3 года назад оформила договор страхования жизн...,Срок действия договора закончился и начались п...,1.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/al...,года назад оформила договор страхования жизн...,-1.0,"[года, назад, оформила, договор, страхования, ...","[года, назад, оформила, договор, страхования, ...","[год, назад, оформ, договор, страхован, жизн, ...","[год, назад, оформить, договор, страхование, ж..."
2,astro-volga,Смоленск,ОСАГО,Покупка ОСАГО,Благодарю сотрудников Астро-Волга за оперативн...,5.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/as...,покупка осаго благодарю сотрудников астро волг...,1.0,"[покупка, осаго, благодарю, сотрудников, астро...","[покупка, осаго, благодарю, сотрудников, астро...","[покупк, осаг, благодар, сотрудник, астр, волг...","[покупка, осаго, благодарить, сотрудник, астро..."
3,absolute-insurance,Краснодар,Страхование жизни,Профессионализм,Много лет являюсь клиентом данной страховой ко...,5.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/ab...,профессионализм много лет являюсь клиентом да...,1.0,"[профессионализм, много, лет, являюсь, клиенто...","[профессионализм, лет, являюсь, клиентом, данн...","[профессионализм, лет, явля, клиент, дан, стра...","[профессионализм, год, являться, клиент, дать,..."
4,yugoriya,Самара,ОСАГО,Очень приятное обслуживание,Хотелось бы выразить благодарность специалисту...,5.0,11-Dec-2020,https://www.sravni.ru/strakhovaja-kompanija/yu...,очень приятное обслуживание хотелось бы выраз...,1.0,"[очень, приятное, обслуживание, хотелось, бы, ...","[очень, приятное, обслуживание, хотелось, выра...","[очен, приятн, обслуживан, хотел, выраз, благо...","[очень, приятный, обслуживание, хотеться, выра..."


## 6. Статистика по словам в документах (отзывах)

База по рынку:

In [22]:
all_words = [word for tokens in clean_df["tokens"] for word in tokens]
sentence_lengths = [len(tokens) for tokens in clean_df["tokens"]]
VOCAB = sorted(list(set(all_words)))

In [32]:
print("Общее количество слов во всех документах базы данных – %s слов, \nРазмер словаря составляет %s слов" % (len(all_words), len(VOCAB)))
print("Максимальное количество слов в отзыве: %s слов" % max(sentence_lengths))
print("Среднее количество слов в отзыве: %s слов" % round(np.mean(sentence_lengths)))

Общее количество слов во всех документах базы данных – 603729 слов, 
Размер словаря составляет 34630 слов
Максимальное количество слов в отзыве: 96 слов
Среднее количество слов в отзыве: 50 слов


База по компании:

In [23]:
all_words_company = [word for tokens in clean_df_company["tokens"] for word in tokens]
sentence_lengths_company = [len(tokens) for tokens in clean_df_company["tokens"]]
VOCAB_company = sorted(list(set(all_words_company)))

In [33]:
print("Общее количество слов во всех документах базы данных – %s слов, \nРазмер словаря составляет %s слов" % (len(all_words_company), len(VOCAB_company)))
print("Максимальное количество слов в отзыве: %s слов" % max(sentence_lengths_company))
print("Среднее количество слов в отзыве: %s слов" % round(np.mean(sentence_lengths_company)))

Общее количество слов во всех документах базы данных – 83607 слов, 
Размер словаря составляет 12559 слов
Максимальное количество слов в отзыве: 92 слов
Среднее количество слов в отзыве: 57 слов


Ожидаемо, что общее количество слов во всех документах меньше у компании, чем по рынку. Среднее и максимальное количество слов находятся примерно на одном урове. Из этого показателя мы не можем сделать каких-либо выводов.

Сохраним в новые документы лингвистически предобработанные данные:

In [34]:
clean_df.to_csv("reviews_data_base_clean_l.csv")
clean_df_company.to_csv("rgs_reviews_data_base_clean_l.csv")