## Подсчет слов в корпусе текстов

<a target="_blank" href="https://colab.research.google.com/github/sozykin/middle_python/blob/main/02/02_word_count.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

In [1]:
import pandas as pd
import numpy as np
import pymorphy3
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import wget
from collections import Counter

In [2]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\sozyk\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\sozyk\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Загружаем набор данных

In [3]:
wget.download("https://www.dropbox.com/s/a9r0b2yj3vqvi13/banks.csv?dl=1", 
              "banks.csv")

'banks (1).csv'

In [4]:
banks = pd.read_csv('banks.csv', 
                    sep='\t', 
                    index_col='idx');

In [5]:
banks

Unnamed: 0_level_0,Score,Text
idx,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Positive,В Альфа-Банке работает замечательная девушка -...
1,Negative,Оформляя рассрочку в м. Видео в меге тёплый ст...
2,Positive,Очень порадовала оперативность работы в банке....
3,Negative,Имела неосторожность оформить потреб. кредит в...
4,Negative,Небольшая предыстория: Нашел на сайте MDM банк...
...,...,...
13994,Positive,"О высокой надёжности МКБ, порядочности и добро..."
13995,Positive,"Обслуживаюсь в офисе на Чернореченской 42а, ка..."
13996,Positive,Попала сегодня в очень неприятную ситуацию. Ре...
13997,Positive,Добрый день! Давно являюсь клиентом банка Русс...


## Предварительная обработка текста

In [6]:
def preprocess(text, stop_words, punctuation_marks, morph):
    tokens = word_tokenize(text.lower())
    preprocessed_text = []
    for token in tokens:
        if token not in punctuation_marks:
            lemma = morph.parse(token)[0].normal_form
            if lemma not in stop_words:
                preprocessed_text.append(lemma)
    return preprocessed_text

In [7]:
punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...', '«', '»', ';', '–', '--']
stop_words = stopwords.words("russian")
morph = pymorphy3.MorphAnalyzer()

In [8]:
banks['Preprocessed_texts'] = banks.apply(lambda row: preprocess(row['Text'], punctuation_marks, stop_words, morph), axis=1)

In [9]:
banks

Unnamed: 0_level_0,Score,Text,Preprocessed_texts
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Positive,В Альфа-Банке работает замечательная девушка -...,"[альфа-банк, работать, замечательный, девушка,..."
1,Negative,Оформляя рассрочку в м. Видео в меге тёплый ст...,"[оформлять, рассрочка, м., видео, мег, тёплый,..."
2,Positive,Очень порадовала оперативность работы в банке....,"[очень, порадовать, оперативность, работа, бан..."
3,Negative,Имела неосторожность оформить потреб. кредит в...,"[иметь, неосторожность, оформить, потреба, кре..."
4,Negative,Небольшая предыстория: Нашел на сайте MDM банк...,"[небольшой, предыстория, найти, сайт, mdm, бан..."
...,...,...,...
13994,Positive,"О высокой надёжности МКБ, порядочности и добро...","[высокий, надёжность, мкб, порядочность, добро..."
13995,Positive,"Обслуживаюсь в офисе на Чернореченской 42а, ка...","[обслуживаться, офис, чернореченский, 42а, физ..."
13996,Positive,Попала сегодня в очень неприятную ситуацию. Ре...,"[попасть, сегодня, очень, неприятный, ситуация..."
13997,Positive,Добрый день! Давно являюсь клиентом банка Русс...,"[добрый, день, давно, являться, клиент, банк, ..."


## Считаем частоту слов в текстах

In [10]:
words = Counter()

In [11]:
for txt in banks['Preprocessed_texts']:
    words.update(txt)

In [12]:
words

Counter({'банк': 58189,
         'карта': 30560,
         'это': 18561,
         'день': 15729,
         'мой': 15645,
         'сотрудник': 14527,
         'который': 14519,
         'кредит': 14490,
         'деньга': 13701,
         'счёт': 13681,
         'отделение': 13414,
         'клиент': 12681,
         'год': 10378,
         'сказать': 9990,
         'вопрос': 9638,
         'свой': 9610,
         'очень': 9226,
         'время': 8957,
         'сумма': 8931,
         'кредитный': 8834,
         'мочь': 7660,
         'получить': 7620,
         'офис': 7472,
         'такой': 7452,
         'проблема': 6765,
         'заявление': 6466,
         'договор': 6277,
         'работа': 6252,
         'платёж': 6144,
         'банкомат': 6110,
         'телефон': 6084,
         'позвонить': 5951,
         'месяц': 5947,
         'документ': 5890,
         'дать': 5873,
         'ответ': 5845,
         'решить': 5780,
         'хотеть': 5629,
         'обслуживание': 5615,
         

In [13]:
words.most_common(20)

[('банк', 58189),
 ('карта', 30560),
 ('это', 18561),
 ('день', 15729),
 ('мой', 15645),
 ('сотрудник', 14527),
 ('который', 14519),
 ('кредит', 14490),
 ('деньга', 13701),
 ('счёт', 13681),
 ('отделение', 13414),
 ('клиент', 12681),
 ('год', 10378),
 ('сказать', 9990),
 ('вопрос', 9638),
 ('свой', 9610),
 ('очень', 9226),
 ('время', 8957),
 ('сумма', 8931),
 ('кредитный', 8834)]

## Создаем словарь, основанный на частоте встречаемости слов

In [14]:
num_words = 10000

In [15]:
word_to_index = {word[0]:i for i, word in enumerate(words.most_common(num_words))}

In [16]:
word_to_index

{'банк': 0,
 'карта': 1,
 'это': 2,
 'день': 3,
 'мой': 4,
 'сотрудник': 5,
 'который': 6,
 'кредит': 7,
 'деньга': 8,
 'счёт': 9,
 'отделение': 10,
 'клиент': 11,
 'год': 12,
 'сказать': 13,
 'вопрос': 14,
 'свой': 15,
 'очень': 16,
 'время': 17,
 'сумма': 18,
 'кредитный': 19,
 'мочь': 20,
 'получить': 21,
 'офис': 22,
 'такой': 23,
 'проблема': 24,
 'заявление': 25,
 'договор': 26,
 'работа': 27,
 'платёж': 28,
 'банкомат': 29,
 'телефон': 30,
 'позвонить': 31,
 'месяц': 32,
 'документ': 33,
 'дать': 34,
 'ответ': 35,
 'решить': 36,
 'хотеть': 37,
 'обслуживание': 38,
 'звонить': 39,
 'ваш': 40,
 'работать': 41,
 'услуга': 42,
 'претензия': 43,
 'прийти': 44,
 'вклад': 45,
 'другой': 46,
 'звонок': 47,
 'номер': 48,
 'написать': 49,
 'один': 50,
 'ситуация': 51,
 'рубль': 52,
 'человек': 53,
 'минута': 54,
 'сделать': 55,
 'просто': 56,
 'говорить': 57,
 'средство': 58,
 'быть': 59,
 'альфа-банк': 60,
 'заявка': 61,
 'весь': 62,
 'срок': 63,
 'очередь': 64,
 '2': 65,
 'первый': 66,


In [17]:
index_to_word = {value:key for key, value in word_to_index.items()}

In [18]:
index_to_word

{0: 'банк',
 1: 'карта',
 2: 'это',
 3: 'день',
 4: 'мой',
 5: 'сотрудник',
 6: 'который',
 7: 'кредит',
 8: 'деньга',
 9: 'счёт',
 10: 'отделение',
 11: 'клиент',
 12: 'год',
 13: 'сказать',
 14: 'вопрос',
 15: 'свой',
 16: 'очень',
 17: 'время',
 18: 'сумма',
 19: 'кредитный',
 20: 'мочь',
 21: 'получить',
 22: 'офис',
 23: 'такой',
 24: 'проблема',
 25: 'заявление',
 26: 'договор',
 27: 'работа',
 28: 'платёж',
 29: 'банкомат',
 30: 'телефон',
 31: 'позвонить',
 32: 'месяц',
 33: 'документ',
 34: 'дать',
 35: 'ответ',
 36: 'решить',
 37: 'хотеть',
 38: 'обслуживание',
 39: 'звонить',
 40: 'ваш',
 41: 'работать',
 42: 'услуга',
 43: 'претензия',
 44: 'прийти',
 45: 'вклад',
 46: 'другой',
 47: 'звонок',
 48: 'номер',
 49: 'написать',
 50: 'один',
 51: 'ситуация',
 52: 'рубль',
 53: 'человек',
 54: 'минута',
 55: 'сделать',
 56: 'просто',
 57: 'говорить',
 58: 'средство',
 59: 'быть',
 60: 'альфа-банк',
 61: 'заявка',
 62: 'весь',
 63: 'срок',
 64: 'очередь',
 65: '2',
 66: 'первый',
