<a href="https://colab.research.google.com/github/Rus-Senator/education/blob/master/nlp_simple_vectorization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Пример использования простых методов векторизации на Python

Векторизуем тексты отзывов на банки с сайта banki.ru.


In [None]:
!pip install pymorphy3



In [None]:
import pandas as pd
import numpy as np
import pymorphy3
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [None]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

## Загружаем и готовим набор данных

In [None]:
!wget https://www.dropbox.com/s/a9r0b2yj3vqvi13/banks.csv?dl=1 -O banks.csv

--2023-10-21 06:46:07--  https://www.dropbox.com/s/a9r0b2yj3vqvi13/banks.csv?dl=1
Resolving www.dropbox.com (www.dropbox.com)... 162.125.1.18, 2620:100:6016:18::a27d:112
Connecting to www.dropbox.com (www.dropbox.com)|162.125.1.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: /s/dl/a9r0b2yj3vqvi13/banks.csv [following]
--2023-10-21 06:46:07--  https://www.dropbox.com/s/dl/a9r0b2yj3vqvi13/banks.csv
Reusing existing connection to www.dropbox.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://uc320c7b62d5af496096e2912053.dl.dropboxusercontent.com/cd/0/get/CGCpMcehtcA7cNEP2rCA7mJh62G25pfZoKAo__1DUEz0XLTge1iBNF-HNyB_92IlD1okaO_AQlgNsG0A1Qymem_KaBsA-iFtGALn0wcaXKKk7rpBGtvE3QMNBanK5G3Vb5anx3Hy9VCNqhqEfH67-nRy/file?dl=1# [following]
--2023-10-21 06:46:07--  https://uc320c7b62d5af496096e2912053.dl.dropboxusercontent.com/cd/0/get/CGCpMcehtcA7cNEP2rCA7mJh62G25pfZoKAo__1DUEz0XLTge1iBNF-HNyB_92IlD1okaO_AQlgNsG0A1Qymem_KaBsA-iFtGALn0wcaXKKk7

In [None]:
banks = pd.read_csv('banks.csv', sep='\t', index_col='idx');

In [None]:
def preprocess(text, stop_words, punctuation_marks, morph):
    tokens = word_tokenize(text.lower())
    preprocessed_text = []
    for token in tokens:
        if token not in punctuation_marks:
            lemma = morph.parse(token)[0].normal_form
            if lemma not in stop_words:
                preprocessed_text.append(lemma)
    return preprocessed_text

In [None]:
punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...', '«', '»', ';', '–', '--']
stop_words = stopwords.words("russian")
morph = pymorphy3.MorphAnalyzer()

In [None]:
banks['Preprocessed_texts'] = banks.apply(lambda row: preprocess(row['Text'], punctuation_marks, stop_words, morph), axis=1)

In [None]:
banks

Unnamed: 0_level_0,Score,Text,Preprocessed_texts
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Positive,В Альфа-Банке работает замечательная девушка -...,"[альфа-банк, работать, замечательный, девушка,..."
1,Negative,Оформляя рассрочку в м. Видео в меге тёплый ст...,"[оформлять, рассрочка, м., видео, мег, тёплый,..."
2,Positive,Очень порадовала оперативность работы в банке....,"[очень, порадовать, оперативность, работа, бан..."
3,Negative,Имела неосторожность оформить потреб. кредит в...,"[иметь, неосторожность, оформить, потреба, кре..."
4,Negative,Небольшая предыстория: Нашел на сайте MDM банк...,"[небольшой, предыстория, найти, сайт, mdm, бан..."
...,...,...,...
13994,Positive,"О высокой надёжности МКБ, порядочности и добро...","[высокий, надёжность, мкб, порядочность, добро..."
13995,Positive,"Обслуживаюсь в офисе на Чернореченской 42а, ка...","[обслуживаться, офис, чернореченский, 42а, физ..."
13996,Positive,Попала сегодня в очень неприятную ситуацию. Ре...,"[попасть, сегодня, очень, неприятный, ситуация..."
13997,Positive,Добрый день! Давно являюсь клиентом банка Русс...,"[добрый, день, давно, являться, клиент, банк, ..."


## Определяем частоту слов

In [None]:
from collections import Counter

Тестируем работу Counter

In [None]:
test_counter = Counter(banks['Preprocessed_texts'][0])

In [None]:
test_counter

Counter({'альфа-банк': 2,
         'работать': 1,
         'замечательный': 2,
         'девушка': 2,
         'ильясова': 2,
         'орный': 2,
         'вежливый': 1,
         'отзывчивый': 1,
         'действительно': 1,
         'участвовать': 1,
         'запрос': 1,
         'клиент': 1,
         'приходить': 1,
         'подряд': 1,
         'ровно': 1,
         'день': 3,
         'каждый': 1,
         'помнить': 1,
         'время': 1,
         'мой': 1,
         'приход': 1,
         'помочь': 2,
         'оформить': 1,
         'кредит': 2,
         'размер': 1,
         '1млн': 1,
         'рубль': 1,
         'прийти': 1,
         'партнёр': 1,
         'передавать': 1,
         'получить': 1,
         'покупать': 1,
         'я': 1,
         'авто': 1,
         'специалист': 2,
         'мы': 1,
         'вывести': 1,
         'сумма': 1,
         'это': 2,
         'непросто': 1,
         'сделка': 1,
         'состояться': 1,
         'остаться': 1,
         'довольны

In [None]:
test_counter.most_common(10)

[('день', 3),
 ('альфа-банк', 2),
 ('замечательный', 2),
 ('девушка', 2),
 ('ильясова', 2),
 ('орный', 2),
 ('помочь', 2),
 ('кредит', 2),
 ('специалист', 2),
 ('это', 2)]

Считаем частоту слов во всех отзывах

In [None]:
words = Counter()

In [None]:
for txt in banks['Preprocessed_texts']:
    words.update(txt)

Количество слов в отзывах

In [None]:
len(words)

90842

Самые популярные слова

In [None]:
words.most_common(10)

[('банк', 58189),
 ('карта', 30560),
 ('это', 18561),
 ('день', 15729),
 ('мой', 15645),
 ('сотрудник', 14527),
 ('который', 14519),
 ('кредит', 14490),
 ('деньга', 13701),
 ('счёт', 13681)]

## Создаем словарь, упорядоченный по частоте

В словаре будем использовать 2 специальных кода:
- Код заполнитель: 0
- Неизвестное слово: 1

Нумерация слов в словаре начинается с 2.

In [None]:
# Словарь, отображающий слова в коды
word_to_index = dict()
# Словарь, отображающий коды в слова
index_to_word = dict()

Максимальное количество обрабатываемых слов

In [None]:
max_words = 10000

Создаем словари

In [None]:
for i, word in enumerate(words.most_common(max_words - 2)):
    word_to_index[word[0]] = i + 2
    index_to_word[i + 2] = word[0]

In [None]:
word_to_index

{'банк': 2,
 'карта': 3,
 'это': 4,
 'день': 5,
 'мой': 6,
 'сотрудник': 7,
 'который': 8,
 'кредит': 9,
 'деньга': 10,
 'счёт': 11,
 'отделение': 12,
 'клиент': 13,
 'год': 14,
 'сказать': 15,
 'вопрос': 16,
 'свой': 17,
 'очень': 18,
 'время': 19,
 'сумма': 20,
 'кредитный': 21,
 'мочь': 22,
 'получить': 23,
 'офис': 24,
 'такой': 25,
 'проблема': 26,
 'заявление': 27,
 'договор': 28,
 'работа': 29,
 'платёж': 30,
 'банкомат': 31,
 'телефон': 32,
 'позвонить': 33,
 'месяц': 34,
 'документ': 35,
 'дать': 36,
 'ответ': 37,
 'решить': 38,
 'хотеть': 39,
 'обслуживание': 40,
 'звонить': 41,
 'ваш': 42,
 'работать': 43,
 'услуга': 44,
 'претензия': 45,
 'прийти': 46,
 'вклад': 47,
 'другой': 48,
 'звонок': 49,
 'номер': 50,
 'написать': 51,
 'один': 52,
 'ситуация': 53,
 'рубль': 54,
 'человек': 55,
 'минута': 56,
 'сделать': 57,
 'просто': 58,
 'говорить': 59,
 'средство': 60,
 'быть': 61,
 'альфа-банк': 62,
 'заявка': 63,
 'весь': 64,
 'срок': 65,
 'очередь': 66,
 '2': 67,
 'первый': 68

In [None]:
index_to_word

{2: 'банк',
 3: 'карта',
 4: 'это',
 5: 'день',
 6: 'мой',
 7: 'сотрудник',
 8: 'который',
 9: 'кредит',
 10: 'деньга',
 11: 'счёт',
 12: 'отделение',
 13: 'клиент',
 14: 'год',
 15: 'сказать',
 16: 'вопрос',
 17: 'свой',
 18: 'очень',
 19: 'время',
 20: 'сумма',
 21: 'кредитный',
 22: 'мочь',
 23: 'получить',
 24: 'офис',
 25: 'такой',
 26: 'проблема',
 27: 'заявление',
 28: 'договор',
 29: 'работа',
 30: 'платёж',
 31: 'банкомат',
 32: 'телефон',
 33: 'позвонить',
 34: 'месяц',
 35: 'документ',
 36: 'дать',
 37: 'ответ',
 38: 'решить',
 39: 'хотеть',
 40: 'обслуживание',
 41: 'звонить',
 42: 'ваш',
 43: 'работать',
 44: 'услуга',
 45: 'претензия',
 46: 'прийти',
 47: 'вклад',
 48: 'другой',
 49: 'звонок',
 50: 'номер',
 51: 'написать',
 52: 'один',
 53: 'ситуация',
 54: 'рубль',
 55: 'человек',
 56: 'минута',
 57: 'сделать',
 58: 'просто',
 59: 'говорить',
 60: 'средство',
 61: 'быть',
 62: 'альфа-банк',
 63: 'заявка',
 64: 'весь',
 65: 'срок',
 66: 'очередь',
 67: '2',
 68: 'первый'

## Преобразуем слова в коды

Функция для преобразования списка слов в список кодов

In [None]:
def text_to_sequence(txt, word_to_index):
    seq = []
    for word in txt:
        index = word_to_index.get(word, 1) # 1 означает неизвестное слово
        # Неизвестные слова не добавляем в выходную последовательность
        if index != 1:
            seq.append(index)
    return seq

In [None]:
txt = banks['Preprocessed_texts'][0]

In [None]:
txt

['альфа-банк',
 'работать',
 'замечательный',
 'девушка',
 'ильясова',
 'орный',
 'вежливый',
 'отзывчивый',
 'действительно',
 'участвовать',
 'запрос',
 'клиент',
 'приходить',
 'подряд',
 'ровно',
 'день',
 'каждый',
 'день',
 'помнить',
 'время',
 'мой',
 'приход',
 'помочь',
 'оформить',
 'кредит',
 'размер',
 '1млн',
 'рубль',
 'прийти',
 'партнёр',
 'передавать',
 'получить',
 'кредит',
 'покупать',
 'я',
 'авто',
 'специалист',
 'ильясова',
 'орный',
 'помочь',
 'мы',
 'вывести',
 'сумма',
 'день',
 'это',
 'непросто',
 'сделка',
 'состояться',
 'остаться',
 'довольный',
 'знакомый',
 'конец',
 'добавить',
 'понять',
 'почему',
 'прислать',
 'это',
 'отделение',
 'девушка',
 'большой',
 'такой',
 'замечательный',
 'специалист',
 'приобретать',
 'программа',
 'здоровье',
 'вообще',
 'связать',
 'альфа-банк',
 'быть']

In [None]:
seq = text_to_sequence(txt, word_to_index)

In [None]:
seq

[62,
 43,
 916,
 78,
 204,
 1867,
 357,
 2710,
 409,
 13,
 154,
 2380,
 1232,
 5,
 146,
 5,
 575,
 19,
 6,
 1952,
 161,
 72,
 9,
 298,
 54,
 46,
 1182,
 1841,
 23,
 9,
 953,
 90,
 1439,
 101,
 161,
 185,
 2240,
 20,
 5,
 4,
 6873,
 270,
 1771,
 218,
 299,
 490,
 213,
 1042,
 258,
 103,
 361,
 4,
 12,
 78,
 241,
 25,
 916,
 101,
 3278,
 292,
 1497,
 138,
 1420,
 62,
 61]

In [None]:
index_to_word[241]

'большой'

In [None]:
seq = [word_to_index.get(word, 1) for word in txt]

In [None]:
seq

[62,
 43,
 916,
 78,
 1,
 1,
 204,
 1867,
 357,
 2710,
 409,
 13,
 154,
 2380,
 1232,
 5,
 146,
 5,
 575,
 19,
 6,
 1952,
 161,
 72,
 9,
 298,
 1,
 54,
 46,
 1182,
 1841,
 23,
 9,
 953,
 90,
 1439,
 101,
 1,
 1,
 161,
 185,
 2240,
 20,
 5,
 4,
 6873,
 270,
 1771,
 218,
 299,
 490,
 213,
 1042,
 258,
 103,
 361,
 4,
 12,
 78,
 241,
 25,
 916,
 101,
 3278,
 292,
 1497,
 138,
 1420,
 62,
 61]

Преобразуем все тексты в последовательность кодов слов

In [None]:
banks['Sequences'] = banks.apply(lambda row: text_to_sequence(row['Preprocessed_texts'], word_to_index), axis=1)

In [None]:
banks

Unnamed: 0_level_0,Score,Text,Preprocessed_texts,Sequences
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Positive,В Альфа-Банке работает замечательная девушка -...,"[альфа-банк, работать, замечательный, девушка,...","[62, 43, 916, 78, 204, 1867, 357, 2710, 409, 1..."
1,Negative,Оформляя рассрочку в м. Видео в меге тёплый ст...,"[оформлять, рассрочка, м., видео, мег, тёплый,...","[267, 855, 1178, 3214, 3891, 2981, 7345, 171, ..."
2,Positive,Очень порадовала оперативность работы в банке....,"[очень, порадовать, оперативность, работа, бан...","[18, 1055, 910, 29, 2, 475, 183, 3, 628, 1768,..."
3,Negative,Имела неосторожность оформить потреб. кредит в...,"[иметь, неосторожность, оформить, потреба, кре...","[118, 4817, 72, 2368, 9, 62, 18, 2664, 1287, 3..."
4,Negative,Небольшая предыстория: Нашел на сайте MDM банк...,"[небольшой, предыстория, найти, сайт, mdm, бан...","[418, 3850, 275, 87, 2, 648, 3, 4893, 2, 296, ..."
...,...,...,...,...
13994,Positive,"О высокой надёжности МКБ, порядочности и добро...","[высокий, надёжность, мкб, порядочность, добро...","[401, 2321, 809, 5027, 8157, 7, 3098, 126, 441..."
13995,Positive,"Обслуживаюсь в офисе на Чернореченской 42а, ка...","[обслуживаться, офис, чернореченский, 42а, физ...","[362, 24, 9494, 2151, 201, 14, 24, 95, 141, 66..."
13996,Positive,Попала сегодня в очень неприятную ситуацию. Ре...,"[попасть, сегодня, очень, неприятный, ситуация...","[517, 109, 18, 992, 53, 38, 224, 233, 3, 46, 3..."
13997,Positive,Добрый день! Давно являюсь клиентом банка Русс...,"[добрый, день, давно, являться, клиент, банк, ...","[181, 5, 397, 86, 13, 2, 674, 691, 118, 343, 3..."


In [None]:
banks['Text'][2]

'Очень порадовала оперативность работы в банке. Заказал через интернет карту visa classic, потребовалось подойти в банк для подписания заявления. В тот же день мне открыли текущий счет с доступом через интернет по услуге Альфа-клик, а в течении недели я должен был получить карту. Наученный Сбербанком ожидать обещанное, я удивился, когда карта и правда пришла вовремя, при этом выдали мне ее минут за 5, что опять же очень порадовало. Да и операторы Воронежского отделения на пр-те Революции оказались очень добродушными, проконсультировали по всем ситуациям, о которых я уточнял.После этого я захотел подключить услугу Альфа-мобайл, для управления счетом через телефон, но забыл свой логин. Позвонив по горячей линии, девушка мне подсказала и логин, и подключила услугу (без обращения в банк), выслала в sms ссылку на приложение, то есть сервис был на должном уровне!В настоящий момент я являюсь клиентом Московского индустриального банка, ВТБ 24 и Сбербанка, сотрудничество с последними 2мя полнос

In [None]:
banks['Preprocessed_texts'][2]

['очень',
 'порадовать',
 'оперативность',
 'работа',
 'банк',
 'заказать',
 'интернет',
 'карта',
 'visa',
 'classic',
 'потребоваться',
 'подойти',
 'банк',
 'подписание',
 'заявление',
 'день',
 'открыть',
 'текущий',
 'счёт',
 'доступ',
 'интернет',
 'услуга',
 'альфа-клик',
 'течение',
 'неделя',
 'должный',
 'получить',
 'карта',
 'научить',
 'сбербанк',
 'ожидать',
 'обещать',
 'удивиться',
 'карта',
 'правда',
 'прийти',
 'вовремя',
 'выдать',
 'минута',
 '5',
 'очень',
 'порадовать',
 'оператор',
 'воронежский',
 'отделение',
 'пр-тот',
 'революция',
 'оказаться',
 'очень',
 'добродушный',
 'проконсультировать',
 'весь',
 'ситуация',
 'который',
 'уточнял.после',
 'захотеть',
 'подключить',
 'услуга',
 'альфа-мобайл',
 'управление',
 'счёт',
 'телефон',
 'забыть',
 'свой',
 'логин',
 'позвонить',
 'горячий',
 'линия',
 'девушка',
 'подсказать',
 'логин',
 'подключить',
 'услуга',
 'обращение',
 'банк',
 'выслать',
 'sms',
 'ссылка',
 'приложение',
 'сервис',
 'должный',
 'уров

In [None]:
banks['Sequences'][2]

[18,
 1055,
 910,
 29,
 2,
 475,
 183,
 3,
 628,
 1768,
 1215,
 416,
 2,
 861,
 27,
 5,
 120,
 415,
 11,
 792,
 183,
 44,
 894,
 107,
 104,
 73,
 23,
 3,
 2425,
 143,
 536,
 289,
 1315,
 3,
 385,
 46,
 693,
 136,
 56,
 119,
 18,
 1055,
 92,
 6451,
 12,
 4598,
 6651,
 145,
 18,
 6452,
 1479,
 64,
 53,
 8,
 1395,
 366,
 44,
 3363,
 1714,
 11,
 32,
 493,
 17,
 1519,
 33,
 164,
 132,
 78,
 1030,
 1519,
 366,
 44,
 117,
 2,
 1227,
 1163,
 1390,
 763,
 302,
 73,
 458,
 789,
 113,
 86,
 13,
 631,
 7346,
 2,
 1678,
 909,
 143,
 587,
 173,
 423,
 2195,
 4,
 48,
 169,
 443,
 191,
 620,
 4,
 3437,
 981,
 2935,
 12,
 2,
 126,
 2863,
 4598,
 6651,
 9830]

## Создаем мешок слов

In [None]:
def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        for index in sequence:
            results[i, index] += 1.
    return results

In [None]:
vectors = vectorize_sequences(banks['Sequences'], max_words)

In [None]:
vectors[0][:100]

array([0., 0., 0., 0., 2., 3., 1., 0., 0., 2., 0., 0., 1., 1., 0., 0., 0.,
       0., 0., 1., 1., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0., 0., 0.,
       0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 2., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 2., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
len(vectors[0])

10000