# Загрузка данных

In [1]:
import pandas as pd

In [2]:
import sqlite3
conn = sqlite3.connect('data/review.db')
c = conn.cursor()


df1 = pd.read_sql("SELECT * from Review", conn)
df1.head()

Unnamed: 0,review,target
0,В который раз пришлось обратиться за консульта...,0
1,Обратилась в банк с целью получения кредита(са...,0
2,Работники дополнительного офиса Россельхозбанк...,0
3,Около недели назад консультировался по кредитн...,0
4,27.07.2020 обратился в отделение РСХБ в г. Мыт...,0


In [3]:
from sklearn.utils import shuffle
df1 = shuffle(df1) 

In [4]:
df1.head()

Unnamed: 0,review,target
788,Добрый день!При при подаче заявки на ипотеку в...,1
1869,"Я, открыл в данном банке АО «Россельхозбанк» в...",2
1782,В течение нескольких дней не могу войти в личн...,2
2090,Спасибо за обслуживание. Пришлось снимать нали...,2
73,"Имею КРЕДИТНУЮ карту РСХБ по ТП ""Хозяин"".Сегод...",0


# Подготовка данных

## Лемматизация

In [5]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

def lemmatize(text):
    words = text.split() # разбиваем текст на слова
    res = list()
    for word in words:
        p = morph.parse(word)[0]
        res.append(p.normal_form)

    return res

In [6]:
df1['review'][0]

'В который раз пришлось обратиться за консультацией в контактный центр банка Россельхозбанк, ввиду того, что личный кабинет заемщика не отображает полной информации о начисленных процентах и запланированной даты списания. И снова полное фиаско. Абсолютно безграмотный и не клиентоориентированный подход. Не могут грамотно ответить ни на один вопрос, всё отлучаются на 2 минуты, наверное шпаргалки читать-что ответить клиенту на заданный вопрос. На мой вопрос почему банк не предоставляет сведений о размере и дате списания начисленных % по кредитной карте, специалист контактного центра меня уверял, что мне нужно найти в ЛК вкладку "график платежей".... О чем говорить дальше... Был случай по этой же кредитной карте, когда я вернула всю сумму лимита в установленный банком и условиями договора льготный период, и даже на карте были собственные средства сверх лимита, всё равно, спустя 10-11 дней, банк мне выставил задолженность по карте и списал %. Обращалась в центральный офис банка в городе Орл

In [7]:
print(lemmatize(df1['review'][0]))

['в', 'который', 'раз', 'прийтись', 'обратиться', 'за', 'консультация', 'в', 'контактный', 'центр', 'банк', 'россельхозбанк,', 'ввиду', 'того,', 'что', 'личный', 'кабинет', 'заёмщик', 'не', 'отображать', 'полный', 'информация', 'о', 'начислить', 'процент', 'и', 'запланировать', 'дата', 'списания.', 'и', 'снова', 'полный', 'фиаско.', 'абсолютно', 'безграмотный', 'и', 'не', 'клиентоориентировать', 'подход.', 'не', 'мочь', 'грамотно', 'ответить', 'ни', 'на', 'один', 'вопрос,', 'всё', 'отлучаться', 'на', '2', 'минуты,', 'наверное', 'шпаргалка', 'читать-что', 'ответить', 'клиент', 'на', 'задать', 'вопрос.', 'на', 'мыть', 'вопрос', 'почему', 'банк', 'не', 'предоставлять', 'сведение', 'о', 'размер', 'и', 'дата', 'списание', 'начислить', '%', 'по', 'кредитный', 'карте,', 'специалист', 'контактный', 'центр', 'я', 'уверял,', 'что', 'я', 'нужно', 'найти', 'в', 'лк', 'вкладка', '"график', 'платежей"....', 'о', 'чем', 'говорить', 'дальше...', 'быть', 'случай', 'по', 'этот', 'же', 'кредитный', 'карт

In [8]:
def lemmatize_df(df):
    for i in range(df.shape[0]):
        df['review'][i] = lemmatize(df['review'][i])
    return df

In [9]:
df2 = lemmatize_df(df1)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


In [10]:
df2.head(3)

Unnamed: 0,review,target
788,"[добрый, день!переть, при, подача, заявка, на,...",1
1869,"[я,, открыть, в, данный, банк, ао, «россельхоз...",2
1782,"[в, течение, несколько, день, не, мочь, войти,...",2


In [11]:
df2['review'][0]

['в',
 'который',
 'раз',
 'прийтись',
 'обратиться',
 'за',
 'консультация',
 'в',
 'контактный',
 'центр',
 'банк',
 'россельхозбанк,',
 'ввиду',
 'того,',
 'что',
 'личный',
 'кабинет',
 'заёмщик',
 'не',
 'отображать',
 'полный',
 'информация',
 'о',
 'начислить',
 'процент',
 'и',
 'запланировать',
 'дата',
 'списания.',
 'и',
 'снова',
 'полный',
 'фиаско.',
 'абсолютно',
 'безграмотный',
 'и',
 'не',
 'клиентоориентировать',
 'подход.',
 'не',
 'мочь',
 'грамотно',
 'ответить',
 'ни',
 'на',
 'один',
 'вопрос,',
 'всё',
 'отлучаться',
 'на',
 '2',
 'минуты,',
 'наверное',
 'шпаргалка',
 'читать-что',
 'ответить',
 'клиент',
 'на',
 'задать',
 'вопрос.',
 'на',
 'мыть',
 'вопрос',
 'почему',
 'банк',
 'не',
 'предоставлять',
 'сведение',
 'о',
 'размер',
 'и',
 'дата',
 'списание',
 'начислить',
 '%',
 'по',
 'кредитный',
 'карте,',
 'специалист',
 'контактный',
 'центр',
 'я',
 'уверял,',
 'что',
 'я',
 'нужно',
 'найти',
 'в',
 'лк',
 'вкладка',
 '"график',
 'платежей"....',
 '

## Токенизация