In [1]:
# определения

import pandas as pd
import numpy as np
import seaborn as sns
import re
import pickle
import pymorphy2
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, f1_score
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

morph = pymorphy2.MorphAnalyzer()
vectorizer = CountVectorizer()
plt.style.use('dark_background')
# Options for pandas
pd.set_option('display.float_format', lambda x: '%.3f' % x)
pd.options.display.max_columns = 50
pd.options.display.min_rows = 30

In [18]:
# здесь "на память" описываю операторы в одну - две строчки 

# PANDAS
# data.iloc[[0,3,100]] - показать строки по индексу 0,3,100
# data[data.Survived == 0 ] - отбор по значению
# data[data.Survived == 0 ][['Sex','Age']] - отбор  и показать только выбранные колонки
# data['new_col'] = data['Survived'] - в новую колонку добавить значение старой колонки
# data.rename(columns = {'new_col':'del_col'}) - переименовать колонку
# data = data.drop(['new_col'],axis = 'columns') - удалить колонку
# del data["column"] - еще один способ удалить колонку
# print(data.groupby(['Sex','Survived'])['PassengerId'].count()) - сгруппировать 
# по колонкам 'Sex','Survived' и подсчету по колонке PassengerId
# data.isna().sum() - показать сколько пустых значений в каждой колонке
# data.Survived.value_counts() - показать сколько уникальных значений в колонке  Survived
# data = data.dropna() - удалить все строки с пропусками
# data.Sex.replace('male', 0, inplace=True) - заменить значения в колонке Sex: mail - 0
# test_out = pd.DataFrame({'PassengerId': test_df.index,'Survived': preds})
# создать новый dataframe для выгрузки на кагл
# data = pd.read_excel("resolution_100.xlsx") - прочитать файл excel
# data.describe() - получаем описание фрэйма, макс, мин, количество и прочее  
# data.fillna(method='ffill', inplace=True) - заполнить все пустые предыдущими значениями
# data = pandas.get_dummies(data,columns=['columns']) - раскрытие строк через доп. столбцы
# data = pd.concat([data_train,data_test]) - объединение таблиц
# data = data.assign(type_age="") - добавить колонку

# SEABORN
# sns.heatmap(data.corr()) - вывести график корреляций по всем колонкам

# SKLEARN
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=42) 
# разбить данные на тренировочную и тестовую выборку
# 20 процентов на тестовую , случайность выборки зафиксирована
# vectorizer.get_feature_names() - посмотреть словарь векторов текста
# чтобы получить сгенерированный словарь, из приведенной структуры CountVectorizer, 
# стоит отметить что порядок совпадает с матрице
# text_vector_array = text_vector.toarray() - покаазть матрицу


# PICKLE
# model = pickle.load(open("filename", 'rb')) - загрузка модели из файла
# pickle.dump(model, open("filename", 'wb')) - сохрванение модели в файл

# 

In [None]:
# из примера титаник сайта кагл DecisionTreeClassifier
# dt = DecisionTreeClassifier(random_state=1)
# dt.fit(X_train, y_train)
# preds = dt.predict(X_test)
# acc = accuracy_score(y_true=y_test, y_pred=preds)
# f1 = f1_score(y_true=y_test, y_pred=preds)
# print(classification_report(y_true=y_test, y_pred=preds))

In [None]:
# предсказание простое RandomForestClassifier
# clf = RandomForestClassifier(random_state=241)
# clf.fit(X, Y)
## расчет веса показателей
# importances = clf.feature_importances_
# print(importances)

In [None]:
# использование GridSearchCV на примере RandomForestClassifier

# clf = RandomForestClassifier()

# здесь пишем какие параметры будет перебирать

# param_greed = {
#    "max_depth" : [2,5,10],
#    "criterion" : ['gini', 'entropy'],
#    "min_samples_split" : [2,5,10],
#    "min_samples_leaf" : [1,5,10],
#}

# пишем каие параметры перебираем scoring = как оцениваем  ,
# cv = сколько тестовых выборок, n_jobs = -1 используем все процссоры
#GS = GridSearchCV(clf,param_greed,scoring = 'roc_auc',cv = 6,n_jobs = -1)
#GS.fit(X,Y)

# лучший показатель
#GS.best_score_

# лучшие параметры
# GS.best_params_

# обращаемся
# GS.best_estimator_.feature_importances_

# предсказываем
# GS.best_estimator_.predict(may_sample_dataframe)

In [89]:
# универсальные функции

# загрузать файл из csv
def read_csv(path,index_c = ""):
    if index_c == "":
        return pd.read_csv(path)
    else:
        return pd.read_csv(path,index_col=index_c)
    
# показать все уникальные значения во всех колонках
def columns_unique(data):
    for col in data.columns:
        print(col, data[col].unique())

# заполнить пустые значения средним значением
def null_to_mean(data,column):
    num_mean = data[column].mean()
    data[column].fillna(num_mean, inplace=True)

# заполнить пустые значения модой
def null_to_mode(data,column):
    num_mode  = data[column].mode().values[0]
    data[column].fillna(num_mode, inplace=True)

# функция для лемматизации
def lemmatize(text):
    text_str = str(text)
    text_str = re.sub(r'[^\w\s]+|[\d]+', r'',text_str).strip()
    words = text_str.split() # разбиваем текст на слова
    res = ""
    for word in words:
        p = morph.parse(word)[0]
        res = res + " " + p.normal_form
    return res

# провести лемматизацию датафрэйм
def lemma_dataframe(data,column):
    data[column] = data.apply(lambda row: lemmatize(row[column]), axis=1)
    
# векторизация, создание векторов
def vector_text(data,column):
    text = data[column]
    # создаем векторы
    return vectorizer.fit_transform(text)  

In [14]:
data = pd.read_excel("/Users/alexeyvaganov/doc/files/sode.xlsx")

In [74]:
data_bd = data.drop_duplicates(subset=['text', 'res'], keep=False)

In [76]:
del data_bd["id"]
del data_bd["вид"]

In [77]:
data_bd


Unnamed: 0,text,res
1,об аннулировании договорных документов,0
2,Доп.услуга по заявке №05-5/216 от 31.12.2018 п...,1
3,Реестр на оплату разовых пропусков за декабрь ...,0
4,Об учете НМА,0
5,Отчет управления собственности о заключенных д...,0
8,О назначении ответственных\nза исправное состо...,0
9,СЗ ксательно откачки воды с грузовых площадок,0
11,СЗ о направлении графика аттестации управления...,0
12,"О предоставлении перечня компаний, зарегистрир...",0
15,О предоставлении списка взаимозависимых лиц по...,0


In [87]:
data_bd.groupby(['text'])['res'].count().sort_values(ascending=False)

text
ходатайство в суд                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  

In [85]:
data_bd.loc[data_bd["text"] ==  "кас. оплаты счета","res"] = 1

In [81]:
data_bd[data_bd["text"] ==  "о выставлении счета за неприбытие\nсудна  SEA SHARK L/C 20-22/01-2019"]

Unnamed: 0,text,res
1364,о выставлении счета за неприбытие\nсудна SEA ...,1
3237,о выставлении счета за неприбытие\nсудна SEA ...,1


In [86]:
data_bd = data_bd.drop_duplicates(subset=['text', 'res'], keep=False)

In [124]:
data_bd = data_bd.reset_index()

In [125]:
data_bd.head()

Unnamed: 0,index,text,res
0,1,о аннулирование договорный документ,0
1,2,допуслуга по заявка от по договор год заполне...,1
2,3,реестр на оплата разовый пропуск за декабрь год,0
3,4,о учёт нма,0
4,5,отчёт управление собственность о заключённый ...,0


In [126]:
data_bd['text'] = data_bd.apply(lambda row: lemmatize(row['text']), axis=1)

In [127]:
data_bd

Unnamed: 0,index,text,res
0,1,о аннулирование договорный документ,0
1,2,допуслуга по заявка от по договор год заполне...,1
2,3,реестр на оплата разовый пропуск за декабрь год,0
3,4,о учёт нма,0
4,5,отчёт управление собственность о заключённый ...,0
5,8,о назначение ответственный за исправный состо...,0
6,9,сз ксательный откачка вод с грузовой площадка,0
7,11,сз о направление график аттестация управление...,0
8,12,о предоставление перечень компания зарегистри...,0
9,15,о предоставление список взаимозависимый лицо ...,0


In [128]:
text = data_bd.text

In [129]:
# создаем векторы
text_vector = vectorizer.fit_transform(text)

In [130]:
vectorizer.get_feature_names() 

['__',
 '___',
 '____',
 '_____',
 '______',
 '_______',
 '________',
 '_________',
 '__________',
 '___________',
 '____________',
 '_____________',
 '______________',
 '_______________',
 '________________',
 '_________________',
 '__________________',
 '___________________',
 '____________________',
 '_____________________',
 '______________________',
 '_______________________',
 '_________________________',
 '__________________________',
 '___________________________',
 '_______________________________',
 '_________________________________________________________________________________________',
 '_______________________________________________________________________________________________________',
 '________________________________________________________________________________________________________________',
 '________________________________________________________________________________________________________________________________________',
 '________________________

In [131]:
text_vector_array = text_vector.toarray()
print(text_vector_array)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [132]:
len(text_vector_array[0])

10970

In [133]:
past_columns = [] # пустой массив, для опрееделени колонок
for i in range(len(text_vector_array[0])): 
    past_columns.append(f"v_{i}")
past_columns

['v_0',
 'v_1',
 'v_2',
 'v_3',
 'v_4',
 'v_5',
 'v_6',
 'v_7',
 'v_8',
 'v_9',
 'v_10',
 'v_11',
 'v_12',
 'v_13',
 'v_14',
 'v_15',
 'v_16',
 'v_17',
 'v_18',
 'v_19',
 'v_20',
 'v_21',
 'v_22',
 'v_23',
 'v_24',
 'v_25',
 'v_26',
 'v_27',
 'v_28',
 'v_29',
 'v_30',
 'v_31',
 'v_32',
 'v_33',
 'v_34',
 'v_35',
 'v_36',
 'v_37',
 'v_38',
 'v_39',
 'v_40',
 'v_41',
 'v_42',
 'v_43',
 'v_44',
 'v_45',
 'v_46',
 'v_47',
 'v_48',
 'v_49',
 'v_50',
 'v_51',
 'v_52',
 'v_53',
 'v_54',
 'v_55',
 'v_56',
 'v_57',
 'v_58',
 'v_59',
 'v_60',
 'v_61',
 'v_62',
 'v_63',
 'v_64',
 'v_65',
 'v_66',
 'v_67',
 'v_68',
 'v_69',
 'v_70',
 'v_71',
 'v_72',
 'v_73',
 'v_74',
 'v_75',
 'v_76',
 'v_77',
 'v_78',
 'v_79',
 'v_80',
 'v_81',
 'v_82',
 'v_83',
 'v_84',
 'v_85',
 'v_86',
 'v_87',
 'v_88',
 'v_89',
 'v_90',
 'v_91',
 'v_92',
 'v_93',
 'v_94',
 'v_95',
 'v_96',
 'v_97',
 'v_98',
 'v_99',
 'v_100',
 'v_101',
 'v_102',
 'v_103',
 'v_104',
 'v_105',
 'v_106',
 'v_107',
 'v_108',
 'v_109',
 'v_110',


In [134]:
dataframe_vector = pd.DataFrame(data = text_vector_array,columns = past_columns)
dataframe_vector

Unnamed: 0,v_0,v_1,v_2,v_3,v_4,v_5,v_6,v_7,v_8,v_9,v_10,v_11,v_12,v_13,v_14,v_15,v_16,v_17,v_18,v_19,v_20,v_21,v_22,v_23,v_24,...,v_10945,v_10946,v_10947,v_10948,v_10949,v_10950,v_10951,v_10952,v_10953,v_10954,v_10955,v_10956,v_10957,v_10958,v_10959,v_10960,v_10961,v_10962,v_10963,v_10964,v_10965,v_10966,v_10967,v_10968,v_10969
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [135]:
data_n = pd.concat([data_bd,dataframe_vector],axis = 1)

In [141]:
data_notna = data_n.dropna(how='any');

In [143]:
Y = data_n.res
X = data_n[past_columns]

In [144]:
# предсказание простое
clf = RandomForestClassifier(random_state=241)
clf.fit(X, Y)
# расчет веса показателей
importances = clf.feature_importances_
print(X.columns)
print(importances)

Index(['v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9',
       ...
       'v_10960', 'v_10961', 'v_10962', 'v_10963', 'v_10964', 'v_10965',
       'v_10966', 'v_10967', 'v_10968', 'v_10969'],
      dtype='object', length=10970)
[3.49738115e-04 1.00342845e-04 1.32001830e-04 ... 0.00000000e+00
 2.99641789e-06 6.56149144e-06]


In [167]:
# ДЛЯ ПРЯМОГО РАСЧЕТА
# теперь можно быстро подсчитать вектор для нового документа
#text2 = ["the puppy"]
#vector = vectorizer.transform(text2)
#print(vector.toarray())

text_predict = "Направляем Вам акт выполненых работ № 1824 от 31.12.2018 "
text_predict_lemmat = lemmatize(text_predict)
print(text_predict_lemmat)
new_v = vectorizer.transform([text_predict_lemmat])  # результат [[1 0 0 2]]
new_v_array = new_v.toarray()
dataframe_predict = pd.DataFrame(data = new_v_array,columns = past_columns)
# print(dataframe_predict)
clf.predict(dataframe_predict)

 направлять вы акт выполненый работа от


array([1])