In [1]:
import pandas as pd
import numpy as np
from io import StringIO
import csv
import re
import fasttext


from sklearn.metrics import recall_score
from sklearn.metrics import balanced_accuracy_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score

import nltk
from nltk.tokenize import word_tokenize

from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate
from sklearn.model_selection import GridSearchCV

In [2]:
stop_words = nltk.corpus.stopwords.words("russian")

In [3]:
def text_prepear2(text):

    text = re.sub(r'\S+#\S+;',' ', str(text))

    text = re.sub(r'#\S+',' ', text)

    text = re.sub(r'\S+#',' ', text)

    text = re.sub(r'_+',' ', text)

    text = re.sub(r'\W', ' ', text)

    text = re.sub(r'\s+[a-zA-Zа-яА-ЯёЁ]\s+', ' ', text)

    text = re.sub(r'\^[a-zA-Zа-яА-ЯёЁ]\s+', ' ', text)

    text = re.sub(r'\s+', ' ', text)

    text = text.lower()
    
    tokens = text.split()
    
    tokens = [word for word in tokens if word not in stop_words]
    
    preprocessed_text = ' '.join(tokens)
    
    return preprocessed_text

In [4]:
df1 = pd.read_csv('text_sobstvennic_20768.csv')
df1['text_prep'] = df1['0'].apply(text_prepear2)
df1['target'] = np.ones((len(df1)))

In [5]:
df1.head(10)

Unnamed: 0,0,text_prep,target
0,"Собственник. По технической части исправен, в ...",собственник технической части исправен дтп фак...,1.0
1,Продам авто в хорошем состоянии \nМашина без в...,продам авто хорошем состоянии машина вложений ...,1.0
2,Полная комплектация кроме треьего ряда сидений...,полная комплектация кроме треьего ряда сидений...,1.0
3,Автомобиль в хорошем внешнем и техническом сос...,автомобиль хорошем внешнем техническом состоян...,1.0
4,"нужна замена стоек, косяки видны на фото звони...",нужна замена стоек косяки видны фото звонить л...,1.0
5,Продаю сине-чёрную 2114. \n\nАвтомобиль своевр...,продаю сине чёрную 2114 автомобиль своевременн...,1.0
6,"Продам надёжный рамный внедорожник, с чистой и...",продам надёжный рамный внедорожник чистой исто...,1.0
7,"Автомобиль в хорошем состоянии,всё работает.",автомобиль хорошем состоянии всё работает,1.0
8,"не гнилая, хром на 4,заводиться едит, с докуме...",гнилая хром 4 заводиться едит документами всё ...,1.0
9,В хорошем состоянии.\nУстановленна сигнализаци...,хорошем состоянии установленна сигнализация уп...,1.0


In [6]:
df2 = pd.read_csv('text_companii_28802.csv')
df2['text_prep'] = df2['0'].apply(text_prepear2)
df2['target'] = np.zeros((len(df2)))

In [7]:
df2.head(10)

Unnamed: 0,0,text_prep,target
0,"В продаже Lada Granta в последнем поколении, в...",продаже lada granta последнем поколении удобно...,0.0
1,В продаже отличная Lada Vesta.\nСостояние авто...,продаже отличная lada vesta состояние автомоби...,0.0
2,В продаже автомобиль Volkswagen Polo. Состояни...,продаже автомобиль volkswagen polo состояние а...,0.0
3,В продаже Hyundai Santa Fe. 1 владельца по ПТС...,продаже hyundai santa fe 1 владельца птс cосто...,0.0
4,&#x26a1; 30 000 СКИДКА В КРЕДИТ\n&#x26a1; 20 0...,30 000 скидка кредит 20 000 скидка обмене феде...,0.0
5,"Кондиционер,Сигнализация,MP3,Легкосплавные дис...",кондиционер сигнализация mp3 легкосплавные дис...,0.0
6,В продаже надежный Mazda CX -7. Двигатель 2.3 ...,продаже надежный mazda cx 7 двигатель 2 3 ориг...,0.0
7,Данный автомобиль прошел комплексную диагности...,данный автомобиль прошел комплексную диагности...,0.0
8,Данный автомобиль прошел комплексную диагности...,данный автомобиль прошел комплексную диагности...,0.0
9,Модель: Jetta\n\nКомплектация: 1.6 AT (110 л.с...,модель jetta комплектация 1 6 at 110 кондицион...,0.0


In [8]:
df3 = pd.read_csv('text_chastnick_32904.csv')
df3['text_prep'] = df3['0'].apply(text_prepear2)
df3['target'] = np.zeros((len(df3)))

In [9]:
df3.head(10)

Unnamed: 0,0,text_prep,target
0,Продам в нормальном состояние весит штраф на 5...,продам нормальном состояние весит штраф 5000 т...,0.0
1,"Собственник. По технической части исправен, в ...",собственник технической части исправен дтп фак...,0.0
2,Автомобиль в хорошем техническом состоянии ест...,автомобиль хорошем техническом состоянии нюанс...,0.0
3,"машина полностью на ходу, сел и поехал, срочна...",машина полностью ходу сел поехал срочная прода...,0.0
4,Продам авто в хорошем состоянии \nМашина без в...,продам авто хорошем состоянии машина вложений ...,0.0
5,Автомобилем владею больше года.\nВложено очень...,автомобилем владею года вложено очень средств ...,0.0
6,"Продaeтся Ладa Sаmаrа 2115, техничeски в xорoш...",продaeтся ладa sаmаrа 2115 техничeски xорoшeм ...,0.0
7,Полная комплектация кроме треьего ряда сидений...,полная комплектация кроме треьего ряда сидений...,0.0
8,Автомобиль в хорошем внешнем и техническом сос...,автомобиль хорошем внешнем техническом состоян...,0.0
9,Комплектация KOMFORT+WINTER (обогрев лобового ...,комплектация komfort winter обогрев лобового ф...,0.0


In [10]:
df = pd.concat([df1, df2, df3], ignore_index=True)

In [11]:
df.drop('0', axis=1, inplace=True)
df['text_prep'] = df['text_prep'].apply(lambda x: 'for drop' if len(x)<5 else x)
df.drop(df[df['text_prep'] == 'for drop'].index, inplace=True)
df.index = range(len(df))

In [12]:
df.head(10)

Unnamed: 0,text_prep,target
0,собственник технической части исправен дтп фак...,1.0
1,продам авто хорошем состоянии машина вложений ...,1.0
2,полная комплектация кроме треьего ряда сидений...,1.0
3,автомобиль хорошем внешнем техническом состоян...,1.0
4,нужна замена стоек косяки видны фото звонить л...,1.0
5,продаю сине чёрную 2114 автомобиль своевременн...,1.0
6,продам надёжный рамный внедорожник чистой исто...,1.0
7,автомобиль хорошем состоянии всё работает,1.0
8,гнилая хром 4 заводиться едит документами всё ...,1.0
9,хорошем состоянии установленна сигнализация уп...,1.0


In [13]:
model = fasttext.load_model("fil2.bin")



In [14]:
x_mvec = []
for i in range(len(df)):
    x_mvec.append(np.mean([model.get_word_vector(x) for x in df['text_prep'][i].split()], axis=0))

In [15]:
dfm = pd.DataFrame(x_mvec)

In [16]:
dfm['target'] = df['target']

In [17]:
from sklearn.model_selection import train_test_split
X = dfm.drop(['target'], axis=1)
y = dfm['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [23]:
skfold = StratifiedKFold(n_splits=3, shuffle=True)

In [24]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression(class_weight='balanced', max_iter=1000)

scores = cross_validate(logreg, X, y, cv=skfold, 
                        scoring=('accuracy', 'roc_auc', 'recall', 'precision', 'f1'))
df_sc = pd.DataFrame(list(scores.values())[2:], 
             index=['accuracy','roc_auc','recall', 'precision', 'f1'], 
             columns=['fold 1', 'fold 2', 'fold 3'])
df_sc['mean'] = list(df_sc.T.mean())
df_sc = round(df_sc, 3) 
df_sc

Unnamed: 0,fold 1,fold 2,fold 3,mean
accuracy,0.701,0.697,0.699,0.699
roc_auc,0.818,0.816,0.818,0.817
recall,0.871,0.867,0.876,0.871
precision,0.452,0.448,0.45,0.45
f1,0.595,0.591,0.594,0.593


In [25]:
from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()

scores = cross_validate(kn, X, y, cv=skfold, 
                        scoring=('accuracy', 'roc_auc', 'recall', 'precision', 'f1'))
df_sc = pd.DataFrame(list(scores.values())[2:], 
             index=['accuracy','roc_auc','recall', 'precision', 'f1'], 
             columns=['fold 1', 'fold 2', 'fold 3'])
df_sc['mean'] = list(df_sc.T.mean())
df_sc = round(df_sc, 3) 
df_sc

Unnamed: 0,fold 1,fold 2,fold 3,mean
accuracy,0.718,0.72,0.717,0.718
roc_auc,0.75,0.751,0.749,0.75
recall,0.384,0.387,0.377,0.382
precision,0.434,0.437,0.43,0.434
f1,0.407,0.41,0.402,0.406


In [26]:
%%time
from sklearn.svm import SVC
svc = SVC(class_weight='balanced')

scores = cross_validate(svc, X, y, cv=skfold, 
                        scoring=('accuracy', 'roc_auc', 'recall', 'precision', 'f1'))
df_sc = pd.DataFrame(list(scores.values())[2:], 
             index=['accuracy','roc_auc','recall', 'precision', 'f1'], 
             columns=['fold 1', 'fold 2', 'fold 3'])
df_sc['mean'] = list(df_sc.T.mean())
df_sc = round(df_sc, 3) 
df_sc

Wall time: 24min 24s


Unnamed: 0,fold 1,fold 2,fold 3,mean
accuracy,0.668,0.674,0.675,0.672
roc_auc,0.82,0.82,0.825,0.822
recall,0.943,0.938,0.946,0.942
precision,0.428,0.432,0.434,0.431
f1,0.589,0.592,0.595,0.592


In [27]:
import lightgbm as lgb
from lightgbm import LGBMClassifier
lgbm = LGBMClassifier(class_weight='balanced')

scores = cross_validate(lgbm, X, y, cv=skfold, 
                        scoring=('accuracy', 'roc_auc', 'recall', 'precision', 'f1'))
df_sc = pd.DataFrame(list(scores.values())[2:], 
             index=['accuracy','roc_auc','recall', 'precision', 'f1'], 
             columns=['fold 1', 'fold 2', 'fold 3'])
df_sc['mean'] = list(df_sc.T.mean())
df_sc = round(df_sc, 3) 
df_sc

Unnamed: 0,fold 1,fold 2,fold 3,mean
accuracy,0.697,0.697,0.699,0.698
roc_auc,0.809,0.81,0.807,0.809
recall,0.857,0.858,0.845,0.853
precision,0.447,0.447,0.448,0.448
f1,0.588,0.588,0.586,0.587


In [29]:
# ######

In [29]:
%%time
model = SVC()
param = dict(C=np.linspace(0.001, 2, 5), 
             random_state=[4210], 
             class_weight=['balanced'])
clf = GridSearchCV(model, param, cv=StratifiedKFold(n_splits=3, shuffle=True), scoring='recall')
clf.fit(X, y)
print('recall: {:.4}, with best: {}'.format(clf.best_score_, clf.best_params_))

recall: 0.9735, with best: {'C': 0.001, 'class_weight': 'balanced', 'random_state': 4210}
Wall time: 2h 8min 15s


In [25]:
%%time
from sklearn.svm import SVC
svc = SVC(class_weight='balanced', C=0.001)

scores = cross_validate(svc, X, y, cv=skfold, 
                        scoring=('accuracy', 'roc_auc', 'recall', 'precision', 'f1'))
df_sc = pd.DataFrame(list(scores.values())[2:], 
             index=['accuracy','roc_auc','recall', 'precision', 'f1'], 
             columns=['fold 1', 'fold 2', 'fold 3'])
df_sc['mean'] = list(df_sc.T.mean())
df_sc = round(df_sc, 3) 
df_sc

Wall time: 34min 1s


Unnamed: 0,fold 1,fold 2,fold 3,mean
accuracy,0.601,0.601,0.598,0.6
roc_auc,0.778,0.776,0.775,0.776
recall,0.975,0.972,0.973,0.973
precision,0.385,0.385,0.383,0.384
f1,0.552,0.551,0.55,0.551


In [34]:
%%time
model = LGBMClassifier()
param = dict(
    max_depth=[-1,2,3],
    n_estimators=[100, 500],
    min_child_weight=np.linspace(0.001, 1, 5),
    random_state=[4210],
    class_weight=['balanced'])
clf = GridSearchCV(model, param, cv=StratifiedKFold(n_splits=3, shuffle=True), scoring='recall')
clf.fit(X, y)
print('recall: {:.4}, with best: {}'.format(clf.best_score_, clf.best_params_))

recall: 0.8957, with best: {'class_weight': 'balanced', 'max_depth': 2, 'min_child_weight': 0.001, 'n_estimators': 100, 'random_state': 4210}
Wall time: 3min 10s


In [31]:
import lightgbm as lgb
from lightgbm import LGBMClassifier
lgbm = LGBMClassifier(class_weight='balanced', max_depth= 2, min_child_weight= 0.001)

scores = cross_validate(lgbm, X, y, cv=skfold, 
                        scoring=('accuracy', 'roc_auc', 'recall', 'precision', 'f1'))
df_sc = pd.DataFrame(list(scores.values())[2:], 
             index=['accuracy','roc_auc','recall', 'precision', 'f1'], 
             columns=['fold 1', 'fold 2', 'fold 3'])
df_sc['mean'] = list(df_sc.T.mean())
df_sc = round(df_sc, 3) 
df_sc

Unnamed: 0,fold 1,fold 2,fold 3,mean
accuracy,0.681,0.681,0.678,0.68
roc_auc,0.812,0.816,0.816,0.815
recall,0.888,0.897,0.902,0.896
precision,0.435,0.436,0.434,0.435
f1,0.584,0.587,0.586,0.585


In [None]:
# #######

In [35]:
best_model = SVC(class_weight='balanced', C=0.001)
best_model.fit(X, y)

SVC(C=0.001, class_weight='balanced')

In [36]:
import joblib
joblib.dump(best_model, "model_owner.pkl") 

['model_owner.pkl']