In [2]:
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn
from nltk.stem.snowball import RussianStemmer
import sklearn 
import string

from sklearn.feature_extraction.text import CountVectorizer

In [3]:
from scipy.stats import randint

MAX_FEATURES = 5000 # Максимальное кол-во признаков-слов для CountVectorizer
CAT_COLS = ['category', 'subcategory'] # факторизуемые колонки
TARGET_COLUMNS = ['title', 'description', 'attrs', ['title', 'description']] # колонки, для построения BagOfWords тиблиц
SEED = 8451 # Показатель рандома
MODEL_COLUMNS = ['price', 'phones_cnt', 'emails_cnt', 'urls_cnt', 'category', 'subcategory']
FOREST_TRAIN_PARAMETERS = {"max_depth": randint(low=1, high=15),
                  "max_features": ['sqrt', 'log2'],
                  "min_samples_leaf": [4, 8, 16, 32],
                  "bootstrap": [True, False],
                  "criterion": ["gini", "entropy"],
                 }

In [3]:
train_data_raw = pd.DataFrame.from_csv('data/avito_train.tsv', sep='\t')
test_data_raw = pd.DataFrame.from_csv('data/avito_test.tsv', sep='\t')

In [4]:
train_data_raw.shape

(3995803, 12)

In [5]:
train_data_raw.head(1)

Unnamed: 0_level_0,category,subcategory,title,description,attrs,price,is_proved,is_blocked,phones_cnt,emails_cnt,urls_cnt,close_hours
itemid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
10000010,Транспорт,Автомобили с пробегом,"Toyota Sera, 1991",Новая оригинальная линзованая оптика на ксенон...,"{""Год выпуска"":""1991"", ""Тип кузова"":""Купе"", ""П...",150000,,0,0,0,0,0.03


In [7]:
train_data = train_data_raw[:50000]
test_data = test_data_raw[:10000]

.# просматриваем информацию в колонках
for column in train_data.columns:
    print("{: <20} {:} {: >10}".format(column, train[column].dtype, len(train[column].unique())))

.# по таблице определяем категориальные string колонки
cat_cols = ['category','subcategory']

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

enc = LabelEncoder()
train[cat_cols] = train[cat_cols].apply(lambda x: pd.factorize(x)[0])

In [4]:
# %load scripts/preprocessing.py
from nltk.stem.snowball import RussianStemmer
from nltk.corpus import stopwords
import re
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import SGDClassifier, SGDRegressor
from sklearn.preprocessing import OneHotEncoder
from scipy.stats import randint
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV


# стемминг и знаки пунктуации
stemmer = RussianStemmer()
exclude = string.punctuation + string.digits
stopwords = set(stopwords.words("russian"))

vectorizer = None

# Преобразование строки в массив слов со стеммингом и lower()
def clear(text):
    # pre. Проверка на нули в данных
    text = str(text)
    if text == "nan":
        return []
    # 1. Убираем не-буквы
    temp = re.sub("[^a-zA-Z|^а-яА-Я]", " ", text)
    # 2. Преобразуем в прописные и делим по словам
    temp = temp.lower().split()
    # 3. Стемминг и уборка стоп-слов
    temp = [i for i in temp if i not in stopwords and len(i) > 2]
#     temp = [i for i in temp if len(i) > 2]
    return temp

def preprocessFeatures(df, vectorizers=None, columns=TARGET_COLUMNS, max_features=MAX_FEATURES):
    data_type = -1; # -1: smth wrong; 0: тренировочные данные; 1: тестовые данные
    if vectorizers == None:
        print("PROCESSING TRAIN DATA")
        vectorizers = dict() # полученные вектрорайзеры (только для тренировочной выборки)
        data_type = 0
    else:
        print("PROCESSING TEST DATA")
        data_type = 1
    features = [] # результат предпроцессинга
    for column in columns:
        print("COLUMN: {0}".format(column))
        # 1. Получаем очищенные данные и представляем строчкой
        cleared = [] # список очищенных и преобразованных строк
        if type(column) is str: # обработка одной колонки
            cleared = [" ".join(clear(i)) for i in df[column]]
        else: # обработка 2 колонок
            temp = [series_.values for id_, series_ in df[column].iterrows()]
            temp = [" ".join(clear(str(i) + str(j))) for i,j in temp]
            cleared = cleared + temp
        print("  - Cleared")
        # 2. Если данные тестовые - то vectorizer для колонки уже есть, используем его. Если тренировочные - создаём.
        if data_type == 0:
            vect = CountVectorizer(analyzer="word",
                                         tokenizer=None,
                                         preprocessor=None,
                                         stop_words=None)
            # 3a. Учим словарю и обрабатываем
            features.append(vect.fit_transform(cleared)) # обучаем + преобразуем
            vectorizers["".join(column)] = vect # запоминаем получившийся векторайзер
        else:
            # 3b. Просто обрабатываем данные
            features.append(vectorizers["".join(column)].transform(cleared)) # просто преобразем
        print("  - Processed\n")
    return features, vectorizers

# Делает предсказания для ряда BagOfWords матриц на ряде моделей
def modelsPredicts(frames, models):
    predictions = []
    for i in range(len(models)):
        model = models[i]
        X = frames[i]
        y = model.predict(X)
        predictions.append(y)
    return predictions

# Добавление не использованных данных + выделение меток
def concatenateRemaining(df, predictions, model_columns = MODEL_COLUMNS, cat_cols=CAT_COLS):
    # 1. Факторизация категориальных данных
    df[cat_cols] = df[cat_cols].apply(lambda x: pd.factorize(x)[0])
    X = pd.DataFrame(predictions).T
    X = X.set_index(df.index)
    for column in MODEL_COLUMNS:
        X[column] = df[column]
    return X

# Вычисление лучших параметров для покрывающей модели (над ост. признаками и результатами выч.)
def getCoveringMovelParams(X,y,
                       parameters=FOREST_TRAIN_PARAMETERS,
                       seed=SEED, 
                       model=RandomForestClassifier(random_state=SEED),
                      ):
    grid_search = RandomizedSearchCV(model, 
                                     param_distributions=parameters, 
                                     n_iter=2, cv=5, 
                                     scoring='neg_mean_squared_error', 
                                     random_state=SEED, 
                                     verbose = 1)
    grid_search.fit(X,y)
    return grid_search.best_params_

# Обучение локальных моделей, покрывающей модели, векторайзера
def trainModel(df, cat_cols=CAT_COLS, max_features=MAX_FEATURES, target_columns=TARGET_COLUMNS, seed=SEED):
    # 1. Получение матриц BagOgWords
    sparse_frames, vectorizers = preprocessFeatures(df)
    # 2. Обучаем модель_1[] (модели) для каждой матрицы
    models = []
    print("FITTING LOCAL MODELS")
    i = 1
    for fr in sparse_frames:
        sgd_clf = SGDRegressor(random_state=seed)
#         X = pd.DataFrame(fr.toarray())
        X = fr
        y = df.is_blocked
        sgd_clf.fit(X, y)
        models.append(sgd_clf)
        print("  -fitted {0} from {1}".format(i, len(sparse_frames)))
        i = i + 1;
    print()
    # 3. Делаем предсказания модель_1[] каждой матрицы
    predictions = modelsPredicts(sparse_frames, models)
    # 4. Делаем сводную матрицу и добавляем столбцы категорий+доп.данных
    X = concatenateRemaining(df, predictions)
    y = df['is_blocked']
    # 5. По сводной матрице обучаем модель_2
    best_params = getCoveringMovelParams(X,y)
    print(best_params)
    covering_model = RandomForestClassifier(**best_params, n_jobs=-1).fit(X,y)
    return vectorizers, models, covering_model, sparse_frames

In [5]:
###
### Полный процесс предобработки данных
###
from sklearn.linear_model import SGDClassifier
from scipy.stats import randint
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV

train_data = pd.DataFrame.from_csv('data/avito_train.tsv', sep='\t')
test_data = pd.DataFrame.from_csv('data/avito_test.tsv', sep='\t')

In [6]:
train = train_data
test = test_data

# 1. Обучение модели
vectorizers, models, covering_model, sparse_frames = trainModel(train)

# 2. Обработка данных
pre_data = preprocessFeatures(test, vectorizers)[0]

# 3. Предсказания частных моделей
priv_predictions = modelsPredicts(pre_data,models)

# 4. Получение сводной матрицы
X = concatenateRemaining(test, priv_predictions)

# 5. Предсказание покрывающей модели
test_predictions = covering_model.predict_proba(X)

PROCESSING TRAIN DATA
COLUMN: title
  - Cleared
  - Processed

COLUMN: description
  - Cleared
  - Processed

COLUMN: attrs
  - Cleared
  - Processed

COLUMN: ['title', 'description']
  - Cleared
  - Processed

FITTING LOCAL MODELS
  -fitted 1 from 4
  -fitted 2 from 4
  -fitted 3 from 4
  -fitted 4 from 4

Fitting 5 folds for each of 2 candidates, totalling 10 fits


[Parallel(n_jobs=1)]: Done  10 out of  10 | elapsed: 14.6min finished


{'min_samples_leaf': 4, 'criterion': 'entropy', 'max_depth': 9, 'bootstrap': True, 'max_features': 'log2'}
PROCESSING TEST DATA
COLUMN: title
  - Cleared
  - Processed

COLUMN: description
  - Cleared
  - Processed

COLUMN: attrs
  - Cleared
  - Processed

COLUMN: ['title', 'description']
  - Cleared
  - Processed



In [7]:
result = pd.DataFrame(test_predictions)
result.index = test.index
result = result.sort_values(by=1, ascending=False)
result = result.drop([0], axis=1)

result_final = pd.DataFrame(result.index)
result_final.to_csv('final.csv', index=False)

In [47]:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import SGDClassifier

temp = pd.DataFrame(sparse_frames[0].toarray())

In [40]:
params = list()
from scipy.stats import randint

forest=RandomForestClassifier(n_estimators=10, random_state=SEED)
param_grid = {"max_depth": randint(low=1, high=15),
              "max_features": ['sqrt', 'log2'],
              "min_samples_leaf": [4, 8, 16, 32, 64, 128],
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}
#              }
i = 0
for fr in sparse_frames_train[0: 2]:
    print("##### Started: ", TARGET_COLUMNS[i])
    i += 1
    X = pd.DataFrame(fr.toarray())
    y = df.is_blocked
    grid_search = RandomizedSearchCV(forest, param_distributions=param_grid, 
                                     n_iter=15, cv=5, scoring='neg_mean_squared_error', random_state=45426)
    grid_search.fit(X, y)
    params.append(grid_search.best_params_)

##### Started:  title
##### Started:  description
