# Homework 2 - TF-IDF Classifier

Ваша цель обучить классификатор который будет находить "токсичные" комментарии и опубликовать решения на Kaggle [Toxic Comment Classification Challenge](https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge)

В процессе обучения нужно ответить на ***[вопросы](https://docs.google.com/forms/d/e/1FAIpQLSd9mQx8EFpSH6FhCy1M_FmISzy3lhgyyqV3TN0pmtop7slmTA/viewform?usp=sf_link)***

Данные можно скачать тут - https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data



In [1]:
import numpy as np
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

In [2]:
class_names = ['toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']

train = pd.read_csv('../data/train.csv').fillna(' ')
test = pd.read_csv('../data/test.csv').fillna(' ')

Стадартными подходами для анализа текста являются [Bag of words](https://en.wikipedia.org/wiki/Bag-of-words_model) и его модификация [TF-IDF](https://en.wikipedia.org/wiki/Tf%E2%80%93idf).

Они реалзованны в `sklearn` в виде [CountVectorizer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) и [TfidfVectorizer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html).

Более подробней про них можно посмотреть [тут](https://github.com/udsclub/workshop/blob/master/notebooks/UDS-workshop-feature-extraction-and-engineering.ipynb)

In [44]:
# train.head()

In [45]:
# test.head()

In [4]:
train_text = train['comment_text']
test_text = test['comment_text']
# Весь текст
all_text = pd.concat([train_text, test_text])

## Какое слово встречается чаще всего в объединенном train и test датасете? 

In [5]:
word_vectorizer = CountVectorizer()
fitted_vect = word_vectorizer.fit_transform(all_text)
fitted_words = word_vectorizer.get_feature_names()

In [6]:
res = fitted_vect.sum(axis=0)

In [7]:
# word_vectorizer.get_params

In [8]:
fitted_words[res.argmax()]

'the'

## Увеличение параметра C в Logistic regression увеличивает или уменьшает степень регуляризации?

In [51]:
# lr = LogisticRegression(C=1)

In [9]:
from sklearn.model_selection import train_test_split, GridSearchCV

In [10]:
# Попробуйте разные Vectorizer и разные размеры n-gramm, стоп-слова, обрезку редких слов, обрезку слишком частых слов
# TfidfVectorizer или CountVectorizer
word_vectorizer = TfidfVectorizer(
    ngram_range=(1, 1), 
    sublinear_tf=True,
    strip_accents='unicode',
    analyzer='word',
    token_pattern=r'\w{1,}',
    min_df=5,
    stop_words='english',
    binary=True,
    max_features=32500)

In [11]:
word_vectorizer.fit(all_text)
train_word_features = word_vectorizer.transform(train_text)
test_word_features = word_vectorizer.transform(test_text)

Для классификации будем использовать логистическую регрессию [LogisticRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html).

Будем тренировать по одному классификатору на каждый класс. 

Что бы провалидировать качество модели воспользуемся функцией [cross_val_score](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html)

In [None]:
%%time
classifier = LogisticRegression() # Попробуйте разные параметры, найтдите оттимальные на кросс-валидации
params = {
    
    'C': np.arange(1, 4, 1),
#     'C' : [2.4],
    'tol': [.0008, .001, .0012],
    'penalty' : ['l2', 'l1'],
    'class_weight': ['balanced', None],
    
    'fit_intercept': [True, False],
    'intercept_scaling': np.arange(1, 4, 1)

#     'max_iter' : np.arange(50, 300, 50) - не влияет
}


grid = GridSearchCV(classifier, params, cv=5, scoring='roc_auc')

grid.fit(train_word_features, train[class_names[2]])

# scores= []
# print(class_names)

# for class_name in class_names:
#     train_target = train[class_name]

#     cv_score = np.mean(cross_val_score(classifier, train_word_features, train_target, cv=5, scoring='roc_auc'))
    
#     print('CV score for class {} is {}'.format(class_name, cv_score))
#     scores.append(cv_score)

# print('Total score is {}'.format(np.mean(scores)))

In [None]:
print(grid.best_params_)
print(grid.best_score_)
# grid.grid_scores_


Попробуйте подобрать лучшие параметры для `word_vectorizer` и `classifier` оптимизируя метрику [ROC AUC](https://en.wikipedia.org/wiki/Receiver_operating_characteristic)


---
### Log reg for class_names[0]

In [None]:
params_0 = {
    'C': 2.4,
    'class_weight': None,
    'fit_intercept': True,
    'intercept_scaling': 12.35,
    'penalty': 'l2',
    'tol': 0.001}

classifier_0 = LogisticRegression(params_0) # Попробуйте разные параметры, найтдите оттимальные на кросс-валидации
# 0.9719362659931324

---
### Log reg for class_names[1]

In [None]:
params_1 = {
    'C': 1.5,
    'class_weight': None,
    'fit_intercept': True,
    'intercept_scaling': 17,
    'penalty': 'l2',
    'tol': 0.0007}

classifier_1 = LogisticRegression(params_1) # Попробуйте разные параметры, найтдите оттимальные на кросс-валидации
# 0.986150995403303

---

Опубликуйте лучшие решение на [Kaggle Toxic Comment Classification Challenge](https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/submit)

In [58]:
submission = pd.DataFrame.from_dict({'id': test['id']})

In [70]:
# train

for class_name in class_names:
    train_target = train[class_name]
    classifier.fit(train_word_features, train_target)
    submission[class_name] = classifier.predict_proba(test_word_features)[:, 1]

In [71]:
submission.to_csv('submission.csv', index=False)