In [15]:
import pandas as pd
import numpy as np

from os.path import exists, join
from os import makedirs

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import f1_score

В прошлый раз мы использовали метрику `Accuracy`. В этот раз мы будем использовать `F1-score`.  
Посмотрим, что это такое:   
[Источник](https://habrahabr.ru/company/ods/blog/328372/)

<img src="./data/precision_recall.jpg" alt="Drawing" style="height: 800px;"/>

* **`Precision`** - точность (не путайте с `Accuracy`), эта метрика говорит нам долю объектов, которые классификатор назвал положительными (1) и при этом они действительно положительные.  
    То есть, `precision` - способность классификатора отличать положительные примеры от отрицательных (0).  
    
    
* **`Recall`** - полнота, эта метрика говорит нам, какую долю примеров положительного класса классификатор нашел из всех примеров положительного класса.  
    То есть, `recall` - способность классификатора в принципе обнаруживать положительный класс.

Эти две метрики можно объединить в одну - F1-score:  
$$F1 = \frac{2\cdot\textit{Pr}\cdot\textit{Rc}}{\textit{Pr} + \textit{Rc}},$$ где $\textit{Pr}$ - **Precision**, $\textit{Rc}$ - **Recall**  

Подсказка для чтения данных: `pd.merge()`

In [39]:
train_data = pd.read_csv('data/train/train3.csv')
x_train = train_data[train_data.columns[2:]]
y_train = train_data['Category']

Здесь используем кросс-валидацию. [Подробнее](http://scikit-learn.org/stable/modules/cross_validation.html)

In [40]:
clf = RandomForestClassifier(n_estimators=10)
scores = cross_val_score(clf, x_train, y_train, cv=10, scoring='f1_macro')
print(scores)
print("F1 score: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

[ 0.88259109  0.96267696  0.83888889  0.85784314  0.92368421  0.86057692
  0.91812865  0.96190476  1.          1.        ]
F1 score: 0.92 (+/- 0.11)


In [41]:
clf = RandomForestClassifier(n_estimators=10)
clf.fit(x_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            n_estimators=10, n_jobs=1, oob_score=False, random_state=None,
            verbose=0, warm_start=False)

In [46]:
test_data = pd.read_csv('data/test/test4.csv')
x_test = test_data[test_data.columns[1:]]

In [47]:
y_test = clf.predict(x_test)

In [52]:
results_dir = 'results/'
if not exists(results_dir):
    makedirs(results_dir)

pd.DataFrame({
    'ID': test_data['ID'],
    'Category': y_test
}).to_csv(join(results_dir, 'submission.csv'), index=False, columns=['ID', 'Category'])

Данные взяты из открытого источника.  
**Авторы**: Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.