# Обучаем первые классификаторы в sklearn

### Данные

Задача на kaggle: https://www.kaggle.com/c/bioresponse

Данные: https://www.kaggle.com/c/bioresponse/data

По данным характеристикам молекулы требуется определить, будет ли дан биологический ответ (biological response).

Признаки нормализованы.

Для демонстрации используется обучающая выборка из исходных данных train.csv, файл с данными прилагается.

### Готовим обучающую и тестовую выборки

In [12]:
import pandas as pd

bioresponce = pd.read_csv('bioresponse.csv', header=0, sep=',')

In [13]:
y = bioresponce.Activity.values

In [14]:
X = bioresponce.iloc[:, 1:]

In [15]:
from sklearn.cross_validation import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

### Строим модель и оцениваем качество

In [16]:
from sklearn.linear_model import LogisticRegression

In [17]:
model = LogisticRegression()
model.fit(X_train, y_train)
preds = model.predict(X_test)

In [18]:
print sum(preds == y_test) / len(preds)

0


In [19]:
print sum(preds == y_test) / float(len(preds))

0.75605815832


In [20]:
from sklearn.metrics import accuracy_score

print accuracy_score(preds, y_test)

0.75605815832


### Качество на кросс-валидации

In [21]:
from sklearn.cross_validation import cross_val_score

print cross_val_score(model, X_train, y_train, cv=5)

[ 0.74404762  0.73956262  0.72310757  0.75099602  0.75896414]


In [22]:
print cross_val_score(model, X_train, y_train, cv=5).mean()

0.743335594477


### Пробуем другие классификаторы

In [23]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier

models = [
    KNeighborsClassifier(),
    DecisionTreeClassifier(),
    LinearSVC(),
    RandomForestClassifier(n_estimators=100), 
    GradientBoostingClassifier(n_estimators=100)
]

for model in models:
    model.fit(X_train, y_train)
    preds = model.predict(X_test)
    print accuracy_score(preds, y_test), model

0.718901453958 KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')
0.707592891761 DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')
0.743134087237 LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)
0.789983844911 RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
 

## Задание на 10 минут:

1. Откройте этот блокнот у себя на компьютере, если у вас есть Python, pandas и sklearn, либо воспользуйтесь помощью соседа (если у него все установлено)
1. Попробуйте разные классификаторы с разными параметрами и постарайтесь добиться максимального качества на тестовой выборке

Над этим заданием можно работать в группах. Если у вас нет возможности выполнить его на занятии - попробуйте, когда окажетесь дома.