# Обучаем первые классификаторы в sklearn

### Данные


По данным характеристикам молекулы требуется определить, будет ли дан биологический ответ (biological response).

Для демонстрации используется обучающая выборка из исходных данных bioresponse.csv, файл с данными прилагается.

### Готовим обучающую и тестовую выборки

In [None]:
import pandas as pd

bioresponce = pd.read_csv('bioresponse.csv', header=0, sep=',')

In [None]:
bioresponce.head(5)

In [None]:
bioresponce.shape

In [None]:
y = bioresponce.Activity.values

In [None]:
X = bioresponce.iloc[:, 1:]

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

### Строим модель и оцениваем качество

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression()
model.fit(X_train, y_train)
preds = model.predict(X_test)

In [None]:
type(preds)

In [None]:
print(sum(preds == y_test) / len(preds))

In [None]:
from sklearn.metrics import accuracy_score

print(accuracy_score(preds, y_test))

### Качество на кросс-валидации

In [None]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "grid_search_cross_validation.png")

In [None]:
from sklearn.model_selection import cross_val_score

print(cross_val_score(model, X_train, y_train, cv=5))

In [None]:
print(cross_val_score(model, X_train, y_train, cv=5).mean())

### Пробуем другие классификаторы

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier


In [None]:
%%time

models = [
    KNeighborsClassifier(),
    DecisionTreeClassifier(),
    LinearSVC(),
    RandomForestClassifier(n_estimators=100), 
    GradientBoostingClassifier(n_estimators=100)
]

for model in models:
    model.fit(X_train, y_train)
    preds = model.predict(X_test)
    print(accuracy_score(preds, y_test), model)

## Практика:

Попробуйте разные классификаторы с разными параметрами и постарайтесь добиться максимального качества на тестовой выборке

## Автоматизация процесса - GridSearchCV

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
rfc = RandomForestClassifier() 

param_grid = { 
    'n_estimators': [100, 200,300],
    'max_features': ['auto', 'sqrt', 'log2']
}

CV_rfc = GridSearchCV(estimator=rfc, param_grid=param_grid, cv= 3,n_jobs=-1)
CV_rfc.fit(X, y)

In [None]:
CV_rfc.best_params_

In [None]:
CV_rfc.best_score_

In [None]:
CV_rfc.predict(X_test)

In [None]:
from sklearn.model_selection import RandomizedSearchCV

In [None]:
random_grid = {'bootstrap': [True, False],
               'max_depth': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, None],
               'max_features': ['auto', 'sqrt'],
               'min_samples_leaf': [1, 2, 4],
               'min_samples_split': [2, 5, 10],
               'n_estimators': [130, 180, 230]}

In [None]:
rfc = RandomForestClassifier() 

random_CV_rfc = RandomizedSearchCV(estimator=rfc, param_distributions=param_grid,n_iter=10, cv= 3,n_jobs=-1)
random_CV_rfc.fit(X, y)

In [None]:
random_CV_rfc.best_params_

In [None]:
random_CV_rfc.best_score_