# Семинар 5

### **Изучаем Scikit**
***Scikit*** - библиотке Python с открытым исходным кодом, которая реализует комплекс инструментов для машинного обучения, предобработку, кросс-валидацию и алгоритмы визуализации. 
   
Например так будет выглядеть пример классификации, с использованием метода k-ближайших соседей, вида ириса, по его характеристикам:

In [58]:
from sklearn import neighbors, datasets, preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

iris = datasets.load_iris()
X, y = iris.data[:, :2], iris.target
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=33)
scaler = preprocessing.StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
knn = neighbors.KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
accuracy_score(y_test, y_pred)

0.631578947368421

Сам процесс машинного обучения состоит из нескольких этапов:

#### **1. Загрузка данных**
Чтобы пользоваться инструментами, которые предоставляет Scikit, необходимо, чтобы данных были в числовом формате и хранились в массивах NumPy или матрицах SciPy, однако допустимы и такие форматы данных, как DaraFrame'ы из Pandas

In [59]:
import numpy as np

X = np.random.random((10, 5))
y = np.array(['M', 'M', 'F', 'F', 'M', 'F', 'M', 'M', 'F', 'F'])
X [X < 0.7] = 0

#### **2. Подготовка обучающей и тестовой выборок**  
На данном шаге мы разделяешь наш набор данных на две выборки: *обучающую и тестовую*.  
***Обучающая выборка (train set)*** - используется для обучения нашей модели, обычно обучающая выборка составляет 75 - 80% от всех данных.  
***Тестовая выборка (test set)*** - используется для проверки точности прогнозирования нашей модели. Обычно составляет 20 - 25% от всех данных.

In [60]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

#### **3. Предобработка данных**  
  
К видам предобработки можно отнести:  
*3.1 Стандартизация;*  
*3.2 Нормализация;*  
*3.3 Бинаризация;*  
*3.4 Замена недостающих значений и мн. др.*  
  
В коде ниже представлен пример стандартизации:

In [61]:
from sklearn.preprocessing import StandardScaler, Normalizer

scaler = StandardScaler().fit(X_train)
standardized_X = scaler.transform(X_train)
standardized_X_test = scaler.transform(X_test)

scaler_norm = Normalizer().fit(X_train)
normalized_X = scaler_norm.transform(X_train)
normalized_X_test = scaler_norm.transform(X_test)

#### **4. Создание модели машинного обучения (ML - Machine Learning)**  
Различают 2 вида обучения моделей ML: **с учителем (supervised)** и **без учителя (unsupervised)**.  
 




##### 4.1 В Scikit существуют следующие реализации обучения с учителем: 

###### 4.1.1 Линейная регрессия (Linear Regression);  

In [62]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression(normalize=True)

###### 4.1.2 Метод опорных векторов (SVC - Support Vector Machine);  


In [63]:
from sklearn.svm import SVC
svc = SVC(kernel='linear')

###### 4.1.3 Наивный байесовский классификатор (Naive Bayes);  


In [64]:
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()

###### 4.1.4 Метод k-ближайших соседей (KNN - k-nearest neighbors);  

In [65]:
from sklearn import neighbors
knn = neighbors.KNeighborsClassifier(n_neighbors=5)

##### 4.2 В Scikit существуют следующие реализации обучения без учителя:

###### 4.2.1 Метод главных компонент (Principal Component Analysis)



In [66]:
from sklearn.decomposition import PCA
pca = PCA(n_components=0.95)

###### 4.2.2 Метод k-средних (K-means):

In [67]:
from sklearn.cluster import KMeans
k_means = KMeans(n_clusters=3, random_state=0)

#### 5. Обучение модели
Обучение модели зачастую происходит вызовом функции fit(x,y) у модели

In [68]:
#supervised
knn.fit(X_train, y_train)
svc.fit(X_train, y_train)

#unsupervised
k_means.fit(X_train)
pca_model = pca.fit_transform(X_train)

#### 6. Испытание обученной модели

In [69]:
y_pred_svc = svc.predict(np.random.random((2,5)))
y_pred_knn = knn.predict_proba(X_test)

y_pred_k_means = k_means.predict(X_test)

#### 7. Оценка модели



Существуют разные методы оценивания модели, но мы рассмотрим оценку точности:

In [74]:
knn.score(X_test, y_test)

0.3333333333333333