# Machine Learning - Topic 3

**Classification** - **Классификация**

Классификация — это обучение с учителем, которое используется для определения классов новых наблюдений на основе обучающих данных.
При классификации модель обучается на основе данного набора данных, а затем классифицирует новые наблюдения по нескольким классам.

В классификации машинного обучения есть два типа алгоритмов: ленивые и нетерпеливые (энергичные).

«Нетерпеливые» — это алгоритмы машинного обучения, которые сначала строят модель на основе обучающего набора данных,прежде чем делать какие-либо прогнозы для будущих наборов данных.Они тратят больше времени на тренировочный процесс, но им требуется меньше времени для прогнозирования.  Примеры: метод опорных векторов, деревья решений, наивный Байес.
«Ленивые»  алгоритмы не создают какую-либо модель сразу на основе обучающих данных. Они просто запоминают данные обучения, и каждый раз, когда возникает необходимость сделать прогноз, они ищут ближайшего соседа из всех данных обучения, что делает их очень медленными во время прогнозирования. Пример:  метод К-ближайших соседей.


1. Формальная постановка задачи классификации.
2. Переобучение и недообучение.
3. Метод опорных векторов: идея, выбор гиперплоскости, линейная неразделимость, спрямляющее отображение, трюк с ядром, часто используемые ядра.
4. Мультиклассовый метод опорных векторов: один против остальных, каждый против каждого.
5. Классификатор к-ближайших соседей (KNN): взвешенный KNN, достоинства и недостатки, выбор гиперпараметра k, выбор гиперпараметров с помощью GridSearch.
6. Деревья решений: основные понятия, примеры, построение дерева решений, критерий Джини, критерий прироста информации (ID3).
7. Алгоритм CART.
8. Ансамбли. Random Forest: примеры, оптимальное число деревьев, выбор гиперпараметров с помощью GridSearch.
9. Байесовский классификатор. Теорема Байеса.
10. Наивный байесовский классификатор: номинальные признаки, классификация спама, типы наивных байесовских классификаторов, примеры, преимущества и недостатки.
11. Оценка качества в бинарной классификации: матрица ошибок, Accuracy, Balanced Accuracy, Precision, Recall, F-score, ROC-кривая, AUC.
12. Оценка качества многоклассовой классификации.
13. Кросс-валидация.
14. Балансировка классов: сокращение мажоритарного класса, увеличение миноритарного класса.
15. Применения методов классификации

In [None]:
import numpy as np
from sklearn import svm
from sklearn.datasets import make_circles, make_gaussian_quantiles, load_iris, make_classification
from sklearn.multiclass import OneVsRestClassifier, OneVsOneClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score, KFold, LeaveOneOut, StratifiedKFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import roc_curve, auc

In [None]:
# Creating a data set
np.random.seed(0)
X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]
Y = [0] * 20 + [1] * 20

# Fit the model
clf = svm.SVC(kernel='linear')
clf.fit(X, Y)

# Draw the separating hypoplane
w = clf.coef_[0]
a = -w[0] / w[1]
xx = np.linspace(-5, 5)
yy = a * xx - (clf.intercept_[0]) / w[1]

# Construct lines through the reference vectors
b = clf.support_vectors_[0]
yy_down = a * xx + (b[1] - a * b[0])
b = clf.support_vectors_[-1]
yy_up = a * xx + (b[1] - a * b[0])

In [None]:
X1, y1 = make_circles(n_samples=500, noise=0.06, random_state=42)
X2, y2 = make_gaussian_quantiles(n_features=2, n_classes=2, n_samples=1000, mean=(2, 3))

linear_svc = svm.SVC(kernel='linear').fit(X1, y1)
linear_svc = svm.SVC(kernel='linear').fit(X2, y2)

rbf_svc = svm.SVC(kernel='rbf', gamma=0.7, C=1).fit(X1, y1)
rbf_svc = svm.SVC(kernel='rbf', gamma=0.7, C=1).fit(X2, y2)

In [None]:
iris = load_iris();
X, y = iris.data, iris.target

# Create train and test split
X_tr, X_t, y_tr, y_t = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Feature Scaling using StandardScaler
sc = StandardScaler().fit(X_tr)
X_tr_std, X_t_std = sc.transform(X_tr ), sc.transform(X_t)

# Fit the model and define strategy and fit model
ovr = OneVsRestClassifier(svm.SVC()).fit(X_tr_std, y_tr)

# make predictions
y_ovr = ovr.predict(X_t_std);

In [None]:
# Load IRIS dataset.
iris = load_iris();
X, y = iris.data, iris.target

# Create train and test split
X_tr, X_t, y_tr, y_t = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Feature Scaling using StandardScaler
sc = StandardScaler().fit(X_tr)
X_tr_std, X_t_std = sc.transform(X_tr), sc.transform(X_t)

# define strategy and fit model
ovo = OneVsOneClassifier(svm.SVC()).fit(X_tr_std, y_tr)
# make predictions
y_ovo = ovo.predict(X_t_std)

In [None]:
# Load IRIS dataset. Take the first two features
iris = load_iris()
X, y = iris.data[:, [0 ,1]], iris.target

# Create train and test split
X_tr, X_t, y_tr, y_t = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Feature Scaling using StandardScaler
sc = StandardScaler().fit(X_tr)
X_tr_std, X_t_std = sc.transform(X_tr), sc.transform(X_t)

# Fit the model
knn = KNeighborsClassifier(n_neighbors=5, p=2, weights= 'uniform', algorithm='auto').fit(X_tr_std, y_tr)
predicted = knn.predict(X_t_std)

In [None]:
X, y = make_circles(n_samples=500, noise=0.06, random_state=42)
X_tr, X_t, y_tr, y_t = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
sc = StandardScaler().fit(X_tr)
X_tr_std, X_t_std = sc.transform(X_tr), sc.transform(X_t)

error_rate = []
for i in range(1 ,40):
    knn = KNeighborsClassifier(n_neighbors=i).fit(X_tr_std , y_tr)
    pred_i = knn.predict(X_t_std)
    error_rate.append(np.mean(pred_i != y_t))


grid_params = {
    'n_neighbors': [3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    'weights': ['uniform', 'distance'],
    'metric': ['minkowski', 'euclidean', 'manhattan']
}
knn = KNeighborsClassifier()
gs = GridSearchCV(knn, grid_params, scoring='accuracy', refit=True)

g_res = gs.fit(X_tr_std, y_tr)
print(g_res.best_params_)

In [None]:
# Load IRIS dataset. Take the first two features
iris = load_iris()
X, y = iris.data[:, [0 ,1]], iris.target

# Create train and test split
X_tr, X_t, y_tr, y_t = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Feature Scaling using StandardScaler
sc = StandardScaler().fit(X_tr)
X_tr_std, X_t_std = sc.transform(X_tr), sc.transform(X_t)

# Fit the model
model = DecisionTreeClassifier().fit(X_tr, y_tr)
pred_y = model.predict(X_t)

In [None]:
# Load IRIS dataset. Take the first two features
iris = load_iris()
X, y = iris.data[:, [0 ,1]], iris.target

# Create train and test split
X_tr, X_t, y_tr, y_t = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Feature Scaling using StandardScaler
sc = StandardScaler().fit(X_tr)
X_tr_std, X_t_std = sc.transform(X_tr), sc.transform(X_t)

# Fit the model(n_estimators - Number of trees)
clf = RandomForestClassifier(n_estimators=100)

# Train the model using the training sets
clf.fit(X_tr_std, y_tr)
y_pred = clf.predict(X_t_std)

In [None]:
X, y = make_circles(n_samples=500, noise=0.06, random_state=42)
X_tr, X_t, y_tr, y_t = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
sc = StandardScaler().fit(X_tr)
X_tr_std, X_t_std = sc.transform(X_tr), sc.transform(X_t)

error_rate = []
for i in range(100 ,200):
    cl = RandomForestClassifier(n_estimators=i)
    cl.fit(X_tr_std, y_tr)
    pred_i = cl.predict(X_t_std)
    error_rate.append(np.mean(pred_i != y_t))

rfc = RandomForestClassifier(random_state =42)
param_grid = {
    'n_estimators': [100 , 200],
    'max_features': ['auto', 'sqrt', 'log2'],
    'max_depth': [4, 5, 6, 7, 8],
    'criterion':['gini', 'entropy']
}
CV_rfc = GridSearchCV(estimator=rfc, param_grid=param_grid, scoring='accuracy', refit=True)
g_res = CV_rfc.fit(X_tr_std, y_tr)
print(g_res.best_params_)

In [None]:
# Load IRIS dataset. Take the first two features
iris = load_iris()
X, y = iris.data[:, [0 ,1]], iris.target

# Create train and test split
X_tr, X_t, y_tr, y_t = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

gnb = GaussianNB()
y_pred = gnb.fit(X_tr, y_tr).predict(X_t)

In [None]:
docs = ['This is a sample document.', 'Another document to test.', 'A third sample for testing.']
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(docs)

clf = MultinomialNB()
clf.fit(X, [0, 1, 0])

new_doc = ['This is another test document.']
new_X = vectorizer.transform(new_doc)
predicted_class = clf.predict(new_X)

In [None]:
X, y = make_classification(n_samples=500, random_state=0)

# Fit the model
model = GaussianNB()
model.fit(X,y)
y_score = model.predict_proba(X)[:, 1]

# Calculation fpr = False Positive Rate , tpr = True Positive Rate and AUC
fpr, tpr, thresholds = roc_curve(y, y_score)
AUC = auc(fpr , tpr)

In [None]:
# Load dataset
iris = load_iris()
X, y = iris.data, iris.target

# Load model
rfm = RandomForestClassifier(n_estimators=100)

# 1. Hold-out cross-validation
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
rfm.fit(X_train, y_train)

# 2. K-fold cross-validation
kf = KFold(n_splits=5)
score = cross_val_score(rfm, X, y, cv=kf)

# 3. Stratified k-fold cross-validation
skf = StratifiedKFold(n_splits=3)
score = cross_val_score(rfm, X, y, cv=skf)

# 4. Leave-One-Out Cross-Validation
LOOCV= LeaveOneOut()
score = cross_val_score(rfm, X, y, cv=LOOCV)