## Занятие 7. Линейные модели для классификации

Веберите любые данные для задачи классификации из репозитория данных для машинного обучения (UCI Machine learning repository: http://archive.ics.uci.edu/ml/index.php) или возьмите свои данные и постройте линейные модели в соответствии со следующей схемой. Комментарии к каждому разделу обязательны.

In [None]:
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [None]:
import pandas as pd
from pandas import read_csv
url = 'https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv'
df = read_csv(url)
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [None]:
df['classID'] = pd.factorize(df['species'])[0]
df.drop('species', axis=1, inplace=True)

### Logistic Regression

Используя бинарный классификатор для каждого класса, мы получаем один вектор коэффициентов (w) и одну константу (b) по каждому классу. Класс, который получает наибольшее значение регрессии, составленной из признаков, их весов и константы, становится присвоенной меткой класса.

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

array = df.values
X = array[:,0:4]
Y = array[:,4]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LogisticRegression(solver='liblinear')
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean(), results.std())

0.9533333333333334 0.08459051693633016


Точность очень высокая. Данные хорошо разделимы. Малая дисперсия подтверждает, что модель работает одинакого хорошо на разных тестовых выборках

### Support Vector Machines

Основная идея метода — перевести векторы в пространство более высокой размерности и найти разделяющую гиперплоскость.

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC

array = df.values
X = array[:,0:4]
Y = array[:,4]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = SVC()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean(), results.std())

0.9600000000000002 0.053333333333333316


Точность и дисперсия примерно такая же, как в предыдущем методе. Модель, опять же, точная и надежная.

### Linear Discriminant Analysis

ЛИнейный дискриминантный анализ основан на переходе от формулы Байеса к линейной дискриминантной функции 

In [None]:
# LDA Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

array = df.values
X = array[:,0:4]
Y = array[:,4]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = LinearDiscriminantAnalysis()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean(), results.std())

0.9800000000000001 0.030550504633038926


Наблюдаем еще более высокую точность. Дисперсия тоже меньше. Это значит, что модель точна и работает надежно.