# Практика для метрик классификации

## Практика 1 (бинарная классификация):

Реализуем бинарную классификацию записей голосов (мужских и женских) на основе характеристик записей их разговоров.

В предложенном датасете есть ряд свойств, определенных по аудиозаписям:

- meanfreq: средняя частота голоса (в кГц)
- sd: стандартное отклонение частоты голоса
- median: медианная частота (в кГц)
- Q25: значение в первом квартиле (в кГц)
- Q75: значение в третьем квартиле (в кГц)
- IQR: интерквартильный размах (в кГц)
- skew: ассиметрия
- kurt: эксцесс
- sp.ent: спектральная энтропия
- sfm: энтропия Винера
- mode: мода частоты
- centroid: частотный центроид
- meanfun: средняя основная частота, измеренная по акустическому сигналу
- minfun:  минимальная основная частота, измеренная по акустическому сигналу
- maxfun: максимальная основная частота, измеренная в акустическом сигнале
- meandom: среднее значение доминирующей частоты, измеренной по акустическому сигналу
- mindom: минимум доминирующей частоты, измеренной в акустическом сигнале
- maxdom: максимум доминирующей частоты, измеренной в акустическом сигнале
- dfrange: диапазон доминантных частот, измеренное на звуковой сигнал
- modindx: индекс модуляции голоса

Прежде, чем проводить анализ, можно с помощью визуализации оценить, есть ли различия в частотах голосов мужчин и женщин. Можем построить распределения, например, средних частот:

![voices](./img/classification_practice.png)

Красному цвету соответствуют данные для женских голосов, голубому — для мужских. В целом можно отметить, что распределение частот женских голосов сдвинуто вправо относительно распределения мужских.

Итак, характеристики для голосов различаются, попробуем теперь реализовать классификацию на их основе.


## Задание

Попробуйте построить модель, предсказывающую пол обладателя записи голоса.

Для этого:

Разделите выборку на обучающую и тренировочную с параметрами `test_size=0.3, random_state=42`.

Нормализуйте признаки с помощью функции `StandardScaler()`. Учитывайте, что нормализация тестовой выборки производится по среднему и отклонению тренировочной, которую мы считаем репрезентативной относительно генеральной совокупности.

Обучите модель логистической регрессии на подготовленных данных.

### Пояснение
Тестовые данные не должны влиять на параметры нормализации. Нужно использовать `SCALER.TRANSFORM` вместо `SCALER.FIT_TRANSFORM`, чтобы применять параметры нормализации, рассчитанные для тренировочных данных. Иначе данные в трейне и в тесте будут нормализованы по - разному.

In [1]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score 
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score
from sklearn.metrics import balanced_accuracy_score 
from sklearn.metrics import cohen_kappa_score
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

import pandas as pd
import numpy as np

In [2]:
voice_data = pd.read_csv('./data/voiceDataSet.csv')

In [3]:
voice_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3168 entries, 0 to 3167
Data columns (total 21 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   meanfreq  3168 non-null   float64
 1   sd        3168 non-null   float64
 2   median    3168 non-null   float64
 3   Q25       3168 non-null   float64
 4   Q75       3168 non-null   float64
 5   IQR       3168 non-null   float64
 6   skew      3168 non-null   float64
 7   kurt      3168 non-null   float64
 8   sp.ent    3168 non-null   float64
 9   sfm       3168 non-null   float64
 10  mode      3168 non-null   float64
 11  centroid  3168 non-null   float64
 12  meanfun   3168 non-null   float64
 13  minfun    3168 non-null   float64
 14  maxfun    3168 non-null   float64
 15  meandom   3168 non-null   float64
 16  mindom    3168 non-null   float64
 17  maxdom    3168 non-null   float64
 18  dfrange   3168 non-null   float64
 19  modindx   3168 non-null   float64
 20  label     3168 non-null   obje

In [4]:
voice_data.isna().sum()

meanfreq    0
sd          0
median      0
Q25         0
Q75         0
IQR         0
skew        0
kurt        0
sp.ent      0
sfm         0
mode        0
centroid    0
meanfun     0
minfun      0
maxfun      0
meandom     0
mindom      0
maxdom      0
dfrange     0
modindx     0
label       0
dtype: int64

In [5]:
voice_data.sample(5)

Unnamed: 0,meanfreq,sd,median,Q25,Q75,IQR,skew,kurt,sp.ent,sfm,...,centroid,meanfun,minfun,maxfun,meandom,mindom,maxdom,dfrange,modindx,label
3147,0.131566,0.084354,0.131889,0.053093,0.196147,0.143055,2.24337,11.54474,0.968324,0.784108,...,0.131566,0.191163,0.029144,0.275862,0.214725,0.007812,0.796875,0.789062,0.351645,female
207,0.168305,0.073634,0.19178,0.119088,0.220456,0.101368,1.653817,6.069666,0.953991,0.631997,...,0.168305,0.120378,0.01592,0.262295,1.270625,0.007812,5.476562,5.46875,0.282174,male
715,0.151356,0.062224,0.149828,0.094871,0.192951,0.09808,3.886627,23.211201,0.892498,0.410619,...,0.151356,0.100184,0.088496,0.222222,0.449856,0.087891,0.78125,0.693359,0.633132,male
1725,0.152174,0.072749,0.150119,0.128371,0.197691,0.06932,2.35276,9.365479,0.934023,0.580761,...,0.152174,0.125416,0.016129,0.262295,0.502887,0.007812,7.0,6.992188,0.07176,female
617,0.170625,0.072667,0.185302,0.116709,0.231371,0.114662,1.408412,6.306749,0.963756,0.717781,...,0.170625,0.123096,0.066116,0.275862,0.818257,0.007812,5.0625,5.054688,0.184653,male


In [6]:
voice_data['label'] = voice_data['label'].apply(lambda x: 1 if x == 'male' else 0)

In [7]:
X = voice_data.drop(columns=['label'])
y = voice_data['label']

In [8]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42)

In [9]:
# scaler = StandardScaler()

# X_train = scaler.fit_transform(X_train)
# X_test = scaler.transform(X_test)

In [10]:
pipe = Pipeline([
    ('scaling', StandardScaler()),
    ('regression', LogisticRegression())
])

In [11]:
model = pipe.fit(X_train, y_train)

y_pred = model.predict(X_test)

np.round(accuracy_score(y_test, y_pred), 3)

0.973

## Практика 2 (алгоритм kNN (метод ближайших соседей)):

Теперь познакомимся с новым алгоритмом классификации, а также снова потренируемся делить выборку и осуществлять кросс-валидацию. Кроме того, посмотрим, как можно оценить качество классификации для случая, когда наша классификация не бинарная, т.е. у нас несколько классов.

В этом кейсе мы попробуем определять типы стекла по его характеристикам.

Откроем данные и увидим, что в первых столбцах показатели содержания различных веществ в стекле, а в последнем (Type) — непосредственно тип стекла.

In [12]:
glass_data = pd.read_csv('./data/glass.csv')

In [13]:
glass_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 214 entries, 0 to 213
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   RI      214 non-null    float64
 1   Na      214 non-null    float64
 2   Mg      214 non-null    float64
 3   Al      214 non-null    float64
 4   Si      214 non-null    float64
 5   K       214 non-null    float64
 6   Ca      214 non-null    float64
 7   Ba      214 non-null    float64
 8   Fe      214 non-null    float64
 9   Type    214 non-null    int64  
dtypes: float64(9), int64(1)
memory usage: 16.8 KB


In [14]:
glass_data.sample(5)

Unnamed: 0,RI,Na,Mg,Al,Si,K,Ca,Ba,Fe,Type
148,1.5167,13.24,3.57,1.38,72.7,0.56,8.44,0.0,0.1,3
40,1.51793,12.79,3.5,1.12,73.03,0.64,8.77,0.0,0.0,1
35,1.51567,13.29,3.45,1.21,72.74,0.56,8.57,0.0,0.0,1
189,1.52365,15.79,1.83,1.31,70.43,0.31,8.61,1.68,0.0,7
77,1.51627,13.0,3.58,1.54,72.83,0.61,8.04,0.0,0.0,2


Наша классификация мультиклассовая, поэтому мы должны посмотреть, сколько у нас классов. Если вы вообще ничего не знаете о задаче в плане количества классов, обязательно начинайте с этого, поскольку это повлияет на ход решения. Особенно важно понять, бинарная классификация или нет.

Сколько классов стекла представлено в этой задаче?

In [15]:
len(glass_data['Type'].unique())

6

Итак, мы выяснили, сколько у нас классов и узнали, что в этот раз у нас будет не бинарная классификация. А значит, мы не сможем использовать некоторые метрики качества (например, **precision** и **recall**).

Приступим непосредственно к построению модели. На примере этой задачи мы узнаем новый алгоритм **kNN (метод ближайших соседей)**. Это один из простейших методов классификации. 

Его называют ленивым классификатором, потому что во время обучения модели он ничего не делает, просто считывает и сохраняет тренировочные данные. Сама классификация для него начинается тогда, когда ему дают тестовые данные. Тогда kNN проходит два базовых шага:

1. Сначала он ищет k ближайших размеченных точек данных – эти точки и называют k ближайшими соседями.
2. Затем, используя классы соседей, kNN решает, как лучше классифицировать новые данные.

> #### Пример
Предположим, что алгоритм хочет классифицировать вас по профессии. Он видит, что люди, рядом с которыми вы находитесь (родители, друзья), — врачи. Тогда он решает, что вы — тоже скорее всего врач. Грубо говоря, он основывается на принципе, что подобное находится рядом с подобным.

А что делать, если ближайшие соседи не принадлежат одному классу? Можно решать по принципу большинства или дать каждому соседу вес (в зависимости от удаленности), с которым он будет вносить вклад в решение.

Например, попробуем классифицировать зеленый кружочек. На этом примере мы видим, что выбор числа соседей (это настраиваемый параметр) очень важен.

![kNN](./img/kNN.png)

Если мы будем рассматривать трех соседей, то кружочек будет причислен к классу треугольников. А если пять соседей — к классу квадратов.

> Важно! Количество соседей должно быть нечетное во избежание спорной ситуации.

Итак, мы разобрались с новым алгоритмом. Теперь воспользуемся `k-fold` валидацией на пяти разбиениях и обучим модель:

In [16]:
X = glass_data.drop(columns=['Type'])
y = glass_data['Type']

In [17]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score, KFold

model = KNeighborsClassifier(n_neighbors=3)
kf = KFold(n_splits=5)
cross_val_score(model, X, y, cv=kf, scoring="accuracy")

array([0.44186047, 0.65116279, 0.3255814 , 0.34883721, 0.07142857])

Если мы посмотрим на результаты классификации, то увидим достаточно большой разброс значений точности, а также в целом невысокие значения.

Это произошло в силу очень маленькой выборки в условиях большого количества классов (6 классов и около 200 наблюдений — крайне мало для получения высокого качества модели). Также плохой результат возможен по причине использования довольно простого алгоритма.

### Задание

> Измените количество разбиений на 10. Вычислите среднее значение метрики **accuracy** по 10 разбиениям и введите ниже, округлите до сотых.

In [18]:
model = KNeighborsClassifier(n_neighbors=3)
kf = KFold(n_splits=10)
np.round(cross_val_score(model, X, y, cv=kf, scoring="accuracy").mean(), 2)

0.53

## Практика 3

В следующей задаче мы будем **диагностировать болезни сердца** по различным медицинским параметрам пациентов.

Избавьтесь от выбросов, чтобы они не ухудшили качество нашей модели. Для того, чтобы избавиться от выбросов, уберите все данные, значения признаков которых отстают от первого или третьего квартиля более, чем на 1.5 межквартильного размаха.

In [19]:
heart_fin_data = pd.read_csv('./data/heart_fin1.csv', sep=';')

In [20]:
heart_fin_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    int64  
 1   sex       303 non-null    int64  
 2   cp        303 non-null    int64  
 3   trestbps  303 non-null    int64  
 4   chol      303 non-null    int64  
 5   restecg   303 non-null    int64  
 6   thalach   303 non-null    int64  
 7   exang     303 non-null    int64  
 8   oldpeak   303 non-null    float64
 9   target    303 non-null    int64  
dtypes: float64(1), int64(9)
memory usage: 23.8 KB


In [21]:
heart_fin_data.isna().sum()

age         0
sex         0
cp          0
trestbps    0
chol        0
restecg     0
thalach     0
exang       0
oldpeak     0
target      0
dtype: int64

In [22]:
def get_statistical_borders(df, column):
    perc25 = df[column].quantile(q=0.25, interpolation='midpoint')
    perc75 = df[column].quantile(q=0.75, interpolation='midpoint')
    IQR = perc75 - perc25

    take_from = perc25 - 1.5*IQR
    take_to = perc75 + 1.5*IQR

    return take_from, take_to

In [23]:
for column in heart_fin_data.columns:
    take_from, take_to = get_statistical_borders(heart_fin_data, column)
    heart_fin_data = heart_fin_data[(heart_fin_data[column] >= take_from) & (heart_fin_data[column] <= take_to)]

Сколько наблюдений осталось после удаления выбросов?

In [24]:
len(heart_fin_data)

284

Теперь разбейте выборку на тестовую и обучающую с параметрами `test_size=0.15, random_state=5`.

Обучите модели логистической регрессии (c параметром `max_iter=1000`) и KNN (с количеством соседей, равным 3) на этих данных. Вычислите метрики качества.

У какой модели выше значение ROC AUC?

In [25]:
X = heart_fin_data.drop(columns=['target'])
y = heart_fin_data['target']

In [26]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.15, random_state=5)

In [27]:
log_model = LogisticRegression(max_iter=1000)
log_model.fit(X_train, y_train)

LogisticRegression(max_iter=1000)

In [28]:
kneighbors_model = KNeighborsClassifier(n_neighbors=3)
kneighbors_model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

In [29]:
from sklearn.metrics import roc_auc_score

**ROC AUC** считается не по меткам предсказанным вероятностям. Для этого используйте predict_proba() (нужен второй столбец)

In [30]:
log_y_pred_proba = log_model.predict_proba(X_test)

kneighbors_y_pred_proba = kneighbors_model.predict_proba(X_test)

print('Logistic Regression: {}\nKNeighbors: {}'.format(
    np.round(roc_auc_score(y_test, log_y_pred_proba[:, 1]), 2),
    np.round(roc_auc_score(y_test, kneighbors_y_pred_proba[:, 1]), 2)
))

Logistic Regression: 0.82
KNeighbors: 0.65
