In [1]:
import numpy as np
import pandas as pd # Для работы с данными
import scipy.stats # При работе со статистикой
import matplotlib.pyplot as plt  # Библиотека для визуализации результатов 

# Классификация

Классификация –– задача предсказания отвеват из конечного множества вариантов.
Линейный классификатор –– решает задачу разделеняи признакового пространства на две части, в каждом из которых надится свой класс.

![](nonlinear.png)

![](linear.png)

<li><b>Классификация</b> - задача о разделении классов, по заданному набору признаков.</li>
    <li><b>Логистическая регрессия</b>  - это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой.</li>
    <li><b>Метод опорных векторов (англ. SVM)</b>  - поиск тем или иным способом разделяющей гиперплоскости между классами.</li>
    <li><b>Сигмоида (логистическая функция)</b>  - гладкая монотонная возрастающая нелинейная функция, которая часто применяется для «сглаживания» значений некоторой величины.</li>
</ul>
</div>

<h2>Логистическая регрессия</h2>

<p id="1">Рассмотрим задачу логистической регрессии. В данной задаче ключевую роль играет функция <i><b>сигмоида</b></i> (логистическая функция), которая используется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков:<
    /p>   $$\sigma (z) = \frac{1}{1+e^{-z}}\text{  ,  } z \in (-\infty, +\infty) \text{  ,  } \sigma(z) \in (-1, 1)$$
<p style="align: center;"><img align=center src="https://upload.wikimedia.org/wikipedia/commons/a/ac/Logistic-curve.png"  width=400></p>

Как и в задаче линейной регрессии задаем аргумент
$z=\theta^{T}x = \theta_{0} + \theta_{1}x_{1} + ... + \theta_{n}x_n$, где $\theta_{i}$ - параметры модели (веса), а $x_i$ - известные нам признаки.
<p id="2"><h3>Теория. Масимизация правдоподобия</h3>
Чтобы модель могла обучаться, ей необходимо получать "штраф" за то, что она ошибается. Подбираем такой параметр $\theta$, чтобы наша функция правдоподобия $L(\theta)$ была максимальной:
$$\hat{\theta} = argmax_{\theta}L(\theta) = argmax_{\theta} \prod\limits^{m}_{i=1}P(y=y_{i} | x = x_i)$$
</p>
После логарифмирования получаем: 
$$lnL(\theta)=\sum\limits_{i=1}^mlogP(y=y_i | x=x_i) = \sum\limits_{i=1}^m y_i lnf(\theta^Tx_i) + (1-y_i)ln(1-f(\theta^Tx_i))$$
где $y_i$ - индикаторная переменная. Если предсказание верно - $y_i = 1$, то в сумме остается только первый член, а если нет, то второй.

### Модель предсказывает вероятность классов {0,+1}
# $$p(y_i | x_i, w) = a^{y_i} (1-a_i)^{1-y_i}$$

### Максимизировать правдоподобие 

# $$ p(y| X, w) = \prod_i p(y_i|x_i, w) $$

### Функция потерь

# $$ L_{log} (X, \vec y, \vec w) = \sum\limits_{i}^l (-y_i log a_i - (1-y_i)log(1-a_i)) $$

<h1>Метод опорных векторов. SVM.</h1>
<p id="4">Алгоритм заключается в переводе исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Задача - разделить на классы. </p>
<img align=center src="https://wiki.loginom.ru/images/support-vector-machines.svg"  width=600></p>

$$r = y\frac{w^Tx +b}{||w||}$$
Здесь $w$ - это веса, $x$ - признаки.
Данная задача аналитически решается методом множителей Лагранжа. 
$$L(w,b;\lambda) = \frac{1}{2}||w||^2 - \sum\limits^{n}_{i=1}\lambda_i(c_i((w \cdot x_i) - b)-1) \rightarrow min_{w,b}max_{\lambda}$$
 где $\lambda_i \geq 0, 1 \leq i \leq n$

<div class="alert alert-info"><h3>Теория. Проблема линейной неразделимости.</h3><p id="5">Возникает проблема линейной неразделимости данных (когда у данных есть выбросы, шум). Если данные линейно неразделимы, то нужно перейти в признаковое пространство большей размерности, где классы уже могут быть разделены линейно.</p>
Записываем скалярное произведение в другом пространстве. </div>Ядра могут быть любые. Примеры: 
<ul>
    <li>Полиномиальное ядро $k(x,x') = (x \cdot x')^d$</li>
    <li>Полиномиальное ядро со смещением $k(x,x') = (x \cdot x' + 1)^d$</li>
     <li>Радиальная базисная функция $k(x,x') = exp (-\gamma ||x-x'||^2)$, для $\gamma > 0$</li> 
    <li>Радиальная функция Гаусса $k(x,x') = exp \left(-\frac{||x-x'||^2}{2\sigma^2}\right)$</li>
 </ul>
 <img align=center src="https://sun9-17.userapi.com/impg/WED5z6Jq6sM_D2kQduehRYIsoxaK5L3EZIwQvw/QxBRixWCKlA.jpg?size=1234x527&quality=96&proxy=1&sign=94a6398d0d6250781768375641f441f5&type=album"  width=600></p>
 $\text{ }$

### Множество гиперплоскостей:

####    - Множество решений для уравнения плоскости $ax + by -c = 0$
####    - SVM находит оптимальную разделяющую поверхность
####    - Максимальный зазор
####    - Если линейно не разделимы, можно попробовать отобразить данные в пространство более высокой размерности

#### The "Kernel Trick"

    - SVM зависит от скалярного произведения $K(x_i, x_j) = x_i^T x_j$
    - Если каждая точка отображается в пространство более высокой размерности при помощи $\Phi: x \to \phi(x)$, тогда скалярное произведение принимает вид $K(x_i, x_j) = \phi(x_i)^T \phi(x)$
    - Функция ядра -- это функция, соответсвующая скалярному произведению в провстранстве более высокой размерности

### Практика. Регрессия "из коробки"
<p id="3">Решаем задачу о предсказании пола спортсмена.</p>

In [2]:
data = pd.read_csv('https://raw.githubusercontent.com/a-milenkin/datasets_for_t-tests/main/athletes.csv') # датасет - https://www.kaggle.com/rio2016/olympic-games
data.head()

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11538 entries, 0 to 11537
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           11538 non-null  int64  
 1   name         11538 non-null  object 
 2   nationality  11538 non-null  object 
 3   sex          11538 non-null  object 
 4   dob          11537 non-null  object 
 5   height       11208 non-null  float64
 6   weight       10879 non-null  float64
 7   sport        11538 non-null  object 
 8   gold         11538 non-null  int64  
 9   silver       11538 non-null  int64  
 10  bronze       11538 non-null  int64  
dtypes: float64(2), int64(4), object(5)
memory usage: 991.7+ KB


In [4]:
data.head()

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0


In [5]:
data[ pd.isnull(data['height'])].head()

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
12,258556239,Abbas Qali,IOA,male,10/11/92,,,aquatics,0,0,0
47,469953606,Abdoullah Bamoussa,ITA,male,6/8/86,,,athletics,0,0,0
50,325809293,Abdul Omar,GHA,male,10/3/93,,,boxing,0,0,0
52,262868423,Abdulaziz Alshatti,IOA,male,10/30/90,,,fencing,0,0,0
56,897549624,Abdullah Hel Baki,BAN,male,8/1/89,,,shooting,0,0,0


In [6]:
data['height'].unique() 

array([1.72, 1.68, 1.98, 1.83, 1.81, 1.8 , 2.05, 1.93, 1.65, 1.7 , 1.75,
        nan, 1.61, 1.78, 1.76, 2.1 , 1.73, 1.85, 1.77, 1.9 , 1.86, 1.74,
       1.6 , 2.07, 1.88, 1.66, 1.62, 1.87, 2.03, 1.69, 1.82, 1.89, 1.94,
       1.95, 1.71, 1.84, 1.91, 1.67, 2.02, 1.58, 1.63, 1.79, 1.97, 1.56,
       1.55, 1.57, 1.46, 1.92, 1.64, 1.53, 1.99, 1.96, 2.  , 2.04, 1.47,
       1.52, 2.01, 1.51, 1.59, 2.08, 1.37, 1.5 , 1.45, 2.06, 1.54, 2.11,
       1.43, 1.49, 1.33, 1.48, 1.44, 2.13, 2.09, 2.21, 2.18, 1.21, 1.38,
       1.34, 2.15, 2.17, 1.42, 1.4 , 2.14])

In [7]:
# обнуляем ячейки с отсутствием данных
# data = data[pd.isnull(data['height']) == -1 ]
# data = data[pd.isnull(data['weight']) == -1 ]

data = data.fillna(-1)

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11538 entries, 0 to 11537
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           11538 non-null  int64  
 1   name         11538 non-null  object 
 2   nationality  11538 non-null  object 
 3   sex          11538 non-null  object 
 4   dob          11538 non-null  object 
 5   height       11538 non-null  float64
 6   weight       11538 non-null  float64
 7   sport        11538 non-null  object 
 8   gold         11538 non-null  int64  
 9   silver       11538 non-null  int64  
 10  bronze       11538 non-null  int64  
dtypes: float64(2), int64(4), object(5)
memory usage: 991.7+ KB


<div class="alert alert-info"><p> Далее используем популярную библиотеку <b>scikit-learn</b> для классического машинного обучения. Для дополнительного изучения всю документацию можете найти на <a href="https://scikit-learn.org/stable/">сайте</a>. Она умеет довольно неплохо решать множество задач машинного обучения, но чаще всего испольузется для обучения, а не для конкретных задач.</p></div>

In [9]:
data

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,Zurian Hechavarria,CUB,female,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,Zuzana Hejnova,CZE,female,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,di Xiao,CHN,male,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,le Quoc Toan Tran,VIE,male,4/5/89,1.60,56.0,weightlifting,0,0,0


In [10]:
# попробуем выбрать какие-нибудь признаки
selectedColumns = data[ [ 'height', 'sport', 'sex' ] ]

# столбец sport является категориальной переменной
# переведем ее в значения 0 и 1, добавив столбцы с соответствующими названиями
X = pd.get_dummies( selectedColumns, columns = [ 'sport' ] )

# столбец sex является целевой переменной, удаляем его из X
del X['sex']
X.head()

Unnamed: 0,height,sport_aquatics,sport_archery,sport_athletics,sport_badminton,sport_basketball,sport_boxing,sport_canoe,sport_cycling,sport_equestrian,...,sport_rugby sevens,sport_sailing,sport_shooting,sport_table tennis,sport_taekwondo,sport_tennis,sport_triathlon,sport_volleyball,sport_weightlifting,sport_wrestling
0,1.72,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1.68,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1.98,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1.83,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
4,1.81,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0


In [11]:
# целевая переменная (столбец sex) снова является категориальной
# переведем значения столбца в числа, оставив один столбец

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

In [12]:
le.fit( data['sex'] )

LabelEncoder()

In [13]:
le.classes_

array(['female', 'male'], dtype=object)

In [14]:
# пример "расшировки" столбца sex

le.transform( [ 'male', 'female', 'male' ] )

array([1, 0, 1])

In [15]:
# записываем в переменную y преобразованный столбец sex

y = pd.Series( data = le.transform( data['sex'] ) )
y.head()

0    1
1    0
2    1
3    1
4    1
dtype: int64

In [16]:
from sklearn.linear_model import LogisticRegression

In [17]:
model = LogisticRegression()

In [18]:
X

Unnamed: 0,height,sport_aquatics,sport_archery,sport_athletics,sport_badminton,sport_basketball,sport_boxing,sport_canoe,sport_cycling,sport_equestrian,...,sport_rugby sevens,sport_sailing,sport_shooting,sport_table tennis,sport_taekwondo,sport_tennis,sport_triathlon,sport_volleyball,sport_weightlifting,sport_wrestling
0,1.72,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1.68,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1.98,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1.83,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
4,1.81,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11533,1.64,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
11534,1.73,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
11535,1.85,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
11536,1.60,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


In [19]:
# обучаем модель

model.fit( X, y )
predictions = model.predict_proba( X )

In [20]:
predictions[:5]

array([[0.46156961, 0.53843039],
       [0.5147606 , 0.4852394 ],
       [0.42580344, 0.57419656],
       [0.49075979, 0.50924021],
       [0.35878605, 0.64121395]])

In [21]:
model.predict(X)

array([1, 0, 1, ..., 1, 1, 1])

In [22]:
model.score(X, y)

0.6438724215635292

# SVC

In [23]:
from sklearn.pipeline import make_pipeline # используем пайплайны для удобства
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split 
from sklearn.metrics import f1_score

In [24]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [25]:


model = make_pipeline(StandardScaler(), LogisticRegression(max_iter=1000, class_weight='balanced'))
from sklearn.svm import SVC
# используем пайплайны
clf = make_pipeline(StandardScaler(), SVC(gamma='auto',class_weight='balanced',kernel='sigmoid')) 
clf.fit(X_train, y_train)

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('svc',
                 SVC(class_weight='balanced', gamma='auto', kernel='sigmoid'))])

In [26]:
clf.score(X_train, y_train) 

0.6680390032502709

In [27]:
f1_score(clf.predict(X_train), y_train)

0.666739177724603

In [28]:
f1_score(clf.predict(X_test), y_test)

0.6594076655052266

<p>Без StandardScaler получаем более худший результат:</p>

In [29]:
svc = SVC( class_weight='balanced', kernel = 'poly')
svc.fit(X_train, y_train)

SVC(class_weight='balanced', kernel='poly')

In [30]:
svc.score(X_train, y_train)

0.7894907908992416

In [31]:
svc.score(X_test, y_test)

0.7755632582322357

In [32]:
f1_score(svc.predict(X_test), y_test)

0.7791986359761296