In [None]:
!pip install --upgrade pip
!pip install pandas
!pip install scipy
!pip install seaborn
!pip install numpy

## Немного статистики

### Базовые понятия мат. статистики

Для начала вспомнил, какими способами можно поисать поведение признаков (столбцов)

Например, существует числовой признак X = $[x1, x2, ... , X_n]$

Что можно сказать о P?

1. min, max

2. Среднее занчение $ \bar x = {x_1+x_2+...+p_n \over n} $

3. Медиана - такое число $h_x$ котороое делит выборку таким образом, что ровно половина элементов больше него, а другая половина элементов меньше. Например для выборки [1,3,5,5,15] $ \bar x = 5.8 $, а $ h_x = 5 $ 

То есть, в отсортированном массиве медиана - занчение по середине $ X[len(X)] \over 2 $. Для выборок с четным количеством элементов - медиана не оределена и считается как среднее между двумя соседями по середине. $ (X[(len(X) - 1) /2 ] + X[(len(X) + 1) /2]) \over 2 $


**Медиана vs Среднее**

Значение медианы не так сильно зависит от попадания в выборку аномально больших и аномально малых значений признака

**Симметричные выборки**

Если медиана и среднее близки к друг-другу, то выборка называется симметричной

Важность симметричных выборок - Для них проще искать аномалии4. Мода - значение которое наиболее часто встречается в выборке. Например модой для массива [1,2,1,1,6,5,9,102,1] будет 1. Мода не всегда определена однозначно. !!! Мода имеет смысл и для номинальных признаков

4. Мода - значение которое наиболее часто встречается в выборке. Например модой для массива [1,2,1,1,6,5,9,102,1] будет 1. Мода не всегда определена однозначно. !!! Мода имеет смысл и для номинальных признаков

5. Отклонение - среднее и медиана не достаточно для адекватного описания выборки. Например для наборов [0,0,0,0,0] и [-2,-1,0,1,2] $h_x = \bar x$, однако во второй выборке значения чаще отклоняются от от среднего.

Отклонение считается по формуле $ S_x = \sqrt{{1 \over{n-1}} * \displaystyle\sum_{i=1}^{n} {(x_i - \bar{x})}^2 } $

Для первой выборки из прмера отклонение = 0

Для второй выборки из примера отклонение = 1.58

** Свойства отклонения **

1. Отклонение всегда неотрицательно
2. Отклонение значений P = 0, если значения P равны друг-другу
3. Чем больше отклонение, тем сильнее разброс значений

### Симметричные выборки

Если $h_x$ близко к  $\bar x$, то выборка называется симметричной, когда выполняется неравенство:

модуль разности среднего и медианы <= 3*отклонение / sqrt(n)

$| \bar x - h_x | \leq { 3S_x \over \sqrt n}$

## Коэф корреляции

Необходима величина, которая показывает, как значения одного числовго признака, влияют или зависят от друго числовго признака. Также эта величина, должна иметь смысл для признаков выраженных через разные смысловие единины (кг и литры, метры и литры, ...)

**Пример зависимости между столбцами**
```
| X1 | X2  |  X3 | X4 | X5 |
|----|-----|-----|----|----|
| 0  | 1   | 0   | 10 | 8  |
| 1  | 0   | 200 | 13 | 6  |
| 2  | 1   | 400 | 16 | 4  |
| 3  | 63  | 600 | 19 | 2  |
```
Видна сильная зависиомсть между X1 и X3, X4, X5. Так как мы можем очень легко предсказать через выражения:

$X_3 = X_1 * 200$

$X_4 = 10 + X_1 *3$

$X_5 = 8 - 2 * X_1$

Показатель KK - показатель того, как переменные ложаться на прямую

**Если точки легко складываются на прямой, то зависимость существует, иначе сложно судить о зависимости**

Если простым языком, то коэф. корреляции показывает, как ваши данные ложатся на прямую. Ниже представлен пример того, как данные ложатся на прямую.

Как считается?

Пусть $X = [x_1,x_2,...,x_n]$, а $Y = [y_1,y_2,...,y_n]$

$ r(X, Y) = { \displaystyle\sum_{i=1}^{n} ({x_1 * y_x}) - (n * \bar {x} * \bar {y}) \over {(n-1) * S_X * X_Y} } $

**Свойства корреляции**

1. Число из отрезка [-1, 1]
2. Если KK = 0, то зависимости между X,Y - нет
3. Если КК > 0, то существует положительная зависимости (чем ближе к 1, тем сильнее). То есть при увеличении x - растет и y
4. Если КК < 0, то существует отрицательная звисимость (чем ближе к -1, тем сильнее). То есть при уменьшении x - уменьшается и y
5. Если |KK| равен 1, то существует сильная линейная зависимость

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

df = pd.DataFrame(
        [
            [0,1,0,10,8],
            [1,0,200,13,6],
            [2,1,400,16,4],
            [3,63,500,19,2]
        ],
        columns=['X1', 'X2', 'X3', 'X4', 'X5']
)

y_test_columns = df.columns[1:]

for y_col in y_test_columns:
    g = sns.lmplot(
        data=df,
        x="X1", y=y_col,
    )
    g.set_axis_labels("X1", f"{y_col}")
    
    plt.legend(title=f'X1 ~ {y_col}', loc='upper left', labels=[])
    plt.show(g)


In [None]:
# через pandas
# берем только числоые значения, в нашем случае int64, наиболее чаще в дикой природе float64
float_cols = [col for col in df.columns if df[col].dtype == 'int64' ] # | float64
df[float_cols].corr()

In [None]:
from pprint import pprint

def median(sample: list[float]) -> float:
    size = len(sample)
    start_index = int(size / 2)
    x = sorted(sample)
    
    if size % 2 != 0:
        median_index = start_index
        return x[median_index]
    
    median_left_child, median_right_child  = start_index - 1, start_index + 1

    return sum(x[median_left_child:median_right_child]) / 2

def mean(sample: list[float]) -> float:
    return sum(sample) / len(sample)


In [None]:
# медиана в нечетном множествет
x = sorted([1,3,5,5,15])

describe = {
    'mean': mean(x),
    'median': median(x)
}

pprint(describe)

In [None]:
# медиана в четном множестве
x = sorted([1,3,5,5,15, 102])

describe = {
    'mean': mean(x),
    'median': median(x)
}

pprint(describe)

## Обработка пропусков

### Простейшие способы обработки

Достаточно часто в дикой природе встречаются таблицы с прпоусками или заведомо ложными значениями.
Возникает вопрос, что делать в данном случае (пропуски, выбросы, аномалии, билеберда)?

Рассмотрим пример с такой таблицой, где часть ячеек не заполнена, а часть содержит некорректные данные

например, вес не может равнятся 649 кг, вероятно была совершена ошибка и оригинальное значение 64.09.

Место на олимпиаде не может быть отрицательным значением, исходя из описания переменной, вероятно это 4.

Также видно, что существуют пропуски. Эти значения нужно либо как-то заполнить либо как-то что

Скорее всего эти ошибки возникли из-за описки человека, который эту таблицу заполнял

In [None]:
df = pd.DataFrame(
    [
        ['Сидоров', 1, pd.NA, 84.0, 1],
        ['Козловский', 1, 76, 70, 3],
        ['Петрова', 0, 61, 649, -4],
        ['Казаков', pd.NA, 76, 56, 2]
    ],
    columns = ['Студент', 'Пол', 'Баллы_по_предмету', 'Вес', 'Место_на_WorldSkills']
)

df_base = df.copy()

df

## Какие существуют простые методы обработки

1. Удалить объект (строку)
2. Удалить столбец, если пропусков очень много + нет никаких зависимых переменных
3. Заменить значение на среднее (медиану, медиану, моду, ...) из значений столбца
4. Посчитать относительно расстояний соседей
5. Взять наиболее встречаемый признак у зависимых переменных 

P.S. 1 и 2 способы крайне радикальные и их стоит применять с осторожностью. Так как удаляя объекты с равномерно распределенными пропусками, вы утратите данные

Например

In [None]:
# Способ актуален для числовых признаков
mean = df.Баллы_по_предмету.mean()

median = df.Баллы_по_предмету.median()

freq = df.Баллы_по_предмету.mode()

describe = {
    'mean': df.Баллы_по_предмету.mean(),
    'median': df.Баллы_по_предмету.median(),
    'mode': df.Баллы_по_предмету.mode().iloc[0,],
}

pprint(describe)
# Какое значение из данных случаев подойдет для Сидорова
df

Как быть с номинальными признаками?

В качестве примера рассмотрим пол

- Заменить пропуски на моду (1)
- Рандомизировать поиск. С вероятность < 2/3 считать как 1, с вероятность больше чем 1/3 считать 0
- Объявить пол "числовым" и применить к нему методы восстановления для числовых значений
- Более сложные способы восстановления (ближайшие соседи, постановка гипотез относительно этой переменной)


In [None]:
# Способ актуален для номинальных признаков признаков
# Пол - считаем моду
index = df_base[df_base.Пол.isnull()].index[0]

df.at[index, 'Пол'] = df_base.Пол.mode().iloc[0]
df

In [None]:
# Вес считаем по среднему значению
mean_weight = df_base.Вес[(df_base.Вес < 100)].mean()
index = df_base[df_base.Вес == 649].index[0]

df.at[index, 'Вес'] = mean_weight
df

In [None]:
# делаем abs для места на соревновании
import numpy as np

df.Место_на_WorldSkills = np.abs(df.Место_на_WorldSkills.to_numpy())
df

In [None]:
df

### Восстановка с помощью метрик (Мера близости)

Метрика - понятие из геометрии, может быть рассчитана для объектов произвольный припроды.

Задача - найти значение метрики на паре $X$, $Y$, где $X = [x_1,x_2,..,x_n] $, $ Y = [y_1, y_2, ..., y_n] $

1. Евклидова метрика (из учбеника по геометрии) $ p(X,Y) = \sqrt { (x_1 - y_1)^2 + (x_2 - y_2)^2 + ... (x_n - y_n)^2 } $

2. [Метрика Манхеттен](https://math.fandom.com/ru/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%B3%D0%BE%D1%80%D0%BE%D0%B4%D1%81%D0%BA%D0%B8%D1%85_%D0%BA%D0%B2%D0%B0%D1%80%D1%82%D0%B0%D0%BB%D0%BE%D0%B2) $ p(X,Y) = |x_1 - y_1| + |x_2 - y_2| + ... + (x_n - y_n) $

3. Max Метрка $ p(X,Y) = max(|x_1 - y_1|, |x_2 - y_2|, ..., |(x_n - y_n)|) $

4. [И так далее, желательно почитать](https://towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa)

5. Можно придумать свою, но обязтально выполнение свойств

**Свойства метрик**
- $p(X, X) = 0$, расстояние об объекта до него же самого равно 0
- $p(X,Y) = p(Y,X)$, одинаковые точки должны быть равны
- $p(X,Y) <= p(X, M) + p(M, Y)$, расстояние от X до Y, должна быть меньше суммы расстояний пройденные через промежуточные точки

Как использовать метрики?💡

Необходимо рассчитать расстояние от $X$ до других объектов, чтобы найти наиболее близкие объекты к $X$.
Тогда значения Признака $X_p$ из ближайших $k$ объектов можно взять за значение  $X_p$ 

1. Исключаем столбец из с признаком $K$
2. Найдем расстояние от $X$ до остальных объектов $p(X, X_1)$, $p(X, X_2)$, ..., $p(X, X_3)$
3. Пусть значения признака $K$ Для объектов $X_1, X_2, ... X_n$ равны $P(X_1)$, $P(X_2)$, ..., $P(X_n)$

In [None]:
import math 
import numpy as np

def calc_metric(sample1: np.array, sample2: np.array, formula: str) -> float:

    fn = {
        'euclid': lambda : np.sqrt(np.sum(np.square(sample1 - sample2))),
        'manhattan': lambda : np.sum(np.abs(sample1 - sample2)),
        'max': lambda : np.max(np.abs(sample1 - sample2))
    }

        
    return fn[formula]()

df

In [None]:
# Массив коэфициентов расстояний объектов
metrics_result = []

df_test = df[df.columns[[1,3,4]]]

x = df_test.loc[df.Баллы_по_предмету.isnull()].to_numpy()

for columns, values in df_test[~df.Баллы_по_предмету.isnull()].iterrows():
    x2 = values.to_numpy()
    metric_value = calc_metric(x, x2, 'euclid')
    metrics_result.append(metric_value)
    print('metric:', metric_value)
    
values = df[~df.Баллы_по_предмету.isnull()].Баллы_по_предмету.to_numpy()
metrics_result = np.array(metrics_result)

normal = 1 / np.sum(1 / metrics_result) # коэфициент нормализации, нужен т.к. если расстояние близкое - то значение большое, иначе малое

ball = np.sum(np.divide(values, metrics_result)) * normal # вычисляем результат


In [None]:
df_copied = df.copy()

df_copied.at[0, 'Баллы_по_предмету'] = ball
df_copied

Вообщем обработка пропусков это большая сложная тема, нет конкретно четкой методики, как поступить в той или иной ситуации.

**[Дополнительно почитать, как можно обработать пропуски](https://towardsdatascience.com/7-ways-to-handle-missing-values-in-machine-learning-1a6326adf79e)**