# Базовые понятия статистики

Булыгин Олег:  
* [LinkedIn](linkedin.com/in/obulygin)  
* [Telegram](https://t.me/obulygin91)  
* [Vk](vk.com/obulygin91)  
* email: obulygin91@ya.ru  

[Сообщество по Python](https://yandex.ru/q/loves/pythontalk/) на Кью  
[Сообщество по Data Science и анализу данных](https://yandex.ru/q/loves/datatalk/) на Кью 

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/obulygin/netology_pyda_files/main/weight-height.csv')

# какие типы признаков в нашем датафрейме?
df.head()

Unnamed: 0,Gender,Height,Weight
0,Male,73.847017,241.893563
1,Male,68.781904,162.310473
2,Male,74.110105,212.740856
3,Male,71.730978,220.04247
4,Male,69.881796,206.349801


In [3]:
# переведем в килограммы и сантиметры
df['Height'] = df['Height'] * 2.54
df['Weight'] = df['Weight'] * 0.45
df.head()

Unnamed: 0,Gender,Height,Weight
0,Male,187.571423,108.852103
1,Male,174.706036,73.039713
2,Male,188.239668,95.733385
3,Male,182.196685,99.019112
4,Male,177.499761,92.85741


## Минимум, максимум и размах

In [4]:
print(max(df['Height']))
print(np.max(df['Height']))
print(df['Height'].max())

200.6568055598296
200.6568055598296
200.6568055598296


In [5]:
print(min(df['Weight']))
print(np.min(df['Weight']))
print(df['Weight'].min())

29.115057020738853
29.115057020738853
29.115057020738853


In [6]:
df[df['Weight'] == df['Weight'].min()]

Unnamed: 0,Gender,Height,Weight
9285,Female,137.828359,29.115057


In [None]:
# размах – разница между минимальным и максимальным значением
weight_range = df['Weight'].max() - df['Weight'].min()
height_range = df['Height'].max() - df['Height'].min()
print(weight_range)
print(height_range)

## Среднеарифметическое

In [None]:
# ручной подсчет
sum(df['Weight']) / len(df['Weight'])

In [None]:
print(np.mean(df['Weight']))
print(df['Weight'].mean())

## Мода

In [None]:
# Создаём пустой словарь, в котором будем считать количество появлений значений веса
weight_counts = {}
for w in df['Weight'].round():
    if w not in weight_counts:
        weight_counts[w] = 1
    else:
        weight_counts[w] += 1

# Проходимся по словарю и ищем максимальное количество повторений
# Алгоритм поиска максимума
maxw = 0
mode_weight = None
for k, v in weight_counts.items():
    if maxw < v:
        maxw = v
        mode_weight = k
print('Значение моды:', mode_weight, 'количество встречаемости:', maxw)

In [None]:
print('Значение моды: ', df['Weight'].round().mode()[0])

## Медиана

In [None]:
# ручной подсчет
height = df['Height']

# Находим  количество значений
num_height = len(df['Height'])

# Сортируем в порядке возрастания
sorted_height = sorted(height)

# Ищем индекс среднего элемента
# если количество элементов четное, то берем среднее двух элементов в середине
middle = (num_height // 2)
if num_height % 2 == 0:
    result = (sorted_height[middle-1] + sorted_height[middle])/2
else:
    result = sorted_height[middle]
# Находим медиану
print('Медиана: ', result)

In [None]:
print(df['Height'].median())
print(np.median(df['Height']))

## СКО

In [None]:
# ручной подсчет
def stdev(nums):
    diffs = 0
    # считаем среднее значение
    avg = sum(nums) / len(nums)
    for n in nums:
        # считаем сумму квадратичных отклонений
        diffs += (n - avg) ** (2)
    # считаем корень среднеквадратичного значения
    return (diffs / (len(nums) - 1)) ** (0.5)

stdev(df['Height'])

In [None]:
print('Рост')
print(df['Height'].std())
print(np.std(df['Height'], ddof=1)) # дельта степеней свободы в numpy по умолчанию 0

print('Вес')
print(df['Weight'].std())
print(np.std(df['Weight'], ddof=1))

## Дисперсия

In [None]:
# ручной подсчет
def disp(nums):
    diffs = 0
    # считаем среднее значение
    avg = sum(nums)/len(nums)
    for n in nums:
        # считаем сумму квадратичных отклонений
        diffs += (n - avg)**(2)
    # считаем среднеквадратичного значения
    return diffs/(len(nums)-1)

print(disp(df['Height']))
print(disp(df['Weight']))

In [None]:
print('Рост')
print(np.var(df['Height'], ddof=1))
print(df['Height'].var())

print('Вес')
print(np.var(df['Weight'], ddof=1))
print(df['Weight'].var())

## Квантили

In [None]:
# это же медиана!
df['Height'].quantile()

In [None]:
# первый и третий квартили
df['Height'].quantile([0.25, 0.75])

In [None]:
# произвольный перцентиль
df['Height'].quantile(0.33)

In [None]:
# межквартильный размах
Q1 = df['Height'].quantile(0.25)
Q3 = df['Height'].quantile(0.75)
IQR = Q3 - Q1
IQR

## Describe

In [None]:
df.describe()

## Выбросы

In [None]:
# тыкнем пальцем в небо (определим выбросы вручную) и посмотрим, как изменились средние
print(df['Weight'].mean())
print(df[(df['Weight'] > 50) & (df['Weight'] < 150)]['Weight'].mean())

In [None]:
# а медиана?
print(df['Weight'].median())
print(df[(df['Weight'] > 50) & (df['Weight'] < 150)]['Weight'].median())

In [None]:
# ну с модой все понятно
print(df['Weight'].round().mode()[0])
print(df[(df['Weight'] > 50) & (df['Weight'] < 150)]['Weight'].round().mode()[0])

А теперь найдем выбросы через межквартльный размах (на примере роста)

PS: через межквартильный размах корректно искать выбросы в нормально распределенных данных (про распределения будет дальше на курсе)

In [None]:
q1 = df['Height'].quantile(0.25)
q3 = df['Height'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers = df[df['Height'].between(lower_bound, upper_bound, inclusive=True)]
remove_outliers

In [None]:
# что это за выбросы?
df[~df['Height'].between(lower_bound, upper_bound, inclusive=True)]

In [None]:
print(remove_outliers['Height'].mean())
print(remove_outliers['Height'].median())

In [None]:
print(df['Height'].mean() - remove_outliers['Height'].mean())

In [None]:
print(df['Height'].median() - remove_outliers['Height'].median())

## Пропуски

Как часто в реальной жизни приходится заполнять пропуски?

На самом деле не часто. Заполнять нужно в том случае, когда алгоритм, для которого готовятся данные, чувствителен к пропускам. Например, регрессии и нейросети – чувствительны, а корреляция и стат-тесты нет (хотя для стат-тестов пропуски нужно удалять).

Кроме того, заполнять мы, строго говоря, имеем право только когда данные пропущены совершенно случайно (MCAR) – тогда заполнение не повлияет на характер связи междузаполняемой переменной и остальными. А то, что у нас MCAR нужно еще доказать.

Но это нужно уметь делать в тех случаях, когда необходимо. 

In [None]:
titanic = pd.read_csv('https://raw.githubusercontent.com/obulygin/netology_pyda_files/main/titanic.csv')
titanic.info()
titanic

Если в данных пропуски представлены в виде каких-то конкретных значений (пустые строк, -, ? и пр.), то используйте аргумент na_values при чтении файла.

In [None]:
(titanic.isna().mean() * 100).round(2)

### Игнорирование пропусков

In [None]:
# все методы pandas по-умолчанию просто не берут в расчет пропуски
print(titanic['Age'].mean())
print(titanic['Age'].median())
print(titanic['Age'].mode()[0])

print(titanic['Age'].std())
print(titanic['Age'].var())

### Удаление строк с пропусками

In [None]:
titanic.dropna().info()

In [None]:
# посмотрите на сколько исказились статистики, если мы удалим все строки с пропусками
print(titanic.dropna()['Age'].mean())
print(titanic.dropna()['Age'].median())
print(titanic.dropna()['Age'].mode()[0])

print(titanic.dropna()['Age'].std())
print(titanic.dropna()['Age'].var())

In [None]:
# предположим, мы хотим оставить только те строки, в которых как минимум 11/12 значений заполнено
titanic.dropna(thresh=11).info()

### Удаление столбцов с пропусками

In [None]:
# удалять все в данном случае – странно
titanic.dropna(axis = 1).info()

In [None]:
# у нас очень много пропусков в Cabin. Нам эта информация точно нужна?
titanic.drop(['Cabin'], axis=1).info()

### Замена пропусков

Замена на определенное значение

In [None]:
fill_by_cnst = titanic.copy()
fill_by_cnst['Cabin'] = fill_by_cnst['Cabin'].fillna('no_info')
print(fill_by_cnst['Cabin'].isna().sum())
print(fill_by_cnst['Cabin'].unique())

Заполняя пропуски, мы хотим сохранить параметры распределения заполняемой переменной – математическое ожидание и дисперсию. Самый простой способ это сделать – заполнить средним или медианой. В этом случае сохраняется среднее, но дисперсией приходится пожертвовать.

Замена средним

In [None]:
# возраст дискретен, при заполнении средними еще стоит округлить. Проигнорируем в учебных целях

fill_mean = titanic.copy()

fill_mean['Age'] = fill_mean['Age'].fillna(titanic['Age'].mean())

In [None]:
print(titanic['Age'].describe())
print('-----------------------------------')
print(fill_mean['Age'].describe())

Замена медианой

In [None]:
fill_median = titanic.copy()

fill_median['Age'] = fill_median['Age'].fillna(titanic['Age'].median())

In [None]:
print(titanic['Age'].describe())
print('-----------------------------------')
print(fill_median['Age'].describe())

Замена модой

In [None]:
titanic['Embarked'].value_counts()

In [None]:
titanic_fill_mode = titanic.copy()
titanic_fill_mode['Embarked'] = titanic_fill_mode['Embarked'].fillna(titanic['Embarked'].mode()[0])

titanic_fill_mode['Embarked'].value_counts()

В большинстве случаев это слишком наивные варианты заполнения, как минимум стоит заполнять значениями в разрезе других признаков (когда применимо).

Заполнение пропусков с группировкой по
одной переменной

In [None]:
# мы не можем исключать, что медианный возраст мужчин и женщин отличался
print(titanic.groupby('Sex')['Age'].median())
fill_median_by_gender = titanic.copy()
fill_median_by_gender['Age'] = fill_median_by_gender['Age'].fillna(titanic.groupby('Sex')['Age'].transform('median'))

In [None]:
# а может быть и в разных классах были пассажиры разного возраста?
print(titanic.groupby(['Sex', 'Pclass'])['Age'].median())
fill_median_by_groups = titanic.copy()
fill_median_by_groups['Age'] = fill_median_by_groups['Age'].fillna(titanic.groupby(['Sex', 'Pclass'])['Age'].transform('median'))

Заполнение следующими/предыдущими значениями

In [None]:
city_day = pd.read_csv('https://raw.githubusercontent.com/obulygin/netology_pyda_files/main/city_day.csv', parse_dates=True, index_col='Date')
city_day.info()

In [None]:
city_day

In [None]:
(city_day.isna().mean() * 100).round(2)

In [None]:
city_day.fillna(method='ffill', inplace=True)

In [None]:
city_day.fillna(method='bfill', inplace=True)

In [None]:
(city_day.isna().mean() * 100).round(2)