In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('weight-height.csv')

# какие типы признаков в нашем датафрейме?
df.head()

In [None]:
# переведем в килограммы и сантиметры
df.Height = df.Height * 2.54
df.Weight = df.Weight * 0.45
df.head()

# Минимум, максимум и размах

In [None]:
print(max(df.Height))
print(np.max(df.Height))
print(df.Height.max())

In [None]:
print(min(df.Weight))
print(np.min(df.Weight))
print(df.Weight.min())

In [None]:
df[df.Weight == 29.115057020738853]

In [None]:
# размах – разница между минимальным и максимальным значением
weight_range = df.Weight.max() - df.Weight.min()
height_range = df.Height.max() - df.Height.min()
print(weight_range)
print(height_range)

# Среднеарифметическое

In [None]:
# ручной подсчет
sum(df.Weight) / len(df.Weight)

In [None]:
print(np.mean(df.Weight))
print(df.Weight.mean())

# Мода

In [None]:
# Создаём пустой словарь, в котором будем считать количество появлений значений продолжительности фильма
weight_counts = {}
for w in df.Weight.round():
    if w not in weight_counts:
        weight_counts[w] = 1
    else:
        weight_counts[w] += 1

# Проходимся по словарю и ищем максимальное количество повторений
# Алгоритм поиска максимума
maxw = 0
mode_weight = None
for k, v in weight_counts.items():
    if maxw < v:
        maxw = v
        mode_weight = k
print('Значение моды:', mode_weight, 'количество встречаемости:', maxw)

In [None]:
print('Значение моды: ', df.Weight.round().mode()[0])

# Медиана

In [None]:
# ручной подсчет
height = df.Height

# Находим  количество значений
num_height = len(df.Height)

# Сортируем в порядке возрастания
sorted_height = sorted(height)

# Ищем индекс среднего элемента
# если количество элементов четное, то берем среднее двух элементов в середине
middle = (num_height // 2)
if num_height%2==0:
    result = (sorted_height[middle-1] + sorted_height[middle])/2
else:
    result = sorted_height[middle]
# Находим медиану
print('Медиана: ', result)

In [None]:
print(df.Height.median())
print(np.median(df.Height))

# СКО

In [None]:
# ручной подсчет
def stdev(nums):
    diffs = 0
    # считаем среднее значение
    avg = sum(nums) / len(nums)
    for n in nums:
        # считаем сумму квадратичных отклонений
        diffs += (n - avg) ** (2)
    # считаем корень среднеквадратичного значения
    return (diffs / (len(nums) - 1)) ** (0.5)

stdev(df.Height)

In [None]:
print('Рост')
print(df.Height.std())
print(np.std(df.Height))

print('Вес')
print(df.Weight.std())
print(np.std(df.Weight))

# Дисперсия

In [None]:
# ручной подсчет
def disp(nums):
    diffs = 0
    # считаем среднее значение
    avg = sum(nums)/len(nums)
    for n in nums:
        # считаем сумму квадратичных отклонений
        diffs += (n - avg)**(2)
    # считаем среднеквадратичного значения
    return diffs/(len(nums)-1)

print(disp(df.Height))
print(disp(df.Weight))

In [None]:
print('Рост')
print(np.var(df.Height))
print(df.Height.var())

print('Вес')
print(np.var(df.Weight))
print(df.Weight.var())

# Квантили

In [None]:
# это же медиана!
df.Height.quantile()

In [None]:
# первый и третий квартили
df.Height.quantile([0.25, 0.75])

In [None]:
# произвольный перцентиль
df.Height.quantile(0.33)

In [None]:
# межквартильный размах
Q1 = df.Height.quantile(0.25)
Q3 = df.Height.quantile(0.75)
IQR = Q3 - Q1
IQR

# Describe

In [None]:
df.describe()

# Выбросы

In [None]:
# тыкнем пальцем в небо (определим выбросы вручную) и посмотрим, как изменились средние
print(df.Weight.mean())
print(df[(df.Weight > 50) & (df.Weight < 150)].Weight.mean())

In [None]:
# а медиана?
print(df.Weight.median())
print(df[(df.Weight > 50) & (df.Weight < 150)].Weight.median())

In [None]:
# ну с модой все понятно
print(df.Weight.round().mode()[0])
print(df[(df.Weight > 50) & (df.Weight < 150)].Weight.round().mode()[0])

А теперь найдем выбросы через межкваритльный размах (на примере роста)

In [None]:
q1 = df.Weight.quantile(0.25)
q3 = df.Weight.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers = df[df.Weight.between(lower_bound, upper_bound, inclusive=True)].sort_values('Height')
remove_outliers

In [None]:
df.sort_values('Height')

In [None]:
print(remove_outliers.Height.mean())
print(remove_outliers.Height.median())

In [None]:
print(df.Height.mean() - remove_outliers.Height.mean())

In [None]:
print(df.Height.median() - remove_outliers.Height.median())

# Пропуски

In [None]:
titanic = pd.read_csv('titanic.csv')
titanic.info()

In [None]:
for col in titanic.columns:
    pct_missing = titanic[col].isnull().mean()
    print(f'{col} - {pct_missing :.1%}')

## Игнорирование пропусков

In [None]:
# все методы pandas по-умолчанию просто не берут в расчет пропуски
print(titanic.Age.mean())
print(titanic.Age.median())
print(titanic.Age.mode()[0])

print(titanic.Age.std())
print(titanic.Age.var())

## Удаление строк с пропусками

In [None]:
titanic.dropna().info()

In [None]:
# посмотрите на сколько исказились статистики, если мы удалим все строки с пропусками
print(titanic.dropna().Age.mean())
print(titanic.dropna().Age.median())
print(titanic.dropna().Age.mode()[0])

print(titanic.dropna().Age.std())
print(titanic.dropna().Age.var())

In [None]:
# предположим, мы хотим удалить только те строки, в которых как минимум 11/12 значений заполнено
titanic.dropna(thresh=11).info()

## Удаление столбцов с пропусками

In [None]:
# удалять все в данном случае – странно
titanic.dropna(axis = 1).info()

In [None]:
# у нас очень много пропусков в Cabin. Нам эта информация точно нунжа?
titanic.drop(['Cabin'], axis=1).info()

## Замена пропусков

Замена на определенное значение

In [None]:
titanic['Cabin'].fillna('no_info').isna().sum()

Замена средним

In [None]:
# возраст дискретен, при заполнении средними еще стоит округлить. Проигнорируем в учебных целях

print(titanic.Age.mean())
print(titanic.Age.median())
print(titanic.Age.mode()[0])

print(titanic.Age.std())
print(titanic.Age.var())

In [None]:
fill_mean = pd.read_csv('titanic.csv')

fill_mean.Age.fillna(titanic.Age.mean(), inplace=True)
fill_mean.Age.fillna(titanic.Age.mean()).isna().sum()

In [43]:
print(fill_mean.Age.mean())
print(fill_mean.Age.median())
print(fill_mean.Age.mode()[0])

print(fill_mean.Age.std())
print(fill_mean.Age.var())

29.699117647058763
29.69911764705882
29.69911764705882
13.002015226002884
169.05239993721085


Замена медианой

In [44]:
print(titanic.Age.mean())
print(titanic.Age.median())
print(titanic.Age.mode()[0])

print(titanic.Age.std())
print(titanic.Age.var())


29.69911764705882
28.0
24.0
14.526497332334044
211.0191247463081


In [45]:
fill_median = pd.read_csv('titanic.csv')

fill_median.Age.fillna(titanic.Age.median(), inplace=True)
fill_median.Age.fillna(titanic.Age.median()).isna().sum()

0

In [46]:
print(fill_median.Age.mean())
print(fill_median.Age.median())
print(fill_median.Age.mode()[0])

print(fill_median.Age.std())
print(fill_median.Age.var())

29.36158249158249
28.0
28.0
13.019696550973194
169.51249827942328


Замена модой

In [47]:
titanic.Embarked.value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [48]:
titanic_fill_mode = pd.read_csv('titanic.csv')
titanic_fill_mode.Embarked.fillna(titanic.Embarked.mode()[0], inplace=True)

titanic_fill_mode.Embarked.value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

Заполнение пропусков с группировкой по
одной переменной

In [49]:
# мы не можем исключать, что средний возраст мужчин и женщин отличался
print(titanic.groupby('Sex').Age.median())
fill_median_by_gender = pd.read_csv('titanic.csv')
fill_median_by_gender.Age.fillna(titanic.groupby('Sex').Age.transform('median'), inplace=True)

print(fill_median_by_gender.groupby('Sex').Age.median())

Sex
female    27.0
male      29.0
Name: Age, dtype: float64
Sex
female    27.0
male      29.0
Name: Age, dtype: float64


In [50]:
# а может быть и в разных классах были пассажиры разного возраста?
fill_median_by_groups = pd.read_csv('titanic.csv')
fill_median_by_groups.Age.fillna(titanic.groupby(['Sex', 'Pclass']).Age.transform('median'), inplace=True)

fill_median_by_groups.groupby(['Sex', 'Pclass']).Age.median()

Sex     Pclass
female  1         35.0
        2         28.0
        3         21.5
male    1         40.0
        2         30.0
        3         25.0
Name: Age, dtype: float64

Заполнение следующими/предыдущими значениями

In [51]:
city_day = pd.read_csv('city_day.csv', parse_dates=True,index_col='Date')
city_day.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 29531 entries, 2015-01-01 to 2020-07-01
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   City        29531 non-null  object 
 1   PM2.5       24933 non-null  float64
 2   PM10        18391 non-null  float64
 3   NO          25949 non-null  float64
 4   NO2         25946 non-null  float64
 5   NOx         25346 non-null  float64
 6   NH3         19203 non-null  float64
 7   CO          27472 non-null  float64
 8   SO2         25677 non-null  float64
 9   O3          25509 non-null  float64
 10  Benzene     23908 non-null  float64
 11  Toluene     21490 non-null  float64
 12  Xylene      11422 non-null  float64
 13  AQI         24850 non-null  float64
 14  AQI_Bucket  24850 non-null  object 
dtypes: float64(13), object(2)
memory usage: 3.6+ MB


In [52]:
for col in city_day.columns:
    pct_missing = city_day[col].isnull().mean()
    print(f'{col} - {pct_missing :.1%}')

City - 0.0%
PM2.5 - 15.6%
PM10 - 37.7%
NO - 12.1%
NO2 - 12.1%
NOx - 14.2%
NH3 - 35.0%
CO - 7.0%
SO2 - 13.1%
O3 - 13.6%
Benzene - 19.0%
Toluene - 27.2%
Xylene - 61.3%
AQI - 15.9%
AQI_Bucket - 15.9%


In [53]:
city_day.fillna(method='ffill',inplace=True)

In [54]:
city_day.fillna(method='bfill',inplace=True)

In [55]:
for col in city_day.columns:
    pct_missing = city_day[col].isnull().mean()
    print(f'{col} - {pct_missing :.1%}')

City - 0.0%
PM2.5 - 0.0%
PM10 - 0.0%
NO - 0.0%
NO2 - 0.0%
NOx - 0.0%
NH3 - 0.0%
CO - 0.0%
SO2 - 0.0%
O3 - 0.0%
Benzene - 0.0%
Toluene - 0.0%
Xylene - 0.0%
AQI - 0.0%
AQI_Bucket - 0.0%
