In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('weight-height.csv')

# какие типы признаков в нашем датафрейме?
df.head()

Unnamed: 0,Gender,Height,Weight
0,Male,73.847017,241.893563
1,Male,68.781904,162.310473
2,Male,74.110105,212.740856
3,Male,71.730978,220.04247
4,Male,69.881796,206.349801


In [3]:
# переведем в килограммы и сантиметры
df.Height = df.Height * 2.54
df.Weight = df.Weight * 0.45
df.head()

Unnamed: 0,Gender,Height,Weight
0,Male,187.571423,108.852103
1,Male,174.706036,73.039713
2,Male,188.239668,95.733385
3,Male,182.196685,99.019112
4,Male,177.499761,92.85741


# Минимум, максимум и размах

In [4]:
print(max(df.Height))
print(np.max(df.Height))
print(df.Height.max())

200.65680555982956
200.65680555982956
200.65680555982956


In [5]:
print(min(df.Weight))
print(np.min(df.Weight))
print(df.Weight.min())

29.115057020738853
29.115057020738853
29.115057020738853


In [7]:
df[df.Weight == 29.115057020738853]

Unnamed: 0,Gender,Height,Weight
9285,Female,137.828359,29.115057


In [8]:
# размах – разница между минимальным и максимальным значением
weight_range = df.Weight.max() - df.Weight.min()
height_range = df.Height.max() - df.Height.min()
print(weight_range)
print(height_range)

92.38030730655885
62.82844691408292


# Среднеарифметическое

In [9]:
# ручной подсчет
sum(df.Weight) / len(df.Weight)

72.64816057477414

In [10]:
print(np.mean(df.Weight))
print(df.Weight.mean())

72.64816057477414
72.64816057477414


# Мода

In [11]:
# Создаём пустой словарь, в котором будем считать количество появлений значений продолжительности фильма
weight_counts = {}
for w in df.Weight.round():
    if w not in weight_counts:
        weight_counts[w] = 1
    else:
        weight_counts[w] += 1

# Проходимся по словарю и ищем максимальное количество повторений
# Алгоритм поиска максимума
maxw = 0
mode_weight = None
for k, v in weight_counts.items():
    if maxw < v:
        maxw = v
        mode_weight = k
print('Значение моды:', mode_weight, 'количество встречаемости:', maxw)

Значение моды: 62.0 количество встречаемости: 269


In [12]:
print('Значение моды: ', df.Weight.round().mode()[0])

Значение моды:  62.0


# Медиана

In [13]:
# ручной подсчет
height = df.Height

# Находим  количество значений
num_height = len(df.Height)

# Сортируем в порядке возрастания
sorted_height = sorted(height)

# Ищем индекс среднего элемента
# если количество элементов четное, то берем среднее двух элементов в середине
middle = (num_height // 2)
if num_height%2==0:
    result = (sorted_height[middle-1] + sorted_height[middle])/2
else:
    result = sorted_height[middle]
# Находим медиану
print('Медиана: ', result)

Медиана:  168.44789800773304


In [14]:
print(df.Height.median())
print(np.median(df.Height))

168.44789800773304
168.44789800773304


# СКО

In [15]:
# ручной подсчет
def stdev(nums):
    diffs = 0
    # считаем среднее значение
    avg = sum(nums) / len(nums)
    for n in nums:
        # считаем сумму квадратичных отклонений
        diffs += (n - avg) ** (2)
    # считаем корень среднеквадратичного значения
    return (diffs / (len(nums) - 1)) ** (0.5)

stdev(df.Height)

9.772721426763992

In [16]:
print('Рост')
print(df.Height.std())
print(np.std(df.Height))

print('Вес')
print(df.Weight.std())
print(np.std(df.Weight))

Рост
9.772721426763992
9.772232778476141
Вес
14.448797552933803
14.448075094994255


# Дисперсия

In [17]:
# ручной подсчет
def disp(nums):
    diffs = 0
    # считаем среднее значение
    avg = sum(nums)/len(nums)
    for n in nums:
        # считаем сумму квадратичных отклонений
        diffs += (n - avg)**(2)
    # считаем среднеквадратичного значения
    return diffs/(len(nums)-1)

print(disp(df.Height))
print(disp(df.Weight))

95.50608408513203
208.76775072566585


In [18]:
print('Рост')
print(np.var(df.Height))
print(df.Height.var())

print('Вес')
print(np.var(df.Weight))
print(df.Weight.var())

Рост
95.49653347672353
95.50608408513203
Вес
208.74687395059328
208.76775072566585


# Квантили

In [19]:
# это же медиана!
df.Height.quantile()

168.44789800773304

In [20]:
# первый и третий квартили
df.Height.quantile([0.25, 0.75])

0.25    161.304276
0.75    175.702625
Name: Height, dtype: float64

In [21]:
# произвольный перцентиль
df.Height.quantile(0.33)

163.68920518993014

In [22]:
# межквартильный размах
Q1 = df.Height.quantile(0.25)
Q3 = df.Height.quantile(0.75)
IQR = Q3 - Q1
IQR

14.398348763863964

# Describe

In [23]:
df.describe()

Unnamed: 0,Height,Weight
count,10000.0,10000.0
mean,168.573602,72.648161
std,9.772721,14.448798
min,137.828359,29.115057
25%,161.304276,61.118123
50%,168.447898,72.545817
75%,175.702625,84.226286
max,200.656806,121.495364


# Выбросы

In [24]:
# тыкнем пальцем в небо (определим выбросы вручную) и посмотрим, как изменились средние
print(df.Weight.mean())
print(df[(df.Weight > 50) & (df.Weight < 150)].Weight.mean())

72.64816057477414
74.04876258391826


In [25]:
# а медиана?
print(df.Weight.median())
print(df[(df.Weight > 50) & (df.Weight < 150)].Weight.median())

72.54581746476735
73.7809355907585


In [26]:
# ну с модой все понятно
print(df.Weight.round().mode()[0])
print(df[(df.Weight > 50) & (df.Weight < 150)].Weight.round().mode()[0])

62.0
62.0


А теперь найдем выбросы через межкваритльный размах (на примере роста)

In [27]:
q1 = df.Weight.quantile(0.25)
q3 = df.Weight.quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - (1.5 * iqr) 
upper_bound = q3 + (1.5 * iqr)
remove_outliers = df[df.Weight.between(lower_bound, upper_bound, inclusive=True)].sort_values('Height')
remove_outliers

Unnamed: 0,Gender,Height,Weight
9285,Female,137.828359,29.115057
6624,Female,138.726819,32.127187
7294,Female,139.379268,35.373002
7617,Female,140.077336,39.965585
5345,Female,140.554691,39.764962
...,...,...,...
4569,Male,196.969853,108.918528
994,Male,198.363503,115.060876
1317,Male,199.293614,102.304154
3285,Male,199.461654,114.250052


In [31]:
df.sort_values('Height')

Unnamed: 0,Gender,Height,Weight
9285,Female,137.828359,29.115057
6624,Female,138.726819,32.127187
7294,Female,139.379268,35.373002
7617,Female,140.077336,39.965585
5345,Female,140.554691,39.764962
...,...,...,...
994,Male,198.363503,115.060876
1317,Male,199.293614,102.304154
3285,Male,199.461654,114.250052
3757,Male,199.698290,110.580202


In [28]:
print(remove_outliers.Height.mean())
print(remove_outliers.Height.median())

168.57039313600353
168.4474645316641


In [29]:
print(df.Height.mean() - remove_outliers.Height.mean())

0.0032086412424803257


In [30]:
print(df.Height.median() - remove_outliers.Height.median())

0.000433476068934624


# Пропуски

In [32]:
titanic = pd.read_csv('titanic.csv')
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [33]:
for col in titanic.columns:
    pct_missing = titanic[col].isnull().mean()
    print(f'{col} - {pct_missing :.1%}')

PassengerId - 0.0%
Survived - 0.0%
Pclass - 0.0%
Name - 0.0%
Sex - 0.0%
Age - 19.9%
SibSp - 0.0%
Parch - 0.0%
Ticket - 0.0%
Fare - 0.0%
Cabin - 77.1%
Embarked - 0.2%


## Игнорирование пропусков

In [34]:
# все методы pandas по-умолчанию просто не берут в расчет пропуски
print(titanic.Age.mean())
print(titanic.Age.median())
print(titanic.Age.mode()[0])

print(titanic.Age.std())
print(titanic.Age.var())

29.69911764705882
28.0
24.0
14.526497332334044
211.0191247463081


## Удаление строк с пропусками

In [35]:
titanic.dropna().info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 183 entries, 1 to 889
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  183 non-null    int64  
 1   Survived     183 non-null    int64  
 2   Pclass       183 non-null    int64  
 3   Name         183 non-null    object 
 4   Sex          183 non-null    object 
 5   Age          183 non-null    float64
 6   SibSp        183 non-null    int64  
 7   Parch        183 non-null    int64  
 8   Ticket       183 non-null    object 
 9   Fare         183 non-null    float64
 10  Cabin        183 non-null    object 
 11  Embarked     183 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 18.6+ KB


In [36]:
# посмотрите на сколько исказились статистики, если мы удалим все строки с пропусками
print(titanic.dropna().Age.mean())
print(titanic.dropna().Age.median())
print(titanic.dropna().Age.mode()[0])

print(titanic.dropna().Age.std())
print(titanic.dropna().Age.var())

35.6744262295082
36.0
36.0
15.643865966849717
244.7305423887588


In [37]:
# предположим, мы хотим удалить только те строки, в которых как минимум 11/12 значений заполнено
titanic.dropna(thresh=11).info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 733 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  733 non-null    int64  
 1   Survived     733 non-null    int64  
 2   Pclass       733 non-null    int64  
 3   Name         733 non-null    object 
 4   Sex          733 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        733 non-null    int64  
 7   Parch        733 non-null    int64  
 8   Ticket       733 non-null    object 
 9   Fare         733 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     731 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 74.4+ KB


## Удаление столбцов с пропусками

In [38]:
# удалять все в данном случае – странно
titanic.dropna(axis = 1).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   SibSp        891 non-null    int64  
 6   Parch        891 non-null    int64  
 7   Ticket       891 non-null    object 
 8   Fare         891 non-null    float64
dtypes: float64(1), int64(5), object(3)
memory usage: 62.8+ KB


In [39]:
# у нас очень много пропусков в Cabin. Нам эта информация точно нунжа?
titanic.drop(['Cabin'], axis=1).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(4)
memory usage: 76.7+ KB


## Замена пропусков

Замена на определенное значение

In [40]:
titanic['Cabin'].fillna('no_info').isna().sum()

0

Замена средним

In [41]:
# возраст дискретен, при заполнении средними еще стоит округлить. Проигнорируем в учебных целях

print(titanic.Age.mean())
print(titanic.Age.median())
print(titanic.Age.mode()[0])

print(titanic.Age.std())
print(titanic.Age.var())

29.69911764705882
28.0
24.0
14.526497332334044
211.0191247463081


In [42]:
fill_mean = pd.read_csv('titanic.csv')

fill_mean.Age.fillna(titanic.Age.mean(), inplace=True)
fill_mean.Age.fillna(titanic.Age.mean()).isna().sum()

0

In [43]:
print(fill_mean.Age.mean())
print(fill_mean.Age.median())
print(fill_mean.Age.mode()[0])

print(fill_mean.Age.std())
print(fill_mean.Age.var())

29.699117647058763
29.69911764705882
29.69911764705882
13.002015226002884
169.05239993721085


Замена медианой

In [44]:
print(titanic.Age.mean())
print(titanic.Age.median())
print(titanic.Age.mode()[0])

print(titanic.Age.std())
print(titanic.Age.var())


29.69911764705882
28.0
24.0
14.526497332334044
211.0191247463081


In [45]:
fill_median = pd.read_csv('titanic.csv')

fill_median.Age.fillna(titanic.Age.median(), inplace=True)
fill_median.Age.fillna(titanic.Age.median()).isna().sum()

0

In [46]:
print(fill_median.Age.mean())
print(fill_median.Age.median())
print(fill_median.Age.mode()[0])

print(fill_median.Age.std())
print(fill_median.Age.var())

29.36158249158249
28.0
28.0
13.019696550973194
169.51249827942328


Замена модой

In [47]:
titanic.Embarked.value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [48]:
titanic_fill_mode = pd.read_csv('titanic.csv')
titanic_fill_mode.Embarked.fillna(titanic.Embarked.mode()[0], inplace=True)

titanic_fill_mode.Embarked.value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

Заполнение пропусков с группировкой по
одной переменной

In [49]:
# мы не можем исключать, что средний возраст мужчин и женщин отличался
print(titanic.groupby('Sex').Age.median())
fill_median_by_gender = pd.read_csv('titanic.csv')
fill_median_by_gender.Age.fillna(titanic.groupby('Sex').Age.transform('median'), inplace=True)

print(fill_median_by_gender.groupby('Sex').Age.median())

Sex
female    27.0
male      29.0
Name: Age, dtype: float64
Sex
female    27.0
male      29.0
Name: Age, dtype: float64


In [50]:
# а может быть и в разных классах были пассажиры разного возраста?
fill_median_by_groups = pd.read_csv('titanic.csv')
fill_median_by_groups.Age.fillna(titanic.groupby(['Sex', 'Pclass']).Age.transform('median'), inplace=True)

fill_median_by_groups.groupby(['Sex', 'Pclass']).Age.median()

Sex     Pclass
female  1         35.0
        2         28.0
        3         21.5
male    1         40.0
        2         30.0
        3         25.0
Name: Age, dtype: float64

Заполнение следующими/предыдущими значениями

In [51]:
city_day = pd.read_csv('city_day.csv', parse_dates=True,index_col='Date')
city_day.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 29531 entries, 2015-01-01 to 2020-07-01
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   City        29531 non-null  object 
 1   PM2.5       24933 non-null  float64
 2   PM10        18391 non-null  float64
 3   NO          25949 non-null  float64
 4   NO2         25946 non-null  float64
 5   NOx         25346 non-null  float64
 6   NH3         19203 non-null  float64
 7   CO          27472 non-null  float64
 8   SO2         25677 non-null  float64
 9   O3          25509 non-null  float64
 10  Benzene     23908 non-null  float64
 11  Toluene     21490 non-null  float64
 12  Xylene      11422 non-null  float64
 13  AQI         24850 non-null  float64
 14  AQI_Bucket  24850 non-null  object 
dtypes: float64(13), object(2)
memory usage: 3.6+ MB


In [52]:
for col in city_day.columns:
    pct_missing = city_day[col].isnull().mean()
    print(f'{col} - {pct_missing :.1%}')

City - 0.0%
PM2.5 - 15.6%
PM10 - 37.7%
NO - 12.1%
NO2 - 12.1%
NOx - 14.2%
NH3 - 35.0%
CO - 7.0%
SO2 - 13.1%
O3 - 13.6%
Benzene - 19.0%
Toluene - 27.2%
Xylene - 61.3%
AQI - 15.9%
AQI_Bucket - 15.9%


In [53]:
city_day.fillna(method='ffill',inplace=True)

In [54]:
city_day.fillna(method='bfill',inplace=True)

In [55]:
for col in city_day.columns:
    pct_missing = city_day[col].isnull().mean()
    print(f'{col} - {pct_missing :.1%}')

City - 0.0%
PM2.5 - 0.0%
PM10 - 0.0%
NO - 0.0%
NO2 - 0.0%
NOx - 0.0%
NH3 - 0.0%
CO - 0.0%
SO2 - 0.0%
O3 - 0.0%
Benzene - 0.0%
Toluene - 0.0%
Xylene - 0.0%
AQI - 0.0%
AQI_Bucket - 0.0%
