### 4.2. Обработка пропущенных данных

- Определение пропущенных значений в данных
- Заполнение пропущенных значений средним, медианой, модой и т.д.
- Удаление строк или столбцов с пропущенными данными

**Задача:** Загрузить датасет, содержащий пропущенные значения, определить их и обработать различными способами.

In [18]:
import pandas as pd
import numpy as np
# Загрузка CSV файла в DataFrame.
# Используем сохраненный в предыдущем примере датасет, указываем, что первый столбец является индексом
df = pd.read_csv('train_dataset.csv', encoding = 'utf-8', sep = ',', index_col=0)

#### Определение пропущенных значений

Чтобы определить пропущенные значения в данных, вы можете использовать методы **isnull()** или **isna()**. Оба возвращают DataFrame, где каждое значение заменено на **True** если значение пропущено и **False** в противном случае.

In [19]:
# Проверка наличия пропущенных значений в датасете
# print(df.isnull())
print(df.isnull().sum())


Страна                                0
Регион                                0
Численность                           0
Площадь (sq. mi.)                     0
Плотность населения (per sq. mi.)     0
Длина побережья к общей площади       0
Миграция                              3
Детская смертность                    3
ВВП на душу населения                 1
Грамотность(%)                       18
Телефонов (на 1000)                   4
пахотные земли (%)                    2
 земель под посевы(%)                 2
других земель (%)                     2
Рождаемость                           3
Смертность                            4
С/Х в ВВП                            15
Промышленность в ВВП                 16
Услуг в ВВП                          15
Численность в млн                     0
Площадь(кв.км)                        0
Плотность населения(на кв.км)         0
dtype: int64


В этом примере, **isnull().sum()** возвращает количество пропущенных значений для каждого столбца.

#### Заполнение пропущенных значений

Вы можете заполнить пропущенные значения различными способами. Один из них - заполнение средним значением, медианой или модой(наиболее часто встречающееся значение).
Верно будет обрабатывать пропущенные значения только в тех столбцах, где они действительно присутствуют. Мы можем определить их следующим образом:


In [14]:
# Получаем список столбцов с пропущенными значениями
cols_with_missing = [col for col in df.columns if df[col].isnull().any()]

# Заполнение пропущенных значений для числовых столбцов
for col in df[cols_with_missing].select_dtypes(include=[np.number]).columns:
    df[col] = df[col].fillna(df[col].mean())

print(df.isnull().sum())




Страна                               0
Регион                               0
Численность                          0
Площадь (sq. mi.)                    0
Плотность населения (per sq. mi.)    0
Длина побережья к общей площади      0
Миграция                             0
Детская смертность                   0
ВВП на душу населения                0
Грамотность(%)                       0
Телефонов (на 1000)                  0
пахотные земли (%)                   0
 земель под посевы(%)                0
других земель (%)                    0
Рождаемость                          0
Смертность                           0
С/Х в ВВП                            0
Промышленность в ВВП                 0
Услуг в ВВП                          0
Численность в млн                    0
Площадь(кв.км)                       0
Плотность населения(на кв.км)        0
dtype: int64


методы **mean()**, **median()** и **mode()** могут быть использованы только для числовых столбцов. К нечисловым столбцам, таким как 'Страна' и 'Регион', мы можем применить **mode()**(наиболее часто встречающееся значение)

In [16]:
# Заполнение пропущенных значений для нечисловых столбцов
for col in df.select_dtypes(exclude=[np.number]).columns:
    df[col] = df[col].fillna(df[col].mode().iloc[0])
print(df.isnull().sum())

Страна                               0
Регион                               0
Численность                          0
Площадь (sq. mi.)                    0
Плотность населения (per sq. mi.)    0
Длина побережья к общей площади      0
Миграция                             0
Детская смертность                   0
ВВП на душу населения                0
Грамотность(%)                       0
Телефонов (на 1000)                  0
пахотные земли (%)                   0
 земель под посевы(%)                0
других земель (%)                    0
Рождаемость                          0
Смертность                           0
С/Х в ВВП                            0
Промышленность в ВВП                 0
Услуг в ВВП                          0
Численность в млн                    0
Площадь(кв.км)                       0
Плотность населения(на кв.км)        0
dtype: int64


В этих примерах **fillna()** заменяет пропущенные значения на среднее значение, медиану или моду каждого столбца соответственно.