# Проспуски данных

Поговорим о том, как поступать с пропущенными данными. 

In [None]:
# загрузим данные
import pandas as pd
import numpy as np

# Загрузка ранее созданного датасета
df = pd.read_csv('railway_freight_data.csv')

# Вывод первых 5 строк датасета
df.head()

В загруженном датасете отсутсвуют не заполненные поля. "Исправим" это и добавим некоторое количество пропущенных значений.

In [None]:
# Определение процента пропущенных значений (от 1% до 3%)
percent_missing = np.random.uniform(0.01, 0.03)
def introduce_missing_values(df, col_name):
    num_missing = int(len(df) * percent_missing)  # Количество пропущенных значений
    missing_indices = np.random.choice(df.index, num_missing, replace=False)  # Выбор индексов для пропусков
    df.loc[missing_indices, col_name] = np.nan  # Внесение пропущенных значений

# Применение функции ко всем столбцам, кроме 'Train_ID'
for col in df.columns:
    if col != 'Train_ID':
        introduce_missing_values(df, col)

df.sample(3)

# Оценка пропущенных данных

Часто данные содержат пропуски, которые могут искажать анализ. Поэтому важно выявить наличие таких пропусков на начальных этапах EDA.

#### Описание проблемы пропущенных данных

Пропущенные данные — это одна из самых распространенных проблем при работе с реальными датасетами. Они могут возникать по разным причинам: человеческие ошибки, технические неполадки, некорректная загрузка данных и т.д. Для анализа необходимо определить, что делать с пропусками: удалять их или заполнять, в зависимости от контекста.

### Поиск пропущенных данных

Начнем с поиска пропущенных данных в нашем датасете. Для этого Pandas предоставляет несколько методов.

##### Пример поиска пропущенных данных:

```python
# Проверка наличия пропущенных данных по каждому столбцу
missing_data = df.isnull().sum()

# Вывод количества пропущенных значений в каждом столбце
print(missing_data)
```

### Пояснение:
- **`isnull()`** — возвращает DataFrame, где каждое значение — это логическое значение (True, если значение пропущено, False — если нет).
- **`sum()`** — суммирует количество пропусков в каждом столбце.

## Удаление пропусков

Когда пропущенных значений немного, возможно, имеет смысл просто удалить строки с пропусками. Это можно сделать с помощью метода **`dropna()`**.

##### Пример удаления строк с пропусками:

```python
# Удаление всех строк, в которых есть хотя бы одно пропущенное значение
df_cleaned = df.dropna()

# Вывод первых 5 строк очищенного DataFrame
print(df_cleaned.head())
```

### Пояснение:
- **`dropna()`** — удаляет все строки, содержащие хотя бы одно пропущенное значение.

### Удаление строк с пропусками в определенных столбцах:

Иногда нужно удалить строки, в которых пропущены значения только в определенных столбцах.

```python
# Удаление строк, где пропущено значение в столбце 'Weight_Tons'
df_cleaned = df.dropna(subset=['Weight_Tons'])

# Вывод первых 5 строк очищенного DataFrame
print(df_cleaned.head())
```

### Пояснение:
- **`subset=['Weight_Tons']`** — указывает, что нужно удалять только те строки, где есть пропуски в конкретном столбце.

## Заполнение пропусков

Иногда удаление данных неприемлемо, так как это может привести к потере важных данных. В таком случае пропущенные значения можно заполнить. Pandas предоставляет метод **`fillna()`**, который позволяет заполнить пропуски различными способами.

##### Пример заполнения пропусков константой:

```python
# Заполнение всех пропусков значением 0
df_filled = df.fillna(0)

# Вывод первых 5 строк после заполнения
print(df_filled.head())
```

### Пояснение:
- **`fillna(0)`** — заполняет все пропущенные значения нулями.

### Заполнение медианой или средним значением:

Заполнение пропусков средними значениями (или медианой) — это частая практика, особенно для числовых данных. Рассмотрим пример заполнения пропущенных значений в столбце `Weight_Tons` медианой.

```python
# Заполнение пропусков в столбце 'Weight_Tons' медианой
median_weight = df['Weight_Tons'].median()
df_filled = df['Weight_Tons'].fillna(median_weight)

# Вывод первых 5 строк после заполнения медианой
print(df_filled.head())
```

### Пояснение:
- **`median()`** — возвращает медиану для столбца.
- **`fillna(median_weight)`** — заполняет пропуски медианой.

### Заполнение методом "вперед" или "назад" (forward/backward fill):

Заполнение пропусков предыдущим или последующим значением используется, когда данные имеют временную структуру или контекстные зависимости.

```python
# Заполнение пропусков предыдущими значениями (forward fill)
df_filled_ffill = df.fillna(method='ffill')

# Заполнение пропусков последующими значениями (backward fill)
df_filled_bfill = df.fillna(method='bfill')

# Вывод первых 5 строк после заполнения
print(df_filled_ffill.head())
print(df_filled_bfill.head())
```

### Пояснение:
- **`method='ffill'`** — заполняет пропуски предыдущими значениями (по направлению вперед).
- **`method='bfill'`** — заполняет пропуски последующими значениями (по направлению назад).