# Задание 2 (Контрольные вопросы)
## Тема: Приведение данных в порядок

### Настройка окружения

In [2]:
import pandas as pd
import numpy as np

### 1. Что представляют собой аккуратные данные?

**Аккуратные данные (tidy data)** — это структура данных, которая упрощает анализ и обработку. Этот термин ввел Хадли Викхэм (Hadley Wickham), и он описывает, как должны быть организованы данные для удобной работы в аналитических инструментах

Основные принципы аккуратных данных:
- Каждая строка — это одно наблюдение (объект)
- Каждый столбец — это один признак (переменная)
- Каждое значение — это отдельное наблюдение в своей ячейке

### 2. Как работать с пропущенными данными? Привести свои примеры.

Для обработки пропущенных данных существует несколько способов:

In [None]:
df = pd.DataFrame(
    {
        "Имя": ["Алиса", "Борис", "Виктор", "Денис", "Елена"],
        "Возраст": [25, np.nan, 30, np.nan, 22],
        "Зарплата": [50000, 60000, np.nan, 80000, np.nan],
    }
)

- Удаление пропущенных данных из набора

In [43]:
df.dropna()

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0


- Замена на определенное значение

In [44]:
df.fillna(0)

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0
1,Борис,0.0,60000.0
2,Виктор,30.0,0.0
3,Денис,0.0,80000.0
4,Елена,22.0,0.0


- Замена на последнее непропущенное значение (в прямом и обратном порядке)

In [45]:
df.ffill()

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0
1,Борис,25.0,60000.0
2,Виктор,30.0,60000.0
3,Денис,30.0,80000.0
4,Елена,22.0,80000.0


- Замена на соотвествующее значение по принципу (индекс (ключ) - значение)

In [None]:
fill_values = {"Возраст": {1: 27, 3: 29}, "Зарплата": {2: 75000, 4: 55000}}

df.fillna(fill_values)

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0
1,Борис,27.0,60000.0
2,Виктор,30.0,75000.0
3,Денис,29.0,80000.0
4,Елена,22.0,55000.0


- Замена на среднее значение в столбце (ряду)

In [47]:
df.fillna(df.mean(numeric_only=True))

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0
1,Борис,25.666667,60000.0
2,Виктор,30.0,63333.333333
3,Денис,25.666667,80000.0
4,Елена,22.0,63333.333333


- Замена путем линейной интерполяции, или на основе индексных меток

In [48]:
df["Возраст"].interpolate()

0    25.0
1    27.5
2    30.0
3    26.0
4    22.0
Name: Возраст, dtype: float64

### 3. Как найти значения NaN в данных? Привести свои примеры.

- С помощью `.isnull()`

In [49]:
df.isnull().sum()

Имя         0
Возраст     2
Зарплата    2
dtype: int64

- C помощью `.count()`

In [50]:
len(df) - df.count()

Имя         0
Возраст     2
Зарплата    2
dtype: int64

### 4. Как отфильтровывать (удалять) пропущенные данные? Привести свои примеры.

- Фильтрация с помощью логического отбора

In [None]:
df[df["Возраст"].notnull()]

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0
2,Виктор,30.0,
4,Елена,22.0,


- С помощью `.dropna()`

In [52]:
df.dropna()

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0


### 5. Как pandas обрабатывает пропущенные значения в ходе вычислений? Привести свои примеры.

При суммирования Nan обрабатывается как нулевое значение и не подсчитывается (например, при нахождении среднего арифметического)

In [None]:
df["Возраст"].mean()

np.float64(25.666666666666668)

Если все значения являются значениями NaN, результатом будет значение NaN (в случае сложения все равно 0)

In [54]:
df_nan = pd.DataFrame(np.arange(1, 10).reshape(3, 3))
df_nan[3] = np.nan

df_nan.mean()

0    4.0
1    5.0
2    6.0
3    NaN
dtype: float64

### 6. Как найти, отфильтровать и исправить неизвестные значения? Привести свои примеры.

- Поиск значений

In [55]:
df.isnull()

Unnamed: 0,Имя,Возраст,Зарплата
0,False,False,False
1,False,True,False
2,False,False,True
3,False,True,False
4,False,False,True


- Фильтрация значений

In [56]:
df.dropna()

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0


- Исправление значений

In [57]:
df.fillna(0)

Unnamed: 0,Имя,Возраст,Зарплата
0,Алиса,25.0,50000.0
1,Борис,0.0,60000.0
2,Виктор,30.0,0.0
3,Денис,0.0,80000.0
4,Елена,22.0,0.0


### 7. Выполнение интерполяции пропущенных значений. Привести свои примеры.

In [None]:
df = pd.DataFrame(
    {"День": range(1, 8), "Температура": [10, np.nan, 15, np.nan, np.nan, 25, 30]}
)

- Линейная интерполяция

In [59]:
df["Температура"].interpolate()

0    10.000000
1    12.500000
2    15.000000
3    18.333333
4    21.666667
5    25.000000
6    30.000000
Name: Температура, dtype: float64

- Интерполяция по времени

In [60]:
df["Дата"] = pd.date_range(start="2024-03-01", periods=len(df), freq="D")
df.set_index("Дата", inplace=True)

df["Температура"].interpolate(method="time")

Дата
2024-03-01    10.000000
2024-03-02    12.500000
2024-03-03    15.000000
2024-03-04    18.333333
2024-03-05    21.666667
2024-03-06    25.000000
2024-03-07    30.000000
Name: Температура, dtype: float64

### 8. Как найти и удалить дублирующиеся наблюдения? Привести свои примеры.

In [None]:
df = pd.DataFrame(
    {
        "Имя": ["Алиса", "Борис", "Алиса", "Денис", "Елена", "Алиса"],
        "Возраст": [25, 30, 25, 40, 22, 25],
        "Город": ["Москва", "СПб", "Москва", "Казань", "Москва", "Москва"],
    }
)

- Поиск дубликатов

In [62]:
df.duplicated()

0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

- Удаление дубликатов

In [None]:
df.drop_duplicates(keep="last")

Unnamed: 0,Имя,Возраст,Город
1,Борис,30,СПб
3,Денис,40,Казань
4,Елена,22,Москва
5,Алиса,25,Москва


### 9. Как преобразовать значения с помощью методов .replace(), .map() и apply()? Привести свои примеры.

- Использование `.replace()`

In [None]:
df = pd.DataFrame(
    {
        "Город": ["Москва", "СПб", "Казань", "Москва", "СПб"],
        "Зарплата": [50000, 60000, 55000, 52000, 61000],
    }
)

df["Город"].replace("СПб", "Санкт-Петербург")

0             Москва
1    Санкт-Петербург
2             Казань
3             Москва
4    Санкт-Петербург
Name: Город, dtype: object

- Использование `.map()`

In [65]:
df["Город"].map({"Москва": "Moscow", "Казань": "Kazan"})

0    Moscow
1       NaN
2     Kazan
3    Moscow
4       NaN
Name: Город, dtype: object

- Использование `.apply()`

In [66]:
df["Зарплата"].apply(lambda x: x * 1.1 if x < 55000 else x)

0    55000.0
1    60000.0
2    55000.0
3    57200.0
4    61000.0
Name: Зарплата, dtype: float64

#### Экспорт в html

In [67]:
from os import system

system("jupyter nbconvert --to html task_2.ipynb")

[NbConvertApp] Converting notebook task_2.ipynb to html
[NbConvertApp] Writing 338469 bytes to task_2.html


0