## Тема 2.2. Продвинутые методы pandas: Работа с пропусками, объединение, группировка и сводные таблицы

---

## 1. Работа с пропущенными значениями: `isna`, `fillna`, `dropna`

### 1.1. `isna` — поиск пропущенных значений

Находит ячейки с пропусками (`NaN`/`None`). Возвращает DataFrame/Series той же формы, где `True` — пропуск, а `False` — нет.

#### Пример

```python
import pandas as pd

df = pd.DataFrame({
    'A': [1, None, 3],
    'B': [4, 5, None]
})

print(df)
#      A    B
# 0  1.0  4.0
# 1  NaN  5.0
# 2  3.0  NaN

print(df.isna())
#        A      B
# 0  False  False
# 1   True  False
# 2  False   True
```

---

### 1.2. `fillna` — заполнение пропусков

Заменяет все пропуски заданным значением или по определённому правилу (например, соседними значениями).

#### Примеры

**Заполнить все пропуски нулём:**

```python
filled_df = df.fillna(0)
print(filled_df)
#      A    B
# 0  1.0  4.0
# 1  0.0  5.0
# 2  3.0  0.0
```

**Заполнить пропуски предыдущим значением в столбце (метод "переноса вперёд"):**

```python
filled_forward = df.fillna(method='ffill')
print(filled_forward)
#      A    B
# 0  1.0  4.0
# 1  1.0  5.0
# 2  3.0  5.0
```

---

### 1.3. `dropna` — удаление пропусков

Удаляет строки или столбцы с пропущенными значениями.

#### Примеры

**Удалить все строки, где есть хотя бы один пропуск:**

```python
cleaned_df = df.dropna()
print(cleaned_df)
#      A    B
# 0  1.0  4.0
```

**Удалить столбцы, где все значения — пропуски:**

```python
df2 = pd.DataFrame({'A': [None, 2, None], 'B': [None, 5, 6]})
print(df2.dropna(axis=1, how='all'))
#      A    B
# 0  NaN  NaN
# 1  2.0  5.0
# 2  NaN  6.0
```

---

## 2. Объединение таблиц: `merge`, `join`

### 2.1. `merge` — объединение по ключам (аналог SQL JOIN)

Мощный и гибкий способ объединить два DataFrame по совпадающим значениям в одном или нескольких столбцах. Можно выбирать тип соединения: `inner`, `outer`, `left`, `right`.

#### Пример

```python
df1 = pd.DataFrame({'id': [1, 2, 3], 'name': ['Ann', 'Bob', 'Cat']})
df2 = pd.DataFrame({'id': [2, 3, 4], 'score': [85, 90, 88]})

merged = pd.merge(df1, df2, on='id', how='inner')
print(merged)
#    id name  score
# 0   2  Bob     85
# 1   3  Cat     90
```

---

### 2.2. `join` — быстрый способ объединения по индексу

Простой способ добавить столбцы из одного DataFrame в другой по индексам (или по одному столбцу).

#### Пример

```python
df3 = pd.DataFrame({'value1': [10, 20, 30]}, index=['A', 'B', 'C'])
df4 = pd.DataFrame({'value2': [100, 200, 300]}, index=['B', 'C', 'D'])

joined = df3.join(df4, how='outer')
print(joined)
#    value1  value2
# A    10.0     NaN
# B    20.0   100.0
# C    30.0   200.0
# D     NaN   300.0
```

---

## 3. Группировка: `groupby`

Позволяет разбить данные по значениям одного или нескольких столбцов и применить агрегатные функции (например, подсчёт, сумма, среднее).

#### Пример

```python
df = pd.DataFrame({
    'team': ['Red', 'Red', 'Blue', 'Blue', 'Red'],
    'score': [5, 7, 8, 6, 9]
})

grouped = df.groupby('team').score.mean()
print(grouped)
# team
# Blue    7.0
# Red     7.0
# Name: score, dtype: float64
```

**Наглядная агрегация по нескольким функциям:**

```python
agg = df.groupby('team').score.agg(['sum', 'count', 'max'])
print(agg)
#       sum  count  max
# team
# Blue   14      2    8
# Red    21      3    9
```

---

## 4. Сводные таблицы: `pivot_table`

Создаёт сводную (многомерную) таблицу, где строки и столбцы — это группы, а на их пересечении результат агрегатной функции.

#### Пример

```python
df = pd.DataFrame({
    'team': ['Red', 'Red', 'Blue', 'Blue'],
    'year': [2022, 2023, 2022, 2023],
    'score': [10, 12, 14, 9]
})

pivot = pd.pivot_table(
    df,
    values='score',
    index='team',
    columns='year',
    aggfunc='sum',
    fill_value=0
)
print(pivot)
# year  2022  2023
# team
# Blue    14     9
# Red     10    12
```

---

### Итоговое сравнение

| Метод        | Зачем нужен                                     | Пример применения                                   |
|--------------|-------------------------------------------------|-----------------------------------------------------|
| **isna**     | Поиск пропусков                                 | df.isna()                                           |
| **fillna**   | Замена пропусков                                | df.fillna(0)                                        |
| **dropna**   | Удаление строк/столбцов с пропусками            | df.dropna()                                         |
| **merge**    | Сложное объединение по ключам (аналог SQL JOIN) | pd.merge(df1, df2, on='ключ')                       |
| **join**     | Быстрое объединение по индексу                  | df1.join(df2, how='left')                           |
| **groupby**  | Группировка и агрегация                         | df.groupby('col').agg(['sum', 'mean'])              |
| **pivot_table** | Сводные таблицы для анализа                   | pd.pivot_table(df, index=..., columns=..., ...)     |

---

---

## Генерация таблиц для решения задач

```python
import numpy as np
import pandas as pd

# Для задач 1-10 (isna, fillna, dropna)
np.random.seed(0)
data1 = {
    'A': np.random.choice([1, 2, 3, 4, np.nan], size=40, p=[0.2, 0.2, 0.2, 0.2, 0.2]),
    'B': np.random.choice([5, 6, 7, 8, np.nan], size=40, p=[0.2, 0.2, 0.2, 0.2, 0.2])
}
df1 = pd.DataFrame(data1)

data2 = {
    'Name': np.random.choice(['Anna', 'Bob', 'Cat', 'Dina', None], size=40, p=[0.2, 0.2, 0.2, 0.2, 0.2]),
    'Score': np.random.choice([70, 75, 80, 90, None], size=40, p=[0.2, 0.2, 0.2, 0.2, 0.2])
}
df2 = pd.DataFrame(data2)

# Для задач 11-20 (merge, join)
students = pd.DataFrame({
    'student_id': np.arange(1, 41),
    'name': ['Name' + str(i) for i in range(1, 41)]
})

scores = pd.DataFrame({
    'student_id': np.arange(21, 61),  # 20 пересекаются, 20 только здесь
    'score': np.random.randint(60, 101, size=40)
})

students_idx = pd.DataFrame({
    'name': ['Name' + str(i) for i in range(1, 41)],
    'group': np.random.choice(['G1', 'G2', 'G3', 'G4'], size=40)
}).set_index('name')

ages = pd.DataFrame({
    'age': np.random.randint(18, 30, size=20),
}, index=['Name'+str(i) for i in range(1, 21)])

# Для задач 21-30 (groupby, pivot_table)
products = ['Milk', 'Eggs', 'Cheese', 'Bread']
stores = ['A', 'B', 'C', 'D']
months = ['Jan', 'Feb', 'Mar', 'Apr']

sales = pd.DataFrame({
    'Product': np.random.choice(products, 40),
    'Store': np.random.choice(stores, 40),
    'Month': np.random.choice(months, 40),
    'Amount': np.random.randint(5, 30, size=40)
})

# Для pivot_table/groupby экзамены
classes = ['1A', '1B', '2A', '2B']
subjects = ['Math', 'Literature', 'Physics', 'Chemistry']

exam_results = pd.DataFrame({
    'Class': np.random.choice(classes, 40),
    'Subject': np.random.choice(subjects, 40),
    'Score': np.random.randint(4, 11, size=40)   # Оценки от 4 до 10
})
```

---

## Задачи

**(1)** Сколько пропусков в столбце 'B' в df1?
```python
df1['B'].isna().sum()
```

**(2)** Есть ли в df2 пропуски в столбце 'Name'?
```python
df2['Name'].isna().any()
```

**(3)** Заполните все пропуски в df1 числом 0:
```python
df1.fillna(0)
```

**(4)** Заполните пропуски в 'Score' в df2 средним баллом:
```python
mean_score = df2['Score'].mean(skipna=True)
df2['Score'].fillna(mean_score)
```

**(5)** Удалите все строки из df1, где хотя бы одно значение пропущено:
```python
df1.dropna()
```

**(6)** Оставьте только те строки df2, где нет пропусков ни в одном столбце:
```python
df2.dropna()
```

**(7)** Сколько строк останется в df1 после удаления строк, где в B есть пропуск?
```python
df1.dropna(subset=['B']).shape[0]
```

**(8)** Заполните пропуски в df1 в A "переносом вперёд" (ffill), в B — "переносом назад" (bfill):
```python
df1_ffill_bfill = df1.copy()
df1_ffill_bfill['A'] = df1['A'].fillna(method='ffill')
df1_ffill_bfill['B'] = df1['B'].fillna(method='bfill')
```

**(9)** В каких строках df1 есть хотя бы один пропуск? Вернуть индексы:
```python
df1[df1.isna().any(axis=1)].index.tolist()
```

**(10)** Замените все пропуски в df2 строкой 'No Name' в столбце Name и 0 в Score:
```python
df2.fillna({'Name': 'No Name', 'Score': 0})
```

---

**(11)** Внутреннее объединение students и scores по student_id:
```python
pd.merge(students, scores, on='student_id', how='inner')
```

**(12)** Левое объединение students и scores по student_id:
```python
pd.merge(students, scores, on='student_id', how='left')
```

**(13)** Полное объединение (outer) students и scores по student_id:
```python
pd.merge(students, scores, on='student_id', how='outer')
```

**(14)** Объединение с суффиксами для "name":
```python
students2 = students.iloc[:5].rename({'name': 'name_stud'}, axis=1)
scores2 = pd.DataFrame({
    'student_id': np.arange(1, 6),
    'name': ['N_'+str(i) for i in range(1, 6)],
    'score': np.random.randint(60, 101, size=5)
})
pd.merge(students2, scores2, on='student_id', suffixes=('_stud', '_scr'))
```

**(15)** Присоедините ages к students_idx по индексу:
```python
students_idx.join(ages)
```

**(16)** Присоедините ages к students_idx и удалите строки без возраста:
```python
students_idx.join(ages).dropna()
```

**(17)** Сколько совпадающих по индексам имен у students_idx и ages?
```python
students_idx.join(ages, how='inner').shape[0]
```

**(18)** Сколько людей встречаются только в ages, но не в students_idx?
```python
ages.join(students_idx, how='left').group.isna().sum()
```

**(19)** Присоедините к students_idx средний возраст всех участников:
```python
mean_age = ages['age'].mean()
students_idx.assign(mean_age=mean_age)
```

**(20)** Максимальный возраст в ages:
```python
ages['age'].max()
```

---

**(21)** Общая сумма продаж Milk:
```python
sales[sales['Product'] == 'Milk']['Amount'].sum()
```

**(22)** Средняя продажа Eggs по магазину B:
```python
sales[(sales['Product']=='Eggs')&(sales['Store']=='B')]['Amount'].mean()
```

**(23)** Сколько раз был продан каждый продукт?
```python
sales.groupby('Product')['Amount'].count()
```

**(24)** Сколько продано продуктов по каждому магазину (Store)?
```python
sales.groupby('Store')['Amount'].sum()
```

**(25)** Какой продукт был продан в магазине A чаще всего?
```python
sales[sales['Store']=='A']['Product'].value_counts().idxmax()
```

**(26)** pivot_table: строки — Product, столбцы — Store, сумма Amount:
```python
pd.pivot_table(sales, values='Amount', index='Product', columns='Store', aggfunc='sum', fill_value=0)
```

**(27)** pivot_table: строки Store, столбцы Month, сумма Amount:
```python
pd.pivot_table(sales, values='Amount', index='Store', columns='Month', aggfunc='sum', fill_value=0)
```

**(28)** pivot_table: средняя сумма продажи в каждом магазине и месяце:
```python
pd.pivot_table(sales, index='Store', columns='Month', values='Amount', aggfunc='mean', fill_value=0)
```

**(29)** В каждой паре (Class, Subject) — средний балл:
```python
exam_results.groupby(['Class','Subject'])['Score'].mean().unstack()
```

**(30)** pivot_table: строки — Subject, столбцы — Class, значения — sum:
```python
pd.pivot_table(exam_results, values='Score', index='Subject', columns='Class', aggfunc='sum', fill_value=0)
```

---