# 📊 Урок 04 — Обработка и агрегация данных в Pandas

**Цель:** Научиться эффективно выбирать, агрегировать и объединять данные в Pandas.

**Темы:**
- Выбор данных (индексация, фильтрация)
- Агрегация (groupby, sum, mean, count)
- Объединение таблиц (merge, join)
- Трансформация (apply, map, fillna)
- Утилиты (isnull, sort_values, reset_index)


In [9]:
# Импортируем библиотеки
import pandas as pd
import numpy as np

## 1️⃣ Загрузка и просмотр данных

In [11]:
# Пример датафрейма
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Department': ['HR', 'IT', 'IT', 'HR', 'Marketing'],
    'Salary': [50000, 60000, 65000, 52000, 58000],
    'Age': [25, 30, 35, 45, 28]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Department,Salary,Age
0,Alice,HR,50000,25
1,Bob,IT,60000,30
2,Charlie,IT,65000,35
3,David,HR,52000,45
4,Eva,Marketing,58000,28


## 2️⃣ Выбор и фильтрация данных

In [12]:
# Все сотрудники из IT
df[df['Department'] == 'IT']

Unnamed: 0,Name,Department,Salary,Age
1,Bob,IT,60000,30
2,Charlie,IT,65000,35


## 3️⃣ Агрегация — groupby()

In [13]:
# Средняя зарплата по отделам
df.groupby('Department')['Salary'].mean()

Department
HR           51000.0
IT           62500.0
Marketing    58000.0
Name: Salary, dtype: float64

## 4️⃣ Объединение таблиц (merge)

In [5]:
extra = pd.DataFrame({
    'Name': ['Alice', 'Charlie', 'Eva'],
    'Bonus': [5000, 3000, 4000]
})
merged_df = pd.merge(df, extra, on='Name', how='left')
merged_df

Unnamed: 0,Name,Department,Salary,Age,Bonus
0,Alice,HR,50000,25,5000.0
1,Bob,IT,60000,30,
2,Charlie,IT,65000,35,3000.0
3,David,HR,52000,45,
4,Eva,Marketing,58000,28,4000.0


## 5️⃣ Трансформация данных

In [14]:
# Добавим столбец с возрастной категорией
df['AgeGroup'] = df['Age'].apply(lambda x: 'Young' if x < 30 else 'Senior')
df

Unnamed: 0,Name,Department,Salary,Age,AgeGroup
0,Alice,HR,50000,25,Young
1,Bob,IT,60000,30,Senior
2,Charlie,IT,65000,35,Senior
3,David,HR,52000,45,Senior
4,Eva,Marketing,58000,28,Young


## 6️⃣ Утилиты Pandas

In [7]:
# Проверим пропуски
merged_df.isnull().sum()

Name          0
Department    0
Salary        0
Age           0
Bonus         2
dtype: int64