# 6. Pandas

## 6.1. Почему pandas?

pandas – одна из самых популярных библиотек для исследования данных с открытым исходным кодом, доступных в настоящее время. Она дает своим пользователям возможность исследовать, манипулировать, запрашивать, агрегировать и визуализировать табличные данные. Табличные данные относятся к двумерным данным, состоящим из строк и столбцов. Обычно мы называем такую организованную структуру данных таблицей. pandas – это инструмент, который мы будем использовать для анализа данных почти в каждом разделе этой книги.

## 6.2. Библиотека pandas построена на NumPy

Pandas построена на основе NumPy — это значит, что "под капотом" все данные в pandas хранятся в виде массивов NumPy. Можно думать об этом так:
- NumPy — это низкоуровневый инструмент для работы с числами и массивами. Он быстрый, но требует больше кода для сложных операций.
- Pandas — это высокоуровневая надстройка над NumPy, которая добавляет удобные структуры данных (как DataFrame и Series) и множество функций для анализа.

Пример: Разница в скорости  
Допустим, нужно вычислить сумму квадратов чисел.

In [1]:
%%time
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
result = (data ** 2).sum()  # Медленнее из-за накладных расходов

CPU times: total: 31.2 ms
Wall time: 289 ms


In [2]:
%%time
import numpy as np
data = np.array([1, 2, 3, 4, 5])
result = np.sum(data ** 2)  # Быстрее, так как работаем напрямую с массивами

CPU times: total: 0 ns
Wall time: 0 ns


## 6.3. pandas работает с табличными данными

Pandas — это библиотека, специально созданная для работы с табличными данными (двумерными структурами, похожими на таблицы в Excel).  
Pandas умеет читать данные из множества форматов и преобразовывать их в таблицу (DataFrame):
- CSV → `pd.read_csv()`
- JSON → `pd.read_json()`
- Excel → `pd.read_excel()`
- Parquet → `pd.read_parquet()`
- XML, текстовые файлы и другие.
```python
import pandas as pd
# Чтение CSV-файла
data = pd.read_csv('data.csv')
# Чтение JSON-файла
data = pd.read_json('data.json')
```

## 6.4. Объекты DataFrame и Series

**Series (Серия)** Одномерный массив данных — как один столбец в таблице. Аналогия: Столбец в Excel.

Особенности:
- Имеет индекс (номера строк, начиная с 0).
- Может содержать данные любого типа (числа, строки, даты).

**DataFrame (Датафрейм)** Двумерная таблица с строками и столбцами — как весь лист Excel.  Аналогия: Целая таблица в Excel.

Особенности:
- Каждый столбец — это объект Series.
- Столбцы могут быть разных типов (числа, строки, даты).
- Есть индекс (номера строк) и названия столбцов.

axis=0 — операции по строкам (вертикально). Например: df.mean(axis=0) вычислит среднее для каждого столбца.  
axis=1 — операции по столбцам (горизонтально). Например: df.mean(axis=1) вычислит среднее для каждой строки.

In [3]:
import pandas as pd

df = pd.DataFrame({
    'Empl': [10, 20],  # Столбец "Empl"
    'Age': [30, 40]     # Столбец "Age"
})

# Среднее по столбцам (axis=0)
print(df.mean(axis=0))
print()

# Среднее по строкам (axis=1)
print(df.mean(axis=1))
print()

display(df)

Empl    15.0
Age     35.0
dtype: float64

0    20.0
1    30.0
dtype: float64



Unnamed: 0,Empl,Age
0,10,30
1,20,40


🚀

## 6.5. Задачи, выполняемые pandas

1. Чтение данных 📂  
Pandas умеет загружать данные из разных форматов:
- CSV: `pd.read_csv('file.csv')`
- Excel: `pd.read_excel('file.xlsx')`
- JSON: `pd.read_json('file.json')`
- Базы данных: `pd.read_sql('SELECT * FROM table', connection)`

Пример:
```python
import pandas as pd
data = pd.read_csv('data.csv')  # Загружаем данные из CSV
```
2. Доступ к строкам и столбцам 🔍  
Можно легко выбирать нужные части данных:
- Столбцы: `data['column_name']` или `data.column_name`
- Строки: `data.loc[0]` (по индексу) или `data.iloc[0]` (по номеру)
- Ячейки: `data.at[0, 'column_name']`

Пример:
```python
# Выберем столбец "Age"
ages = data['Age']

# Первая строка
first_row = data.loc[0]
```
3. Фильтрация данных 🔎  
Отбор данных по условиям:
- Простой фильтр: `data[data['Age'] > 30]`
- Несколько условий: `data[(data['Age'] > 30) & (data['City'] == 'Moscow')]`

Пример:
```python
# Все клиенты старше 30 лет
adults = data[data['Age'] > 30]
```
4. Агрегация данных 📊  
Сводные вычисления:
- Группировка: `data.groupby('City')['Age'].mean()` — средний возраст по городам
- Сводные таблицы: `pd.pivot_table(data, values='Sales', index='Region')`

Пример:
```python
# Средний доход по профессиям
income_by_job = data.groupby('Job')['Income'].mean()
```
5. Чистка данных 🧹  
Приведение данных в порядок:
- Пропуски: `data.dropna()` (удалить пустые) или `data.fillna(0)` (заполнить нулями)
- Дубликаты: `data.drop_duplicates()`
- Изменение типов: `data['Column'] = data['Column'].astype(int)`

Пример:
```python
# Заполним пропуски в возрасте медианным значением
median_age = data['Age'].median()
data['Age'] = data['Age'].fillna(median_age)
```
6. Изменение формы данных 🔄  
Реструктуризация данных:
- Добавление столбцов: `data['New_Column'] = data['A'] + data['B']`
- Переименование: `data.rename(columns={'Old_Name': 'New_Name'})`
- Слияние таблиц: `pd.merge(data1, data2, on='key')`

Пример:
```python
# Создадим новый столбец
data['Full_Name'] = data['First_Name'] + ' ' + data['Last_Name']
```
7. Анализ временных рядов 📅  
Работа с датами и временем:
- Преобразование дат: `data['Date'] = pd.to_datetime(data['Date'])`
- Временные группировки: `data.resample('M')['Sales'].sum()` — продажи по месяцам

Пример:
```python
# Преобразуем строку в дату
data['Date'] = pd.to_datetime(data['Date'])

# Продажи по месяцам
monthly_sales = data.resample('M', on='Date')['Sales'].sum()
```
8. Визуализация данных 📈  
Pandas интегрирован с библиотеками визуализации:
- Графики: `data.plot()`, `data.hist()`
- Интеграция с Matplotlib/Seaborn

Пример:
```python
import matplotlib.pyplot as plt
data['Sales'].plot(kind='bar')
plt.show()
```

## 6.6. Кратко о типах данных

**Основные типы данных**
|Тип данных|Описание|Пример|
|-|-|-|
|boolean|Логические значения|True, False|
|integer|Целые числа|10, -5, 0|
|float|Числа с плавающей точкой (дробные)|3.14, -0.5|
|object|Чаще всего строки, но может быть любой объект Python|"Текст", `[1, 2, 3]`|
|datetime|Дата и время|2023-01-15 14:30:00|

Проверить типы

In [4]:
import pandas as pd

# Создаем датафрейм
df = pd.DataFrame({
    'Age': [25, 30],          # int
    'Salary': [50000.0, 60000.0],  # float
    'Name': ['Anna', 'Ivan']  # object (строка)
})

# Смотрим типы данных
print(df.dtypes)

Age         int64
Salary    float64
Name       object
dtype: object


Изменить тип

In [5]:
# Преобразуем столбец в другой тип
df['Age'] = df['Age'].astype(float)  # Теперь float
df['Name'] = df['Name'].astype('string')  # Экспериментальный строковый тип

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Age     2 non-null      float64
 1   Salary  2 non-null      float64
 2   Name    2 non-null      string 
dtypes: float64(2), string(1)
memory usage: 180.0 bytes
