# 6. Pandas

## 6.1. Почему pandas?

pandas – одна из самых популярных библиотек для исследования данных с открытым исходным кодом, доступных в настоящее время. Она дает своим пользователям возможность исследовать, манипулировать, запрашивать, агрегировать и визуализировать табличные данные. Табличные данные относятся к двумерным данным, состоящим из строк и столбцов. Обычно мы называем такую организованную структуру данных таблицей. pandas – это инструмент, который мы будем использовать для анализа данных почти в каждом разделе этой книги.

## 6.2. Библиотека pandas построена на NumPy

Pandas построена на основе NumPy — это значит, что "под капотом" все данные в pandas хранятся в виде массивов NumPy. Можно думать об этом так:
- NumPy — это низкоуровневый инструмент для работы с числами и массивами. Он быстрый, но требует больше кода для сложных операций.
- Pandas — это высокоуровневая надстройка над NumPy, которая добавляет удобные структуры данных (как DataFrame и Series) и множество функций для анализа.

Пример: Разница в скорости  
Допустим, нужно вычислить сумму квадратов чисел.

In [2]:
%%time
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
result = (data ** 2).sum()  # Медленнее из-за накладных расходов

CPU times: total: 125 ms
Wall time: 3.51 s


In [3]:
%%time
import numpy as np
data = np.array([1, 2, 3, 4, 5])
result = np.sum(data ** 2)  # Быстрее, так как работаем напрямую с массивами

CPU times: total: 0 ns
Wall time: 0 ns


## 6.3. pandas работает с табличными данными

Pandas — это библиотека, специально созданная для работы с табличными данными (двумерными структурами, похожими на таблицы в Excel).  
Pandas умеет читать данные из множества форматов и преобразовывать их в таблицу (DataFrame):
- CSV → `pd.read_csv()`
- JSON → `pd.read_json()`
- Excel → `pd.read_excel()`
- Parquet → `pd.read_parquet()`
- XML, текстовые файлы и другие.
```python
import pandas as pd
# Чтение CSV-файла
data = pd.read_csv('data.csv')
# Чтение JSON-файла
data = pd.read_json('data.json')
```

## 6.4. Объекты DataFrame и Series

**Series (Серия)** Одномерный массив данных — как один столбец в таблице. Аналогия: Столбец в Excel.

Особенности:
- Имеет индекс (номера строк, начиная с 0).
- Может содержать данные любого типа (числа, строки, даты).

**DataFrame (Датафрейм)** Двумерная таблица с строками и столбцами — как весь лист Excel.  Аналогия: Целая таблица в Excel.

Особенности:
- Каждый столбец — это объект Series.
- Столбцы могут быть разных типов (числа, строки, даты).
- Есть индекс (номера строк) и названия столбцов.

Аналогия: Целая таблица в Excel.