# 6. Pandas

## 6.1. Почему pandas?

pandas – одна из самых популярных библиотек для исследования данных с открытым исходным кодом, доступных в настоящее время. Она дает своим пользователям возможность исследовать, манипулировать, запрашивать, агрегировать и визуализировать табличные данные. Табличные данные относятся к двумерным данным, состоящим из строк и столбцов. Обычно мы называем такую организованную структуру данных таблицей. pandas – это инструмент, который мы будем использовать для анализа данных почти в каждом разделе этой книги.

## 6.2. Библиотека pandas построена на NumPy

Pandas построена на основе NumPy — это значит, что "под капотом" все данные в pandas хранятся в виде массивов NumPy. Можно думать об этом так:
- NumPy — это низкоуровневый инструмент для работы с числами и массивами. Он быстрый, но требует больше кода для сложных операций.
- Pandas — это высокоуровневая надстройка над NumPy, которая добавляет удобные структуры данных (как DataFrame и Series) и множество функций для анализа.

Пример: Разница в скорости  
Допустим, нужно вычислить сумму квадратов чисел.

In [1]:
%%time
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
result = (data ** 2).sum()  # Медленнее из-за накладных расходов

CPU times: total: 172 ms
Wall time: 316 ms


In [2]:
%%time
import numpy as np
data = np.array([1, 2, 3, 4, 5])
result = np.sum(data ** 2)  # Быстрее, так как работаем напрямую с массивами

CPU times: total: 0 ns
Wall time: 0 ns


## 6.3. pandas работает с табличными данными

Pandas — это библиотека, специально созданная для работы с табличными данными (двумерными структурами, похожими на таблицы в Excel).  
Pandas умеет читать данные из множества форматов и преобразовывать их в таблицу (DataFrame):
- CSV → `pd.read_csv()`
- JSON → `pd.read_json()`
- Excel → `pd.read_excel()`
- Parquet → `pd.read_parquet()`
- XML, текстовые файлы и другие.
```python
import pandas as pd
# Чтение CSV-файла
data = pd.read_csv('data.csv')
# Чтение JSON-файла
data = pd.read_json('data.json')
```

## 6.4. Объекты DataFrame и Series

**Series (Серия)** Одномерный массив данных — как один столбец в таблице. Аналогия: Столбец в Excel.

Особенности:
- Имеет индекс (номера строк, начиная с 0).
- Может содержать данные любого типа (числа, строки, даты).

**DataFrame (Датафрейм)** Двумерная таблица с строками и столбцами — как весь лист Excel.  Аналогия: Целая таблица в Excel.

Особенности:
- Каждый столбец — это объект Series.
- Столбцы могут быть разных типов (числа, строки, даты).
- Есть индекс (номера строк) и названия столбцов.

axis=0 — операции по строкам (вертикально). Например: df.mean(axis=0) вычислит среднее для каждого столбца.  
axis=1 — операции по столбцам (горизонтально). Например: df.mean(axis=1) вычислит среднее для каждой строки.

In [3]:
import pandas as pd

df = pd.DataFrame({
    'Empl': [10, 20],  # Столбец "Empl"
    'Age': [30, 40]     # Столбец "Age"
})

# Среднее по столбцам (axis=0)
print(df.mean(axis=0))
print()

# Среднее по строкам (axis=1)
print(df.mean(axis=1))
print()

display(df)

Empl    15.0
Age     35.0
dtype: float64

0    20.0
1    30.0
dtype: float64



Unnamed: 0,Empl,Age
0,10,30
1,20,40


🚀

## 6.5. Задачи, выполняемые pandas

1. Чтение данных 📂  
Pandas умеет загружать данные из разных форматов:
- CSV: `pd.read_csv('file.csv')`
- Excel: `pd.read_excel('file.xlsx')`
- JSON: `pd.read_json('file.json')`
- Базы данных: `pd.read_sql('SELECT * FROM table', connection)`

Пример:
```python
import pandas as pd
data = pd.read_csv('data.csv')  # Загружаем данные из CSV
```
2. Доступ к строкам и столбцам 🔍  
Можно легко выбирать нужные части данных:
- Столбцы: `data['column_name']` или `data.column_name`
- Строки: `data.loc[0]` (по индексу) или `data.iloc[0]` (по номеру)
- Ячейки: `data.at[0, 'column_name']`

Пример:
```python
# Выберем столбец "Age"
ages = data['Age']

# Первая строка
first_row = data.loc[0]
```
3. Фильтрация данных 🔎  
Отбор данных по условиям:
- Простой фильтр: `data[data['Age'] > 30]`
- Несколько условий: `data[(data['Age'] > 30) & (data['City'] == 'Moscow')]`

Пример:
```python
# Все клиенты старше 30 лет
adults = data[data['Age'] > 30]
```
4. Агрегация данных 📊  
Сводные вычисления:
- Группировка: `data.groupby('City')['Age'].mean()` — средний возраст по городам
- Сводные таблицы: `pd.pivot_table(data, values='Sales', index='Region')`

Пример:
```python
# Средний доход по профессиям
income_by_job = data.groupby('Job')['Income'].mean()
```
5. Чистка данных 🧹  
Приведение данных в порядок:
- Пропуски: `data.dropna()` (удалить пустые) или `data.fillna(0)` (заполнить нулями)
- Дубликаты: `data.drop_duplicates()`
- Изменение типов: `data['Column'] = data['Column'].astype(int)`

Пример:
```python
# Заполним пропуски в возрасте медианным значением
median_age = data['Age'].median()
data['Age'] = data['Age'].fillna(median_age)
```
6. Изменение формы данных 🔄  
Реструктуризация данных:
- Добавление столбцов: `data['New_Column'] = data['A'] + data['B']`
- Переименование: `data.rename(columns={'Old_Name': 'New_Name'})`
- Слияние таблиц: `pd.merge(data1, data2, on='key')`

Пример:
```python
# Создадим новый столбец
data['Full_Name'] = data['First_Name'] + ' ' + data['Last_Name']
```
7. Анализ временных рядов 📅  
Работа с датами и временем:
- Преобразование дат: `data['Date'] = pd.to_datetime(data['Date'])`
- Временные группировки: `data.resample('M')['Sales'].sum()` — продажи по месяцам

Пример:
```python
# Преобразуем строку в дату
data['Date'] = pd.to_datetime(data['Date'])

# Продажи по месяцам
monthly_sales = data.resample('M', on='Date')['Sales'].sum()
```
8. Визуализация данных 📈  
Pandas интегрирован с библиотеками визуализации:
- Графики: `data.plot()`, `data.hist()`
- Интеграция с Matplotlib/Seaborn

Пример:
```python
import matplotlib.pyplot as plt
data['Sales'].plot(kind='bar')
plt.show()
```

## 6.6. Кратко о типах данных

**Основные типы данных**
|Тип данных|Описание|Пример|
|-|-|-|
|boolean|Логические значения|True, False|
|integer|Целые числа|10, -5, 0|
|float|Числа с плавающей точкой (дробные)|3.14, -0.5|
|object|Чаще всего строки, но может быть любой объект Python|"Текст", `[1, 2, 3]`|
|datetime|Дата и время|2023-01-15 14:30:00|

Проверить типы

In [4]:
import pandas as pd

# Создаем датафрейм
df = pd.DataFrame({
    'Age': [25, 30],          # int
    'Salary': [50000.0, 60000.0],  # float
    'Name': ['Anna', 'Ivan']  # object (строка)
})

# Смотрим типы данных
print(df.dtypes)

Age         int64
Salary    float64
Name       object
dtype: object


Изменить тип

In [5]:
# Преобразуем столбец в другой тип
df['Age'] = df['Age'].astype(float)  # Теперь float
df['Name'] = df['Name'].astype('string')  # Экспериментальный строковый тип

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Age     2 non-null      float64
 1   Salary  2 non-null      float64
 2   Name    2 non-null      string 
dtypes: float64(2), string(1)
memory usage: 180.0 bytes


## 6.7. Представление пропусков

Пропуски (missing values) — это отсутствующие данные в таблицах. Pandas использует специальные значения для их обозначения.

**Основные представления пропусков**
|Тип данных|Обозначение пропуска|Пример|
|-|-|-|
|Числа (float)|NaN (Not a Number)|3.14, NaN|
|Даты (datetime)|NaT (Not a Time)|2023-01-01, NaT|
|Строки (object)|NaN|"Текст", NaN|
|Целые числа (int)|❌ Не поддерживается|—|
|Логические (bool)|❌ Не поддерживается|—|

Если попытаться добавить пропуск в столбец с целыми числами (int) или логическими значениями (bool), pandas автоматически преобразует весь столбец в тип float (чтобы можно было использовать NaN).

In [7]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'Age': [25, 30]})  # Тип: int64
df.loc[2] = np.nan  # Добавляем пропуск
print(df.dtypes)  # Теперь тип: float64!

Age    float64
dtype: object


**Новые типы данных в pandas 1.0+**
|Новый тип|Описание|Пример|
|-|-|-|
|Int64|Целые числа с пропусками|25, NaN|
|boolean|Логические значения с пропусками|True, NaN|
|string|Строки с пропусками|"Текст", NaN|

Проверить пропуски

In [8]:
# Создаем датафрейм с пропусками
df = pd.DataFrame({
    'Age': [25, np.nan, 30],
    'Name': ['Anna', np.nan, 'Ivan']
})

# Проверяем пропуски
print(df.isna())

     Age   Name
0  False  False
1   True   True
2  False  False


Обработка пропусков  
Удаление: `df.dropna()`  
Заполнение: `df.fillna(0)` (заполнить нулями) или `df.fillna(df.mean())` (заполнить средним)

## 6.8. Какую версию pandas использовать?

In [9]:
# смотрим версию
pd.__version__

'2.3.0'

## 6.9. Подробно знакомимся с типами данных

метод .astype() для изменения типов данных

### 6.9.1. Типы данных для работы с числами и логическими значениями

#### 6.9.1.1. Тип данных integer (тип для целых чисел, целочисленный тип), 'int64' или 'int32'

Целочисленные типы (int) в pandas и NumPy позволяют хранить целые числа с разным диапазоном значений и разным потреблением памяти.
|Тип|Размер (биты)|Диапазон значений|Память|
|-|-|-|-|
|`int8`|8|от -128 до 127|⚡️ Очень мало|
|`int16`|16|от -32768 до 32767|💾 Мало|
|`int32`|32|от -2.1e9 до 2.1e9|✅ Стандарт|
|`int64`|64|от -9.2e18 до 9.2e18|🐌 Много|

Tип по умолчанию, pandas выбирает  
- Linux/macOS (64-bit): int64
- Windows (64-bit): int32
- 32-битные системы: int32

In [10]:
import pandas as pd

# Создаем серию из целых чисел
s = pd.Series([10, 35, 130])
print(s.dtypes)

int64


In [11]:
# проверить диапазон типа

import numpy as np

# Диапазон для int8
print(np.iinfo('int8'))
# Вывод: min=-128, max=127

# Диапазон для int64
print(np.iinfo('int64'))
# Вывод: min=-9223372036854775808, max=9223372036854775807

Machine parameters for int8
---------------------------------------------------------------
min = -128
max = 127
---------------------------------------------------------------

Machine parameters for int64
---------------------------------------------------------------
min = -9223372036854775808
max = 9223372036854775807
---------------------------------------------------------------



Зачем нужно явно указывать типы?
- Экономия памяти: Если числа маленькие, используйте int8 или int16.
- Совместимость: Некоторые библиотеки требуют конкретных типов.
- Безопасность: Избегайте переполнений.

#### 6.9.1.2. Тип данных unsigned integer (тип для целых чисел без знака), 'uint64' или 'uint32'

Целые числа без знака (unsigned integer) — это специальные типы данных, которые могут хранить только неотрицательные целые числа (т.е. от 0 и выше). Они полезны для экономии памяти, когда вам точно не нужны отрицательные значения.
|Тип|Размер (биты)|Диапазон значений|Память|
|-|-|-|-|
|`uint8`|8|от 0 до 255|⚡️ Очень мало|
|`uint16`|16|от 0 до 65535|💾 Мало|
|`uint32`|32|от 0 до 4.3e9|✅ Стандарт|
|`uint64`|64|от 0 до 1.8e19|🐌 Много|

In [4]:
import pandas as pd
import numpy as np

# Создаем серию с целыми числами
s_int = pd.Series([10, 35, 130])

# Преобразуем в uint8
s_uint8 = s_int.astype('uint8')
print(s_uint8)

0     10
1     35
2    130
dtype: uint8


In [13]:
# проверить диапазон типа

# Диапазон для uint8
print(np.iinfo('uint8'))
# Вывод: min=0, max=255

# Диапазон для uint64
print(np.iinfo('uint64'))
# Вывод: min=0, max=18446744073709551615

Machine parameters for uint8
---------------------------------------------------------------
min = 0
max = 255
---------------------------------------------------------------

Machine parameters for uint64
---------------------------------------------------------------
min = 0
max = 18446744073709551615
---------------------------------------------------------------



Зачем использовать uint?
- Экономия памяти: uint8 занимает в 8 раз меньше памяти, чем int64.
- Удобство для определенных данных: Например, возраст, количество items, пиксели изображений (всегда ≥ 0).

#### 6.9.1.3. Тип данных nullable integer (тип для целых чисел, допускающий значения NULL), 'Int64'

Nullable integer — это специальный тип данных в pandas, который позволяет хранить целые числа вместе с пропусками (NULL значениями). Он был введен, чтобы решить проблему, когда обычные целочисленные типы (int64, int32 и др.) не поддерживают пропуски.

Обычные целочисленные типы в pandas/NumPy не поддерживают пропуски. Если попытаться добавить NaN в такой столбец, pandas автоматически преобразует его во float:

In [14]:
# Создаем серию с типом Int64
s_nullable = pd.Series([10, 35, 130, np.nan], dtype='Int64')
print(s_nullable)

0      10
1      35
2     130
3    <NA>
dtype: Int64


Особенности Int64
- Обозначение пропуска: `<NA>` (вместо `NaN`)
- Синтаксис: `'Int8'`, `'Int16'`, `'Int32'`, `'Int64'` (с заглавной буквы!)
- Безопасность: Проверяет диапазон значений и выдает ошибку при переполнении
- Только в pandas: В NumPy такого типа нет

In [15]:
# Пример с ошибкой переполнения

# Попытка сохранить 130 в Int8 (диапазон: -128 до 127)
try:
    s_error = pd.Series([10, 35, 130], dtype='Int8')
except Exception as e:
    print(f"Ошибка: {e}")

Ошибка: cannot safely cast non-equivalent int64 to int8


#### 6.9.1.4. Тип данных nullable unsigned integer (тип для целых чисел без знака, допускающий значения NULL), 'UInt64'

In [2]:
# Создаем серию с типом UInt64
pd.Series([10, 35, 130, pd.NA], dtype='UInt8')

0      10
1      35
2     130
3    <NA>
dtype: UInt8

#### 6.9.1.5. Тип данных float (тип для чисел с плавающей точкой), 'float64' или 'float32'

Типы float используются для хранения дробных чисел (чисел с плавающей точкой). Они поддерживают пропуски значений и имеют разную точность в зависимости от размера.
|Тип|Размер (биты)|Точность|Диапазон|Память|
|-|-|-|-|-|
|`float16`|16|~3 знака|±6.55×10⁴|⚡️ Мало|
|`float32`|32|~6 знаков|±3.40×10³⁸|💾 Средне|
|`float64`|	64|~15 знаков|±1.80×10³⁰⁸|✅ Стандарт|

In [5]:
# Создаем серию с дробными числами и пропуском
s_float = pd.Series([5.26, 1234.56789, np.nan])
print(s_float)

0       5.26000
1    1234.56789
2           NaN
dtype: float64


In [7]:
# Проверка характеристик типов
# Для float32
print(np.finfo('float32'))

# Для float16
print(np.finfo('float16'))

Machine parameters for float32
---------------------------------------------------------------
precision =   6   resolution = 1.0000000e-06
machep =    -23   eps =        1.1920929e-07
negep =     -24   epsneg =     5.9604645e-08
minexp =   -126   tiny =       1.1754944e-38
maxexp =    128   max =        3.4028235e+38
nexp =        8   min =        -max
smallest_normal = 1.1754944e-38   smallest_subnormal = 1.4012985e-45
---------------------------------------------------------------

Machine parameters for float16
---------------------------------------------------------------
precision =   3   resolution = 1.00040e-03
machep =    -10   eps =        9.76562e-04
negep =     -11   epsneg =     4.88281e-04
minexp =    -14   tiny =       6.10352e-05
maxexp =     16   max =        6.55040e+04
nexp =        5   min =        -max
smallest_normal = 6.10352e-05   smallest_subnormal = 5.96046e-08
---------------------------------------------------------------



#### 6.9.1.6. Тип данных nullable float (тип для чисел с плавающей точкой, допускающий значения NULL), 'Float64'

In [8]:
# преобразовываем из типа float
# в тип nullable float (Float64)
nullable_float = s_float.astype('Float64')
nullable_float

0          5.26
1    1234.56789
2          <NA>
dtype: Float64

#### 6.9.1.7. Тип данных boolean (логический тип, булев тип), 'bool'