# 6. Pandas

## 6.1. Почему pandas?

pandas – одна из самых популярных библиотек для исследования данных с открытым исходным кодом, доступных в настоящее время. Она дает своим пользователям возможность исследовать, манипулировать, запрашивать, агрегировать и визуализировать табличные данные. Табличные данные относятся к двумерным данным, состоящим из строк и столбцов. Обычно мы называем такую организованную структуру данных таблицей. pandas – это инструмент, который мы будем использовать для анализа данных почти в каждом разделе этой книги.

## 6.2. Библиотека pandas построена на NumPy

Pandas построена на основе NumPy — это значит, что "под капотом" все данные в pandas хранятся в виде массивов NumPy. Можно думать об этом так:
- NumPy — это низкоуровневый инструмент для работы с числами и массивами. Он быстрый, но требует больше кода для сложных операций.
- Pandas — это высокоуровневая надстройка над NumPy, которая добавляет удобные структуры данных (как DataFrame и Series) и множество функций для анализа.

Пример: Разница в скорости  
Допустим, нужно вычислить сумму квадратов чисел.

In [1]:
%%time
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
result = (data ** 2).sum()  # Медленнее из-за накладных расходов

CPU times: total: 219 ms
Wall time: 298 ms


In [2]:
%%time
import numpy as np
data = np.array([1, 2, 3, 4, 5])
result = np.sum(data ** 2)  # Быстрее, так как работаем напрямую с массивами

CPU times: total: 0 ns
Wall time: 0 ns


## 6.3. pandas работает с табличными данными

Pandas — это библиотека, специально созданная для работы с табличными данными (двумерными структурами, похожими на таблицы в Excel).  
Pandas умеет читать данные из множества форматов и преобразовывать их в таблицу (DataFrame):
- CSV → `pd.read_csv()`
- JSON → `pd.read_json()`
- Excel → `pd.read_excel()`
- Parquet → `pd.read_parquet()`
- XML, текстовые файлы и другие.
```python
import pandas as pd
# Чтение CSV-файла
data = pd.read_csv('data.csv')
# Чтение JSON-файла
data = pd.read_json('data.json')
```

## 6.4. Объекты DataFrame и Series

**Series (Серия)** Одномерный массив данных — как один столбец в таблице. Аналогия: Столбец в Excel.

Особенности:
- Имеет индекс (номера строк, начиная с 0).
- Может содержать данные любого типа (числа, строки, даты).

**DataFrame (Датафрейм)** Двумерная таблица с строками и столбцами — как весь лист Excel.  Аналогия: Целая таблица в Excel.

Особенности:
- Каждый столбец — это объект Series.
- Столбцы могут быть разных типов (числа, строки, даты).
- Есть индекс (номера строк) и названия столбцов.

axis=0 — операции по строкам (вертикально). Например: df.mean(axis=0) вычислит среднее для каждого столбца.  
axis=1 — операции по столбцам (горизонтально). Например: df.mean(axis=1) вычислит среднее для каждой строки.

In [3]:
import pandas as pd

df = pd.DataFrame({
    'Empl': [10, 20],  # Столбец "Empl"
    'Age': [30, 40]     # Столбец "Age"
})

# Среднее по столбцам (axis=0)
print(df.mean(axis=0))
print()

# Среднее по строкам (axis=1)
print(df.mean(axis=1))
print()

display(df)

Empl    15.0
Age     35.0
dtype: float64

0    20.0
1    30.0
dtype: float64



Unnamed: 0,Empl,Age
0,10,30
1,20,40


🚀

## 6.5. Задачи, выполняемые pandas

1. Чтение данных 📂  
Pandas умеет загружать данные из разных форматов:
- CSV: `pd.read_csv('file.csv')`
- Excel: `pd.read_excel('file.xlsx')`
- JSON: `pd.read_json('file.json')`
- Базы данных: `pd.read_sql('SELECT * FROM table', connection)`

Пример:
```python
import pandas as pd
data = pd.read_csv('data.csv')  # Загружаем данные из CSV
```
2. Доступ к строкам и столбцам 🔍  
Можно легко выбирать нужные части данных:
- Столбцы: `data['column_name']` или `data.column_name`
- Строки: `data.loc[0]` (по индексу) или `data.iloc[0]` (по номеру)
- Ячейки: `data.at[0, 'column_name']`

Пример:
```python
# Выберем столбец "Age"
ages = data['Age']

# Первая строка
first_row = data.loc[0]
```
3. Фильтрация данных 🔎  
Отбор данных по условиям:
- Простой фильтр: `data[data['Age'] > 30]`
- Несколько условий: `data[(data['Age'] > 30) & (data['City'] == 'Moscow')]`

Пример:
```python
# Все клиенты старше 30 лет
adults = data[data['Age'] > 30]
```
4. Агрегация данных 📊  
Сводные вычисления:
- Группировка: `data.groupby('City')['Age'].mean()` — средний возраст по городам
- Сводные таблицы: `pd.pivot_table(data, values='Sales', index='Region')`

Пример:
```python
# Средний доход по профессиям
income_by_job = data.groupby('Job')['Income'].mean()
```
5. Чистка данных 🧹  
Приведение данных в порядок:
- Пропуски: `data.dropna()` (удалить пустые) или `data.fillna(0)` (заполнить нулями)
- Дубликаты: `data.drop_duplicates()`
- Изменение типов: `data['Column'] = data['Column'].astype(int)`

Пример:
```python
# Заполним пропуски в возрасте медианным значением
median_age = data['Age'].median()
data['Age'] = data['Age'].fillna(median_age)
```
6. Изменение формы данных 🔄  
Реструктуризация данных:
- Добавление столбцов: `data['New_Column'] = data['A'] + data['B']`
- Переименование: `data.rename(columns={'Old_Name': 'New_Name'})`
- Слияние таблиц: `pd.merge(data1, data2, on='key')`

Пример:
```python
# Создадим новый столбец
data['Full_Name'] = data['First_Name'] + ' ' + data['Last_Name']
```
7. Анализ временных рядов 📅  
Работа с датами и временем:
- Преобразование дат: `data['Date'] = pd.to_datetime(data['Date'])`
- Временные группировки: `data.resample('M')['Sales'].sum()` — продажи по месяцам

Пример:
```python
# Преобразуем строку в дату
data['Date'] = pd.to_datetime(data['Date'])

# Продажи по месяцам
monthly_sales = data.resample('M', on='Date')['Sales'].sum()
```
8. Визуализация данных 📈  
Pandas интегрирован с библиотеками визуализации:
- Графики: `data.plot()`, `data.hist()`
- Интеграция с Matplotlib/Seaborn

Пример:
```python
import matplotlib.pyplot as plt
data['Sales'].plot(kind='bar')
plt.show()
```

## 6.6. Кратко о типах данных

**Основные типы данных**
|Тип данных|Описание|Пример|
|-|-|-|
|boolean|Логические значения|True, False|
|integer|Целые числа|10, -5, 0|
|float|Числа с плавающей точкой (дробные)|3.14, -0.5|
|object|Чаще всего строки, но может быть любой объект Python|"Текст", `[1, 2, 3]`|
|datetime|Дата и время|2023-01-15 14:30:00|

Проверить типы

In [4]:
import pandas as pd

# Создаем датафрейм
df = pd.DataFrame({
    'Age': [25, 30],          # int
    'Salary': [50000.0, 60000.0],  # float
    'Name': ['Anna', 'Ivan']  # object (строка)
})

# Смотрим типы данных
print(df.dtypes)

Age         int64
Salary    float64
Name       object
dtype: object


Изменить тип

In [5]:
# Преобразуем столбец в другой тип
df['Age'] = df['Age'].astype(float)  # Теперь float
df['Name'] = df['Name'].astype('string')  # Экспериментальный строковый тип

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Age     2 non-null      float64
 1   Salary  2 non-null      float64
 2   Name    2 non-null      string 
dtypes: float64(2), string(1)
memory usage: 180.0 bytes


## 6.7. Представление пропусков

Пропуски (missing values) — это отсутствующие данные в таблицах. Pandas использует специальные значения для их обозначения.

**Основные представления пропусков**
|Тип данных|Обозначение пропуска|Пример|
|-|-|-|
|Числа (float)|NaN (Not a Number)|3.14, NaN|
|Даты (datetime)|NaT (Not a Time)|2023-01-01, NaT|
|Строки (object)|NaN|"Текст", NaN|
|Целые числа (int)|❌ Не поддерживается|—|
|Логические (bool)|❌ Не поддерживается|—|

Если попытаться добавить пропуск в столбец с целыми числами (int) или логическими значениями (bool), pandas автоматически преобразует весь столбец в тип float (чтобы можно было использовать NaN).

In [7]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'Age': [25, 30]})  # Тип: int64
df.loc[2] = np.nan  # Добавляем пропуск
print(df.dtypes)  # Теперь тип: float64!

Age    float64
dtype: object


**Новые типы данных в pandas 1.0+**
|Новый тип|Описание|Пример|
|-|-|-|
|Int64|Целые числа с пропусками|25, NaN|
|boolean|Логические значения с пропусками|True, NaN|
|string|Строки с пропусками|"Текст", NaN|

Проверить пропуски

In [8]:
# Создаем датафрейм с пропусками
df = pd.DataFrame({
    'Age': [25, np.nan, 30],
    'Name': ['Anna', np.nan, 'Ivan']
})

# Проверяем пропуски
print(df.isna())

     Age   Name
0  False  False
1   True   True
2  False  False


Обработка пропусков  
Удаление: `df.dropna()`  
Заполнение: `df.fillna(0)` (заполнить нулями) или `df.fillna(df.mean())` (заполнить средним)

## 6.8. Какую версию pandas использовать?

In [9]:
# смотрим версию
pd.__version__

'2.3.0'

## 6.9. Подробно знакомимся с типами данных

метод .astype() для изменения типов данных

### 6.9.1. Типы данных для работы с числами и логическими значениями

#### 6.9.1.1. Тип данных integer (тип для целых чисел, целочисленный тип), 'int64' или 'int32'

Целочисленные типы (int) в pandas и NumPy позволяют хранить целые числа с разным диапазоном значений и разным потреблением памяти.
|Тип|Размер (биты)|Диапазон значений|Память|
|-|-|-|-|
|`int8`|8|от -128 до 127|⚡️ Очень мало|
|`int16`|16|от -32768 до 32767|💾 Мало|
|`int32`|32|от -2.1e9 до 2.1e9|✅ Стандарт|
|`int64`|64|от -9.2e18 до 9.2e18|🐌 Много|

Tип по умолчанию, pandas выбирает  
- Linux/macOS (64-bit): int64
- Windows (64-bit): int32
- 32-битные системы: int32

In [10]:
import pandas as pd

# Создаем серию из целых чисел
s = pd.Series([10, 35, 130])
print(s.dtypes)

int64


In [11]:
# проверить диапазон типа

import numpy as np

# Диапазон для int8
print(np.iinfo('int8'))
# Вывод: min=-128, max=127

# Диапазон для int64
print(np.iinfo('int64'))
# Вывод: min=-9223372036854775808, max=9223372036854775807

Machine parameters for int8
---------------------------------------------------------------
min = -128
max = 127
---------------------------------------------------------------

Machine parameters for int64
---------------------------------------------------------------
min = -9223372036854775808
max = 9223372036854775807
---------------------------------------------------------------



Зачем нужно явно указывать типы?
- Экономия памяти: Если числа маленькие, используйте int8 или int16.
- Совместимость: Некоторые библиотеки требуют конкретных типов.
- Безопасность: Избегайте переполнений.

#### 6.9.1.2. Тип данных unsigned integer (тип для целых чисел без знака), 'uint64' или 'uint32'

Целые числа без знака (unsigned integer) — это специальные типы данных, которые могут хранить только неотрицательные целые числа (т.е. от 0 и выше). Они полезны для экономии памяти, когда вам точно не нужны отрицательные значения.
|Тип|Размер (биты)|Диапазон значений|Память|
|-|-|-|-|
|`uint8`|8|от 0 до 255|⚡️ Очень мало|
|`uint16`|16|от 0 до 65535|💾 Мало|
|`uint32`|32|от 0 до 4.3e9|✅ Стандарт|
|`uint64`|64|от 0 до 1.8e19|🐌 Много|

In [12]:
import pandas as pd
import numpy as np

# Создаем серию с целыми числами
s_int = pd.Series([10, 35, 130])

# Преобразуем в uint8
s_uint8 = s_int.astype('uint8')
print(s_uint8)

0     10
1     35
2    130
dtype: uint8


In [13]:
# проверить диапазон типа

# Диапазон для uint8
print(np.iinfo('uint8'))
# Вывод: min=0, max=255

# Диапазон для uint64
print(np.iinfo('uint64'))
# Вывод: min=0, max=18446744073709551615

Machine parameters for uint8
---------------------------------------------------------------
min = 0
max = 255
---------------------------------------------------------------

Machine parameters for uint64
---------------------------------------------------------------
min = 0
max = 18446744073709551615
---------------------------------------------------------------



Зачем использовать uint?
- Экономия памяти: uint8 занимает в 8 раз меньше памяти, чем int64.
- Удобство для определенных данных: Например, возраст, количество items, пиксели изображений (всегда ≥ 0).

#### 6.9.1.3. Тип данных nullable integer (тип для целых чисел, допускающий значения NULL), 'Int64'

Nullable integer — это специальный тип данных в pandas, который позволяет хранить целые числа вместе с пропусками (NULL значениями). Он был введен, чтобы решить проблему, когда обычные целочисленные типы (int64, int32 и др.) не поддерживают пропуски.

Обычные целочисленные типы в pandas/NumPy не поддерживают пропуски. Если попытаться добавить NaN в такой столбец, pandas автоматически преобразует его во float:

In [14]:
# Создаем серию с типом Int64
s_nullable = pd.Series([10, 35, 130, np.nan], dtype='Int64')
print(s_nullable)

0      10
1      35
2     130
3    <NA>
dtype: Int64


Особенности Int64
- Обозначение пропуска: `<NA>` (вместо `NaN`)
- Синтаксис: `'Int8'`, `'Int16'`, `'Int32'`, `'Int64'` (с заглавной буквы!)
- Безопасность: Проверяет диапазон значений и выдает ошибку при переполнении
- Только в pandas: В NumPy такого типа нет

In [15]:
# Пример с ошибкой переполнения

# Попытка сохранить 130 в Int8 (диапазон: -128 до 127)
try:
    s_error = pd.Series([10, 35, 130], dtype='Int8')
except Exception as e:
    print(f"Ошибка: {e}")

Ошибка: cannot safely cast non-equivalent int64 to int8


#### 6.9.1.4. Тип данных nullable unsigned integer (тип для целых чисел без знака, допускающий значения NULL), 'UInt64'

In [16]:
# Создаем серию с типом UInt64
pd.Series([10, 35, 130, pd.NA], dtype='UInt8')

0      10
1      35
2     130
3    <NA>
dtype: UInt8

#### 6.9.1.5. Тип данных float (тип для чисел с плавающей точкой), 'float64' или 'float32'

Типы float используются для хранения дробных чисел (чисел с плавающей точкой). Они поддерживают пропуски значений и имеют разную точность в зависимости от размера.
|Тип|Размер (биты)|Точность|Диапазон|Память|
|-|-|-|-|-|
|`float16`|16|~3 знака|±6.55×10⁴|⚡️ Мало|
|`float32`|32|~6 знаков|±3.40×10³⁸|💾 Средне|
|`float64`|	64|~15 знаков|±1.80×10³⁰⁸|✅ Стандарт|

In [17]:
# Создаем серию с дробными числами и пропуском
s_float = pd.Series([5.26, 1234.56789, np.nan])
print(s_float)

0       5.26000
1    1234.56789
2           NaN
dtype: float64


In [18]:
# Проверка характеристик типов
# Для float32
print(np.finfo('float32'))

# Для float16
print(np.finfo('float16'))

Machine parameters for float32
---------------------------------------------------------------
precision =   6   resolution = 1.0000000e-06
machep =    -23   eps =        1.1920929e-07
negep =     -24   epsneg =     5.9604645e-08
minexp =   -126   tiny =       1.1754944e-38
maxexp =    128   max =        3.4028235e+38
nexp =        8   min =        -max
smallest_normal = 1.1754944e-38   smallest_subnormal = 1.4012985e-45
---------------------------------------------------------------

Machine parameters for float16
---------------------------------------------------------------
precision =   3   resolution = 1.00040e-03
machep =    -10   eps =        9.76562e-04
negep =     -11   epsneg =     4.88281e-04
minexp =    -14   tiny =       6.10352e-05
maxexp =     16   max =        6.55040e+04
nexp =        5   min =        -max
smallest_normal = 6.10352e-05   smallest_subnormal = 5.96046e-08
---------------------------------------------------------------



#### 6.9.1.6. Тип данных nullable float (тип для чисел с плавающей точкой, допускающий значения NULL), 'Float64'

In [19]:
# преобразовываем из типа float
# в тип nullable float (Float64)
nullable_float = s_float.astype('Float64')
nullable_float

0          5.26
1    1234.56789
2          <NA>
dtype: Float64

#### 6.9.1.7. Тип данных boolean (логический тип, булев тип), 'bool'

Логический тип (bool) используется для хранения значений True (истина) и False (ложь). Это самый простой тип данных, но с важными особенностями преобразования.

In [20]:
# Создаем серию с логическими значениями
s_bool = pd.Series([True, False, True])
print(s_bool)

0     True
1    False
2     True
dtype: bool


In [21]:
# Преобразование других типов в bool
s_int = pd.Series([0, 1, 59, -35])
s_bool_from_int = s_int.astype('bool')
print(s_bool_from_int)

s_float = pd.Series([0.0, 0.0001, -3.99])
s_bool_from_float = s_float.astype('bool')
print(s_bool_from_float)

0    False
1     True
2     True
3     True
dtype: bool
0    False
1     True
2     True
dtype: bool


In [22]:
# Преобразование bool в другие типы
s_bool = pd.Series([True, False])
s_int_from_bool = s_bool.astype('int64')
print(s_int_from_bool)

s_float_from_bool = s_bool.astype('float64')
print(s_float_from_bool)

0    1
1    0
dtype: int64
0    1.0
1    0.0
dtype: float64


Практическое применение
- Фильтрация данных: `df[df['Age'] > 30]`
- Создание масок: `df['Is_Adult'] = df['Age'] >= 18`
- Агрегация: `df['Flags'].sum()` — подсчет количества True

#### 6.9.1.8. Тип данных nullable boolean (логический тип, допускающий значения NULL), 'Boolean'

Nullable boolean — это специальный логический тип в pandas, который поддерживает пропуски значений. Он был добавлен в версии 1.0 для решения проблем обычного типа bool.

```python
s = pd.Series([True, False, True])
s.loc[0] = np.nan  # Меняем первый элемент на NaN
print(s)
```
```text
0    NaN    # Теперь тип object!
1    False
2     True
dtype: object
```

In [23]:
# Тип 'boolean' (с маленькой буквы!) правильно обрабатывает пропуски:

# Создаем серию с nullable boolean
s_nullable_bool = pd.Series([True, False, np.nan], dtype='boolean')
print(s_nullable_bool)

0     True
1    False
2     <NA>
dtype: boolean


Сравнение с обычным bool
|Характеристика|Обычный `bool`|Nullable `boolean`|
|-|-|-|
|Пропуски|❌ Не поддерживает|✅ Поддерживает (<NA>)|
|Поведение с NaN|Превращает в `True`|Сохраняет как пропуск|
|Память|1 байт/значение|1 байт/значение|
|Стабильность|Стабильный|Экспериментальный|

In [24]:
# Создаем серию с пропусками
survey_data = pd.Series([True, False, None, True], dtype='boolean')
print(survey_data)

# Логические операции
print(survey_data & True)  # AND с True

0     True
1    False
2     <NA>
3     True
dtype: boolean
0     True
1    False
2     <NA>
3     True
dtype: boolean


### 6.9.2. Типы данных для работы со строками

#### 6.9.2.1. Тип данных object (объектный тип), 'object'

Тип object — это универсальный тип данных в pandas, который может хранить любые объекты Python. До версии pandas 1.0 он использовался в основном для хранения строк, но может содержать что угодно.

Основные характеристики типа object
- Универсальность: Может хранить любые объекты Python
- Размер: Не имеет фиксированного размера (в отличие от int64, float64)
- Наследие: Унаследован из NumPy (обозначается как dtype('O'))
- Гибкость: Разные элементы в одной серии могут быть разных типов

In [25]:
import pandas as pd

# Серия со строковыми значениями
s_object = pd.Series(['some', 'strings'])
print(s_object)
print(f"Тип данных: {s_object.dtype}")

0       some
1    strings
dtype: object
Тип данных: object


In [26]:
# Проверка типа через NumPy
import numpy as np
print(s_object.dtype == np.dtype('O'))

True


Тип object может содержать любые объекты Python в одной серии

In [27]:
# Серия с разными типами данных
garbage_series = pd.Series([
    [1, 2],           # список
    True,             # булево значение
    'some string',    # строка
    4.5,              # число
    {'key': 'value'}  # словарь
])

print(garbage_series)
print("\nТипы элементов:")
for i in range(len(garbage_series)):
    print(f"Элемент {i}: {type(garbage_series.loc[i])}")

0              [1, 2]
1                True
2         some string
3                 4.5
4    {'key': 'value'}
dtype: object

Типы элементов:
Элемент 0: <class 'list'>
Элемент 1: <class 'bool'>
Элемент 2: <class 'str'>
Элемент 3: <class 'float'>
Элемент 4: <class 'dict'>


Любую серию можно преобразовать в тип object

In [28]:
# Исходная серия с целыми числами
s_int = pd.Series([5, 10])
print(f"Исходный тип: {s_int.dtype}")  # int64

# Преобразуем в object
s_obj = s_int.astype('object')
print(f"Новый тип: {s_obj.dtype}")  # object

# Но значения остаются целыми числами!
print(f"Тип первого элемента: {type(s_obj.loc[0])}")  # numpy.int64

Исходный тип: int64
Новый тип: object
Тип первого элемента: <class 'int'>


 Когда использовать тип object?  
✅ Для строк (до pandas 1.0)  
✅ Временное хранение разнородных данных  
❌ Не для числовых вычислений  
❌ Не для больших datasets (из-за производительности)

#### 6.9.2.2. Тип данных Categorical (категориальный тип), 'category'

Категориальный тип — это специальный тип данных в pandas для хранения ограниченного набора значений (категорий). Он особенно полезен когда данные имеют повторяющиеся значения.

Идеально подходит для данных которые:  
✅ Имеют ограниченное число уникальных значений (например, пол: "М", "Ж")  
✅ Часто повторяются (например, должности в компании)  
✅ Дискретны и известны заранее  
✅ Нужно экономить память и ускорить операции

In [29]:
import pandas as pd

# Загрузка данных
credit = pd.read_csv('Data/credit_train.csv', encoding='cp1251', decimal=',', sep=';')

credit.info()
print()

# Преобразование в категориальный тип
job_position = credit['job_position']
job_position_cat = job_position.astype('category')

print(job_position_cat.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 170746 entries, 0 to 170745
Data columns (total 15 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   client_id             170746 non-null  int64  
 1   gender                170746 non-null  object 
 2   age                   170743 non-null  float64
 3   marital_status        170743 non-null  object 
 4   job_position          170746 non-null  object 
 5   credit_sum            170744 non-null  float64
 6   credit_month          170746 non-null  int64  
 7   tariff_id             170746 non-null  object 
 8   score_shk             170739 non-null  float64
 9   education             170741 non-null  object 
 10  living_region         170554 non-null  object 
 11  monthly_income        170741 non-null  float64
 12  credit_count          161516 non-null  float64
 13  overdue_credit_count  161516 non-null  float64
 14  open_account_flg      170746 non-null  int64  
dtype

Pandas хранит данные в двух частях:
- Список категорий (уникальные значения)
- Целочисленные коды (ссылки на категории)

In [30]:
# Аналогия с Python списками
cats = ['Python', 'Java', 'Scala']  # Список категорий
vals = [1, 1, 0, 2, 0, 1]          # Целочисленные коды

# Преобразование обратно в значения
[cats[val] for val in vals]  # ['Java', 'Java', 'Python', 'Scala', 'Python', 'Java']

['Java', 'Java', 'Python', 'Scala', 'Python', 'Java']

Преимущества категориального типа. Экономия памяти и Ускорение операций

In [31]:
# Память для обычного типа object
orig_mem = job_position.memory_usage(deep=True)  # 10,244,888 байт

# Память для категориального типа  
cat_mem = job_position_cat.memory_usage(deep=True)  # 172,510 байт

print(f"Экономия памяти: {orig_mem / cat_mem:.1f} раз!")

Экономия памяти: 59.4 раз!


In [32]:
# Фильтрация в 40 раз быстрее!
%timeit job_position == 'SPC'
%timeit job_position_cat == 'SPC'

5.62 ms ± 372 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
48.1 μs ± 3.67 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [33]:
# Просмотр категорий

# Уникальные категории
print(job_position_cat.cat.categories)
# Index(['ATP', 'BIS', 'BIU', 'DIR', ...], dtype='object')

# Целочисленные коды
print(job_position_cat.cat.codes.head())
# 0    14
# 1    14  
# 2    13
# dtype: int8

Index(['ATP', 'BIS', 'BIU', 'DIR', 'HSK', 'INP', 'INV', 'NOR', 'ONB', 'PNA',
       'PNI', 'PNS', 'PNV', 'SPC', 'UMN', 'WOI', 'WRK', 'WRP'],
      dtype='object')
0    14
1    14
2    13
3    13
4    13
dtype: int8


In [34]:
# С числовыми категориями
# Месяцы кредита как категории
credit_month_cat = credit['credit_month'].astype('category')
print(credit_month_cat.head())

0    10
1     6
2    12
3    12
4    10
Name: credit_month, dtype: category
Categories (31, int64): [3, 4, 5, 6, ..., 30, 31, 32, 36]


Когда не использовать категориальный тип?  
❌ Когда много уникальных значений (больше 50% от общего числа)  
❌ Когда данные постоянно меняются (добавляются новые категории)  
❌ Для числовых вычислений (суммирование, усреднение)

#### 6.9.2.3. Тип данных string (строковый тип), 'string'

**Строковый тип** — это новый тип данных в pandas, специально предназначенный для работы со строками. Он был добавлен в версии 1.0 и пока помечен как экспериментальный.

Создание строкового типа

In [35]:
import pandas as pd

# Способ 1: Через строковое значение
s_string = pd.Series(['Python', 'Java', 'Scala', pd.NA], dtype='string')
print(s_string)

# Способ 2: Через объект StringDtype
s_string = pd.Series(['Python', 'Java', 'Scala', pd.NA], 
                    dtype=pd.StringDtype())
print(s_string)

0    Python
1      Java
2     Scala
3      <NA>
dtype: string
0    Python
1      Java
2     Scala
3      <NA>
dtype: string


Ключевые особенности строкового типа  
✅ Гарантированно содержит только строки (и пропуски)  
✅ Единообразное поведение — все элементы становятся строками  
✅ Безопасность — меньше ошибок по сравнению с object  
❌ Экспериментальный статус — возможны изменения в будущем  

Преобразование в строковый тип

In [36]:
# Создаем серию с разными типами данных
garbage_series = pd.Series([[1,2], True, 'some string', 4.5, {'key': 'value'}])

# Преобразуем в string - все становится строками!
garbage_string = garbage_series.astype('string')
print(garbage_string)

0              [1, 2]
1                True
2         some string
3                 4.5
4    {'key': 'value'}
dtype: string


In [37]:
print(type(garbage_string.loc[0]))  # <class 'str'>
print(type(garbage_string.loc[1]))  # <class 'str'> 
print(type(garbage_string.loc[2]))  # <class 'str'>

<class 'str'>
<class 'str'>
<class 'str'>


In [38]:
# Работа со строковыми методами
s_string = pd.Series(['Python', 'Java', 'Scala'], dtype='string')
print(s_string.str.upper())

0    PYTHON
1      JAVA
2     SCALA
dtype: string


|Тип|Описание|Преимущества|Недостатки|
|-|-|-|-|
|`object`|Универсальный|Гибкость|Медленный, ненадежный|
|`string`|Строковый|Безопасность, скорость|Экспериментальный|
|`category`|Категориальный|Экономия памяти|Для повторяющихся значений|

## 6.10. Чтение данных

Чтение данных — это первая и важнейшая операция при работе с pandas. Рассмотрим основные моменты на примере функции pd.read_csv().

In [39]:
import pandas as pd

# Самый простой способ чтения CSV
bikes = pd.read_csv('data/bikes.csv')
bikes.head(3)  # Показываем первые 3 строки

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
0,Male,2013-06-28 19:01:00,2013-06-28 19:17:00,993,Lake Shore Dr & Monroe St,11.0,Michigan Ave & Oak St,15.0,73.9,12.7,mostlycloudy
1,Male,2013-06-28 22:53:00,2013-06-28 23:03:00,623,Clinton St & Washington Blvd,31.0,Wells St & Walton St,19.0,69.1,6.9,partlycloudy
2,Male,2013-06-30 14:43:00,2013-06-30 15:01:00,1040,Sheffield Ave & Kingsbury St,15.0,Dearborn St & Monroe St,23.0,73.0,16.1,mostlycloudy


Ключевые параметры pd.read_csv():
- `header=0` Заголовок в первой строке (по умолчанию)
- `index_col=0` Используем первый столбец как индекс
- `parse_dates=True` Преобразуем столбцы с датами

Полезные проверки после загрузки файла

In [40]:
print(bikes.shape)    # Размерность данных
print()
print(bikes.dtypes)   # Типы столбцов

(50089, 11)

gender                object
starttime             object
stoptime              object
tripduration           int64
from_station_name     object
start_capacity       float64
to_station_name       object
end_capacity         float64
temperature          float64
wind_speed           float64
events                object
dtype: object


## 6.11. Получение общей информации о датафрейме

После загрузки данных важно быстро получить о них общую информацию. Pandas предоставляет несколько простых способов для этого.

In [41]:
# Количество строк и столбцов
print(f'Количество строк и столбцов {bikes.shape}')
print()

# Альтернативно: только количество строк
print(f'Количество строк {len(bikes)}')
print()

# Типы данных всех столбцов
print('Типы данных всех столбцов')
print(bikes.dtypes)
print()

# Вся информация о DataFrame
print('Вся информация о DataFrame')
print(bikes.info())
print()

# Список всех столбцов
print(f'Список всех столбцов {bikes.columns.tolist()}')

Количество строк и столбцов (50089, 11)

Количество строк 50089

Типы данных всех столбцов
gender                object
starttime             object
stoptime              object
tripduration           int64
from_station_name     object
start_capacity       float64
to_station_name       object
end_capacity         float64
temperature          float64
wind_speed           float64
events                object
dtype: object

Вся информация о DataFrame
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50089 entries, 0 to 50088
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   gender             50089 non-null  object 
 1   starttime          50089 non-null  object 
 2   stoptime           50089 non-null  object 
 3   tripduration       50089 non-null  int64  
 4   from_station_name  50089 non-null  object 
 5   start_capacity     50083 non-null  float64
 6   to_station_name    50089 non-null  object 
 7   en

Исправление типов данных при чтении. pandas не всегда правильно определяет типы данных (особенно даты)

In [42]:
# Правильное чтение с преобразованием дат
bikes = pd.read_csv('Data/bikes.csv', 
                   parse_dates=['starttime', 'stoptime'])

# Теперь типы правильные
print(bikes.dtypes.head())

gender                       object
starttime            datetime64[ns]
stoptime             datetime64[ns]
tripduration                  int64
from_station_name            object
dtype: object


Быстрая проверка данных после загрузки
```python
# 1. Загрузка данных
df = pd.read_csv('data.csv', parse_dates=['date_columns'])

# 2. Быстрая проверка
print("Размер данных:", df.shape)
print("\nТипы данных:")
print(df.dtypes)
print("\nПропуски в данных:")
print(df.isnull().sum())
print("\nПервые 3 строки:")
print(df.head(3))
```

Получение информации о DataFrame — критически важный первый шаг:

🔍 Всегда проверяйте .shape и .dtypes  
📅 Исправляйте даты при загрузке  
✅ Используйте .info() для быстрой диагностики  
❗ Обращайте внимание на пропуски

## 6.12. Изменение настроек вывода с помощью функции get_options()

Pandas позволяет настроить как данные выводятся на экран. Это особенно полезно при работе с большими DataFrame.

Текущие значения настроек

In [43]:
# Максимальное количество столбцов
print("Макс. столбцов:", pd.get_option('display.max_columns'))  # По умолчанию: 20

# Максимальное количество строк  
print("Макс. строк:", pd.get_option('display.max_rows'))       # По умолчанию: 60

# Максимальная ширина столбца
print("Макс. ширина столбца:", pd.get_option('display.max_colwidth'))  # По умолчанию: 50

Макс. столбцов: 20
Макс. строк: 60
Макс. ширина столбца: 50


Установка новых значений
```python
# Изменяем настройки отображения
pd.set_option('display.max_columns', 30)   # Показывать до 30 столбцов
pd.set_option('display.max_rows', 100)     # Показывать до 100 строк
pd.set_option('display.max_colwidth', 70)  # Ширина столбца до 70 символов
```
Комбинированная настройка
```python
# Можно настроить все сразу
pd.set_option('display.max_columns', 30, 
              'display.max_rows', 100,
              'display.max_colwidth', 70)
```

Другие полезные настройки
```python
# Формат чисел с плавающей точкой
pd.set_option('display.float_format', '{:.2f}'.format)  # 2 знака после запятой

# Ширина вывода (в символах)
pd.set_option('display.width', 120)  # Шире вывод

# Показывать все строки (осторожно!)
pd.set_option('display.max_rows', None)  # Показывать ВСЕ строки
```

Сброс настроек
```python
# Вернуть настройки по умолчанию
pd.reset_option('display.max_columns')
pd.reset_option('display.max_rows')
pd.reset_option('display.max_colwidth')

# Или сбросить все настройки
pd.reset_option('all')
```

## 6.13. Знакомство с индексаторами [], loc и iloc

Индексаторы — это способы выбрать нужные данные из DataFrame. В pandas есть три основных индексатора: [], .loc[] и .iloc[].
Запомните: loc и iloc — это не методы, а индексаторы, поэтому всегда используйте []!

In [44]:
# Один столбец - возвращает Series
bikes['gender']

0          Male
1          Male
2          Male
3          Male
4          Male
          ...  
50084      Male
50085      Male
50086      Male
50087    Female
50088      Male
Name: gender, Length: 50089, dtype: object

In [45]:
# Несколько столбцов - возвращает DataFrame
bikes[['gender', 'tripduration']]

Unnamed: 0,gender,tripduration
0,Male,993
1,Male,623
2,Male,1040
3,Male,667
4,Male,130
...,...,...
50084,Male,1625
50085,Male,585
50086,Male,824
50087,Female,178


Индексатор .loc[] — по меткам. Работает с метками (labels) строк и столбцов.

Индексатор .iloc[] — по позициям. Работает с целочисленными позициями (индексами).

- .loc[]: 0:3 включает все метки от 0 до 3 (включительно)
- .iloc[]: 0:3 включает позиции от 0 до 2 (3 исключается)

In [46]:
# Строки 0 и 1, столбцы 'start_capacity' и 'tripduration'
bikes.loc[[0, 1], ['start_capacity', 'tripduration']]

Unnamed: 0,start_capacity,tripduration
0,11.0,993
1,31.0,623


```python
# Строки 0-3, столбцы от 'gender' до 'tripduration'
bikes.loc[0:3, 'gender':'tripduration']

# Каждая 2-я строка, каждый 2-й столбец
bikes.loc[0::2, 'gender':'events':2]

# С 5-й строки до конца, с столбца 'from_station_name' до конца
bikes.loc[4:, 'from_station_name':]
```

```python
# Все строки, конкретные столбцы
bikes.loc[:, ['start_capacity', 'tripduration']]

# Конкретные строки, все столбцы
bikes.loc[[1, 5, 6], :]

# Диапазон строк, все столбцы
bikes.loc[0::10, :]  # Каждая 10-я строка
```

```python
# Строки 2-3 (позиции 2 и 3), столбцы 2-3 (позиции 2 и 3)
bikes.iloc[2:4, 2:4]

# Все строки, столбцы 3 и 5
bikes.iloc[:, [3, 5]]

# Строки 3 и 5, все столбцы
bikes.iloc[[3, 5], :]

```

Быстрые индексаторы .at[] и .iat[]. Для выбора одной ячейки (быстрее чем .loc/.iloc).

In [47]:
# Ячейка: строка 3, столбец 'tripduration'
bikes.at[3, 'tripduration']  # Возвращает: 667

np.int64(667)

In [48]:
# Ячейка: строка 3, столбец 3
bikes.iat[3, 3]  # Возвращает: 667

np.int64(667)

- [] — для простого выбора столбцов
- .loc[] — когда знаете метки строк/столбцов
- .iloc[] — когда знаете позиции строк/столбцов
- .at[]/.iat[] — для быстрого доступа к одной ячейке

## 6.14. Фильтрация данных

Библиотека pandas может отфильтровать строки датафрейма в зависимости от того, соответствуют ли значения в этой строке условию. Например, мы
можем выбрать только те поездки, продолжительность которых превышает 5000 (секунд).

### 6.14.1. Одно условие

Ниже мы приведем пример фильтрации на основе одного условия, которое проверяется для каждой строки. Возвращаются только те строки, которые удовлетворяют этому условию.

In [49]:
# отбор по одному условию
filt = bikes['tripduration'] > 5000
bikes[filt].head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
18,Male,2013-07-09 13:12:00,2013-07-09 14:42:00,5396,Canal St & Jackson Blvd,35.0,Millennium Park,35.0,79.0,13.8,cloudy
40,Female,2013-07-14 14:08:00,2013-07-14 15:53:00,6274,Wabash Ave & Roosevelt Rd,19.0,Lake Shore Dr & Monroe St,11.0,87.1,8.1,partlycloudy
77,Female,2013-07-21 11:35:00,2013-07-21 13:54:00,8299,State St & 19th St,15.0,Sheffield Ave & Kingsbury St,15.0,82.9,5.8,mostlycloudy


### 6.14.2. Несколько условий

In [50]:
# отбор по нескольким условиям
filt1 = bikes['tripduration'] > 5000
filt2 = bikes['gender'] == 'Female'
filt = filt1 & filt2
bikes[filt].head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
40,Female,2013-07-14 14:08:00,2013-07-14 15:53:00,6274,Wabash Ave & Roosevelt Rd,19.0,Lake Shore Dr & Monroe St,11.0,87.1,8.1,partlycloudy
77,Female,2013-07-21 11:35:00,2013-07-21 13:54:00,8299,State St & 19th St,15.0,Sheffield Ave & Kingsbury St,15.0,82.9,5.8,mostlycloudy
1954,Female,2013-12-28 11:37:00,2013-12-28 13:34:00,7050,LaSalle St & Washington St,15.0,Theater on the Lake,15.0,44.1,12.7,clear


In [51]:
# только одно из условий является истинным
filt = filt1 | filt2
bikes[filt].head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
9,Female,2013-07-04 15:00:00,2013-07-04 15:16:00,922,Lakeview Ave & Fullerton Pkwy,19.0,Racine Ave & Congress Pkwy,19.0,81.0,12.7,mostlycloudy
14,Female,2013-07-06 12:39:00,2013-07-06 12:49:00,610,Morgan St & Lake St,15.0,Aberdeen St & Jackson Blvd,15.0,82.0,5.8,mostlycloudy
18,Male,2013-07-09 13:12:00,2013-07-09 14:42:00,5396,Canal St & Jackson Blvd,35.0,Millennium Park,35.0,79.0,13.8,cloudy


### 6.14.3. Несколько условий в одном столбце

In [52]:
# несколько условий в одном столбце events
filt = ((bikes['events'] == 'rain') | (bikes['events'] == 'snow') | 
        (bikes['events'] == 'tstorms') | 
        (bikes['events'] == 'sleet'))
bikes[filt].head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
45,Male,2013-07-15 16:43:00,2013-07-15 16:55:00,727,Greenwood Ave & 47th St,15.0,State St & Harrison St,19.0,82.9,5.8,rain
78,Male,2013-07-21 16:35:00,2013-07-21 17:06:00,1809,Michigan Ave & Pearson St,23.0,Millennium Park,35.0,82.4,11.5,tstorms
79,Male,2013-07-21 16:47:00,2013-07-21 17:03:00,999,Carpenter St & Huron St,19.0,Carpenter St & Huron St,19.0,82.4,11.5,tstorms


In [53]:
# несколько условий в одном столбце events,
# используем isin
filt = bikes['events'].isin(['rain', 'snow', 'tstorms', 'sleet'])
bikes[filt].head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
45,Male,2013-07-15 16:43:00,2013-07-15 16:55:00,727,Greenwood Ave & 47th St,15.0,State St & Harrison St,19.0,82.9,5.8,rain
78,Male,2013-07-21 16:35:00,2013-07-21 17:06:00,1809,Michigan Ave & Pearson St,23.0,Millennium Park,35.0,82.4,11.5,tstorms
79,Male,2013-07-21 16:47:00,2013-07-21 17:03:00,999,Carpenter St & Huron St,19.0,Carpenter St & Huron St,19.0,82.4,11.5,tstorms


In [54]:
# сочетание isin и дополнительного фильтра
filt1 = bikes['events'].isin(['rain', 'snow', 'tstorms', 'sleet'])
filt2 = bikes['tripduration'] > 2000
filt = filt1 & filt2
bikes[filt].head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
2344,Female,2014-03-19 07:23:00,2014-03-19 08:00:00,2181,Seeley Ave & Roscoe St,11.0,Franklin St & Lake St,23.0,43.0,6.9,rain
7697,Male,2014-09-12 14:20:00,2014-09-12 14:57:00,2213,Damen Ave & Pierce Ave,19.0,California Ave & Division St,15.0,52.0,12.7,rain
8357,Male,2014-09-30 08:21:00,2014-09-30 08:58:00,2246,Damen Ave & Melrose Ave,11.0,Wood St & Taylor St,15.0,46.9,11.5,rain


### 6.14.4. Использование метода .query()

Метод `.query()` — это удобный способ фильтрации данных с помощью строковых выражений. Он часто более читаем, чем традиционные методы фильтрации.

In [55]:
# Поездки длительностью больше 5000 секунд
bikes.query('tripduration > 5000').head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
18,Male,2013-07-09 13:12:00,2013-07-09 14:42:00,5396,Canal St & Jackson Blvd,35.0,Millennium Park,35.0,79.0,13.8,cloudy
40,Female,2013-07-14 14:08:00,2013-07-14 15:53:00,6274,Wabash Ave & Roosevelt Rd,19.0,Lake Shore Dr & Monroe St,11.0,87.1,8.1,partlycloudy
77,Female,2013-07-21 11:35:00,2013-07-21 13:54:00,8299,State St & 19th St,15.0,Sheffield Ave & Kingsbury St,15.0,82.9,5.8,mostlycloudy


In [56]:
# Поездки >5000 секунд И женский пол
bikes.query('tripduration > 5000 and gender == "Female"').head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
40,Female,2013-07-14 14:08:00,2013-07-14 15:53:00,6274,Wabash Ave & Roosevelt Rd,19.0,Lake Shore Dr & Monroe St,11.0,87.1,8.1,partlycloudy
77,Female,2013-07-21 11:35:00,2013-07-21 13:54:00,8299,State St & 19th St,15.0,Sheffield Ave & Kingsbury St,15.0,82.9,5.8,mostlycloudy
1954,Female,2013-12-28 11:37:00,2013-12-28 13:34:00,7050,LaSalle St & Washington St,15.0,Theater on the Lake,15.0,44.1,12.7,clear


In [57]:
# Поездки >5000 секунд ИЛИ женский пол
bikes.query('tripduration > 5000 or gender == "Female"').head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
9,Female,2013-07-04 15:00:00,2013-07-04 15:16:00,922,Lakeview Ave & Fullerton Pkwy,19.0,Racine Ave & Congress Pkwy,19.0,81.0,12.7,mostlycloudy
14,Female,2013-07-06 12:39:00,2013-07-06 12:49:00,610,Morgan St & Lake St,15.0,Aberdeen St & Jackson Blvd,15.0,82.0,5.8,mostlycloudy
18,Male,2013-07-09 13:12:00,2013-07-09 14:42:00,5396,Canal St & Jackson Blvd,35.0,Millennium Park,35.0,79.0,13.8,cloudy


In [58]:
# Поездки в снег или дождь
bikes.query('events in ["snow", "rain"]').head(3)

Unnamed: 0,gender,starttime,stoptime,tripduration,from_station_name,start_capacity,to_station_name,end_capacity,temperature,wind_speed,events
45,Male,2013-07-15 16:43:00,2013-07-15 16:55:00,727,Greenwood Ave & 47th St,15.0,State St & Harrison St,19.0,82.9,5.8,rain
112,Male,2013-07-26 19:10:00,2013-07-26 19:33:00,1395,Larrabee St & Kingsbury St,27.0,Damen Ave & Pierce Ave,19.0,66.9,12.7,rain
124,Male,2013-07-30 18:53:00,2013-07-30 19:00:00,442,Canal St & Jackson Blvd,35.0,Racine Ave & Congress Pkwy,19.0,69.1,3.5,rain


Важно: .query() не позволяет выбирать столбцы, только фильтровать строки.

In [59]:
# Сначала фильтруем, потом выбираем столбцы
cols = ['starttime', 'temperature', 'events']
bikes.query('events in ["snow", "rain"]')[cols].head(3)

Unnamed: 0,starttime,temperature,events
45,2013-07-15 16:43:00,82.9,rain
112,2013-07-26 19:10:00,66.9,rain
124,2013-07-30 18:53:00,69.1,rain


In [60]:
# Можно объединять в цепочку
bikes.query('tripduration > 5000') \
     .query('gender == "Female"') \
     [['starttime', 'tripduration']] \
     .head(3)

Unnamed: 0,starttime,tripduration
40,2013-07-14 14:08:00,6274
77,2013-07-21 11:35:00,8299
1954,2013-12-28 11:37:00,7050


Метод .query() — отличный выбор когда:  
✅ Нужны сложные условия фильтрации  
✅ Важна читаемость кода  
✅ Условия динамические (можно использовать переменные)

Лучше использовать традиционные методы когда:  
❌ Нужно одновременно фильтровать и выбирать столбцы  
❌ Критична производительность для больших данных  
❌ Нужны специфические операции с данными  

## 6.15. Агрегирование данных

### 6.15.1. Группировка и агрегирование с помощью одного столбца

Группировка и агрегирование — одна из самых мощных функций pandas для анализа данных. Она позволяет разбить данные на группы и посчитать статистики для каждой группы.

Представьте, что у вас есть данные о сотрудниках разных отделов:
|Отдел|Зарплата|Опыт|
|-|-|-|
|IT|5000|3|
|HR|4000|2|
|IT|6000|5|
|HR|4500|4|

Вопрос: Какая средняя зарплата в каждом отделе?

Ответ через группировку:  
Группа IT: (5000 + 6000) / 2 = 5500  
Группа HR: (4000 + 4500) / 2 = 4250

Синтаксис группировки
```python
df.groupby('группирующий_столбец').agg(
    новое_название=('столбец_для_анализа', 'функция')
)
```

In [61]:
# Средняя продолжительность поездки по погодным условиям
result = bikes.groupby('events').agg(
    avg_tripduration=('tripduration', 'mean')
)

print(result)

              avg_tripduration
events                        
clear               767.718240
cloudy              690.291346
fog                 570.557377
hazy                691.301724
mostlycloudy        736.609963
partlycloudy        725.389928
rain                633.748906
sleet               541.250000
snow                592.860515
tstorms             636.160377
unknown             635.750000


**Компоненты группировки**
- Группирующий столбец (events)
  - Каждое уникальное значение образует отдельную группу
  - Пример: "Clear", "Rain", "Snow"  

- Агрегируемый столбец (tripduration)
  - Столбец, к которому применяется функция
  - Обычно числовой столбец  

- Агрегирующая функция (mean)
  - Функция, которая вычисляет статистику

|Функция|Описание|Пример|
|-|-|-|
|`sum`|Сумма|('salary', 'sum')|
|`mean`|Среднее|('tripduration', 'mean')|
|`min`|Минимум|('temperature', 'min')|
|`max`|Максимум|('salary', 'max')|
|`count`|Количество непустых значений|('name', 'count')|
|`std`|Стандартное отклонение|('sales', 'std')|
|`size`|Размер группы(включая пропуски)|-|

In [62]:
# Несколько статистик для разных столбцов
bikes.groupby('events').agg(
    avg_duration=('tripduration', 'mean'),
    max_duration=('tripduration', 'max'),
    min_temperature=('temperature', 'min'),
    ride_count=('tripduration', 'count')
)

Unnamed: 0_level_0,avg_duration,max_duration,min_temperature,ride_count
events,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
clear,767.71824,73591,-8.0,2818
cloudy,690.291346,86188,-6.0,12075
fog,570.557377,1776,28.0,122
hazy,691.301724,7739,17.1,348
mostlycloudy,736.609963,63155,-2.0,15096
partlycloudy,725.389928,85442,-6.0,16998
rain,633.748906,28994,19.9,1828
sleet,541.25,1257,21.9,16
snow,592.860515,8309,3.0,466
tstorms,636.160377,2868,35.1,318


### 6.15.2. Группировка и агрегирование с помощью нескольких столбцов

Группировка по нескольким столбцам позволяет анализировать данные на более детальном уровне, создавая комбинации категорий.

In [63]:
# Группировка по двум столбцам
# Средняя длительность поездки по полу и погоде
result = bikes.groupby(['gender', 'events']).agg(
    avg_tripduration=('tripduration', 'mean')
)

print(result)

                     avg_tripduration
gender events                        
Female clear               889.229955
       cloudy              764.428671
       fog                 698.933333
       hazy                797.823529
       mostlycloudy        819.058638
       partlycloudy        839.990322
       rain                646.034568
       sleet               781.333333
       snow                613.750000
       tstorms             709.925000
       unknown             240.000000
Male   clear               730.481688
       cloudy              667.281823
       fog                 528.695652
       hazy                656.874525
       mostlycloudy        708.844771
       partlycloudy        684.834807
       rain                630.252284
       sleet               485.846154
       snow                589.534826
       tstorms             611.365546
       unknown             767.666667


Проблема: многоуровневый индекс (MultiIndex). После группировки по нескольким столбцам pandas создает иерархический индекс, что не всегда удобно для дальнейшей работы.

Решение: Используем `.reset_index()`

In [64]:
# То же самое, но с нормальными столбцами
result = bikes.groupby(['gender', 'events']).agg(
    avg_tripduration=('tripduration', 'mean')
).reset_index()

print(result)

    gender        events  avg_tripduration
0   Female         clear        889.229955
1   Female        cloudy        764.428671
2   Female           fog        698.933333
3   Female          hazy        797.823529
4   Female  mostlycloudy        819.058638
5   Female  partlycloudy        839.990322
6   Female          rain        646.034568
7   Female         sleet        781.333333
8   Female          snow        613.750000
9   Female       tstorms        709.925000
10  Female       unknown        240.000000
11    Male         clear        730.481688
12    Male        cloudy        667.281823
13    Male           fog        528.695652
14    Male          hazy        656.874525
15    Male  mostlycloudy        708.844771
16    Male  partlycloudy        684.834807
17    Male          rain        630.252284
18    Male         sleet        485.846154
19    Male          snow        589.534826
20    Male       tstorms        611.365546
21    Male       unknown        767.666667


In [65]:
# Группировка по двум столбцам + несколько агрегаций
result = bikes.groupby('events').agg(
    avg_tripduration=('tripduration', 'mean'),
    max_tripduration=('tripduration', 'max'),
    avg_temp=('temperature', 'mean'),
    min_temp=('temperature', 'min')
).reset_index()

print(result)

          events  avg_tripduration  max_tripduration     avg_temp  min_temp
0          clear        767.718240             73591    59.531476      -8.0
1         cloudy        690.291346             86188    56.621143      -6.0
2            fog        570.557377              1776    50.235246      28.0
3           hazy        691.301724              7739    55.594253      17.1
4   mostlycloudy        736.609963             63155    67.278551      -2.0
5   partlycloudy        725.389928             85442    65.444558      -6.0
6           rain        633.748906             28994    57.066247      19.9
7          sleet        541.250000              1257    31.243750      21.9
8           snow        592.860515              8309    26.654506       3.0
9        tstorms        636.160377              2868    74.200943      35.1
10       unknown        635.750000              1325 -2462.250000   -9999.0


In [66]:
# Детальный анализ поездок
detailed_analysis = bikes.groupby(['gender', 'events']).agg(
    avg_duration=('tripduration', 'mean'),
    max_duration=('tripduration', 'max'),
    min_duration=('tripduration', 'min'),
    ride_count=('tripduration', 'count'),
    avg_temperature=('temperature', 'mean'),
    avg_wind_speed=('wind_speed', 'mean')
).reset_index()

print(detailed_analysis)

    gender        events  avg_duration  max_duration  min_duration  \
0   Female         clear    889.229955         46838            78   
1   Female        cloudy    764.428671         79988            70   
2   Female           fog    698.933333          1776           142   
3   Female          hazy    797.823529          2219           139   
4   Female  mostlycloudy    819.058638         63155            60   
5   Female  partlycloudy    839.990322         85442            61   
6   Female          rain    646.034568          2181            63   
7   Female         sleet    781.333333          1257           387   
8   Female          snow    613.750000          1766           126   
9   Female       tstorms    709.925000          2868            63   
10  Female       unknown    240.000000           240           240   
11    Male         clear    730.481688         73591            69   
12    Male        cloudy    667.281823         86188            60   
13    Male          

### 6.15.3. Группировка с помощью сводных таблиц

Сводные таблицы — это мощный инструмент для анализа и визуализации данных в перекрестном формате. Они похожи на сводные таблицы в Excel.

**Базовый синтаксис pivot_table**
```python
df.pivot_table(
    index='вертикальная_группировка',
    columns='горизонтальная_группировка', 
    values='анализируемый_столбец',
    aggfunc='функция'
)
```

In [67]:
import pandas as pd

# Загрузка данных
ins = pd.read_csv('data/StateFarm_missing.csv', sep=';')

# Сводная таблица: средний доход по образованию и полу
result = ins.pivot_table(
    index='Education',
    columns='Gender',
    values='Income',
    aggfunc='mean'
)

print(result)

Gender                           F             M
Education                                       
Bachelor              37972.366023  37040.250000
College               37740.598055  36781.846543
Doctor                45731.160256  39342.279503
High School or Below  36211.804149  35891.237416
Master                44329.254190  45259.220000


In [68]:
# Округление и преобразование в целые числа
clean_result = ins.pivot_table(
    index='Education',
    columns='Gender',
    values='Income',
    aggfunc='mean'
).round(-3).astype('int')

print(clean_result)

Gender                    F      M
Education                         
Bachelor              38000  37000
College               38000  37000
Doctor                46000  39000
High School or Below  36000  36000
Master                44000  45000


**Сравнение с groupby**

In [69]:
# Легко сравнивать по горизонтали
ins.pivot_table(index='Education', columns='Gender', values='Income', aggfunc='mean')

Gender,F,M
Education,Unnamed: 1_level_1,Unnamed: 2_level_1
Bachelor,37972.366023,37040.25
College,37740.598055,36781.846543
Doctor,45731.160256,39342.279503
High School or Below,36211.804149,35891.237416
Master,44329.25419,45259.22


In [70]:
# Сложнее сравнивать
ins.groupby(['Gender', 'Education']).agg(mean_salary=('Income', 'mean'))

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_salary
Gender,Education,Unnamed: 2_level_1
F,Bachelor,37972.366023
F,College,37740.598055
F,Doctor,45731.160256
F,High School or Below,36211.804149
F,Master,44329.25419
M,Bachelor,37040.25
M,College,36781.846543
M,Doctor,39342.279503
M,High School or Below,35891.237416
M,Master,45259.22


**Визуальное форматирование**

In [71]:
emp_edu_mean_clv = ins.pivot_table(
    index='EmploymentStatus',
    columns='Education', 
    values='Customer Lifetime Value',
    aggfunc='mean'
).astype('int64')

# Подсветка максимумов по столбцам
emp_edu_mean_clv.style.highlight_max()

Education,Bachelor,College,Doctor,High School or Below,Master
EmploymentStatus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Disabled,6729,6756,7272,9983,7964
Employed,8224,8047,7538,8566,8042
Medical Leave,7708,6952,11690,8235,7834
Retired,7846,7051,4518,5860,12442
Unemployed,7103,7681,6966,7739,8807


In [72]:
# Подсветка максимумов по строкам  
emp_edu_mean_clv.style.highlight_max(axis='columns')

Education,Bachelor,College,Doctor,High School or Below,Master
EmploymentStatus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Disabled,6729,6756,7272,9983,7964
Employed,8224,8047,7538,8566,8042
Medical Leave,7708,6952,11690,8235,7834
Retired,7846,7051,4518,5860,12442
Unemployed,7103,7681,6966,7739,8807


In [73]:
# Градиентная заливка
emp_edu_mean_clv.style.background_gradient(cmap='Oranges')

Education,Bachelor,College,Doctor,High School or Below,Master
EmploymentStatus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Disabled,6729,6756,7272,9983,7964
Employed,8224,8047,7538,8566,8042
Medical Leave,7708,6952,11690,8235,7834
Retired,7846,7051,4518,5860,12442
Unemployed,7103,7681,6966,7739,8807


In [74]:
# Подсветка минимумов и максимумов
emp_edu_mean_clv.style.highlight_max(color='yellow') \
                  .highlight_min(color='lightblue')

Education,Bachelor,College,Doctor,High School or Below,Master
EmploymentStatus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Disabled,6729,6756,7272,9983,7964
Employed,8224,8047,7538,8566,8042
Medical Leave,7708,6952,11690,8235,7834
Retired,7846,7051,4518,5860,12442
Unemployed,7103,7681,6966,7739,8807


In [75]:
# Добавляем итоги по строкам и столбцам
ins.pivot_table(
    index='EmploymentStatus',
    columns='Education',
    values='Income', 
    aggfunc='mean',
    margins=True  # Добавляет строку и столбец "All"
)

Education,Bachelor,College,Doctor,High School or Below,Master,All
EmploymentStatus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Disabled,19981.508772,20604.39759,20397.904762,19145.635514,21065.675676,20012.226519
Employed,56272.710238,55899.775851,55413.704348,57315.307365,56674.939024,56448.846703
Medical Leave,19720.584071,20586.947368,18364.933333,21003.962264,19227.4,20278.237245
Retired,21276.468354,20543.802198,19186.0,19570.354839,20025.263158,20489.503968
Unemployed,0.0,0.0,0.0,0.0,0.0,0.0
All,37521.522855,37236.148347,42486.334385,36052.390071,44802.223065,37782.136962


In [76]:
# Количество наблюдений в каждой комбинации
ins.pivot_table(
    index='EmploymentStatus',
    columns='Education', 
    aggfunc='size'  # Не требует values!
)

Education,Bachelor,College,Doctor,High School or Below,Master
EmploymentStatus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Disabled,114,83,21,107,37
Employed,1553,1499,230,1412,492
Medical Leave,113,133,15,106,25
Retired,79,91,1,62,19
Unemployed,635,614,50,710,86


In [77]:
# Группировка по полу и образованию в заголовках
ins.pivot_table(
    index='EmploymentStatus', 
    columns=['Gender', 'Education'],
    values='Income',
    aggfunc='max'
)

Gender,F,F,F,F,F,M,M,M,M,M
Education,Bachelor,College,Doctor,High School or Below,Master,Bachelor,College,Doctor,High School or Below,Master
EmploymentStatus,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Disabled,29633.0,29958.0,29950.0,28672.0,29981.0,28898.0,28617.0,29808.0,29295.0,28245.0
Employed,99803.0,99961.0,98912.0,99841.0,99875.0,99981.0,99816.0,99443.0,99874.0,99960.0
Medical Leave,29957.0,29539.0,26463.0,29658.0,27229.0,29926.0,29723.0,23053.0,29664.0,26840.0
Retired,25859.0,28321.0,,28120.0,26161.0,29465.0,29692.0,19186.0,28140.0,24182.0
Unemployed,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [78]:
# Доход и пожизненная ценность клиента
ins.pivot_table(
    index='Education',
    columns='Gender',
    values=['Income', 'Customer Lifetime Value'],
    aggfunc='mean',
    margins=True
)

Unnamed: 0_level_0,Customer Lifetime Value,Customer Lifetime Value,Customer Lifetime Value,Income,Income,Income
Gender,F,M,All,F,M,All
Education,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Bachelor,7980.275871,7675.774393,7833.763532,37972.366023,37040.25,37539.099439
College,7757.306941,7868.564624,7811.832401,37740.598055,36781.846543,37270.730579
Doctor,7530.432422,7702.351623,7617.747852,45731.160256,39342.279503,42486.334385
High School or Below,8504.800424,8093.913831,8300.471338,36211.804149,35891.237416,36052.390071
Master,8457.905556,8015.928886,8256.396436,44329.25419,45259.22,44753.25076
All,8088.051778,7882.11178,7987.666592,38235.288439,37327.506313,37792.791214


## 6.16. Анализ частот с помощью таблиц сопряженности

Анализ частот помогает понять распределение категориальных данных, а таблицы сопряженности показывают совместное распределение двух и более категориальных переменных.

Анализ частот с помощью `value_counts()`

In [79]:
# Абсолютные частоты видов страхового покрытия
ins['Coverage'].value_counts(dropna=False)

Coverage
Basic       5038
Extended    2501
Premium      749
NaN            5
Name: count, dtype: int64

In [80]:
# Относительные частоты (доли)
ins['Coverage'].value_counts(dropna=False, normalize=True)

Coverage
Basic       0.607500
Extended    0.301580
Premium     0.090317
NaN         0.000603
Name: proportion, dtype: float64

**Альтернативные способы подсчета частот**

In [81]:
# Абсолютные частоты комбинаций покрытия и пола. Через groupby() + size()
ins.groupby(['Coverage', 'Gender']).size().reset_index(name='count')

Unnamed: 0,Coverage,Gender,count
0,Basic,F,2547
1,Basic,M,2489
2,Extended,F,1308
3,Extended,M,1192
4,Premium,F,392
5,Premium,M,356


In [82]:
# Таблица сопряженности покрытия и пола. Через pivot_table()
ins.pivot_table(index='Coverage', columns='Gender', aggfunc='size')

Gender,F,M
Coverage,Unnamed: 1_level_1,Unnamed: 2_level_1
Basic,2547,2489
Extended,1308,1192
Premium,392,356


Таблицы сопряженности с `pd.crosstab()`  
`pd.crosstab()` — специализированная функция для создания таблиц сопряженности.

 Ключевые параметры crosstab()
- `normalize='index'` — проценты по строкам
- `normalize='columns` — проценты по столбцам
- `normalize='all'` — проценты от общего числа
- `margins=True` — добавить итоги
- `margins_name='Total'` — название для итогов


Базовая таблица сопряженности

In [83]:
# Абсолютные частоты: покрытие × пол
pd.crosstab(index=ins['Coverage'], columns=ins['Gender'])

Gender,F,M
Coverage,Unnamed: 1_level_1,Unnamed: 2_level_1
Basic,2547,2489
Extended,1308,1192
Premium,392,356


**Относительные частоты в таблицах сопряженности**

In [84]:
# Нормализация по строкам
# Какой % мужчин/женщин в каждом виде покрытия?
pd.crosstab(index=ins['Coverage'], 
           columns=ins['Gender'], 
           normalize='index').round(3) * 100

Gender,F,M
Coverage,Unnamed: 1_level_1,Unnamed: 2_level_1
Basic,50.6,49.4
Extended,52.3,47.7
Premium,52.4,47.6


In [85]:
# Нормализация по столбцам
# Какое покрытие выбирают мужчины/женщины?
pd.crosstab(index=ins['Coverage'], 
           columns=ins['Gender'], 
           normalize='columns').round(3) * 100

Gender,F,M
Coverage,Unnamed: 1_level_1,Unnamed: 2_level_1
Basic,60.0,61.7
Extended,30.8,29.5
Premium,9.2,8.8


In [86]:
# Нормализация по всей таблице
# Доли от общего числа наблюдений
pd.crosstab(index=ins['Coverage'], 
           columns=ins['Gender'], 
           normalize='all').round(3) * 100

Gender,F,M
Coverage,Unnamed: 1_level_1,Unnamed: 2_level_1
Basic,30.7,30.0
Extended,15.8,14.4
Premium,4.7,4.3


In [87]:
# Добавляем итоги
pd.crosstab(index=ins['Coverage'], 
           columns=ins['Gender'], 
           margins=True)

Gender,F,M,All
Coverage,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Basic,2547,2489,5036
Extended,1308,1192,2500
Premium,392,356,748
All,4247,4037,8284


**Сравнение методов**
|Метод|Преимущества|Недостатки|
|-|-|-|
|`value_counts()`|Простой, быстрый|Только одна переменная|
|`groupby().size()`|Гибкий, можно добавлять столбцы|Сложнее для таблиц сопряженности|
|`pivot_table()`|Универсальный|Сложный синтаксис для частот|
|`crosstab()`|Специализированный, нормализация|Только для частот|

## 6.17. Выполнение SQL-запросов в pandas

Pandas позволяет работать с данными как в реляционной базе данных, используя либо SQL-синтаксис через подключение к БД, либо нативные методы pandas.

In [3]:
# импортируем библиотеки
import pandas as pd
import sqlite3

# Загрузка данных в pandas
airports = pd.read_csv('data/airports.csv')

# Создание подключения к SQLite базе
connection = sqlite3.connect('data/flights.sqlite')

# Сохранение данных в SQL таблицу
airports.to_sql('AIRPORTS', connection, if_exists='replace')
connection.commit()