# Pandas

Краткий интерактивный ноутбук для быстрого освоения библиотеки **pandas** — на русском языке. Каждый раздел содержит пример кода и краткое пояснение[1].

## Импорт необходимых библиотек

**Совет преподавателя**: В мире анализа данных эти две библиотеки — ваши верные спутники:
- **NumPy** — математический фундамент для работы с массивами и матрицами
- **Pandas** — "швейцарский нож" для обработки табличных данных (как Excel, но мощнее!)

**Конвенция**: Всегда импортируйте pandas как `pd`, а numpy как `np` — это стандарт, который используют все специалисты

In [1]:
import numpy as np
import pandas as pd

## Основные структуры данных pandas

**Аналогия для новичков**: Если представить данные как здание, то:
- **Series** — это отдельная колонна здания. Одномерная структура с индексами, как список с подписанными элементами
- **DataFrame** — это вся каркасная конструкция здания. Двумерная таблица, где Series объединены в единую структуру

**Практическое понимание**:
- Series = одна колонка в Excel с именами строк
- DataFrame = целый лист Excel с именованными колонками и строками

**Почему это важно**: 80% работы Data Scientist — это манипуляции с DataFrame'ами

## Создание объектов

**Урок первый**: Есть несколько способов создать данные в pandas. Начнем с самого простого.

**Series из списка:**

**Объяснение**: Series — это как улучшенный список Python. Обратите внимание, что pandas автоматически добавляет индексы (0, 1, 2...) и может работать с NaN (не число).

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


**DataFrame из numpy-матрицы с датами:**

**Практический совет**: Это классический способ создания тестовых данных для экспериментов.
- `pd.date_range()` создает последовательность дат
- `np.random.randn()` генерирует случайные числа по нормальному распределению
- Параметр `columns=list("ABCD")` создает колонки A, B, C, D

In [3]:
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
print(df)

                   A         B         C         D
2013-01-01 -0.761475  1.461200  0.126607  0.156436
2013-01-02  1.084657 -1.600014  0.468590  0.429208
2013-01-03  0.425020  0.672193 -1.472618  1.861473
2013-01-04  0.711198  1.435334  2.284463  0.669789
2013-01-05  1.338088  1.281405 -0.633701  0.744176
2013-01-06 -1.107815  0.176749  0.581423 -0.219828


**DataFrame из словаря:**

**Важно понимать**: Этот пример показывает гибкость pandas — можете смешивать разные типы данных:
- Числа с плавающей точкой (float)
- Временные метки (Timestamp)
- Категориальные данные (Categorical)
- Массивы numpy
- Просто строки

**Обратите внимание на `df2.dtypes`** — это покажет, какие типы данных pandas автоматически определил для каждой колонки.

In [4]:
df2 = pd.DataFrame({
    "A": 1.0,
    "B": pd.Timestamp("20130102"),
    "C": pd.Series(1, index=list(range(4)), dtype="float32"),
    "D": np.array([3] * 4, dtype="int32"),
    "E": pd.Categorical(["test", "train", "test", "train"]),
    "F": "foo"
})
print(df2)
print(df2.dtypes)

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo
A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object


## Просмотр данных

**Урок второй**: Первое, что делает любой аналитик после загрузки данных — это "разведка". Вот основные команды разведчика:

**Первые строки:**

**Зачем это нужно**: `head()` показывает первые 5 строк (по умолчанию). Это как "предварительный просмотр" ваших данных. Помогает понять структуру и типы данных.

In [5]:
print(df.head())

                   A         B         C         D
2013-01-01 -0.761475  1.461200  0.126607  0.156436
2013-01-02  1.084657 -1.600014  0.468590  0.429208
2013-01-03  0.425020  0.672193 -1.472618  1.861473
2013-01-04  0.711198  1.435334  2.284463  0.669789
2013-01-05  1.338088  1.281405 -0.633701  0.744176


**Последние строки:**

**Практический совет**: `tail(3)` показывает последние 3 строки. Особенно полезно для проверки, что данные загрузились полностью и нет обрезки в конце файла.

In [6]:
print(df.tail(3))

                   A         B         C         D
2013-01-04  0.711198  1.435334  2.284463  0.669789
2013-01-05  1.338088  1.281405 -0.633701  0.744176
2013-01-06 -1.107815  0.176749  0.581423 -0.219828


**Индексы и столбцы:**

**Понимание архитектуры**:
- `df.index` — показывает метки строк (в нашем случае — даты)
- `df.columns` — показывает названия столбцов
- Это основа для навигации по данным

In [7]:
print(df.index)
print(df.columns)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
Index(['A', 'B', 'C', 'D'], dtype='object')


**Массив numpy данных:**

**Под капотом**: `to_numpy()` показывает сырые данные без индексов и названий колонок. Иногда нужно для передачи в алгоритмы машинного обучения, которые работают с numpy массивами.

In [8]:
print(df.to_numpy())
print(df2.to_numpy())

[[-0.76147495  1.46120003  0.12660672  0.15643647]
 [ 1.08465732 -1.60001444  0.46859046  0.42920829]
 [ 0.42501998  0.67219328 -1.4726181   1.86147335]
 [ 0.71119804  1.43533378  2.28446263  0.66978915]
 [ 1.33808752  1.28140528 -0.63370089  0.74417612]
 [-1.10781479  0.17674903  0.5814227  -0.21982783]]
[[1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']]


## Быстрые статистики

**Урок третий**: Разведочный анализ данных начинается с базовой статистики.

**Краткое описание:**

**Золотая команда**: `describe()` — ваш лучший друг! Показывает count (количество), mean (среднее), std (стандартное отклонение), min/max и квартили. Это первое, что нужно запустить на новых данных.

In [9]:
print(df.describe())

              A         B         C         D
count  6.000000  6.000000  6.000000  6.000000
mean   0.281612  0.571144  0.225794  0.606876
std    0.998466  1.176706  1.269387  0.709186
min   -1.107815 -1.600014 -1.472618 -0.219828
25%   -0.464851  0.300610 -0.443624  0.224629
50%    0.568109  0.976799  0.297599  0.549499
75%    0.991293  1.396852  0.553215  0.725579
max    1.338088  1.461200  2.284463  1.861473


**Транспонирование:**

In [10]:
print(df.T)

   2013-01-01  2013-01-02  2013-01-03  2013-01-04  2013-01-05  2013-01-06
A   -0.761475    1.084657    0.425020    0.711198    1.338088   -1.107815
B    1.461200   -1.600014    0.672193    1.435334    1.281405    0.176749
C    0.126607    0.468590   -1.472618    2.284463   -0.633701    0.581423
D    0.156436    0.429208    1.861473    0.669789    0.744176   -0.219828


**Сортировка по оси или значениям:**

In [11]:
print(df.sort_index(axis=1, ascending=False))
print(df.sort_values(by="B"))

                   D         C         B         A
2013-01-01  0.156436  0.126607  1.461200 -0.761475
2013-01-02  0.429208  0.468590 -1.600014  1.084657
2013-01-03  1.861473 -1.472618  0.672193  0.425020
2013-01-04  0.669789  2.284463  1.435334  0.711198
2013-01-05  0.744176 -0.633701  1.281405  1.338088
2013-01-06 -0.219828  0.581423  0.176749 -1.107815
                   A         B         C         D
2013-01-02  1.084657 -1.600014  0.468590  0.429208
2013-01-06 -1.107815  0.176749  0.581423 -0.219828
2013-01-03  0.425020  0.672193 -1.472618  1.861473
2013-01-05  1.338088  1.281405 -0.633701  0.744176
2013-01-04  0.711198  1.435334  2.284463  0.669789
2013-01-01 -0.761475  1.461200  0.126607  0.156436


## Выбор данных

**Урок четвертый**: Самый важный навык — уметь "нарезать" данные нужными кусочками.

**По ключу (столбец):**

**Основы индексации**: `df["A"]` — выбираете колонку A. Получаете Series. Это как выбрать одну колонку в Excel.

In [12]:
print(df["A"])

2013-01-01   -0.761475
2013-01-02    1.084657
2013-01-03    0.425020
2013-01-04    0.711198
2013-01-05    1.338088
2013-01-06   -1.107815
Freq: D, Name: A, dtype: float64


**По срезу строк:**

**Понимание срезов**:
- `df[0:3]` — строки по позициям (первые 3)
- `df["20130102":"20130104"]` — строки по значениям индекса (по датам)
- Pandas умный: понимает, что вы хотите выбрать по датам!

In [13]:
print(df[0:3])
print(df["20130102":"20130104"])

                   A         B         C         D
2013-01-01 -0.761475  1.461200  0.126607  0.156436
2013-01-02  1.084657 -1.600014  0.468590  0.429208
2013-01-03  0.425020  0.672193 -1.472618  1.861473
                   A         B         C         D
2013-01-02  1.084657 -1.600014  0.468590  0.429208
2013-01-03  0.425020  0.672193 -1.472618  1.861473
2013-01-04  0.711198  1.435334  2.284463  0.669789


**По метке с помощью loc:**

**Мастер-класс loc**:
- `loc` = location (местоположение)
- `df.loc[строки, колонки]` — явное указание что и где выбирать
- `:` означает "все" (как в numpy)
- `loc` работает с МЕТКАМИ (названиями), а не позициями

In [14]:
print(df.loc[dates[0]])
print(df.loc[:, ["A", "B"]])
print(df.loc["20130102":"20130104", ["A", "B"]])
print(df.loc[dates[0], "A"])

A   -0.761475
B    1.461200
C    0.126607
D    0.156436
Name: 2013-01-01 00:00:00, dtype: float64
                   A         B
2013-01-01 -0.761475  1.461200
2013-01-02  1.084657 -1.600014
2013-01-03  0.425020  0.672193
2013-01-04  0.711198  1.435334
2013-01-05  1.338088  1.281405
2013-01-06 -1.107815  0.176749
                   A         B
2013-01-02  1.084657 -1.600014
2013-01-03  0.425020  0.672193
2013-01-04  0.711198  1.435334
-0.7614749456271308


**По позиции с помощью iloc:**

**Мастер-класс iloc**:
- `iloc` = integer location (целочисленное местоположение)
- `df.iloc[строки, колонки]` — работает только с ЧИСЛОВЫМИ позициями
- Как индексы в обычных списках Python: 0, 1, 2...
- `iloc[1, 1]` — строка 1, колонка 1 (начиная с 0)

In [15]:
print(df.iloc[3])
print(df.iloc[3:5, 0:2])
print(df.iloc[[1, 2, 4], [0, 2]])
print(df.iloc[1:3, :])
print(df.iloc[:, 1:3])
print(df.iloc[1, 1])

A    0.711198
B    1.435334
C    2.284463
D    0.669789
Name: 2013-01-04 00:00:00, dtype: float64
                   A         B
2013-01-04  0.711198  1.435334
2013-01-05  1.338088  1.281405
                   A         C
2013-01-02  1.084657  0.468590
2013-01-03  0.425020 -1.472618
2013-01-05  1.338088 -0.633701
                   A         B         C         D
2013-01-02  1.084657 -1.600014  0.468590  0.429208
2013-01-03  0.425020  0.672193 -1.472618  1.861473
                   B         C
2013-01-01  1.461200  0.126607
2013-01-02 -1.600014  0.468590
2013-01-03  0.672193 -1.472618
2013-01-04  1.435334  2.284463
2013-01-05  1.281405 -0.633701
2013-01-06  0.176749  0.581423
-1.6000144424638196


## Булевый индекс

**Урок пятый**: Самая мощная фича pandas — фильтрация по условиям!

**Фильтрация по условию:**

**Магия булевых масок**:
- `df["A"] > 0` создает маску True/False для каждой строки
- `df[маска]` оставляет только строки где True
- Это основа для всех фильтров в анализе данных!

In [16]:
print(df[df["A"] > 0])
print(df[df > 0])

                   A         B         C         D
2013-01-02  1.084657 -1.600014  0.468590  0.429208
2013-01-03  0.425020  0.672193 -1.472618  1.861473
2013-01-04  0.711198  1.435334  2.284463  0.669789
2013-01-05  1.338088  1.281405 -0.633701  0.744176
                   A         B         C         D
2013-01-01       NaN  1.461200  0.126607  0.156436
2013-01-02  1.084657       NaN  0.468590  0.429208
2013-01-03  0.425020  0.672193       NaN  1.861473
2013-01-04  0.711198  1.435334  2.284463  0.669789
2013-01-05  1.338088  1.281405       NaN  0.744176
2013-01-06       NaN  0.176749  0.581423       NaN


**Фильтрация по значениям:**

**Продвинутая фильтрация**:
- `isin([список])` — проверяет, входит ли значение в список
- Аналог SQL: `WHERE column IN ('val1', 'val2')`
- Очень удобно для категориальных данных

In [17]:
df2 = df.copy()
df2["E"] = ["one", "one", "two", "three", "four", "three"]
print(df2[df2["E"].isin(["two", "four"])])

                   A         B         C         D     E
2013-01-03  0.425020  0.672193 -1.472618  1.861473   two
2013-01-05  1.338088  1.281405 -0.633701  0.744176  four


## Изменение данных

**Добавление столбца:**

In [18]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20130102", periods=6))
df["F"] = s1

**Изменение значений по метке или позиции:**

In [19]:
df.at[dates[0], "A"] = 0
df.iat[0, 1] = 0
df.loc[:, "D"] = np.array([5] * len(df))
print(df)

                   A         B         C    D    F
2013-01-01  0.000000  0.000000  0.126607  5.0  NaN
2013-01-02  1.084657 -1.600014  0.468590  5.0  1.0
2013-01-03  0.425020  0.672193 -1.472618  5.0  2.0
2013-01-04  0.711198  1.435334  2.284463  5.0  3.0
2013-01-05  1.338088  1.281405 -0.633701  5.0  4.0
2013-01-06 -1.107815  0.176749  0.581423  5.0  5.0


**where-операция:**

In [20]:
df2 = df.copy()
df2[df2 > 0] = -df2
print(df2)

                   A         B         C    D    F
2013-01-01  0.000000  0.000000 -0.126607 -5.0  NaN
2013-01-02 -1.084657 -1.600014 -0.468590 -5.0 -1.0
2013-01-03 -0.425020 -0.672193 -1.472618 -5.0 -2.0
2013-01-04 -0.711198 -1.435334 -2.284463 -5.0 -3.0
2013-01-05 -1.338088 -1.281405 -0.633701 -5.0 -4.0
2013-01-06 -1.107815 -0.176749 -0.581423 -5.0 -5.0


## Работа с пропущенными данными

**Проверка, заполнение и удаление:**

In [21]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
df1.loc[dates[0]:dates[1], "E"] = 1
print(df1.dropna(how="any"))
print(df1.fillna(value=5))
print(pd.isna(df1))

                   A         B        C    D    F    E
2013-01-02  1.084657 -1.600014  0.46859  5.0  1.0  1.0
                   A         B         C    D    F    E
2013-01-01  0.000000  0.000000  0.126607  5.0  5.0  1.0
2013-01-02  1.084657 -1.600014  0.468590  5.0  1.0  1.0
2013-01-03  0.425020  0.672193 -1.472618  5.0  2.0  5.0
2013-01-04  0.711198  1.435334  2.284463  5.0  3.0  5.0
                A      B      C      D      F      E
2013-01-01  False  False  False  False   True  False
2013-01-02  False  False  False  False  False  False
2013-01-03  False  False  False  False  False   True
2013-01-04  False  False  False  False  False   True


## Операции

**Урок шестой**: Pandas — это Excel на стероидах. Любые вычисления по строкам и колонкам.

**Статистика по столбцам и строкам:**

**Понимание осей**:
- `axis=0` или без параметра — операция по колонкам (результат для каждой колонки)
- `axis=1` — операция по строкам (результат для каждой строки)
- Запомните: axis=0 "схлопывает" строки, axis=1 "схлопывает" колонки

In [22]:
print(df.mean())
print(df.mean(axis=1))

A    0.408525
B    0.327611
C    0.225794
D    5.000000
F    3.000000
dtype: float64
2013-01-01    1.281652
2013-01-02    1.190647
2013-01-03    1.324919
2013-01-04    2.486199
2013-01-05    2.197158
2013-01-06    1.930071
Freq: D, dtype: float64


**Операции с выравниванием по индексам:**

In [23]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
print(df.sub(s, axis="index"))

                   A         B         C    D    F
2013-01-01       NaN       NaN       NaN  NaN  NaN
2013-01-02       NaN       NaN       NaN  NaN  NaN
2013-01-03 -0.574980 -0.327807 -2.472618  4.0  1.0
2013-01-04 -2.288802 -1.564666 -0.715537  2.0  0.0
2013-01-05 -3.661912 -3.718595 -5.633701  0.0 -1.0
2013-01-06       NaN       NaN       NaN  NaN  NaN


**Собственные функции и трансформации:**

In [24]:
print(df.agg(lambda x: np.mean(x) * 5.6))
print(df.transform(lambda x: x * 101.2))

A     2.287738
B     1.834622
C     1.264446
D    28.000000
F    16.800000
dtype: float64
                     A           B           C      D      F
2013-01-01    0.000000    0.000000   12.812600  506.0    NaN
2013-01-02  109.767321 -161.921462   47.421355  506.0  101.2
2013-01-03   43.012022   68.025960 -149.028952  506.0  202.4
2013-01-04   71.973242  145.255778  231.187618  506.0  303.6
2013-01-05  135.414457  129.678215  -64.130530  506.0  404.8
2013-01-06 -112.110857   17.887002   58.839977  506.0  506.0


**Value Counts и строковые методы:**

In [25]:
s = pd.Series(np.random.randint(0, 7, size=10))
print(s.value_counts())

s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
print(s.str.lower())

1    3
6    2
4    2
2    1
0    1
5    1
Name: count, dtype: int64
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object


## Объединение данных

**Конкатенация:**

In [26]:
df = pd.DataFrame(np.random.randn(10, 4))
pieces = [df[:3], df[3:7], df[7:]]
print(pd.concat(pieces))

          0         1         2         3
0  1.311338  0.243004 -1.031660 -0.798402
1 -0.569870  0.751449  0.777247 -1.360115
2  0.342714  1.595752 -1.503746 -0.738893
3 -0.396648 -0.455247  0.458351  0.471001
4 -1.824050  0.431234  0.759939 -0.498189
5  0.891563 -0.807096  1.356732  0.573076
6  2.157635 -0.798229 -0.330901  0.683402
7  1.254816 -0.443592 -0.779954 -0.171157
8  2.189870  0.663317 -1.175373 -1.041081
9 -0.280520  0.803995  0.154566 -1.045682


**SQL-подобное объединение (merge):**

In [27]:
left = pd.DataFrame({"key": ["foo", "foo"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "foo"], "rval": [4, 5]})
print(pd.merge(left, right, on="key"))

   key  lval  rval
0  foo     1     4
1  foo     1     5
2  foo     2     4
3  foo     2     5


## Группировка

**Урок седьмой**: Группировка — это SQL в pandas. Самая мощная техника для анализа.

**Группировка и агрегация:**

**Концепция группировки**:
1. **Split** (разделить) — разбиваем данные по группам
2. **Apply** (применить) — применяем функцию к каждой группе  
3. **Combine** (объединить) — собираем результаты обратно

**Практическое применение**:
- `groupby("A")` — группируем по колонке A
- `[["C", "D"]]` — выбираем колонки для агрегации
- `.sum()` — применяем функцию суммирования к каждой группе

In [28]:
df = pd.DataFrame({
    "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
    "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
    "C": np.random.randn(8),
    "D": np.random.randn(8)
})
print(df.groupby("A")[["C", "D"]].sum())
print(df.groupby(["A", "B"]).sum())

            C         D
A                      
bar  2.641724  0.372469
foo  3.794058  0.308669
                  C         D
A   B                        
bar one    1.345407 -0.903568
    three  0.595697  0.030960
    two    0.700620  1.245077
foo one   -1.074634  0.676989
    three  0.892592 -0.444823
    two    3.976099  0.076503


## Изменение формы данных

**Stack/Unstack и сводные таблицы:**

In [29]:
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one", "two", "one", "two", "one", "two", "one", "two"],
]
index = pd.MultiIndex.from_arrays(arrays, names=["first", "second"])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=["A", "B"])
df2 = df[:4]
stacked = df2.stack()
print(stacked)
print(stacked.unstack())
print(stacked.unstack(1))
print(stacked.unstack(0))

first  second   
bar    one     A   -1.136623
               B   -0.788284
       two     A    0.403555
               B    0.594994
baz    one     A   -0.695840
               B   -0.074997
       two     A    0.397974
               B   -0.277549
dtype: float64
                     A         B
first second                    
bar   one    -1.136623 -0.788284
      two     0.403555  0.594994
baz   one    -0.695840 -0.074997
      two     0.397974 -0.277549
second        one       two
first                      
bar   A -1.136623  0.403555
      B -0.788284  0.594994
baz   A -0.695840  0.397974
      B -0.074997 -0.277549
first          bar       baz
second                      
one    A -1.136623 -0.695840
       B -0.788284 -0.074997
two    A  0.403555  0.397974
       B  0.594994 -0.277549


In [30]:
# Сводная таблица
df = pd.DataFrame({
    "A": ["one", "one", "two", "three"] * 3,
    "B": ["A", "B", "C"] * 4,
    "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 2,
    "D": np.random.randn(12),
    "E": np.random.randn(12),
})
print(pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"]))

C             bar       foo
A     B                    
one   A -0.077284  0.035294
      B  0.910300  0.924849
      C -1.147417 -1.840583
three A -0.710973       NaN
      B       NaN -0.029846
      C  1.156285       NaN
two   A       NaN -0.676412
      B -0.471134       NaN
      C       NaN  0.185286


## Временные ряды

**Создание меток, ресемплирование, работа с временными зонами:**

In [31]:
rng = pd.date_range("1/1/2012", periods=100, freq="S")
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
print(ts.resample("5Min").sum())

2012-01-01    25482
Freq: 5min, dtype: int64


  rng = pd.date_range("1/1/2012", periods=100, freq="S")


In [32]:
# Временная зона
rng = pd.date_range("3/6/2012 00:00", periods=5, freq="D")
ts = pd.Series(np.random.randn(len(rng)), rng)
ts_utc = ts.tz_localize("UTC")
print(ts_utc)
print(ts_utc.tz_convert("US/Eastern"))

2012-03-06 00:00:00+00:00   -0.827232
2012-03-07 00:00:00+00:00   -1.238103
2012-03-08 00:00:00+00:00    0.597960
2012-03-09 00:00:00+00:00   -1.816917
2012-03-10 00:00:00+00:00    0.236332
Freq: D, dtype: float64
2012-03-05 19:00:00-05:00   -0.827232
2012-03-06 19:00:00-05:00   -1.238103
2012-03-07 19:00:00-05:00    0.597960
2012-03-08 19:00:00-05:00   -1.816917
2012-03-09 19:00:00-05:00    0.236332
Freq: D, dtype: float64


## Категориальные данные

**Работа с категориями:**

In [33]:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6], "raw_grade": ["a", "b", "b", "a", "a", "e"]})
df["grade"] = df["raw_grade"].astype("category")
new_categories = ["very good", "good", "very bad"]
df["grade"] = df["grade"].cat.rename_categories(new_categories)

df["grade"] = df["grade"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"]
)
print(df["grade"])
print(df.sort_values(by="grade"))
print(df.groupby("grade", observed=False).size())

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): ['very bad', 'bad', 'medium', 'good', 'very good']
   id raw_grade      grade
5   6         e   very bad
1   2         b       good
2   3         b       good
0   1         a  very good
3   4         a  very good
4   5         a  very good
grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64


## Импорт и экспорт данных

**CSV:**

In [34]:
df = pd.DataFrame(np.random.randint(0, 5, (10, 5)))
df.to_csv("foo.csv")
pd.read_csv("foo.csv")

Unnamed: 0.1,Unnamed: 0,0,1,2,3,4
0,0,1,3,2,0,4
1,1,2,3,4,2,4
2,2,2,2,1,1,4
3,3,2,2,1,0,4
4,4,3,0,2,1,0
5,5,2,4,3,2,2
6,6,3,3,0,4,4
7,7,3,4,0,1,2
8,8,0,0,2,1,3
9,9,3,1,2,1,3


**Parquet:**

In [35]:
df.to_parquet("foo.parquet")
pd.read_parquet("foo.parquet")

Unnamed: 0,0,1,2,3,4
0,1,3,2,0,4
1,2,3,4,2,4
2,2,2,1,1,4
3,2,2,1,0,4
4,3,0,2,1,0
5,2,4,3,2,2
6,3,3,0,4,4
7,3,4,0,1,2
8,0,0,2,1,3
9,3,1,2,1,3


**Excel:**

In [36]:
df.to_excel("foo.xlsx", sheet_name="Sheet1")
pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])

Unnamed: 0.1,Unnamed: 0,0,1,2,3,4
0,0,1,3,2,0,4
1,1,2,3,4,2,4
2,2,2,2,1,1,4
3,3,2,2,1,0,4
4,4,3,0,2,1,0
5,5,2,4,3,2,2
6,6,3,3,0,4,4
7,7,3,4,0,1,2
8,8,0,0,2,1,3
9,9,3,1,2,1,3


## Подводные камни

**Важное предупреждение**: Самая частая ошибка новичков!

**Проблема неоднозначности**: Series нельзя использовать в условии if напрямую, потому что в нем много значений. Python не знает, какое именно проверять.

**Решения**:
- `.any()` — True если хотя бы одно значение True
- `.all()` — True если все значения True  
- `.empty` — True если Series пустой
- `.bool()` — для Series из одного элемента

In [37]:
if pd.Series([False, True, False]):
    print("I was true")
# ValueError: The truth value of a Series is ambiguous.
# Используйте: .empty, .bool(), .item(), .any() или .all()

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

---

> **Полная документация и дополнительные примеры доступны на официальном сайте библиотеки pandas[1].**

[1] https://pandas.pydata.org/docs/user_guide/10min.html