<a href="https://colab.research.google.com/github/NickOsipov/otus-ds-basic-tutorial/blob/main/notebooks/pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 10 минут с pandas

Краткий интерактивный ноутбук для быстрого освоения библиотеки **pandas** — на русском языке. Каждый раздел содержит пример кода и краткое пояснение[1].

## Импорт необходимых библиотек

**Совет преподавателя**: В мире анализа данных эти две библиотеки — ваши верные спутники:
- **NumPy** — математический фундамент для работы с массивами и матрицами
- **Pandas** — "швейцарский нож" для обработки табличных данных (как Excel, но мощнее!)

**Конвенция**: Всегда импортируйте pandas как `pd`, а numpy как `np` — это стандарт, который используют все специалисты

In [None]:
import numpy as np
import pandas as pd

## Основные структуры данных pandas

**Аналогия для новичков**: Если представить данные как здание, то:
- **Series** — это отдельная колонна здания. Одномерная структура с индексами, как список с подписанными элементами
- **DataFrame** — это вся каркасная конструкция здания. Двумерная таблица, где Series объединены в единую структуру

**Практическое понимание**:
- Series = одна колонка в Excel с именами строк
- DataFrame = целый лист Excel с именованными колонками и строками

**Почему это важно**: 90% работы аналитика данных — это манипуляции с DataFrame'ами

## Создание объектов

**Урок первый**: Есть несколько способов создать данные в pandas. Начнем с самого простого.

**Series из списка:**

**Объяснение**: Series — это как улучшенный список Python. Обратите внимание, что pandas автоматически добавляет индексы (0, 1, 2...) и может работать с NaN (не число).

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

**DataFrame из numpy-матрицы с датами:**

**Практический совет**: Это классический способ создания тестовых данных для экспериментов.
- `pd.date_range()` создает последовательность дат
- `np.random.randn()` генерирует случайные числа по нормальному распределению
- Параметр `columns=list("ABCD")` создает колонки A, B, C, D

In [None]:
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
print(df)

**DataFrame из словаря:**

**Важно понимать**: Этот пример показывает гибкость pandas — можете смешивать разные типы данных:
- Числа с плавающей точкой (float)
- Временные метки (Timestamp)
- Категориальные данные (Categorical)
- Массивы numpy
- Просто строки

**Обратите внимание на `df2.dtypes`** — это покажет, какие типы данных pandas автоматически определил для каждой колонки.

In [None]:
df2 = pd.DataFrame({
    "A": 1.0,
    "B": pd.Timestamp("20130102"),
    "C": pd.Series(1, index=list(range(4)), dtype="float32"),
    "D": np.array([3] * 4, dtype="int32"),
    "E": pd.Categorical(["test", "train", "test", "train"]),
    "F": "foo"
})
print(df2)
print(df2.dtypes)

## Просмотр данных

**Урок второй**: Первое, что делает любой аналитик после загрузки данных — это "разведка". Вот основные команды разведчика:

**Первые строки:**

**Зачем это нужно**: `head()` показывает первые 5 строк (по умолчанию). Это как "предварительный просмотр" ваших данных. Помогает понять структуру и типы данных.

In [None]:
print(df.head())

**Последние строки:**

**Практический совет**: `tail(3)` показывает последние 3 строки. Особенно полезно для проверки, что данные загрузились полностью и нет обрезки в конце файла.

In [None]:
print(df.tail(3))

**Индексы и столбцы:**

**Понимание архитектуры**:
- `df.index` — показывает метки строк (в нашем случае — даты)
- `df.columns` — показывает названия столбцов
- Это основа для навигации по данным

In [None]:
print(df.index)
print(df.columns)

**Массив numpy данных:**

**Под капотом**: `to_numpy()` показывает сырые данные без индексов и названий колонок. Иногда нужно для передачи в алгоритмы машинного обучения, которые работают с numpy массивами.

In [None]:
print(df.to_numpy())
print(df2.to_numpy())

## Быстрые статистики

**Урок третий**: Разведочный анализ данных начинается с базовой статистики.

**Краткое описание:**

**Золотая команда**: `describe()` — ваш лучший друг! Показывает count (количество), mean (среднее), std (стандартное отклонение), min/max и квартили. Это первое, что нужно запустить на новых данных.

In [None]:
print(df.describe())

**Транспонирование:**

In [None]:
print(df.T)

**Сортировка по оси или значениям:**

In [None]:
print(df.sort_index(axis=1, ascending=False))
print(df.sort_values(by="B"))

## Выбор данных

**Урок четвертый**: Самый важный навык — уметь "нарезать" данные нужными кусочками.

**По ключу (столбец):**

**Основы индексации**: `df["A"]` — выбираете колонку A. Получаете Series. Это как выбрать одну колонку в Excel.

In [None]:
print(df["A"])

**По срезу строк:**

**Понимание срезов**:
- `df[0:3]` — строки по позициям (первые 3)
- `df["20130102":"20130104"]` — строки по значениям индекса (по датам)
- Pandas умный: понимает, что вы хотите выбрать по датам!

In [None]:
print(df[0:3])
print(df["20130102":"20130104"])

**По метке с помощью loc:**

**Мастер-класс loc**:
- `loc` = location (местоположение)
- `df.loc[строки, колонки]` — явное указание что и где выбирать
- `:` означает "все" (как в numpy)
- `loc` работает с МЕТКАМИ (названиями), а не позициями

In [None]:
print(df.loc[dates[0]])
print(df.loc[:, ["A", "B"]])
print(df.loc["20130102":"20130104", ["A", "B"]])
print(df.loc[dates[0], "A"])

**По позиции с помощью iloc:**

**Мастер-класс iloc**:
- `iloc` = integer location (целочисленное местоположение)
- `df.iloc[строки, колонки]` — работает только с ЧИСЛОВЫМИ позициями
- Как индексы в обычных списках Python: 0, 1, 2...
- `iloc[1, 1]` — строка 1, колонка 1 (начиная с 0)

In [None]:
print(df.iloc[3])
print(df.iloc[3:5, 0:2])
print(df.iloc[[1, 2, 4], [0, 2]])
print(df.iloc[1:3, :])
print(df.iloc[:, 1:3])
print(df.iloc[1, 1])

## Булевый индекс

**Урок пятый**: Самая мощная фича pandas — фильтрация по условиям!

**Фильтрация по условию:**

**Магия булевых масок**:
- `df["A"] > 0` создает маску True/False для каждой строки
- `df[маска]` оставляет только строки где True
- Это основа для всех фильтров в анализе данных!

In [None]:
print(df[df["A"] > 0])
print(df[df > 0])

**Фильтрация по значениям:**

**Продвинутая фильтрация**:
- `isin([список])` — проверяет, входит ли значение в список
- Аналог SQL: `WHERE column IN ('val1', 'val2')`
- Очень удобно для категориальных данных

In [None]:
df2 = df.copy()
df2["E"] = ["one", "one", "two", "three", "four", "three"]
print(df2[df2["E"].isin(["two", "four"])])

## Изменение данных

**Добавление столбца:**

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20130102", periods=6))
df["F"] = s1

**Изменение значений по метке или позиции:**

In [None]:
df.at[dates[0], "A"] = 0
df.iat[0, 1] = 0
df.loc[:, "D"] = np.array([5] * len(df))
print(df)

**where-операция:**

In [None]:
df2 = df.copy()
df2[df2 > 0] = -df2
print(df2)

## Работа с пропущенными данными

**Проверка, заполнение и удаление:**

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
df1.loc[dates[0]:dates[1], "E"] = 1
print(df1.dropna(how="any"))
print(df1.fillna(value=5))
print(pd.isna(df1))

## Операции

**Урок шестой**: Pandas — это Excel на стероидах. Любые вычисления по строкам и колонкам.

**Статистика по столбцам и строкам:**

**Понимание осей**:
- `axis=0` или без параметра — операция по колонкам (результат для каждой колонки)
- `axis=1` — операция по строкам (результат для каждой строки)
- Запомните: axis=0 "схлопывает" строки, axis=1 "схлопывает" колонки

In [None]:
print(df.mean())
print(df.mean(axis=1))

**Операции с выравниванием по индексам:**

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
print(df.sub(s, axis="index"))

**Собственные функции и трансформации:**

In [None]:
print(df.agg(lambda x: np.mean(x) * 5.6))
print(df.transform(lambda x: x * 101.2))

**Value Counts и строковые методы:**

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))
print(s.value_counts())

s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
print(s.str.lower())

## Объединение данных

**Конкатенация:**

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
pieces = [df[:3], df[3:7], df[7:]]
print(pd.concat(pieces))

**SQL-подобное объединение (merge):**

In [None]:
left = pd.DataFrame({"key": ["foo", "foo"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "foo"], "rval": [4, 5]})
print(pd.merge(left, right, on="key"))

## Группировка

**Урок седьмой**: Группировка — это SQL в pandas. Самая мощная техника для анализа.

**Группировка и агрегация:**

**Концепция группировки**:
1. **Split** (разделить) — разбиваем данные по группам
2. **Apply** (применить) — применяем функцию к каждой группе  
3. **Combine** (объединить) — собираем результаты обратно

**Практическое применение**:
- `groupby("A")` — группируем по колонке A
- `[["C", "D"]]` — выбираем колонки для агрегации
- `.sum()` — применяем функцию суммирования к каждой группе

In [None]:
df = pd.DataFrame({
    "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
    "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
    "C": np.random.randn(8),
    "D": np.random.randn(8)
})
print(df.groupby("A")[["C", "D"]].sum())
print(df.groupby(["A", "B"]).sum())

## Изменение формы данных

**Stack/Unstack и сводные таблицы:**

In [None]:
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one", "two", "one", "two", "one", "two", "one", "two"],
]
index = pd.MultiIndex.from_arrays(arrays, names=["first", "second"])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=["A", "B"])
df2 = df[:4]
stacked = df2.stack()
print(stacked)
print(stacked.unstack())
print(stacked.unstack(1))
print(stacked.unstack(0))

In [None]:
# Сводная таблица
df = pd.DataFrame({
    "A": ["one", "one", "two", "three"] * 3,
    "B": ["A", "B", "C"] * 4,
    "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 2,
    "D": np.random.randn(12),
    "E": np.random.randn(12),
})
print(pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"]))

## Временные ряды

**Создание меток, ресемплирование, работа с временными зонами:**

In [None]:
rng = pd.date_range("1/1/2012", periods=100, freq="S")
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
print(ts.resample("5Min").sum())

In [None]:
# Временная зона
rng = pd.date_range("3/6/2012 00:00", periods=5, freq="D")
ts = pd.Series(np.random.randn(len(rng)), rng)
ts_utc = ts.tz_localize("UTC")
print(ts_utc)
print(ts_utc.tz_convert("US/Eastern"))

## Категориальные данные

**Работа с категориями:**

In [None]:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6], "raw_grade": ["a", "b", "b", "a", "a", "e"]})
df["grade"] = df["raw_grade"].astype("category")
new_categories = ["very good", "good", "very bad"]
df["grade"] = df["grade"].cat.rename_categories(new_categories)

df["grade"] = df["grade"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"]
)
print(df["grade"])
print(df.sort_values(by="grade"))
print(df.groupby("grade", observed=False).size())

## Визуализация

**Графики:**

In [None]:
import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(1000), index=pd.date_range("1/1/2000", periods=1000))
ts = ts.cumsum()
ts.plot();

df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, columns=["A", "B", "C", "D"])
df = df.cumsum()
df.plot();
plt.legend(loc='best')
plt.show()

## Импорт и экспорт данных

**CSV:**

In [None]:
df = pd.DataFrame(np.random.randint(0, 5, (10, 5)))
df.to_csv("foo.csv")
pd.read_csv("foo.csv")

**Parquet:**

In [None]:
df.to_parquet("foo.parquet")
pd.read_parquet("foo.parquet")

**Excel:**

In [None]:
df.to_excel("foo.xlsx", sheet_name="Sheet1")
pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])

## Подводные камни

**Важное предупреждение**: Самая частая ошибка новичков!

**Проблема неоднозначности**: Series нельзя использовать в условии if напрямую, потому что в нем много значений. Python не знает, какое именно проверять.

**Решения**:
- `.any()` — True если хотя бы одно значение True
- `.all()` — True если все значения True  
- `.empty` — True если Series пустой
- `.bool()` — для Series из одного элемента

In [None]:
if pd.Series([False, True, False]):
    print("I was true")
# ValueError: The truth value of a Series is ambiguous.
# Используйте: .empty, .bool(), .item(), .any() или .all()

---

> **Полная документация и дополнительные примеры доступны на официальном сайте библиотеки pandas[1].**

[1] https://pandas.pydata.org/docs/user_guide/10min.html