# Введение в Pandas

Данный семинар является расширенной адаптацией [курса Pandas от Kaggle](https://www.kaggle.com/learn/pandas).  

Pandas — это библиотека с открытым исходным кодом для работы с табличными данными в Python. Она проста в освоении и использовании и содержит большой набор готовых инструментов. Основной недостаток Pandas — низкая производительность при работе с большими объемами данных, что делает библиотеку неприменимой для промышленных задач. Однако она идеально подходит для обучения, анализа небольших датасетов и экспериментов.

## Установка Pandas

Чтобы [установить Pandas](https://pandas.pydata.org/docs/getting_started/install.html), воспользуйтесь командой:

```bash
pip install pandas
```

или, если используете [uv](https://docs.astral.sh/uv/):

```bash
uv pip install pandas
```

In [None]:
# !pip install pandas
# !uv pip install pandas

# Для работы с `xlsx` и `parquet` требуются дополнительные зависимости
# !pip install pandas[excel,parquet]
# !uv pip install pandas[excel,parquet]

Теперь можно импортировать Pandas:

In [None]:
import pandas as pd

pd.__version__

## Первый взгляд на `Series` и `DataFrame`

Основными объектами в Pandas являются `Series` и `DataFrame`. `DataFrame` — это таблица. Мы легко можем создать `DataFrame` из словаря, используя конструктор `pd.DataFrame()`:

In [None]:
data = {
    "Age": [34, 41, 29, 52],
    "Sex": ["M", "F", "M", "F"],
    "Height (cm)": [178, 165, 182, 170],
    "Weight (kg)": [78.6, 62.3, 85.9, 70.2],
    "HDL (mg/dL)": [55.3, 62.7, 47.1, 58.6],
    "LDL (mg/dL)": [128.4, 102.9, 141.2, 116.5],
}
res = pd.DataFrame(data)  # Создадим `DataFrame`, содержащий результаты анализов
res

Заметим, что ключи словаря превратились в названия столбцов, а значения — в их содержимое. Узнать, какие столбцы есть в `DataFrame`, можно при помощи атрибута `columns`:

In [None]:
res.columns  # Для хранения Pandas использует специальный класс `pd.Index`

Каждая строка `DataFrame` имеет уникальную метку (`index`). По умолчанию Pandas присваивает строкам порядковые номера 0, 1, 2, ...

In [None]:
res.index

Мы легко можем задать метки строк с помощью аргумента `index` при создании `DataFrame` или изменить их позже:

In [None]:
res = pd.DataFrame(data, index=["Patient 1", "Patient 2", "Patient 3", "Patient 4"])
res

Каждая `Series` — это последовательность данных одного типа. Забегая вперед, скажем, что столбец в `DataFrame` — это `Series`. Мы легко можем создать `Series` из списка:

In [None]:
pd.Series([1, 9, 8, 4])

В отличие от списков, мы можем присвоить `Series` имя `name`, а каждый элемент в ней, кроме числового индекса, может иметь еще и метку `index`:

In [None]:
pd.Series([55.2, 47.9, 62.1], index=["Patient 1", "Patient 2", "Patient 3"], name="HDL (mg/dL)")

Таким образом, `DataFrame` можно представить как несколько «склеенных» вместе `Series`.

## Чтение и запись данных

На практике создание `DataFrame` из словаря или другого объекта — не самый распространенный способ. Чаще мы хотим прочитать данные из уже существующего источника, например результаты, полученные на измерительном приборе.  

Прежде чем продолжить, кратко обсудим форматы, которые мы можем встретить при работе с данными. Самый простой из них — `csv` (_comma-separated values_) и его модификации: `tsv` (_tab-separated values_) и `psv` (_pipe-separated values_). Все они устроены одинаково и представляют собой текстовый файл, хранящий значения, разделенные некоторым символом. Пример:  

```csv
Name,Age,Sex,Mark
Anna,22,F,5
Bob,25,M,4
Clara,23,F,5
```

С форматом `xlsx`, думается, все и так хорошо знакомы, он используется в Excel и подобных приложениях. Для хранения больших объемов данных иногда используется бинарный формат `parquet`. Для каждого из этих форматов в Pandas есть инструмент для чтения: `read_csv`, `read_excel` и `read_parquet`.

Далее мы будем работать с датасетом [Titanic](https://www.kaggle.com/competitions/titanic/data). Он хранится в формате `csv` в файле `train.csv`:

In [None]:
!head train.csv

In [None]:
data = pd.read_csv("train.csv")
type(data)

**Рекомендация:** ознакомьтесь подробнее с [документацией](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) `read_csv`, изучите аргументы `sep`, `header`, `index_col` и другие.

А вот и пример записи в файл формата `parquet` (не пытайтесь открыть его в текстовом редакторе — это бинарный файл):

In [None]:
data.to_parquet("titanic.parquet")

Аналогично, методы `DataFrame.to_csv()` и `DataFrame.to_excel()` используются для записи данных в `csv` и `xlsx` форматах соответственно:

In [None]:
data.to_csv("titanic.csv")
data.to_excel("titanic.xlsx")

**Примечание:** если требуется записать в `xlsx` файл несколько листов с данными, необходимо использовать `ExcelWriter` (см. [документацию](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html)).

## Первое знакомство с данными

Теперь, когда мы разобрались, как прочитать данные, нужно их внимательно изучить. Начнем с самых основ:

In [None]:
data.shape  # Количество строк и столбцов в таблице

In [None]:
len(data)  # Количество строк в таблице

Всегда полезно посмотреть на данные глазами. Разумеется, быстро просмотреть сотни строк мы не можем, поэтому ограничимся лишь отдельными примерами:

In [None]:
data.head()  # Первые `n` строк, по умолчанию `n=5`

In [None]:
data.tail()  # Последние `n` строк, по умолчанию `n=5`

In [None]:
data.sample(5)  # Случайные `n` строк, по умолчанию `n=1`

## Индексация, выбор и присваивание

Классический анализ данных включает различные манипуляции над столбцами и строками. Например, у нас есть столбцы `Height (cm)` и `Weight (kg)`, а мы хотим посчитать BMI (body mass index). Для этого необходимо научиться обращаться к уже существующим элементам таблицы и создавать новые.

К столбцу `DataFrame` можно обратиться, указав его название в квадратных скобках:

In [None]:
data["Name"]

In [None]:
# Ранее было упомянуто, что столбец `DataFrame` — это `Series`. Проверим!
type(data["Name"])

В некоторых случаях (если в названии столбца нет пробелов и специальных символов) допустимо использовать альтернативный синтаксис:

In [None]:
data.Name

Если же мы хотим получить сразу несколько столбцов, необходимо передать список их названий:

In [None]:
data[["Name", "Survived"]]

In [None]:
type(data[["Name", "Survived"]])

Мы уже знаем, что `Series` напоминает список. Неудивительно, что мы можем углубиться и взять конкретное значение по индексу.

In [None]:
data["Name"][451]

Как и в NumPy, мы можем использовать маски для выделения данных. Например:

In [None]:
mask = data["Sex"] == "female"
mask

In [None]:
data[mask]

Кстати, инвертировать маску можно с помощью оператора `~`:

In [None]:
~mask

In [None]:
data[~mask]

---

### Задание

Используя маски, создайте `DataFrame`, содержащий строки, где `Embarked` равно `"S"` и `Pclass` больше `1`.

**Подсказка:** помните, что для объединения условий можно использовать операторы `|` и `&`.

In [None]:
# YOUR CODE HERE

---

Теперь мы готовы перейти к одной из самых важных тем в данном разделе — к операторам `iloc` и `loc`. Они нужны для более сложных операций выделения. Правило простое:

- `iloc` использует **числовые индексы** (см. [_selection by position_](https://pandas.pydata.org/docs/user_guide/indexing.html#selection-by-position)) строк и столбцов;
- `loc` использует **имена** (см. [_selection by label_](https://pandas.pydata.org/docs/user_guide/indexing.html#selection-by-label)) строк и столбцов.

Давайте попробуем на практике:

In [None]:
data.iloc[0]  # Первая строка

In [None]:
data.iloc[:, 0]  # Все строки, первый столбец

In [None]:
data.iloc[::2, :5]  # Строки через одну, первые 5 столбцов

In [None]:
data.iloc[-100:, [0, 1, 5]]  # Последние 100 строк, 1-й, 2-й и 6-й столбцы

In [None]:
data.loc[:, "Name":]  # Все столбцы, начиная с Name

Наконец, приведем несколько примеров создания новых столбцов:

In [None]:
data["Ship"] = "RMS Titanic"  # Константный признак
data["Ship"]

In [None]:
data["PassengerIdReversed"] = list(range(len(data), 0, -1))  # Признак на основе списка
data["PassengerIdReversed"]

In [None]:
data["IsAdult"] = data["Age"] > 16  # Признак, рассчитанный на основе другого столбца

Чтобы удалить столбцы из таблицы, необходимо воспользоваться методом `drop` (аргумент `axis=1` означает, что мы удаляем именно столбцы, а не строки):

In [None]:
len(data.columns)

In [None]:
data = data.drop(["Ship", "IsAdult"], axis=1)

In [None]:
len(data.columns)

Мы также можем создать индекс из уже существующего столбца (он пригодится нам чуть позже):

In [None]:
data = data.set_index("PassengerIdReversed")
data.head()

## Изменение данных: `map`, `apply` и `replace`

Метод `DataFrame.map()` применяет переданную функцию к каждому элементу `DataFrame`:

In [None]:
data[["PassengerId", "Pclass"]].map(lambda value: value - 1)

Аргументом `Series.map()` может быть как функция, так и _mapping_, например словарь:

In [None]:
data["Age"].map(lambda age: age > 16)

In [None]:
data["Sex"].map({"female": "F", "male": "M"})

Для применения `mapping` к `Series` также можно использовать метод `replace`:

In [None]:
data["Embarked"].replace({"C": "Cherbourg", "Q": "Queenstown", "S": "Southampton"})

Метод `DataFrame.apply()` применяет функцию к `DataFrame` вдоль оси, например к каждой строке таблицы:

In [None]:
def build_person_description(row: pd.Series) -> str:
    return "Name: {name}, Sex: {sex}, Age: {age}".format(
        name=row["Name"], sex=row["Sex"], age=row["Age"]
    )


data.apply(build_person_description, axis=1)

**Примечание:** по возможности избегайте использования функций через `map` и `apply`, поскольку они значительно уступают нативным инструментам по скорости:

In [None]:
%%timeit
data["Age"].map(lambda age: age > 16)

In [None]:
%%timeit
data["Age"] > 16

## Разведочный анализ данных

Теперь проведем небольшой разведочный анализ данных (_Exploratory Data Analysis_, EDA), чтобы познакомиться с встроенными инструментами Pandas:

In [None]:
data.dtypes  # Типы данных. Примечание: Pandas интерпретирует текстовые данные как `object`

Если хочется получить больше информации о данных, например о количестве пропущенных значений (подробнее о них поговорим далее), можно использовать метод `DataFrame.info()`:

In [None]:
data.info()

### Исследование категориальных признаков

In [None]:
data["Sex"].unique()  # Уникальные значения

In [None]:
data["Sex"].nunique()  # Количество уникальных значений

In [None]:
data[
    "Sex"
].value_counts()  # Распределение уникальных значений. Поэкспериментируйте с аргументом `normalize`

In [None]:
# Кстати, в Pandas есть встроенные инструменты визуализации данных
data["Sex"].value_counts().plot.bar()

---

### Задание

Какие значения принимает признак `"Pclass"`? Какое распределение они имеют? Постройте столбчатую диаграмму.

In [None]:
# YOUR CODE HERE

---

### Исследование числовых признаков

Получить первое впечатление о численных признаках можно с помощью метода `describe`, который генерирует различные статистики данных, включая среднее, стандартное отклонение, минимальное и максимальное значения, а также перцентили:

In [None]:
data.describe()

In [None]:
data.corr(method="spearman", numeric_only=True)  # Корреляция между числовыми признаками

---

### Задание

Признак `"PassengerId"` имеет тип данных `int64`. Является ли он числовым? Почему?

---

In [None]:
data["Age"].min()  # Наименьшее значение

In [None]:
data["Age"].max()  # Наибольшее значение

In [None]:
data["Age"].mean()  # Среднее значение

In [None]:
data["Age"].median()  # Медиана (0.5-квантиль)

In [None]:
data["Age"].quantile([0.25, 0.5, 0.75])  # Квантили

In [None]:
# data["Exam_Score"].plot.hist()
data["Age"].hist()  # Гистограмма распределения

---

### Задание

Опишите распределение признака `"Fare"`. Постройте гистограмму.

In [None]:
# YOUR CODE HERE

---

## Сортировки

In [None]:
data.sort_values("Age")

In [None]:
data.sort_values("Age", ascending=False)

In [None]:
data.sort_index()

## Группировка и агрегирование

Часто полезно считать статистики не по всем данным сразу, а по отдельным группам. Для этого в Pandas используется метод `groupby` (аналогичен выражению `GROUP BY` в SQL):

In [None]:
grouped = data.groupby(["Embarked"])
type(grouped)

**Примечание:** каждую группу можно рассматривать как отдельный `DataFrame`, поэтому мы легко можем использовать инструменты, которые применяли для EDA.

Полный список методов, которые можно применить к `DataFrameGroupBy` можно изучить в [документации](https://pandas.pydata.org/docs/reference/groupby.html). А сейчас рассмотрим некоторые из них:

In [None]:
grouped.size()  # Количество элементов в каждой группе

In [None]:
# 1. Сгруппируем данные по признаку Sex;
# 2. Выберем признак Survived;
# 3. Посчитаем распределение значений этого признака внутри групп;
# 4. Отсортируем индекс (опционально).
data.groupby("Sex")["Survived"].value_counts(normalize=True).sort_index()

Для расчета агрегированных статистик используется метод `agg`:

In [None]:
# data.groupby("Pclass")[["Fare", "Survived"]].mean()
data.groupby("Pclass").agg({"Fare": "mean", "Survived": "mean"})

In [None]:
data.groupby("Sex").agg(avg_age=("Age", "mean"), std_age=("Age", "std"), max_age=("Age", "max"))

Мы также можем записать агрегированный результат в каждой строке исходной таблицы (по аналогии с _оконными функциями_ в SQL). Для этого используется метод `transform`. Сравните:

In [None]:
grouped.size()

In [None]:
grouped.transform("size")

## Объединение данных

Часто на практике данные хранятся раздельно. Например, одна таблица может содержать данные об экспрессии генов в нескольких образцах, а другая — характеристики этих генов (метаданные): расположение на хромосоме, альтернативные названия и функции. Для получения полной картины необходимо объединить эти данные.  

Другой пример: мы исследуем результаты анализов крови. Первый набор данных получен в медицинском учреждении A и содержит данные о 1000 пациентах, второй — в учреждении B и содержит данные о 500 пациентах. Перед началом работы также имеет смысл объединить эти данные.

Подробный материал по объединению данных можно найти по [ссылке](https://pandas.pydata.org/docs/user_guide/merging.html).

`pd.concat()` позволяет объединить несколько `Series` или `DataFrame` вдоль выбранной оси (по умолчанию `axis=0`):

In [None]:
part1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)
part2 = pd.DataFrame(
    {
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        # Часть признаков может отсутствовать
        # "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"],
    },
    index=[4, 5, 6, 7],
)
pd.concat([part1, part2])

Недостающие значения Pandas заполнил `NaN`, о них поговорим в следующем разделе. Теперь вернемся к нашему датасету и добавим в него описания портов:

In [None]:
ports = pd.read_csv("ports.csv")
ports

Заметим, что в обеих таблицах присутствует столбец `"Embarked"`. Мы можем сопоставить значения с помощью метода `DataFrame.merge()` (аналог `JOIN` в SQL):

In [None]:
data.merge(ports, how="left", on="Embarked")

Аргумент `how="left"` означает, что каждой строке в левой таблице (`data`) мы должны сопоставить строку из правой (`ports`). Если в правой таблице есть лишние ключи (`B`), они будут проигнорированы.

Метод `DataFrame.join()` обычно используется для объединения по индексу, в остальном его поведение схоже с `DataFrame.merge()`.

## Пропущенные значения

До этого момента мы работали с данными так, словно в них отсутствовали _пропущенные значения_. На практике такое встречается редко — данные из разных источников могут содержать разное количество признаков, а часть информации может быть утеряна.

Пропущенные значения (например, пустые ячейки в `csv` файле) Pandas заменяет на `NaN` (_Not a Number_). По техническим причинам значения `NaN` всегда имеют тип данных `float64`.

Хорошей привычкой является проверка данных на наличие пропущенных значений перед началом работы. Сделать это можно с помощью метода `isna`:

In [None]:
data.isna()  # Проверим содержимое каждой ячейки

In [None]:
data.isna().sum(axis=0)  # Посчитаем количество NaN в каждом столбце

Поскольку большинство моделей в машинном обучении не способны напрямую работать с пропущенными значениями, нам необходимо их предобработать. Самый простой способ избавиться от `NaN` — удалить строки, которые содержат пропущенные значения, с помощью метода `dropna`:

In [None]:
data.dropna()

Правда, в нашем случае мы удалим больше половины данных из-за столбца `"Cabin"`. Иными словами, удаление пропущенных значений имеет смысл лишь в нескольких случаях:
- очень малое количество строк содержит пропущенные значения (удаление не приведет к потере значительной части данных);
- почти все значения в столбце отсутствуют (можно удалить весь столбец);
- значения пропущены в наиболее важных признаках (например, мы хотим обучить модель для предсказания ожирения, но информация о росте и весе для некоторого пациента отсутствует).

In [None]:
data = data.drop("Cabin", axis=1).dropna()
data

In [None]:
data.isna().sum(axis=0)

**Примечание:** пропущенные значения в категориальных признаках часто могут быть закодированы отдельно, например, мы могли бы обнаружить в столбце значение `"UNKNOWN"`.

## Практика

Тренироваться будем на датасете [Student Performance Factors](https://www.kaggle.com/datasets/lainguyn123/student-performance-factors/data).

### Задание 

Прочитайте данные из файла `StudentPerformanceFactors.csv` в `DataFrame`. Сколько строк и столбцов в полученной таблице? Выведите первые 10 строк.

In [None]:
# YOUR CODE HERE

---

### Задание

Содержат ли данные пропущенные значения? Если содержат, попробуйте от них избавиться.

In [None]:
# YOUR CODE HERE

---

### Задание

Сколько студентов мужского пола проживает вблизи школы и тратит на учебу более 25 часов в неделю?

In [None]:
# YOUR CODE HERE

---

### Задание

Какие значения принимают категориальные и числовые признаки в датасете? Проведите EDA. Какой числовой признак сильнее всего коррелирует с `"Exam_Score"`?

In [None]:
# YOUR CODE HERE

---

### Задание

Кто в среднем лучше справился с экзаменом: юноши или девушки?

In [None]:
# YOUR CODE HERE

Кто в среднем лучше справился с экзаменом: учащиеся без доступа к интернету или с доступом?

In [None]:
# YOUR CODE HERE