In [None]:
"""Dataframe transformation."""

# Преобразование датафрейма

In [None]:
import numpy as np
import pandas as pd

# pylint: disable=too-many-lines

## Изменение датафрейма

Вернемся к датафрейму из предыдущего занятия

In [None]:
# создадим несколько списков и массивов Numpy с информацией о семи странах мира
country = np.array(
    [
        "China",
        "Vietnam",
        "United Kingdom",
        "Russia",
        "Argentina",
        "Bolivia",
        "South Africa",
    ]
)
capital = np.array(
    ["Beijing", "Hanoi", "London", "Moscow", "Buenos Aires", "Sucre", "Pretoria"]
)
population = np.array([1400, 97, 67, 144, 45, 12, 59])  # млн. человек
area = np.array([9.6, 0.3, 0.2, 17.1, 2.8, 1.1, 1.2])  # млн. кв. км.
sea = np.array(
    [1] * 5 + [0, 1]
)  # выход к морю (в этом списке его нет только у Боливии)

# кроме того создадим список кодов стран, которые станут индексом датафрейма
custom_index = np.array(["CN", "VN", "GB", "RU", "AR", "BO", "ZA"])

# создадим пустой словарь
countries_dict = {}

# превратим эти списки в значения словаря,
# одновременно снабдив необходимыми ключами
countries_dict["country"] = country
countries_dict["capital"] = capital
countries_dict["population"] = population
countries_dict["area"] = area
countries_dict["sea"] = sea

# создадим датафрейм
countries = pd.DataFrame(countries_dict, index=custom_index)
countries

### Копирование датафрейма

#### Метод `.copy()`

In [None]:
# поместим датафрейм в новую переменную
countries_new = countries

In [None]:
# удалим запись про Аргентину и сохраним результат
countries_new.drop(labels="AR", axis=0, inplace=True)

# выведем исходный датафрейм
countries

In [None]:
# в первую очередь вернем Аргентину в исходный датафрейм countries
countries = pd.DataFrame(countries_dict, index=custom_index)

# создадим копию, на этот раз с помощью метода .copy()
countries_new = countries.copy()

# вновь удалим запись про Аргентину
countries_new.drop(labels="AR", axis=0, inplace=True)

# выведем исходный датафрейм
countries

#### Про параметр `inplace`

In [None]:
# создадим несложный датафрейм
df = pd.DataFrame([[1, 1, 1], [2, 2, 2], [3, 3, 3]], columns=["A", "B", "C"])

df

In [None]:
# если метод выдает датафрейм, изменение не сохраняется
df.drop(labels=["A"], axis=1)

In [None]:
# проверим это
df

In [None]:
# если метод выдает None, изменение постоянно
print(df.drop(labels=["A"], axis=1, inplace=True))

In [None]:
# проверим
df

In [None]:
# нельзя использовать inplace = True и записывать в переменную одновременно
# df = df.drop(labels=["B"], axis=1, inplace=True)

# в этом случае мы записываем None в переменную df
# print(df)

### Столбцы датафрейма

Именование столбцов при создании датафрейма

In [None]:
np.array([country, capital, population, area, sea])

In [None]:
# создадим список с названиями столбцов на кириллице
custom_columns = ["страна", "столица", "население", "площадь", "море"]

# и транспонированный массив Numpy с данными о странах
arr = np.array([country, capital, population, area, sea]).T
arr

In [None]:
# создадим датафрейм, передав в параметр columns названия столбцов на кириллице
countries = pd.DataFrame(data=arr, index=custom_index, columns=custom_columns)

countries

In [None]:
# вернем прежние названия столбцов
countries.columns = ["country", "capital", "population", "area", "sea"]

Переименование столбцов

In [None]:
# переименуем столбец capital на city
countries.rename(columns={"capital": "city"}, inplace=True)
countries

### Тип данных в столбце

Просмотр типа данных в столбце

In [None]:
# в одном столбце содержится один тип данных
# посмотрим на тип данных каждого из столбцов
countries.dtypes

Изменение типа данных

In [None]:
# преобразуем тип данных столбца population в int
countries.population = countries.population.astype("int")

In [None]:
# изменим тип данных в столбцах area и sea
countries = countries.astype({"area": "float", "sea": "category"})

In [None]:
# посмотрим на результат
countries.dtypes

Тип данных category

In [None]:
# тип category похож на фактор в R
countries.sea

Фильтр столбцов по типу данных

In [None]:
# выберем только типы данных int и float
countries.select_dtypes(include=["int64", "float64"])

In [None]:
# выберем все типы данных, кроме object и category
countries.select_dtypes(exclude=["object", "category"])

### Добавление строк и столбцов

#### Добавление строк

Использование `.iloc[]`

In [None]:
# ни Испания, ни Нидерланды, ни Перу не сохранились
countries

In [None]:
# добавим данные об этих странах на постоянной основе с помощью метода .iloc[]
countries.iloc[[5, 6, 7]] = np.array(
    [
        ["Spain", "Madrid", 47, 0.5, 1],
        ["Netherlands", "Amsterdam", 17, 0.04, 1],
        ["Peru", "Lima", 33, 1.3, 1],
    ]
)

# такой способ поместил строки на нужный нам индекс,
# заменив (!) существующие данные
countries

#### Добавление столбцов

Объявление нового столбца

In [None]:
# новый столбец датафрейма можно объявить и сразу добавить в него необходимые данные
# например, добавим данные о плотности населения
countries["pop_density"] = [153, 49, 281, 9, 17, 94, 508, 26]
countries

Метод `.insert()`

In [None]:
# добавим столбец с кодами стран
countries.insert(
    loc=1,  # это будет второй по счету столбец
    column="code",  # название столбца
    value=["CN", "VN", "GB", "RU", "AR", "ES", "NL", "PE"],
)  # значения столбца

In [None]:
# изменения сразу сохраняются в датафрейме
countries

Метод `.assign()`

In [None]:
# создадим столбец area_miles, переведя площадь в мили
countries = countries.assign(area_miles=countries.area / 2.59).round(2)
countries

In [None]:
# удалим этот столбец, чтобы рассмотреть другие методы
countries.drop(labels="area_miles", axis=1, inplace=True)

Можно сложнее

In [None]:
# выведем индекс и содержание строк
for index, row in countries.iterrows():
    # запишем для каждой строки (index) в новый столбец area_miles
    # округленное значение площади row.area в милях
    countries.loc[index, "area_miles"] = np.round(row.area / 2.59, 2)

# посмотрим на результат
countries

In [None]:
# снова удалим этот столбец
countries.drop(labels="area_miles", axis=1, inplace=True)

Можно проще

In [None]:
# объявим новый столбец и присвоим ему нужное нам значение
countries["area_miles"] = (countries.area / 2.59).round(2)
countries

### Удаление строк и столбцов

#### Удаление строк

In [None]:
# для удаления строк можно использовать метод .drop()
# с параметрами labels (индекс удаляемых строк) и axis = 0
countries.drop(labels=[0, 1], axis=0)

In [None]:
# кроме того, можно использовать метод .drop() с единственным параметром index
countries.drop(index=[5, 7])

In [None]:
# передадим индекс датафрейма через атрибут index и удалим четвертую строку
countries.drop(index=countries.index[4])

In [None]:
# с атрубутом датафрейма index мы можем делать срезы
# удалим каждую вторую строку, начиная с четвертой с конца
countries.drop(index=countries.index[-4::2])

#### Удаление столбцов

In [None]:
# используем параметры labels и axis = 1 метода .drop() для удаления столбцов
countries.drop(labels=["area_miles", "code"], axis=1)

In [None]:
# используем параметр columns для удаления столбцов
countries.drop(columns=["area_miles", "code"])

In [None]:
# через атрибут датафрейма columns мы можем передавать номера удаляемых столбцов
countries.drop(columns=countries.columns[-1])

In [None]:
# наконец удалим пятую строку и несколько столбцов и сохраним изменения
countries.drop(index=4, inplace=True)
countries.drop(columns=["code", "pop_density", "area_miles"], inplace=True)
countries

#### Удаление по многоуровневому индексу

In [None]:
# подготовим данные для многоуровневого индекса строк
rows = [
    ("Asia", "CN"),
    ("Asia", "VN"),
    ("Europe", "GB"),
    ("Europe", "RU"),
    ("Europe", "ES"),
    ("Europe", "NL"),
    ("S. America", "PE"),
]

# и столбцов
cols = [
    ("names", "country"),
    ("names", "city"),
    ("data", "population"),
    ("data", "area"),
    ("data", "sea"),
]

# создадим многоуровневый (иерархический) индекс
# для индекса строк добавим названия столбцов индекса через параметр names
custom_multindex = pd.MultiIndex.from_tuples(rows, names=["region", "code"])
custom_multicols = pd.MultiIndex.from_tuples(cols)

# поместим индексы в атрибуты index и columns датафрейма
countries.index = custom_multindex
countries.columns = custom_multicols

# посмотрим на результат
countries

Удаление строк

In [None]:
# удалим регион Asia указав соответствующий label, axis = 0, level = 0
countries.drop(labels="Asia", axis=0, level=0)

In [None]:
# мы также можем удалять строки через параметр index с указанием нужного level
countries.drop(index="RU", level=1)

Удаление столбцов

In [None]:
# удалим все столбцы в разделе names на нулевом уровне индекса столбцов
countries.drop(labels="names", level=0, axis=1)

In [None]:
# для удаления столбцов можно использовать параметр columns
# с указанием соответствующего уровня индекса (level) столбцов
countries.drop(columns=["city", "area"], level=1)

### Применение функций

In [None]:
# создадим новый датафрейм с данными нескольких человек
people = pd.DataFrame(
    {
        "name": ["Алексей", "Иван", "Анна", "Ольга", "Николай"],
        "gender": [1, 1, 0, 2, 1],
        "age": [35, 20, 13, 28, 16],
        "height": [180.46, 182.26, 165.12, 168.04, 178.68],
        "weight": [73.61, 75.34, 50.22, 52.14, 69.72],
    }
)

people

#### Метод `.map()`

In [None]:
# создадим карту (map) того, как преобразовать существующие значения в новые
# такая карта представляет собой питоновский словарь,
# где ключи - это старые данные, а значения - новые
gender_map = {0: "female", 1: "male"}

# применим эту карту к нужному нам столбцу
people["gender"] = people["gender"].map(gender_map)
people

In [None]:
# в метод .map() мы можем передать и lambda-функцию
# например, для того, чтобы выявить совершеннолетних и несовершеннолетних людей
people["age_group"] = people["age"].map(lambda xx: "adult" if xx >= 18 else "minor")
people

In [None]:
# удалим только что созданный столбец age_group
people.drop(labels="age_group", axis=1, inplace=True)

In [None]:
# сделаем то же самое с помощью собственной функции
# обратите внимание, такая функция не допускает дополнительных параметров,
# только те данные, которые нужно преобразовать (age)


def get_age_group(age: int) -> str:
    """Docs."""
    # например, мы не можем сделать threshold произвольным параметром
    threshold = 18

    if age >= threshold:
        age_group = "adult"

    else:
        age_group = "minor"

    return age_group

In [None]:
# применим эту функцию к столбцу age
people["age_group"] = people["age"].map(get_age_group)
people

In [None]:
# снова удалим созданный столбец
people.drop(labels="age_group", axis=1, inplace=True)

#### Функция `np.where()`

In [None]:
# внутри функции np.where() три параметра: (1) условие,
# (2) значение, если условие выдает True, (3) и значение, если условие выдает False
people["age_group"] = np.where(people["age"] >= 18, "adult", "minor")
people

In [None]:
# удалим созданный столбец
people.drop(labels="age_group", axis=1, inplace=True)

#### Метод `.where()`

Пример 1.

In [None]:
# заменим возраст тех, кому меньше 18, на NaN
people.age.where(people.age >= 18, other=np.nan)

Пример 2.

In [None]:
# создадим матрицу из вложенных списков
nums_matrix = [[-13, 7, 1], [4, -2, 25], [45, -3, 8]]

# преобразуем в датафрейм
# (матрица не обязательно должна быть массивом Numpy (!))
nums = pd.DataFrame(nums_matrix)
nums

In [None]:
# если число положительное (nums < 0 == True), оставим его без изменений
# если отрицательное (False), заменим на обратное (т.е. сделаем положительным)
nums.where(nums > 0, other=-nums)

#### Метод `.apply()`

Применение функции с аргументами

In [None]:
# в отличие от .map(), метод .apply() позволяет передавать аргументы в применяемую функцию
# объявим функцию, которой можно передать не только значение возраста, но и порог,
# при котором мы будем считать человека совершеннолетним


def get_age_group2(age: int, threshold: int) -> str:
    """Docs."""
    if age >= threshold:
        age_group = "adult"
    else:
        age_group = "minor"

    return age_group

In [None]:
# применим эту функцию к столбцу age, выбрав в качестве порогового значения 21 год
people["age_group"] = people["age"].apply(get_age_group2, threshold=21)

# посмотрим на результат
people

Применение к столбцам

In [None]:
# заменим значения в столбцах height и weight на медиану по столбцам
people.iloc[:, 3:5] = people.iloc[:, 3:5].apply(np.median, axis=0)
people

Применение к строкам

In [None]:
# создадим исходный датафрейм
people = pd.DataFrame(
    {
        "name": ["Алексей", "Иван", "Анна", "Ольга", "Николай"],
        "gender": [1, 1, 0, 2, 1],
        "age": [35, 20, 13, 28, 16],
        "height": [180.0, 182.0, 165.0, 168.0, 179.0],
        "weight": [74.0, 75.0, 50.0, 52.0, 70.0],
    }
)

In [None]:
people

In [None]:
# создадим функцию, которая рассчитает индекс массы тела


def get_bmi(xx: pd.Series) -> float:  # type: ignore[explicit-any]
    """Docs."""
    bmi = float(xx["weight"] / (xx["height"] / 100) ** 2)
    return bmi

In [None]:
# применим ее к каждой строке (человеку) и сохраним результат в новом столбце
people["bmi"] = people.apply(get_bmi, axis=1).round(2)
people

#### Метод `.pipe()`

In [None]:
# вновь создадим исходный датафрейм
people = pd.DataFrame(
    {
        "name": ["Алексей", "Иван", "Анна", "Ольга", "Николай"],
        "gender": [1, 1, 0, 2, 1],
        "age": [35, 20, 13, 28, 16],
        "height": [180.46, 182.26, 165.12, 168.04, 178.68],
        "weight": [73.61, 75.34, 50.22, 52.14, 69.72],
    }
)

people

In [None]:
# создадим несколько функций


# в первую очередь скопируем датафрейм
def copy_df(dff: pd.DataFrame) -> pd.DataFrame:
    """Docs."""
    return dff.copy()


# заменим значения столбца на новые с помощью метода .map()


def map_column(
    dff: pd.DataFrame, column: str, label1: str, label2: str
) -> pd.DataFrame:
    """Docs."""
    labels_map = {0: label1, 1: label2}
    dff[column] = dff[column].map(labels_map)
    return dff


# кроме этого, создадим функцию для превращения количественной переменной
# в бинарную категориальную


def to_categorical(  # pylint: disable=too-many-arguments,too-many-positional-arguments
    dff: pd.DataFrame,
    newcol: str,
    condcol: str,
    thres: int,
    cat1: str = "",
    cat2: str = "",
) -> pd.DataFrame:
    """Docs."""
    dff[newcol] = np.where(dff[condcol] >= thres, cat1, cat2)
    return dff

In [None]:
# последовательно применим эти функции с помощью нескольких методов .pipe()
people_processed = (
    people.pipe(copy_df)  # copy_df() применится ко всему датафрейму
    .pipe(map_column, "gender", "female", "male")  # map_column() к столбцу gender
    .pipe(to_categorical, "age_group", "age", 18, "adult", "minor")
)  # to_categorical() к age_group

In [None]:
# посмотрим на результат
people_processed

In [None]:
# убедимся, что исходный датафрейм не изменился
people

## Соединение датафреймов

### `pd.concat()`

In [None]:
# создадим датафреймы с информацией о стоимости канцелярских товаров в двух магазинах
s1 = pd.DataFrame(
    {"item": ["карандаш", "ручка", "папка", "степлер"], "price": [220, 340, 200, 500]}
)

s2 = pd.DataFrame(
    {"item": ["клей", "корректор", "скрепка", "бумага"], "price": [200, 240, 100, 300]}
)

In [None]:
# посмотрим на результат
s1

In [None]:
s2

In [None]:
# передадим в функцию pd.concat() список из соединяемых датафреймов,
# укажем параметр axis = 0 (значение по умолчанию)
pd.concat([s1, s2], axis=0)

In [None]:
# обновим индекс через параметр ignore_index = True
pd.concat([s1, s2], axis=0, ignore_index=True)

In [None]:
# создадим многоуровневый (иерархический) индекс
# передадим в параметр keys названия групп индекса,
# параметр names получим названия уровней индекса
by_shop = pd.concat([s1, s2], axis=0, keys=["s1", "s2"], names=["s", "id"])
by_shop

In [None]:
# посмотрим на созданный индекс
by_shop.index

In [None]:
# выведем первую запись в первой группе
by_shop.loc[("s1", 0)]

In [None]:
# датафреймы можно расположить рядом друг с другом (axis = 1)
# одновременно сразу создадим группы для многоуровневого индекса столбцов
pd.concat([s1, s2], axis=1, keys=["s1", "s2"])

In [None]:
# с помощью метода .iloc[] можно выбрать только вторую группу
res4 = pd.concat([s1, s2], axis=1, keys=["s1", "s2"]).loc[:, "s2"]
res4

In [None]:
# полученный результат и в целом любой датафрейм можно транспонировать
res5 = pd.concat([s1, s2], axis=1, keys=["s1", "s2"]).T
res5

### `pd.merge()` и `.join()`

In [None]:
# рассмотрим три несложных датафрейма
math_dict = {
    "name": ["Андрей", "Елена", "Антон", "Татьяна"],
    "math_score": [83, 84, 78, 80],
}

math_degree_dict = {"degree": ["B", "M", "B", "M"]}

cs_dict = {
    "name": ["Андрей", "Ольга", "Евгений", "Татьяна"],
    "cs_score": [87, 82, 77, 81],
}

math = pd.DataFrame(math_dict)
cs = pd.DataFrame(cs_dict)
math_degree = pd.DataFrame(math_degree_dict)

In [None]:
# в первом содержатся оценки студентов ВУЗа по математике
math

In [None]:
# во втором указано, по какой программе (бакалавр или магистер) учатся студенты
math_degree

In [None]:
# в третьем содержатся данные об оценках по информатике
# имена некоторых студентов повторяются, других - нет
cs

#### Left join

In [None]:
pd.merge(
    math,
    math_degree,  # выполним соединение двух датафреймов
    how="left",  # способом left join
    left_index=True,
    right_index=True,
)  # по индексам левого и правого датафрейма

In [None]:
# такой же результат можно получить с помощью метода .join()
# можно сказать, что .join() "заточен" под left join по индексу
math.join(math_degree)

In [None]:
# выполним left join по столбцу name
pd.merge(math, cs, how="left", on="name")

#### Left excluding join

In [None]:
# выполним левое соединение и посмотрим, в каком из датафреймов указана та или иная строка
pd.merge(math, cs, how="left", on="name", indicator=True)

In [None]:
# выберем только записи из левого датафрейма и удалим столбец _merge
# все это можно сделать, применив несколько методов подряд
pd.merge(math, cs, how="left", on="name", indicator=True).query(
    '_merge == "left_only"'
).drop(columns="_merge")

#### Right join

In [None]:
# выполним правое соединение с помощью параметра how = 'right'
pd.merge(math, cs, how="right", on="name")

#### Right excluding join

In [None]:
# выполним правое соединение
pd.merge(math, cs, how="right", on="name", indicator=True)

In [None]:
# воспользуемся методом .query() и оставим записи, которые есть только в правом датафрейме
# после этого удалим столбец _merge
pd.merge(math, cs, how="right", on="name", indicator=True).query(
    '_merge == "right_only"'
).drop(columns="_merge")

#### Outer join

In [None]:
# внешнее соединение сохраняет все строки обоих датафреймов
pd.merge(math, cs, how="outer", on="name")

#### Full Excluding Join

In [None]:
# найдем какие записи есть только в левом датафрейме, только в правом и в обоих
pd.merge(math, cs, on="name", how="outer", indicator=True)

In [None]:
# оставим только те записи, которых нет в обоих датафреймах
pd.merge(math, cs, on="name", how="outer", indicator=True).query(
    '_merge != "both"'
).drop(columns="_merge")

#### Inner join

In [None]:
# для внутреннего соединения используется параметр how = 'inner'
pd.merge(math, cs, how="inner", on="name")

In [None]:
# по умолчанию в pd.merge() стоит именно how = 'inner'
pd.merge(math, cs)

#### Соединение датафреймов и дубликаты

Пример 1.

In [None]:
# создадим два датафрейма: один с названием товара, другой - с ценой
product_data = pd.DataFrame(
    [[1, "холодильник"], [2, "телевизор"]], columns=["code", "product"]
)
price_data = pd.DataFrame([[1, 40000], [1, 60000]], columns=["code", "price"])

In [None]:
product_data

In [None]:
price_data

In [None]:
# левое соединение сохранит все имеющиеся данные
pd.merge(product_data, price_data, how="left", on="code")

In [None]:
# при правом соединении часть данных будет потеряна
pd.merge(product_data, price_data, how="right", on="code")

Пример 2.

In [None]:
# создадим два датафрейма
exams_dict = {
    "professor": ["Погорельцев", "Преображенский", "Архенгельский", "Дятлов", "Иванов"],
    "student": [101, 102, 103, 104, 101],
    "score": [83, 84, 78, 80, 82],
}

students_dict = {
    "student_id": [101, 102, 103, 104],
    "student": ["Андрей", "Елена", "Антон", "Татьяна"],
}

exams = pd.DataFrame(exams_dict)
students = pd.DataFrame(students_dict)

In [None]:
# в первом датафрейме содержится информация о результатах экзамена
# с фамилией экзаменатора, идентификатором студента и оценкой
exams

In [None]:
# во втором, идентификатор студента и его или ее имя
students

In [None]:
# если строка повторяется, данные продублируются
# кроме того обратите внимание на суффиксы, их можно изменить через
# параметр suffixes = ('_x', '_y')
pd.merge(exams, students, left_on="student", right_on="student_id")

#### Cross join

In [None]:
# создадим датафрейм со столбцом xy и двумя значениями (x и y)
df_xy = pd.DataFrame({"xy": ["x", "y"]})
df_xy

In [None]:
# создадим еще один датафрейм со столбцом 123 и тремя значениями (1, 2 и 3)
df_123 = pd.DataFrame({"123": [1, 2, 3]})
df_123

In [None]:
# поставим в соответствие каждому из элементов первого датафрейма
# элементы второго
pd.merge(df_xy, df_123, how="cross")

In [None]:
# для сравнения соединим датафреймы с помощью right join
pd.merge(df_xy, df_123, how="right", left_index=True, right_index=True)

#### `pd.merge_asof()`

In [None]:
# создадим два датафрейма
trades = pd.DataFrame(
    {
        "time": pd.to_datetime(
            [
                "20160525 13:30:00.023",
                "20160525 13:30:00.038",
                "20160525 13:30:00.048",
                "20160525 13:30:00.048",
                "20160525 13:30:00.048",
            ]
        ),
        "ticker": ["MSFT", "MSFT", "GOOG", "GOOG", "AAPL"],
        "price": [51.95, 51.95, 720.77, 720.92, 98.00],
        "quantity": [75, 155, 100, 100, 100],
    },
    columns=["time", "ticker", "price", "quantity"],
)

quotes = pd.DataFrame(
    {
        "time": pd.to_datetime(
            [
                "20160525 13:30:00.023",
                "20160525 13:30:00.023",
                "20160525 13:30:00.030",
                "20160525 13:30:00.041",
                "20160525 13:30:00.048",
                "20160525 13:30:00.049",
                "20160525 13:30:00.072",
                "20160525 13:30:00.075",
            ]
        ),
        "ticker": ["GOOG", "MSFT", "MSFT", "MSFT", "GOOG", "AAPL", "GOOG", "MSFT"],
        "bid": [720.50, 51.95, 51.97, 51.99, 720.50, 97.99, 720.50, 52.01],
        "ask": [720.93, 51.96, 51.98, 52.00, 720.93, 98.01, 720.88, 52.03],
    },
    columns=["time", "ticker", "bid", "ask"],
)

In [None]:
# в первом будет содержаться информация о сделках, совершенных с ценными бумагами
# (время сделки, тикер эмитента, цена и количество бумаг)
trades

In [None]:
# во втором, котировки ценных бумаг в определенный момент времени
quotes

In [None]:
# выполним левое соединение merge_asof
pd.merge_asof(
    trades,
    quotes,
    # по столбцу времени
    on="time",
    # но так, чтобы совпадало значение столбца ticker
    by="ticker",
    # совпадение по времени должно составлять менее 10 миллисекунд
    tolerance=pd.Timedelta("10ms"),
)

In [None]:
# еще раз выполним соединение merge_asof
pd.merge_asof(
    trades,
    quotes,
    on="time",
    by="ticker",
    # уменьшим интервал до пяти миллисекунд
    tolerance=pd.Timedelta("10ms"),
    # разрешив искать в предыдущих и будущих периодах
    direction="nearest",
)

## Группировка

### Метод `.groupby()`

In [None]:
# подгрузим данные из файла train.csv
titanic = pd.read_csv("content/train.csv")

# оставим только столбцы PassengerId, Name, Ticket и Cabin
titanic.drop(columns=["PassengerId", "Name", "Ticket", "Cabin"], inplace=True)

# посмотрим на результат
titanic.head()

In [None]:
# посмотрим на размерность
titanic.shape

In [None]:
# метод .groupby() создает объект DataFrameGroupBy
# выполним группировку по столбцу Sex
titanic.groupby("Sex")

In [None]:
# посмотрим, сколько было создано групп
res3 = titanic.groupby("Sex").ngroups
res3

In [None]:
# атрибут groups выводит индекс наблюдений, отнесенных к каждой из групп
# выберем группу female (по ключу словаря) и
# выведем первые пять индексов (через срез списка), относящихся к этой группе
res2 = titanic.groupby("Sex").groups["female"][:5]
res2

In [None]:
# метод .size() выдает количество элементов в каждой группе
titanic.groupby("Sex").size()

In [None]:
titanic["Sex"].value_counts()

In [None]:
# метод .first() выдает первые встречающиеся наблюдения в каждой из групп
# можно использовать .last() для получения последних записей
titanic.groupby("Sex").first()

In [None]:
# метод .get_group() позволяет выбрать наблюдения только одной группы
# выберем наблюдения группы male и выведем первые пять строк датафрейма
titanic.groupby("Sex").get_group("male").head()

### Агрегирование данных

#### Статистика по столбцам

In [None]:
# статистика по одному столбцу
# посчитаем медианный возраст мужчин и женщин
titanic.groupby("Sex").Age.median().round(1)

In [None]:
# статистика по нескольким столбцам
# рассчитаем среднее арифметическое по столбцам Age и Fare для каждого из классов
titanic.groupby("Pclass")[["Age", "Fare"]].mean().round(1)

In [None]:
# статистика по всем столбцам
# среднее арифметическое не получится рассчитать для категориальных признаков,
# их придется удалить
titanic.drop(columns=["Sex", "Embarked"]).groupby("Pclass").mean().round(1)

In [None]:
# выполним группировку по двум признакам (Pclass и Sex)
# с расчетом количества наблюдений в каждой подгруппе по каждому столбцу
titanic.groupby(["Pclass", "Sex"]).count()

In [None]:
# значение атрибута ngroups Pandas считает по подгруппам
res1 = titanic.groupby(["Pclass", "Sex"]).ngroups
res1

#### Метод `.agg()`

In [None]:
# применим метод .agg() к одному столбцу (Sex) и сразу найдем
# максимальное и минимальное значения, количество наблюдений, а также
# медиану и среднее арифметическое
titanic.groupby("Sex").Age.agg(["max", "min", "count", "median", "mean"]).round(1)

In [None]:
# для удобства при группировке и расчете показателей столбцы можно переименовать
titanic.groupby("Sex").Age.agg(sex_max="max", sex_min="min")

In [None]:
# применим метода .agg() к нескольким столбцам
# рассчитаем среднее арифметическое и медиану для столбцов Age и Fare
titanic.groupby("Sex")[["Age", "Fare"]].agg(["mean", "median"]).round(1)

In [None]:
# применим метод .agg() ко всем столбцам и рассчитаем среднее арифметическое и медиану
# категориальную переменную опять же придется удалить
titanic.drop(columns=["Embarked"]).groupby("Sex").agg(["mean", "median"]).round(1)

In [None]:
# объявим функцию, которая выдаст True, если средний возраст меньше 29 лет
# и False в остальных случаях


def is_below29(xx: pd.Series) -> bool:  # type: ignore[explicit-any]
    """Docs."""
    mm = xx.mean()
    return mm < 29


# применим эту функцию к группам female и male через метод .agg()
titanic.groupby("Sex").Age.agg(["max", "mean", is_below29])

### Преобразование данных

In [None]:
# объявим lambda-функцию, которая выполняет стандартизацию данных
# pylint: disable=unnecessary-lambda-assignment
standardize = lambda xx: (xx - xx.mean()) / xx.std()  # noqa: E731

Метод `.apply()`

In [None]:
# сгруппируем данные о возрасте по полу пассажиров и применим функцию стандартизации
titanic.groupby("Sex").Age.apply(standardize)

In [None]:
# сгруппируем данные по Pclass и найдем среднее в столбцах Age и Fare
# метод .apply() выдаст уже агрегированные данные
# для применения функции к столбцам укажем axis = 0
titanic.groupby("Pclass")[["Age", "Fare"]].apply(np.mean, axis=0).round(1)

In [None]:
titanic.groupby("Pclass")[["Age", "Fare"]].apply(np.mean, axis="index").round(1)

### Фильтрация

In [None]:
# найдем среднее арифметическое возраста внутри каждого из классов каюты
titanic.groupby("Pclass")[["Age"]].mean()

In [None]:
# выберем только те классы кают, в которых среднегрупповой возраст не менее 26 лет
# для этого применим метод .filter с lambda-функцией
titanic.groupby("Pclass").filter(lambda xx: xx["Age"].mean() >= 26).head()

In [None]:
# убедимся, что у нас осталось только два класса
# для этого из предыдущего результата возьмем столбец Pclass и применим метод .unique()
titanic.groupby("Pclass").filter(lambda xx: xx["Age"].mean() >= 26).Pclass.unique()

### Сводные таблицы

In [None]:
# импортируем данные
cars = pd.read_csv("content/cars.csv")

# удалим столбцы, которые нам не понадобятся
cars.drop(columns=["Unnamed: 0", "vin", "lot", "condition"], inplace=True)

# и посмотрим на результат
cars.head()

#### Группировка по строкам

In [None]:
# для создания сводной таблицы необходимо указать данные
pd.pivot_table(
    cars,
    # по какому признаку проводить группировку
    index="brand",
    # и для каких признаков рассчитывать показатели
    values=["mileage", "price", "year"],
).round(2).head(10)

# по умолчанию будет рассчитано среднее арифметическое внутри каждой из групп

In [None]:
# добавим параметры values - по каким столбцам считать статистику группы
# и пропишем aggfunc - какая именно статистика нас интересует
pd.pivot_table(
    cars,
    # сгруппируем по марке
    index="brand",
    # считать статистику будем по цене и пробегу
    values=["price", "mileage"],
    # для каждой группы найдем медиану и выведем первые 10 марок
    aggfunc="median",
).round(2).head(10)

In [None]:
# в качестве примера пропишем функцию, которая возвращает среднее арифметическое


def custom_mean(xx: pd.Series) -> float:  # type: ignore[explicit-any]
    """Docs."""
    return float(sum(xx) / len(xx))

In [None]:
# применим как встроенную, так и собственную функцию к столбцу price
pd.pivot_table(
    cars, index="brand", values="price", aggfunc=["mean", custom_mean]
).round(2).head(10)

In [None]:
# сгруппируем данные по марке, а затем по цвету кузова
# для каждой подгруппы рассчитаем медиану и количество наблюдений (count)
pd.pivot_table(
    cars, index=["brand", "color"], values="price", aggfunc=["median", "count"]
).round(2).head(11)

#### Группировка по строкам и столбцам

In [None]:
# найдем медианную цену для каждой марки с разбивкой по категориям title_status
pd.pivot_table(
    cars, index="brand", columns="title_status", values="price", aggfunc="median"
).round(2).head()

In [None]:
# добавим метрику count и
# применим метод .transpose(), чтобы поменять строки и столбцы местами
pd.pivot_table(
    cars,
    index="brand",
    columns="title_status",
    values="price",
    aggfunc=["median", "count"],
).round().head().transpose()

#### Дополнительные возможности

In [None]:
# метод .style.background_gradient() позволяет добавить цветовую маркировку
pd.pivot_table(
    cars, index=["brand", "color"], values="price", aggfunc=["median", "count"]
).round(2).head(11).style.background_gradient()

In [None]:
# для выделения пропущенных значений используется метод .style.highlight_null()
# цвет выбирается через параметр color
pd.pivot_table(
    cars, index="brand", columns="title_status", values="price", aggfunc="median"
).round(2).head(11).style.highlight_null(color="yellow")

In [None]:
# на основе сводных таблиц можно строить графики
# например, можно посмотреть количество автомобилей (aggfunc = 'count')
# со статусом clean и salvage (title_status),
# сгруппированных по маркам (index)
pd.pivot_table(
    cars, index="brand", columns="title_status", values="price", aggfunc="count"
).round(2).head(3).plot.barh(figsize=(10, 7), title="Clean vs. Salvage Counts");

In [None]:
# метод .unstack() как бы убирает второе измерение
# по сути, мы также группируем данные по нескольким признакам, но только по строкам
pd.pivot_table(
    cars, index="brand", columns="title_status", values="price", aggfunc="median"
).round(
    2
).head()  # .unstack()

In [None]:
pd.pivot_table(
    cars, index="brand", columns="title_status", values="price", aggfunc="median"
).round(2).head().unstack()

In [None]:
# создадим маску для автомобилей "БМВ" и сделаем копию датафрейма
bmw = cars[cars["brand"] == "bmw"].copy()
# установим новый индекс, удалив при этом старый
bmw.reset_index(drop=True, inplace=True)
# удалим столбец brand, так как у нас осталась только одна марка
bmw.drop(columns="brand", inplace=True)
# посмотрим на результат
bmw.head()

In [None]:
# сгруппируем данные по штату и году выпуска, передав их в параметр index
# и найдем медианну цену
pd.pivot_table(bmw, index=["state", "year"], values="price", aggfunc="median").round(2)

In [None]:
# когда группировка выполняется только по строкам,
# мы можем получить аналогичный результат с помощью метода .groupby()
bmw.groupby(by=["state", "year"])[["price"]].agg("median")

In [None]:
# метод .query() позволяет отфильтровать данные
pd.pivot_table(bmw, index=["state", "year"], values="price", aggfunc="median").round(
    2
).query("price > 20000")

In [None]:
# применим метод .style.bar() и создадим встроенную горизонтальную столбчатую диаграмму
# цвет в параметр color можно, в частности, передавать в hex-формате
pd.pivot_table(bmw, index=["state", "year"], values="price", aggfunc="median").round(
    2
).style.bar(color="#d65f5f")