Мы завершили изучать NumPy. Теперь переходим к библиотеке Pandas, которая расширяет возможности NumPy и предоставляет новые инструменты, которые позволяют обрабатывать и преобразовывать структурированные данные.

## Pandas

### Что такое Pandas и как её используют аналитики данных

**Pandas** — это библиотека, которая позволяет работать с табличными данными на Python. Если NumPy работает с многомерными массивами чисел, то Pandas добавляет к этому метаданные. Например, названия столбцов, индексы строк, автоматическое выравнивание данных при операциях. Pandas умеет делать всё то же, что Excel, но быстрее, эффективнее, и с более мощным функционалом.

**Библиотека Pandas строится на двух основных типах объектов:**
1. **Pandas Series** — это одномерный вектор данных с индексом.
2. **Pandas DataFrame** — это двумерная таблица, которая состоит из нескольких Series.

Если продолжать аналогию с Excel, то DataFrame — это сама таблица, а Series — это отдельный столбец или строка из этой таблицы. DataFrame состоит из набора Series, которые объединяются общей индексацией. 

### Pandas Series

**Series** — это одномерный массив данных, который объединяет в себе два компонента: массив значений и массив индексом. Каждое значение в Series имеет соответствующую метку в индексе. Эта структура похожа на словарь Python, где ключи — это индексы, а значения — это данные. При этом Series сохраняет порядок элементов и поддерживает операции с векторами как в NumPy.

Внутри Series хранит данные в NumPy-массиве, поэтому все вычисления выполняются быстро. Индекс добавляет элементам семантический слой, то есть безымянный массив чисел становится полноценной структурой, где каждый элемент что-то означает.

Создадим первую Series, а также укажем тип данных и имя объекта:

In [None]:
import numpy as np
import pandas as pd

s = pd.Series([1, 2, 3], dtype=np.int32, name='numbers')
s

Мы создали Series из трёх целых чисел типа `int32`. Левая колонка показывает индекс — это `0, 1, 2`. Правая колонка содержит сами значения — это `1, 2, 3`. Внизу Pandas указывает имя Series, то есть `numbers`.

Параметр `dtype` контролирует тип данных в массиве. Pandas поддерживает все типы NumPy:
- `int8`;
- `int16`;
- `int32`;
- `int64`;
- `float32`;
- `float64`;
- `bool`;
- `object`. 

Явное указывать тип позволяет сэкономить память компьютера и ускорить вычисления. Например, `int8` занимает 1 байт вместо 8 байтов в `int64`, что критично, когда мы работаем с большими данными.

Параметр `name` задаёт имя самой серии — это метаданные объекта. Pandas использует `name`, чтобы идентифицировать структуру данных. Когда мы объединим несколько Series в DataFrame, это имя станет названием столбца. Мы можем использовать методы `s.describe()` и `s.info()`, чтобы вывести информацию о данных.

**Когда мы выводим Series, мы видим две колонки:**
1. **Индекс** — слева.
2. **Значения** — справа.

Это не делает объект двумерным. Series остаётся одномерным вектором, а индекс отображается для наглядности. Индекс — это метаданные. Его полезно использовать, когда нужно выровнять данные.

**Каждый элемент Series использует одновременно два индекса:**
1. **Именованный, или label-based** — работает как ключ в словаре.
2. **Целочисленный, или position-based** — работает как индекс в списке или массиве NumPy.

Если мы не указываем именованный индекс явно, Pandas автоматически создаёт его из целых чисел. Например, `0, 1, 2, ...`. Это делает Series похожей на словарь, так как у нас есть доступ по ключу, и на список, потому что у нас есть доступ по позиции. Если мы обратимся к несуществующему ключу, Pandas выдаст ошибку `KeyError`, как словарь, а если мы обратимся по некорректной позиции, то получим ошибку `IndexError`, как с списком. 

Такая комбинация подходов делает Series и DataFrame объектами со сложным устройством, которые, тем не менее, можно гибко использовать.

**Именованный индекс решает три ключевые задачи при анализе данных:**
1. **Идентифицирует данные.** Именованный индекс предоставляет метаданные для каждой строки, позволяет посмотреть результат в консоле, а также делает визуализацию понятнее.

    Создадим Series с датами:

In [None]:
dates = pd.Series([100, 150, 120], index=['2024-01-01', '2024-01-02', '2024-01-03'], name='sales')
dates

2. **Сопоставляет элементы по индексу.** При операциях между Series Pandas автоматически сопоставляет элементы по индексу, а не по позиции.
    
    Создадим две Series с разными индексами:

In [None]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([10, 20, 30], index=['b', 'c', 'd'])
result = s1 + s2
result

Pandas сопоставил только общие метки 'b' и 'c', где выполнил сложение: `2 + 10 = 12` и `3 + 20 = 23`. Для уникальных меток вернулось `NaN` — это специальное значение для отсутствующих данных. Это помогает предовратить ошибки, если данные не совпадают.

3. **Упрощает выборку данных.** Именованный индекс позволяет интуитивно получать подмножества данных по меткам.

    Создадим Series с городами:

In [None]:
cities = pd.Series([12_000_000, 5_000_000, 1_200_000],
                    index=['Москва', 'Санкт-Петербург', 'Казань'],
                    name='population')
cities['Москва']

Мы обратились к населению Москвы по названию города, а не по позиции `0`.

Здесь можно привести аналогию с телефонным справочником. Вместо того, чтобы помнить, что номер друга находится на позиции `42`, мы находим его по имени. В базах данных это работает похожим образом, через первичные ключи. Хотя есть и отличия. Например, индексы Pandas не гарантируют уникальность и могут дублироваться.

**Создадим Series с произвольным буквенным индексом:**

In [None]:
s = pd.Series([1, 2, 3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

Теперь именованный индекс полностью отличается от целочисленных позиций и скрывает их при выводе. Мы видим буквы `a, b, c` слева от значений `1, 2, 3`. Целочисленная индексация никуда не исчезла, мы всё ещё можем обращаться к элементам по позициям `0, 1, 2`, просто интерфейс показывает только именованный индекс.

Чтобы обратиться к элементу по именованному индексу, нужно использовать квадратные скобки, как это делается в словарях.

In [None]:
s['a']

Мы получили значение `1`, которое соответствует индексу `a`.

Кроме того, мы можем добавить новый элемент, как в словарь:

In [None]:
s['u'] = 6
s

Мы добавили элемент с индексом `u` и значением `6`. Series расширилась за счёт новой строки в конце. 

Чтобы получить все метки именованного индекса, используем свойство `.index`:

In [None]:
s.index

Pandas вернёт объект `Index`, который содержит все метки индекса в том порядке, в котором они идут в Series. Это полезно, когда нужно проверить структуру данных или использовать индекс для следующих операций.