Мы завершили изучать NumPy. Теперь переходим к библиотеке Pandas, которая расширяет возможности NumPy и предоставляет новые инструменты, которые позволяют обрабатывать и преобразовывать структурированные данные.

## Pandas

### Что такое Pandas и как её используют аналитики данных

**Pandas** — это библиотека, которая позволяет работать с табличными данными на Python. Если NumPy работает с многомерными массивами чисел, то Pandas добавляет к этому метаданные. Например, названия столбцов, индексы строк, автоматическое выравнивание данных при операциях. Pandas умеет делать всё то же, что Excel, но быстрее, эффективнее, и с более мощным функционалом.

**Библиотека Pandas строится на двух основных типах объектов:**
1. **Pandas Series** — это одномерный вектор данных с индексом.
2. **Pandas DataFrame** — это двумерная таблица, которая состоит из нескольких Series.

Если продолжать аналогию с Excel, то DataFrame — это сама таблица, а Series — это отдельный столбец или строка из этой таблицы. DataFrame состоит из набора Series, которые объединяются общей индексацией. 

### Pandas Series

**Series** — это одномерный массив данных, который объединяет в себе два компонента: массив значений и массив индексом. Каждое значение в Series имеет соответствующую метку в индексе. Эта структура похожа на словарь Python, где ключи — это индексы, а значения — это данные. При этом Series сохраняет порядок элементов и поддерживает операции с векторами как в NumPy.

Внутри Series хранит данные в NumPy-массиве, поэтому все вычисления выполняются быстро. Индекс добавляет элементам семантический слой, то есть безымянный массив чисел становится полноценной структурой, где каждый элемент что-то означает.

**Создадим первую Series, а также укажем тип данных и имя объекта:**

In [None]:
s = pd.Series([1, 2, 3], dtype=np.int32, name='numbers')
s

Мы создали Series из трёх целых чисел типа `int32`. Левая колонка показывает индекс — это `0, 1, 2`. Правая колонка содержит сами значения — это `1, 2, 3`. Внизу Pandas указывает имя Series, то есть `numbers`.

Параметр `dtype` контролирует тип данных в массиве. Pandas поддерживает все типы NumPy:
- `int8`;
- `int16`;
- `int32`;
- `int64`;
- `float32`;
- `float64`;
- `bool`;
- `object`. 

Явное указывать тип позволяет сэкономить память компьютера и ускорить вычисления. Например, `int8` занимает 1 байт вместо 8 байтов в `int64`, что критично, когда мы работаем с большими данными.

Параметр `name` задаёт имя самой серии — это метаданные объекта. Pandas использует `name`, чтобы идентифицировать структуру данных. Когда мы объединим несколько Series в DataFrame, это имя станет названием столбца. Мы можем использовать методы `s.describe()` и `s.info()`, чтобы вывести информацию о данных.

**Когда мы выводим Series, мы видим две колонки:**
1. **Индекс** — слева.
2. **Значения** — справа.

Это не делает объект двумерным. Series остаётся одномерным вектором, а индекс отображается для наглядности. Индекс — это метаданные. Его полезно использовать, когда нужно выровнять данные.

**Каждый элемент Series использует одновременно два индекса:**
1. **Именованный, или label-based** — работает как ключ в словаре.
2. **Целочисленный, или position-based** — работает как индекс в списке или массиве NumPy.

Если мы не указываем именованный индекс явно, Pandas автоматически создаёт его из целых чисел. Например, `0, 1, 2, ...`. Это делает Series похожей на словарь, так как у нас есть доступ по ключу, и на список, потому что у нас есть доступ по позиции. Если мы обратимся к несуществующему ключу, Pandas выдаст ошибку `KeyError`, как словарь, а если мы обратимся по некорректной позиции, то получим ошибку `IndexError`, как с списком. 

Такая комбинация подходов делает Series и DataFrame объектами со сложным устройством, которые, тем не менее, можно гибко использовать.

**Именованный индекс решает три ключевые задачи при анализе данных:**
1. **Идентифицирует данные.** Именованный индекс предоставляет метаданные для каждой строки, позволяет посмотреть результат в консоле, а также делает визуализацию понятнее.

    **Создадим Series с датами:**

In [None]:
dates = pd.Series([100, 150, 120], index=['2024-01-01', '2024-01-02', '2024-01-03'], name='sales')
dates

2. **Сопоставляет элементы по индексу.** При операциях между Series Pandas автоматически сопоставляет элементы по индексу, а не по позиции.
    
    **Создадим две Series с разными индексами:**

In [None]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([10, 20, 30], index=['b', 'c', 'd'])
result = s1 + s2
result

Pandas сопоставил только общие метки 'b' и 'c', где выполнил сложение: `2 + 10 = 12` и `3 + 20 = 23`. Для уникальных меток вернулось `NaN` — это специальное значение для отсутствующих данных. Это помогает предовратить ошибки, если данные не совпадают.

3. **Упрощает выборку данных.** Именованный индекс позволяет интуитивно получать подмножества данных по меткам.

    **Создадим Series с городами:**

In [None]:
cities = pd.Series([12_000_000, 5_000_000, 1_200_000],
                    index=['Москва', 'Санкт-Петербург', 'Казань'],
                    name='population')
cities['Москва']

Мы обратились к населению Москвы по названию города, а не по позиции `0`.

Здесь можно привести аналогию с телефонным справочником. Вместо того, чтобы помнить, что номер друга находится на позиции `42`, мы находим его по имени. В базах данных это работает похожим образом, через первичные ключи. Хотя есть и отличия. Например, индексы Pandas не гарантируют уникальность и могут дублироваться.

**Создадим Series с произвольным буквенным индексом:**

In [None]:
s = pd.Series([1, 2, 3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

Теперь именованный индекс полностью отличается от целочисленных позиций и скрывает их при выводе. Мы видим буквы `a, b, c` слева от значений `1, 2, 3`. Целочисленная индексация никуда не исчезла, мы всё ещё можем обращаться к элементам по позициям `0, 1, 2`, просто интерфейс показывает только именованный индекс.

**Чтобы обратиться к элементу по именованному индексу, нужно использовать квадратные скобки, как это делается в словарях:**

In [None]:
s['a']

Мы получили значение `1`, которое соответствует индексу `a`.

**Кроме того, мы можем добавить новый элемент, как в словарь:**

In [None]:
s['u'] = 6
s

Мы добавили элемент с индексом `u` и значением `6`. Series расширилась за счёт новой строки в конце. 

**Чтобы получить все метки именованного индекса, используем свойство `.index`:**

In [None]:
s.index

Pandas вернёт объект `Index`, который содержит все метки индекса в том порядке, в котором они идут в Series. Это полезно, когда нужно проверить структуру данных или использовать индекс для следующих операций.

### Pandas DataFrame

Мы разобрались с Series, то есть с одномерным объектом Pandas. Теперь изучим DataFrame, который работает по тем же принципам, но добавляет второе измерение.

**DataFrame** — это двумерный массив табличных данных, который является анлалогом матрицы NumPy, где каждый столбец представляет собой отдельную Series.

**DataFrame имеет две оси индексации:**
1. Строковый индекс, как в Series.
2. Колоночный индекс, то есть названия столбцов.

Оба индекса работают по тем же принципам двойной индексации, что мы изучили для Series.

**Создадим DataFrame из случайной NumPy-матрицы:**

In [None]:
# Генерируем матрицу 5x3 из случайных чисел
m = np.random.rand(5, 3)

 # Создаём DataFrame из матрицы m
df = pd.DataFrame(m)

# Выводим таблицу
df

Pandas автоматически создал строковый индекс `0, 1, 2, 3 4` и колоночный индекс `0, 1, 2` — оба на основе RangeIndex. Таблица выглядит непривычно, потому что числа в заголовках столбцов не имеют смысла.

**Зададим столбцам понятные имена с помощью параметра `columns`:**

In [None]:
# Генерируем новую матрицу 5x3
m = np.random.rand(5, 3)

# Создаём DataFrame с именами столбцов
df = pd.DataFrame(

    # Передаём матрицу как данные
    data=m,

     # Задаём имена столбцов
    columns=['first', 'second', 'third'])

# Выводим таблицу
df

Теперь у каждой колонки есть название — `first`, `second` и `third`.

**Добавим текстовый столбец с именами, чтобы каждая строчка соответствовала строковому индексу:**

In [None]:
# Добавляем столбец `name` с именами
df['name'] = ['Dima', 'Ivan', 'Nikolay', 'Dima', 'Pavel'] 

# Выводим таблицу на экран
df

Pandas добавил столбец `name` в конец таблицы, а столбцы содержат данные разных типов. Например, столбцы `first`, `second` и `third` хранят тип `float64`, а столбец `name` хранит тип `object1`, то есть строки. В этом заключается основное отличие DataFrame от матрицы NumPy. Матрица NumPy хранит данные только одного типа, а DataFrame допускает разные типы в разных столбцах.

Квадратные скобки в DataFrame работают по колоночному индексу. Это отличает DataFrame от Series, где скобки работают по строковому индексу.

**Получим доступ к столбцу:**

In [None]:
# Обращаемся к столбцу `second` по имени в колоночном индексе
df['second'] 

Pandas вернул столбец `second` как объект Series — со строковым индексом `0, 1, 2, 3, 4` и именем `second`. Каждый столбец DataFrame — это Series с общим строковым индексом таблицы. Так DataFrame строится из набора Series.

Кроме способа выше, существует ещё один, который позволяет обратиться к столбцу — с помощью атрибута объекта `df`.

**Получим доступ к столбцу вторым способом:**

In [None]:
# Обращаемся к столбцу `second` через атрибут объекта `df`
df.second

Результат такой же, как если бы мы выполнили `df[second]`, но между этими способами есть разница. Мы не сможем обратиться по атрибуту объекта, если имя столбца содержит пробел, начинается с цифры  совпадает с именем встроенного атрибута

Теперь выберём несколько столбцов. **Чтобы это сделать, передадим список имён в квадратных скобках:**

In [None]:
# Выбираем столбцы `name` и `second` в заданном порядке
df[['name', 'second']] 

Pandas вернул столбцы в том порядке, в котором мы указали их в списке — `name` стоит первым, хотя в исходном DataFrame он последний. Порядок в списке полностью соответствует порядку столбцов в результате.

Стоит отметить, что результат выборки df['name'] и df[['name']] выглядит похоже, но вывод будет разным.

**Используем функцию `type()`, чтобы показать разницу:**

In [None]:
# Проверяем тип одиночной выборки
type(df['name'])

In [None]:
# Проверяем тип выборки списком
type(df[['name']])

Как мы видим, `df['name']` возвращает Series, а `df[['name']]` возвращает DataFrame.

**Разница проявляется, когда мы вызываем методы, которые есть у Series, но отсутствуют у DataFrame:**

In [None]:
# Вызываем метод unique() на Series
df['name'].unique()

In [None]:
# Обращаемся к атрибуту DataFrame
df[['name']].unique

Метод `.unique()` возвращает массив уникальных значений и доступен только у Series. DataFrame его не поддерживает, потому что таблица содержит несколько столбцов и применять `.unique()`, когда мы не указываем конкретный столбец, не имеет смысла.

**Если мы обратимся к DataFrame через целое число в квадратных скобках, то получим ошибку:**

In [None]:
df[0]

Дело в том, что Pandas ищет в колоночном индексе метку `0`, но не находит её, потому что наши стобцы называются `first`, `second`, `third` и `name`. В итоге мы получаем `KeyError`. Квадратные скобки с одним значением всегда работают по колоночному индексу, поэтому целое число `0` Pandas интепретирует как имя столбца, а не как позицию.

Вспомним срезы. Если передать в квадратные скобки срез через двоеточие, то DataFrame ведёт себя иначе.

**Выборка будет идти по строкам через целочисленную индексацию:**

In [None]:
# Берём строки с позиция 0 и 1 через срез
df[:2]

In [None]:
# Переворачиваем таблицу. Теперь строки идут от последней к первой
df[::-1]

Так, `df[:2]` возвращает DataFrame из первых двух строк — с позициями `0` и `1`. df[::-1] переворачивает таблицу. Строка с позицией `4` становится первой, а строка с позицией `0` — последней. Это поведение не следует из общей логики доступа по колоночному индексу и является неким артефактом Pandas, который нужно просто запомнить.

Для явного доступа к строкам и столбцам Pandas предоставляет методы `.loc[]` и `.iloc[]`, которые мы рассмотрим в следующих разделах.

Помимо Num-Py-матрицы, DataFrame удобно создавать из словаря.

**Ключи словаря становятся именами столбцов, а значения по ключам — данным столбцов**

In [None]:
# Создаём словарь с двумя ключами и задаём столбцем имён со столбцом возрастов
d = {'name': ['Dmitry', 'Alexey', 'Vladimir', 'Elena'],
     'age': [24, 25, 30, 40]}

# Создаём DataFrame из словаря `d`
pd.DataFrame(d)

Как мы видим, Pandas автоматически создал строковый индекс `0, 1, 2, 3`. Для всех строк в словаре должны совпадать, иначе Pandas выдаст `ValueError`.

Есть ещё один способ создать DataFrame.

**Мы можем создать список словарей, где каждый словарь поисывает одну строку:**

In [None]:
# Создаём список из трёх словарей, который включает три строки
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
          {'a': 100, 'b': 200, 'c': 300, 'd': 400},
          {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000}]

# Создаём DataFrame из списка словарей
pd.DataFrame(mydict)

Pandas читает каждый словарь как одну строку, а ключи `a, b, c, d` становятся именами столбцов. Оба этих способа указывают на родство DataFrame и словаря Python.

**Выделим три основных признака сходства DataFrame и словаря:**
1. Доступ по именованному ключу.
2. Расширение через новый ключ.
3. Ошибка `KeyError`, если мы обращаемся к несуществующему ключу.

### Просмотр таблицы

Мы научились создавать DataFrame разными способами. Теперь разберёмся, как просматривать его содержимое и получать информацию о его структуре. По умолчанию Jupyter Notebook и Google Colab обрезают вывод больших таблиц.

**Посмотрим, как это работает:**

In [None]:
# Создаём DataFrame из 100 строк и смотрим на вывод
pd.DataFrame(np.random.rand(100, 2))

Pandas показывает первые и последние пять строк, а середину скрывает. Это позволяет компьютеру на зависнуть, когда мы работаем с большими данными. На практике просматривать все строки таблицы вручную не нужно. Достаточно посмотреть на несколько строк, чтобы понять структуру таблицы и убедиться, что данные считались корректно.

**Чтобы просматривать строки, Pandas предоставляет три метода:**

In [None]:
# Берём первые 2 строки таблицы
df.head(2)

In [None]:
# Берём последние 2 строки таблицы
df.tail(2)

In [None]:
# Берём 2 случайные строки таблицы
df.sample(2)

Как мы видим, все три методы возвращают DataFrame. Метод `.head()` помогает проверить начало таблицы сразу после загрузки. Метод `.tail()` показывает конец таблицы. Метод `.sample()` возвращает случайные строки, что полезно, когда нам нужно получить рандомный срез данных, который не зависит от порядка строк.

**Чтобы получить строковый и колоночный индексы таблицы, Pandas предоставляет свойства `.index` и `.columns`:**

In [None]:
# Получаем строковый индекс таблицы
df.index

In [None]:
# Получаем колоночный индекс таблицы
df.columns

Оба свойства возвращают объект `Index`. Это тот же тип, который мы видели у Series.

**Поэтому для него работают индексация и срезы:**

In [None]:
# Берём имя второго столбца по позиции
df.columns[1]

In [None]:
# Берём имена столбцов с позиции 1 до 3, но не включаем 3
df.columns[1:3]

**Чтобы узнать форму таблицы, Pandas предоставляет свойство `.shape`:**

In [None]:
# Получаем количество строк таблицы
df.shape[0]

In [None]:
# Получаем количество столбцов таблицы
df.shape[1]

Свойство `.shape` возвращает кортеж. Первый элемент кортежа — это количество строк, а второй — количетсво столбцов. Например, для таблицы из 5 строк и 4 столбцов `.shape` вернёт (5, 4).

**Чтобы узнать типы данных столбцов, Pandas предоставляет свойства `d.types` и `df.info()`:**

In [None]:
# Получаем тип данных каждого столбца в виде Series
df.dtypes

In [None]:
# Выводим сводку по структуре таблицы
df.info()

Свойства `d.types` возвращает объект Series, где индекс — это имена столбцов, а значения — их типы.

**Метод `.info()` выводит более подробную информацию о таблице:**
- имена столбцов;
- количество непустых значений, или Non-Null Count;
- тип данных каждого столбца;
- объём памяти, который занимает таблица.

Граница `Non-Null Count` показывает, в каких столбцах есть пропуски. Если значение меньше общего числа строк, значит, в столбце есть `NaN`.

Чтобы изменить тип данных столбца, Pandas предоставляет метод `.astype()`. Он меняет тип данных в столбцах, которые мы указываем.

**Кроме того, ему можно передать словарь, где ключи — это имена столбцов, а значения — новые типы:**

In [None]:
# Меняем тип столбца `first` на `float64` с `float32`
df = df.astype({'first': np.float32})

# Проверяем, что тип столбца `first` изменился
df.info()

Pandas вернул новый DataFrame с изменённым типом столбца `first`. Исходный объект не меняется, поэтому мы присваем результат обратно в `df`.

**Сравним объём памяти при разных типах:**

In [None]:
# Смотрим, сколько памяти занимает `float16`
df.astype({'first': np.float16}).info()

Разница составила 10 байт. На малом объёме данных профит от смены типа незначительный, но на таблице из миллиона строк разница между `float64` и `float16` позволит сэкономить память в четыре раза.

**Чтобы получить двумерный NumPy-массив из DataFrame, используем метод `.to_numpy()`:**

In [None]:
# Получаем NumPy-массив и берём все строки первых двух столбцов
df.to_numpy()[:, :2]

Pandas вернул данные без индекса и имён столбцов, а оставил только сами значения. Здесь возникает проблема, что столбец `name` хранит строки, а остальные столбцы хранят числа. NumPy не умеет хранить данные разных типов в одном массиве, поэтому приводит все значения к типу `object`. Это делает массив неподходящим для числовых вычислений NumPy. Именно поэтому мы берём только первые два числовых столбца через срез `[:, :2]`.

**Чтобы получить статистику по всем числовым столбцам, используем метод `.describe()`:**

In [None]:
# Получаем статистику по числовым столбцам
df.describe()

В выводе мы получаем DataFrame, где строки — это статистики, а столбцы — это числовые столбцы исходной таблицы.

**Строки таблицы содержат:**
- `count` — количество непустых значений в столбце;
- `mean` — среднее арифметическое значение;
- `std` — стандартное отклонение;
- `min` — минимальное значение;
- `25%`, `50%`, `75%` — первый, второй и третий квартили;
- `max` — максимальное значение.

Квартили делят отсортированный столбец на четыре равные части, а 50% — это медиана, то есть половина значений лежит ниже этой отметки, а половина выше.

**Строковый и колоночный индексы DataFrame — это одна и та же структура `Index`, только по разным осям:**
- строковый — по оси `axis=0`;
- колоночный — по оси `axis=1`.

Мы можем транспонировать таблицу с помощью метода `.T`, который поменяет индексы местами. То есть строки станут столбцами, а столбцы строками.

**Для этого используем свойство `.T`:**

In [None]:
# Транспонируем таблицу
df.T

Pandas поменял строки и столбцы местами. Теперь бывший колоночный индекс `first`, `second`, `third` и `name` стал строковым индексом, а бывший строковый индекс `0, 1, 2, 3, 4` стал колоночным. Это наглядно показывает, что оба индекса — это один и тот же тип объекта. 