# Основы работы с pandas

_За основу взята статья [Введение в pandas: анализ данных на Python](https://khashtamov.com/ru/pandas-introduction/)_

Pandas это высокоуровневая Python библиотека для анализа данных. Она построена поверх более низкоуровневой библиотеки NumPy, которая в свою очередь написана на Си. В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных. 

Для работы с pandas его нужно импортировать. Общепринятый стандарт - импортировать pandas под именем `pd`.

In [None]:
import pandas as pd

## Series

Чтобы эффективно работать с pandas, необходимо освоить самые главные структуры данных библиотеки: DataFrame и Series. Без понимания, что они из себя представляют, невозможно в дальнейшем проводить качественный анализ.

Структура/объект Series представляет собой объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность делает его более похожим на ассоциативный массив или словарь в Python.

In [None]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

В строковом представлении объекта Series (когда мы, например, выводи его на экран, как это сделано выше), индекс находится слева, а сам элемент - справа. Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов. Также стоит обратить, что у Series есть тип хранимых элементов, в нашем случае это int64, т.к. мы передали целочисленные значения.

У объекта Series есть атрибуты через которые можно получить список элементов и индексы, это values и index соответственно.

In [None]:
my_series.index

In [None]:
my_series.values

Доступ к элементам объекта Series возможна по их индексу (вспоминается аналогия со словарем и доступом по ключу).

In [None]:
my_series[4]

Индексы можно задавать явно. Причём это не обязательно должны быть числа.

In [None]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2['f']

Можно делать выборку по нескольким значениям индекса и осуществлять групповое присваивание.

In [None]:
my_series2[['a', 'b', 'f']]

In [None]:
my_series2[['a', 'b', 'f']] = 0
my_series2

Можно фильтровать Series, а также применять математические операции.

In [None]:
my_series2[my_series2 > 0]

In [None]:
my_series2[my_series2 > 0] * 2

Так как Series похож на словарь, где ключом является индекс, а значением сам элемент, то Series можно создавать на основе словаря. 

Создадим словарь. При помощи `in` можно проверить, имеется ли ключ в словаре.

In [None]:
dic1 = {'a': 5, 'b': 6, 'c': 7, 'd': 8}
'd' in dic1

На основе этого словаря можно создать Series и точно также проверить наличие ключа `'d'`.

In [None]:
my_series3 = pd.Series(dic1)
my_series3

In [None]:
'd' in my_series3

У объекта Series и его индекса есть атрибут name, задающий имя объекту и индексу соответственно.

In [None]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

Индекс можно поменять "на лету", присвоив список атрибуту `index` объекта Series

In [None]:
my_series3.index = ['A', 'B', 'C', 'D']
my_series3

Список с новыми индексами по длине должен совпадать с количеством элементов в Series.

### Задание

Найдите в Интернете список городов-миллионников в России и создайте на его основе объект Series. Достаточно ограничиться пятью городами. Индексом сделайте название города, а значением — численность населения. Присвойте имя самому объекту и его индексу. Продемонстрируйте доступ к элементам.

In [None]:
# Ваш код:

## DataFrame

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

DataFrame проще всего сконструировать при помощи питоновского словаря.

In [None]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'China'],
    'population': [17.04, 143.5, 9.5, 1408.3],
    'area': [2724902, 17125191, 207600, 9598962]})
df

Чтобы убедиться, что столбец в DataFrame это Series, извлекаем любой:

In [None]:
df['country']

In [None]:
type(df['country'])

Объект DataFrame имеет 2 индекса: по строкам и по столбцам. Если индекс по строкам явно не задан (например, колонка по которой нужно их строить), то pandas задаёт целочисленный индекс RangeIndex от 0 до N-1, где N это количество строк в таблице.

Вот так можно посмотреть индекс по столбцам. Видно, что элементы индекса - это заголовки столбцов:

In [None]:
df.columns

Вот автоматически заданный индекс по строкам. В таблице у нас 4 записи (строки), пронумерованные от 0 до 3:

In [None]:
df.index

Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame.

In [None]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'China'],
    'population': [17.04, 146.4, 9.5, 1408.3],
    'area': [2724902, 17125191, 207600, 9598962]
    }, index=['KZ', 'RU', 'BY', 'CN'])
df

Можно задать индекс уже после создания DataFrame, "на лету":

In [None]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'China'],
    'population': [17.04, 146.4, 9.5, 1408.3],
    'area': [2724902, 17125191, 207600, 9598962]
    })
df

In [None]:
df.index = ['KZ', 'RU', 'BY', 'CN']
df.index.name = 'Country Code'
df

Как видно, индексу было задано имя - Country Code. 

Нужно отметить, что объекты Series из DataFrame будут иметь те же индексы, что и объект DataFrame в целом.

In [None]:
df['country']

Доступ к строкам по индексу возможен несколькими способами:
 - .loc - используется одно из заданных значений индекса
 - .iloc - используется порядковый номер (отсчёт начинается с 0)

In [None]:
df.loc['KZ']

In [None]:
df.iloc[0]

Можно делать выборку по индексу и интересующим колонкам:

In [None]:
df.loc[['KZ', 'RU'], 'population']

Как можно заметить, .loc в квадратных скобках принимает 2 аргумента: сначала строковый индекс или множество индексов, а затем индекс колонки.

Поддерживается слайсинг.

In [None]:
df.loc['KZ':'BY', :]

Можно фильтровать DataFrame с помощью т.н. булевых массивов:

In [None]:
df[df.population > 10][['country', 'area']]

К столбцам можно обращаться, используя атрибут или нотацию словарей Python, т.е. `df.population` и `df['population']` это одно и то же.

In [None]:
df['population']

In [None]:
df.population

Имеется возможность при помощи `reset_index()` сбросить текущий индекс по строками и заменить его индексом по умолчанию (целочисленным, начиная с 0). Это может иметь смысл, когда несколько строк были удалены. Однако по умолчанию, старый индекс не удаляется, а сохраняется в новом столбце. Если у индекса было имя, оно становится именем нового столбца. Иначе по умолчанию столбец получает имя "index". Это сделано для того, чтобы предоставить возможность доступа к исходному индексу после операции сброса, если это необходимо. Если требуется удалить старый индекс, нужно использовать параметр `drop=True` при вызове `reset_index()`.

Отметим, что pandas при операциях над DataFrame, возвращает новый объект DataFrame. Исходный набор данных остётся неизвенным.

In [None]:
df1 = df.reset_index()
df1

В секции ниже видно, что мы по-прежнему можем использовать текстовые индексы в `df`, а в `df1` это не работает.

In [None]:
print("df")
try:
    print(df.iloc[0], "\n")
    print(df.loc['KZ'], "\n")
except KeyError as e:
    print(f"Ошибочный ключ {e} в df")

print("df1")
try:
    print(df1.iloc[0], "\n")
    print(df1.loc['KZ'], "\n")
except KeyError as e:
    print(f"Ошибочный ключ {e} в df1")

Добавление столбца делается также как добавление нового ключа к словарю.

Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:

In [None]:
df['Density of population'] = df['population'] / df['area'] * 1000000
df

Вот так столбец можно удалить:

In [None]:
df.drop(['Density of population'], axis='columns')

Но при этом создаётся новый DataFrame без удалённого столбца. Исходный DataFrame остаётся неизменным.

In [None]:
df

Переименовывать столбцы нужно через метод rename:

In [None]:
df = df.rename(columns={'Density of population': 'density'})
df

### Задание 

Найдите в Интернете таблицы характеристик ноутбуков и создайте на этой основе DataFrame. Столбцы — характеристики ноутбуков, например тактовая частота, марка процессора и так далее. Столбцов должно быть не менее пяти. Строки — марки ноутбуков. Строк должно быть не менее четырёх. Продемонстрируйте выборку столбцов, строк, а также отдельных элементов.

In [None]:
# Ваш код:

## Чтение и запись данных

Pandas поддерживает все самые популярные форматы хранения данных: csv, excel, sql, буфер обмена, html и многое другое.

Чаще всего приходится работать с csv-файлами. Например, чтобы сохранить наш DataFrame со странами, достаточно написать:

In [None]:
df.to_csv('filename.csv')

Метод `.to_csv` передаются различные аргументы (например, символ разделителя между колонками) о которых подробнее можно узнать в официальной документации.

Считать данные из csv-файла и превратить в DataFrame можно функцией read_csv.

In [None]:
df = pd.read_csv('filename.csv', sep=',')

Аргумент `sep` указывает разделитесь столбцов. Существует ещё масса способов сформировать DataFrame из различных источников, но наиболее часто используют CSV, Excel и SQL. Например, с помощью функции `read_sql`, pandas может выполнить SQL запрос и на основе ответа от базы данных сформировать необходимый DataFrame. За более подробной информацией стоит обратиться к официальной документации.

Удалим только что созданный файл, чтобы не засорять файловую систему.

In [None]:
import pathlib
files = ['filename.csv']
for file in files:
    pathlib.Path(file).unlink(missing_ok=True)

### Задание

Созданный в предыдущем задании DataFrame сохраните в виде файла Excel. Откройте этот файл в Excel и добавьте к таблице ещё один столбец и ещё одну строку. Сохраните сделанные изменения и закройте Excel. Теперь загрузите изменённый документ в виде DataFrame pandas и выведите его на экран.

Примечание: pandas работает с файлами Excel через библиотеку openpyxl. Перед началом выполнения этого задания убедитесь, что она установлена.

In [None]:
# Ваш код:

## Отбор заданного числа элементов

Далее для демонстрации приёмов работы с данными мы будем использовать набор данных о пассажирах Титаника, который находится в каталоге `data`.

In [None]:
titanic_df = pd.read_csv('data/titanic.csv')
titanic_df.head()

Отбор элементов — это самая простая операция, которую мы фактически уже обсуждали выше. Например, это можно делать при помощи операции слайсинга, так же как и с другими питоновскими хранилищами.

In [None]:
titanic_df[3:10]

In [None]:
titanic_df[:13:3]

Для выбора заданных строк по их порядковым номерам можно также использовать `.iloc`:

In [None]:
titanic_df.iloc[:13:3]

### Задание 

Выведите на экран фрагмент набора данных о пассажирах Титаника, начиная со строки, отстоящей от конца на 50 элементов, с шагом 10.

In [None]:
# Ваш код:

## Сортировка

Для сортировки записей в DataFrame по столбцу используется метод `.sort_values()`.

In [None]:
titanic_df.sort_values(by='Age', ascending=True)

Можно задать сортировку по нескольким столбцам.

In [None]:
titanic_df.sort_values(by=['Sex', 'Age'], ascending=[True, True])

### Задание

Выведите на экран 25 первых записей набора данных о пассажирах Титаника, отсортированные так, чтобы сначала были показаны все мужчины, потом женщины, а внутри этих групп пассажиры должны быть упорядочены по увеличению возраста.

In [None]:
# Ваш код:

## Фильтрация

Для фильтрации данных можно использовать булевы маски (массивы логических значений). 

Например, вот так можно построить булеву маску по признаку пола.

In [None]:
titanic_df['Sex']=='female'

Применив эту маску к DataFrame мы получим набора данных, содержащей только женщин.

In [None]:
titanic_df[titanic_df['Sex']=='female']

### Задание

Выведите на экран десять самых старших мужчин, занимавших на Титанике каюты первого класса

In [None]:
# Ваш код:

## Группировка и агрегирование

В pandas за группировку отвечает метод `.groupby`. При группировке все строки таблицы разбиваются на группы, так чтобы в каждой группе находились значения с одинаковой величиной в том столбце, по которому производится группировка.

Например, вот так можно сгруппировать записи по признаку выжил пассажир или нет.

In [None]:
titanic_df.groupby(['Survived'])

Результат группировки к объекту DataGrame - объект DataFrameGroupBy. Чтобы снова получить DataFrame нужно к этому объекту применить одну из операций агрегирования. 

Операция агрегирования - это функция, которая на вход получает массив значений, принадлежащих группе, а на выходе выдаёт одно значение. Например, операция `.count()` подсчитывает число элементов в группе.

In [None]:
titanic_df.groupby(['Survived']).count()

Отметим, что подсчитанное число значений во всех столбцах кроме Age равно 863 и 450. Значений в столбце Age меньше из-за того, что в нём некоторые значения отсутствуют, т.е. имеют значения NaN или NULL. Если предварительно удалить записи с отсутствующим значениями все числа будут одинаковыми.

In [None]:
titanic_df.dropna().groupby(['Survived']).count()

Можно выполнять многоуровневые группировки. Например, подсчитаем, сколько выжило мужчин и женщин. И подсчитаем количество элементов в каждой группе по столбцу `'PassengerID'`.

In [None]:
titanic_df.groupby(['Sex', 'Survived'])['PassengerID'].count()

Ещё пример. Подсчитаем выживших, занимающих каюты разноых классов, столбец `'PClass'`:

In [None]:
titanic_df.groupby(['PClass', 'Survived'])['PassengerID'].count()

### Задание

Найдите в документации pandas описание метода `.agg()`, которая позволяет применить сразу несколько функций агрегации. Используя этот метод, вычислите средний,  медианный, минимальный и максимальный возраста пассажиров кают разных классов. Перед выполнением группировки и агрегации удалите из набора данных записи, в которых имеются пропущенные записи. Найдите самостоятельно, как это сделать.

In [None]:
# Ваш код:

## Сводные таблицы

Сводная таблица (pivot table) - это своего рода двумерная группировка и агрегация. 

Рассмотрим пример. В таблице пассажиров Титаника в столбце 'Sex' чередуются значения 'male' и 'female', а в столбце 'PClass' - типы кают по классам обслуживания: '1st', '2nd' и '3rd'. Зададимся вопросом: сколько женщин занимали каюты первого, второго и третьего класса и сколько кают разных классов занимали мужчины. Ответ на этот вопрос даёт сводная таблица. 

Для построения сводной таблицы нужно рассмотреть сгруппировать записи по всем возможным комбинациям, которые можно встретить в столбцах 'Sex' и 'PClass': ('female', '1st'), ('female', '2nd'), ('female', '3rd'), ('male', '1st'), ('male', '2nd'), ('male', '3rd'). Затем нужно применить операцию агрегации к значениям в одном из столбцов собранных записей. В нашем примере мы хотим просто подсчитать количество людей. Можно взять любой столбец, но только такой, в котором не было бы пропущенных значения. Подойдёт 'PassengerID'.

In [None]:
pvt = titanic_df.pivot_table(index=['Sex'], columns=['PClass'], values='PassengerID', aggfunc='count')
pvt

Мы получили новый DataFrame в котором индекс по строкам - это пол, а именами колонок стали значения из столбца 'PClass'.

Вот так можно получить количество женщин в каютах первого класса:

In [None]:
pvt.loc['female']['1st']

### Задание

Найдите информацию о том, как работает метод `.apply()`. Напишите функцию, которая из полного имени пассажира, см. столбец 'Name', выделяет имя, т.е. самую первую часть полного имени до запятой. Примените эту функцию к столбцу 'Name' и добавьте к набору данных новый столбец с названием 'FirstName'. Далее постройте сводную таблицу, в которой было бы подсчитано количество мужчин и женщин с такими именами. Перед выводом на экран удалите из этой таблицы строки с именами, которые встречаются только у мужчин или только у женщин.

In [None]:
# Ваш код:

## Анализ временных рядов

В pandas очень удобно анализировать временные ряды. Примеры ниже будут проиллюстрированы на графике цен на акции корпорации Apple за 5 лет по дням. Файл находится в папке `data`.

Считаем файл и сформируем DataFrame с DatetimeIndex по колонке Date, отсортируем новый индекс в правильном порядке для работы с выборками. Если колонка имеет формат даты и времени отличный от ISO8601, то для правильного перевода строки в нужный тип, можно использовать метод `pandas.to_datetime`.

In [None]:
apple_df = pd.read_csv('data/apple.csv', index_col='Date', parse_dates=True)
apple_df = apple_df.sort_index()
apple_df.head()

In [None]:
apple_df.info()

Когда индекс задан в виде дат, можно вот отбирать данные по годам и месяцам:

In [None]:
apple_df.loc['2012']

In [None]:
apple_df.loc['2012-02']

In [None]:
apple_df.loc['2012-Feb']

Получим среднюю цену акции за февраль 2012 года (mean) на закрытии (Close):

In [None]:
apple_df.loc['2012-Feb', 'Close'].mean()

Среднее за промежуток с февраля 2012 по февраль 2015:

In [None]:
apple_df.loc['2012-Feb':'2015-Feb', 'Close'].mean()

Чтобы задать гранулярность, отличную от года или месяца потребуется выполнить ресемплинг данных. Вот так можно вычислить среднее по неделям.

In [None]:
apple_df.loc['2012-Feb':'2012-Jun', 'Close'].resample('W').mean()

### Задание

Вычислите средне значение максимальной дневной цены акций Apple за 2017 год.

In [None]:
# Ваш код:

## Визуализация данных в pandas

Для визуального анализа данных pandas использует библиотеку matplotlib, но имеет собственный методы, которые переадресуются функциям matplotlib.

Простейший пример: график цены закрытия в промежутке между 2012 и 2017.

In [None]:
new_sample_df = apple_df.loc['2012-Feb':'2017-Feb', 'Close']
new_sample_df.plot();

По оси X, если не задано явно, всегда будет индекс. По оси Y в нашем случае цена закрытия.

### Задание

Найдите самостоятельно информацию о построении гистограмм в pandas и постройте гистограмму максимальных дневных цен акций Apple за период от 2015 по 2020 годы. Задайте количество столбцов гистограммы равным 100.

In [None]:
# Ваш код: