<img src="../Img/banner-fa-49-2.png">

# Лекция 4. Библиотека Pandas

21 сентября 2021 года, ВМ/451 (ул. Верхняя Масловка, д. 15)<br>
Поток:УЦИ20-1<br>
Автор: Смирнов Михаил Викторович, доцент Департамента Анализа данных и машинного обучения Финансового университета при Правительстве Российской Федерации

## Основы работы с Pandas

*Pandas* - библиотека для работы с данными. Имеется подробная [документация](http://pandas.pydata.org/pandas-docs/stable/) с множеством примеров. *Pandas* не встроен в Python по умолчанию, его необходимо импортировать. Чаще всего *pandas* импортируют c псевдонимом `pd`.

In [None]:
import pandas as pd

### Учебный пример

Для изучения технологии работы с этой библиотекой будем использовать [учебный пример финансовой информации](./Data/FinancialSample2.csv).

Прежде, чем переходить к учебному примеру, рассмотрим основные объекты Pandas - *Series* и *DataFrame*

### Series

*Series* - это структура данных, которую можно рассматривать, как одну колонку таблицы, это одномерный массив. Ранее мы изучили похожий одномерный массив - список, доступ к элементам которого осуществлялся по индексу, представляющему собой порядковый номер. В *Series* индексами могут быть не только порядковые номера, но и другие данные: даты, имена, идентификаторы различных объектов и т.д.

Создать *Series* можно с помощью команды `pd.Series()` (или `pandas.Series()`, если библиотека pandas импортирована без псевдонима). Создадим *Series* с данными об автомобилях - лидерах продаж в России в 2020 году.

In [None]:
leaders = pd.Series(['Лада Гранта', 'Лада Веста', 'Kia Rio', 'Hyundai Creta'], index=['Первое','Второе','Третье','Четвертое'])
leaders

Индекс можно не указывать, тогда он будет создан автоматически и содержать порядковые номера элементов, начиная с нуля. Доступ к элементам Series осуществляется с использованием методов `.loc[]` и `.iloc[]`. В чем разница между ними? Параметром `.loc[]` является метка индекса, параметром `.iloc[]` является целочисленный порядковый номер элемента.

In [None]:
#Примеры использования .loc
print(leaders.loc['Первое']) # Доступ к одному элементу
print(leaders.loc[['Первое','Четвертое']]) # Доступ к нескольким элементам
print()

#Примеры использования .iloc
print(leaders.iloc[0]) # Доступ к одному элементу
print(leaders.iloc[[0,3]]) # Доступ к нескольким элементам

<u>Задание</u>. Имеется *серия*, содержащая числа от 10 до 1000. Какое число содержит элемент с индексом 175? Вычислите разность элементов с индексами 900 и 16.

In [None]:
s = pd.Series(range(10,1001))
# Ваш код здесь

### DataFrame

Объект *DataFrame* представляет собой таблицу, столбцами которой выступают объекты *Series*. Строки *Series* являются элементами *DataFrame*. Рассмотрим основные способы создания датафрейма: из словаря, из списка, с помощью функции `read_csv()`.

#### Из словаря

Создавать датафрейм удобно из словаря. Словарь представляет собой заключенные в квадратные скобки пары `{ключ:значение}`. Такие парыстоновятся столбцами датафрейма, при этом имена ключей становятся названиями стобцов, значения становятся элементами столбцов.

In [None]:
market = pd.DataFrame({'car':['Lada Granta','Lada Vesta','Kia Rio','Hyunday Creta'], 'year':[2019,2018,2010,2015], 'condition':[75,104,20,90], 'km':[130000,210000,75000,94000]})
market

#### Из списка

*DataFrame* можно создать из списка списков или списка кортежей. Необязательными параметрами являются `columns` и `index`. Рассмотрим пример создания датафрейма из списка списков. Пусть имеются сведения о результатах торгов за два дня. Создадим список из двух вложенных списков, каждый из которых содержит четыре элемента: цена открытия, минимальная и максимальная цены в течение дня, цена закрытия. Число вложенных списков равно числу строк, число их элементов равно числу столбцов.

In [None]:
history=pd.DataFrame([[150, 20, 140, 140],[140,94,152,150]],columns=['Open','Low','High','Close'],index=['2020-12-07', '2020-12-08'])
history

Следующий пример демонстрирует возможность создания датафрейма из кортежа. Пусть имеются данные о температуре и давлении в три первых дня мая. Оформим пары (температура, давление) в виде списка кортежей и передадим такой список в качестве параметра `pd.DataFrame()`

In [None]:
may=pd.DataFrame([(15,750),(17,752),(22,)], index=[1,2,3], columns=['Temperature','Pressure'])
may

<u>Задание</u>. Мебельная фабрика выпускает продукцию  наименований: диваны, кровати, трюмо. Создайте таблицу *DatаFrame*, содержащую: количество призведенной продукции каждого наименования, остаток на складе фабрики. Наименования разместите в строках, а количество и остаток в столбцах.

<u>Задание</u>. Разделите столбец **car** таблицы **market** на два столбца: **mark** (марка) и **model** (модель).

#### С помощью функции read_csv()


Файл `.csv` - это текстовый файл с разделителями. Функция `read_csv()` позволяет получить данные, хранящиеся в формате `csv`. Обязательным параметром является имя файла.

`pd.read_csv('Полный_путь_к_файлу/название_файла.csv')`

Функция возвращает таблицу DataFrame. Важными параметрами функции являются: 
<PRE>
`sep` - разделитель, по умолчанию запятая;
`decimal` - разделитель числа на целую и дробную часть, по умолчанию точка;
`names` — список с названиями колонок, необязательный параметр;
`skiprows` - позволяет не загружать верхние строки файла.
</Pre>

Используем функцию read_csv() для создания датафрейма из csv-файла учебного примера `Financial Sample.csv`.

In [None]:
fs = pd.read_csv('./Data/FinancialSample2.csv', sep=';')
fs

### Методы *head(), tail(), sample()*

Выводят на печать первые, последние или случайные строки таблицы. Например, метод `.head()` выводит пять первых строк. Число строк можно явно указывать в качестве параметра метода.

In [None]:
fs.head()

### Чтение и запись в файл

При работе с `csv` файлами в *pandas* всегда надо стремиться использовать функцию `read_csv()`. Но если, по каким-то причинам, это нецелесообразно, то можно применить следующий алгоритм:

1. Открыть файл
2. Прочитать его построчно
3. Каждую строку разбить на элементы и включить в список уровня строки
4. Создать список уровня файла, содержащий в себе построчные списки
5. Создать DataFtame


<u>Пример</u>. Применим этот алгоритм для создадания датафрейма из csv-файла `Financial Sample Fields.csv`.

In [None]:
with open('./Data/FinancialSampleFields.csv', encoding='utf-8') as f:
  content = f.readlines()
  content = [x.replace('\n','').split(';') for x in content]

pd.DataFrame(content[1:],columns = content[0])

### Метод *info()*

Метод *info()* предоставляет информацию о колонках *DataFrame*.

In [None]:
fs.info()

### Метод *describe()*

Метод describe показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): 
<PRE>
count - число непропущенных значений,
mean - среднее, 
std - стандартное отклонение, 
min, max - диапазон,
50% - медиану,
25%, 75% - первый и третий квартили.
</Pre>

In [None]:
fs.describe()

Чтобы посмотреть статистику по нечисловым данным (например, по строчным `object` или логическим `bool`), нужно явно указать интересующие типы в параметре `include`. Для каждой колонки с типом `object` (строчные данные) выводится количество непустых строк, уникальных значений, самое частое значение `top` и частота этого значения `freq`.

In [None]:
fs.describe(include=['object'])

Задание.
Ответьте на вопросы.

1. Какова максимальная сумма скидок?
2. Какова самая распространенная система скидок?
3. Сколько разных систем скидок применяется?
4. Какова средняя прибыль?
5. Каково стандартное отклонение значений себестоимости проданных товаров?
6. Сколько раз встречается самая частая страна Mexico?
7. Какое значение у первого квартиля цены продажи?


### Статистические параметры.

Для вычисления отдельных статистических параметров DataFrame можно использовать методы:
<Table>
<tr><th bgcolor='aqua'>Метод<th bgcolor='aqua' align=left>Статистический параметр
<tr><td>.max()<td>Максимум
<tr><td>.min()<td>Минимум
<tr><td>.mean()<td>Среднее значение
<tr><td>.median()<td>Медиана
<tr><td>.sum()<td>Сумма
<tr><td>.count()<td>Количество непустых элементов
<tr><td>.std()<td>Стандартное отклонение
<tr><td>.quantile(q)<td>квантиль, 0&ltq&lt1
</Table>

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series. В случае применения метода к отдельному столбцу, результатом вычислений станет число (среднее значение элементов столбца, минимум, максимум и т.п.).

Параметры методов:
**axis** — определяет, подсчитывать максимум по строкам (1) или по столбцам (0) (по умолчанию 0);

**numeric_only** — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False). Если передать False в методы .mean() или .std(), компилятор выдаст ошибку.

Пример: Рассчитать среднее значение по столбцам таблицы автомобилей на вторичном рынке (market).

In [None]:
market.mean()

<u>Задание</u>. Ответьте на вопросы.
1. Каково стандартное отклонение цены производства?
2. Какова сумма всех скидок?
3. Сколько непустых элементов в категории "Сегмент"?


### Извлечение данных по условию

Использование условий позволяет выбирать только отвечающие условиям данные.

Примеры:

`fs[fs['SalePrice']>90] # отобрать результаты, для которых цена продажи больше 90`

В результате операции сравнения в квадратных скобках создается список из *True* и *False*, который показывает, какие строки *DataFrame* нужно оставить, а какие убрать.

`fs[fs['Discounts']>fs['Discounts'].mean()] # результаты, для которых сумма скидок превышает среднюю сумму скидок`

Условия можно комбинировать, используя операторы **&** (логическое И) и | (логическое ИЛИ).

`fs[(fs['Discounts']>fs['Discounts'].mean()) & (fs['UnitsSold']<fs['UnitsSold'].mean())].sort_values('Country') # сумма скидок выше среднего, продано товара ниже среднего по выборке`

`fs[fs['Segment']=='Enterprise']['COGS'].mean() # найти среднюю себестоимость товаров промышленного (Enterprise) сегмента`

Проверьте приведенные примеры в своих ноутбуках.

<u>Задание</u>.
1. Какова сумма валовых продаж (GrossSales) товаров, произведеных Amarilla для малого бизнеса?
2. Определите среднюю стоимость производства (ManufacturingPrice) товаров, выпущенных для Мексики стоимостью (SalePrice) выше, чем стоимость 70% товаров.
3. Найдите минимальную цену производства товара правительственого сегмента, для которого цена продажи ниже цены производства.
4. Какова средняя цена товара, стоимость производства которого ниже среднего?
5. Во сколько раз средняя себестоимость (COGS) товаров промышленного сегмента отличается от средней себестоимости товаров малого бизнеса?

In [None]:
#1
fs[(fs['Product']=='Amarilla') & (fs['Segment']=='Small Business')]['GrossSales'].sum()

In [None]:
#2
fs[(fs['Country']=='Mexico') & (fs['SalePrice']>fs['SalePrice'].quantile(0.7))]['ManufacturingPrice'].mean()

In [None]:
#3
fs[(fs['Segment']=='Government') & (fs['SalePrice']<fs['ManufacturingPrice'])]['ManufacturingPrice'].min()

In [None]:
#4
fs[(fs['ManufacturingPrice']<fs['ManufacturingPrice'].mean())]['SalePrice'].mean()

In [None]:
#5
fs[fs['Segment']=='Enterprise']['COGS'].mean()/fs[fs['Segment']=='Small Business']['COGS'].mean()

## Группировка данных

Данные можно представить себе как последовательность каких-то единичных наблюдений, например, в нашем датасете единичное наблюдение — это информация о производстве конкретного товара для конкретного потребителя. У каждого наблюдения есть какие-то атрибуты. Они могут быть разных типов:
- категориальные — например, система скидок;
- численные — например, размер скидки.

Решение задачи группировки предполагает разделение данных по некоторому признаку (атрибуту), после чего к каждому элементу этих разделенных данных мы можем применить агрегирующую операцию. Это такая операция, которая позволяет вычислить какой-либо показатель. Затем мы можем оценить, как отличаются эти показатели в зависимости от признака, по которому было осуществлено разделение. Такое разделение мы можем назвать группировкой данных.

Умение группировать данные по нужным признакам и быстро высчитывать необходимые параметры — основа, без которых грамотная аналитика невозможна.

### Функция value_counts()

Пусть перед нами поставлена задача оценить, сколько раз в выборке присутствуют разные производители

In [None]:
s=fs['Product'].value_counts()
s

Функция `value_counts()` подсчитывает для каждого значения в столбце количество раз, которое это значение встречается.

Функция `value_counts()` возвращает серию. В примере выше мы записали её как переменную s. Индекс серии s — это уникальные значения, встречающиеся в исходной серии (столбце).

Использование функции `value_counts()` позволяет сделать несколько важных выводов о содержимом столбца.

In [None]:
s.index

Обратите внимание, что в индексе названия производителей идут так же, как в серии, то есть по убыванию частоты присутствия в выборке

In [None]:
s.index[0] # Производитель, наиболее часто встречающийся в выборке

In [None]:
len(s.index) # Сколько уникальных наименований производителей

К значениям серии **s** можно обратиться по индексу

In [None]:
s.loc['Velo']

Можно установить фильтр

In [None]:
s.loc[s<100]

<u>Задание</u>.
1. Сколько разных систем скидок представлено в таблице?
2. Какая из систем скидок применяется реже всего?
3. Сколько раз представлены в выборке разные страны?


In [None]:
fs['DiscountBand'].value_counts()

In [None]:
fs['Country'].value_counts()

#### Подсчет количества значений в процентах

In [None]:
fs['DiscountBand'].value_counts(normalize=True)

#### Подсчет количества значений по численным признакам

До сих пор мы группировали значения по категориальным признакам. Но это можно делать и по численным признакам.

In [None]:
fs['MonthNumber'].value_counts()

Чаще всего продажи совершались в октябре, реже всего в начале года. Месяцев не так много, поэтому визуально можно оценить динамику продаж. Однако, если выполнить `.value_counts()` по другому численному столбцу, где много разных значений, результат не будет наглядным.

In [None]:
fs['Discounts'].value_counts()

Мы получили более пятисот разных значений. Поэтому применим функцию *value_counts()* с параметром *bins*.

In [None]:
s = fs['Discounts'].value_counts(bins=10)
s

<u>Задание</u>.

1. Разбейте значения столбца себестоимости (COGS) для Канады на шесть интервалов.
2. В каких пределах находятся значения наименьших 25% количества товара (в штуках) для Германии?

#### Перевод результатов `value_counts()` в датафрейм
Иногда полезно преобразовать серию, являющуюся результатом работы `.value_counts()` в датафрейм. Для этого используется метод `.reset_index().

In [None]:
U = fs['UnitsSold'].value_counts(bins=7)
U = U.reset_index()
U.columns=['Interval', 'Number_of_records']
U.sort_values('Interval').plot(kind='bar', )