## Основы pandas

Библиотека pandas - это основной инструмент в арсенале аналитика для работы с табличными данными в python. Она позволяет максимально упростить очистку, анализ и визуализацию данных. В рамках этого тренинга мы познакомимся с основами pandas и рассмотрим на примерах ее использование.

### Объект DataFrame

В работе с pandas используются две основные структуры данных: ``DataFrame`` и ``Series``.

Объект ``DataFrame`` фактически представляет из себя таблицу, состоящую из набора столбцов и строк с данными. Все столбцы обязательно имеют имена, а строки - индекс.

Для примера загрузим из файла "GDP.xlsx" таблицу с данными о ВВП топ-20 экономик за 2020 г. 
В pandas существует специальная функция для загрузки данных из Excel: ``read_excel()``.

In [1]:
import pandas as pd

df = pd.read_excel('Examples/GDP.xlsx')

Просмотрим начало загруженной таблицы при помощи функции ``head()``. При использовании без параметров она отображает первые 5 строк DataFrame, что удобно для ознакомления со структурой таблицы.

In [2]:
df.head()

Unnamed: 0,Country,Region,GDP,GDP_PPP
0,United States,Americas,20936,20936
1,China,Asia,14722,24273
2,Japan,Asia,4975,5328
3,Germany,Europe,3806,4469
4,United Kingdom,Europe,2707,3019


Как видим pandas автоматически определил первую строку как заголовок, а также добавил специальный столбец с индексом. По умолчанию в качестве индекса используются номера строк в DataFrame по порядку от нуля (**не номера строк в Excel!**), но при необходимости можно назначить индексом любой другой столбец таблицы при помощи функции ``set_index()``.

In [3]:
df.set_index('Country', inplace=True) # Назначаем в качестве индекса столбец 'Country'
df.head()

Unnamed: 0_level_0,Region,GDP,GDP_PPP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
United States,Americas,20936,20936
China,Asia,14722,24273
Japan,Asia,4975,5328
Germany,Europe,3806,4469
United Kingdom,Europe,2707,3019


Обратите внимание, что при назначении в качестве индекса какого-либо столбца у индекса появляется имя (в нашем случае 'Country').

Сбросить индекс на стандартный числовой можно функцией ``reset_index()``. 

In [4]:
df.reset_index(inplace=True)
df.head()

Unnamed: 0,Country,Region,GDP,GDP_PPP
0,United States,Americas,20936,20936
1,China,Asia,14722,24273
2,Japan,Asia,4975,5328
3,Germany,Europe,3806,4469
4,United Kingdom,Europe,2707,3019


Значения индекса можно получить в виде списка, обратившись к свойству ``index`` вашего DataFrame. Если индекс числовой, то дополнительно необходимо применить функцию ``to_list()`` для преобразования объекта ``RangeIndex`` в стандартный список. Аналогичным образом свойство ``columns`` хранит список столбцов таблицы.

In [5]:
df.index.to_list() # Получение строкового индекса в виде списка

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

In [6]:
df.columns # Получение списка столбцов

Index(['Country', 'Region', 'GDP', 'GDP_PPP'], dtype='object')

### Выборка и фильтрация

Извлечь отдельный столбец таблицы можно, используя запись, аналогичную получению данных из словаря.

In [7]:
df['Country']

0      United States
1              China
2              Japan
3            Germany
4     United Kingdom
5              India
6             France
7              Italy
8             Canada
9        South Korea
10            Russia
11            Brazil
12         Australia
13             Spain
14            Mexico
15         Indonesia
16       Netherlands
17       Switzerland
18            Turkey
19      Saudi Arabia
Name: Country, dtype: object

Полученный объект называется ``Series``. Это также объект pandas, который представляет из себя список, имеющий индексацию и название. В данном случае в качестве индекса будет использован индекс самого DataFrame, из которого был извлечен список, а название будет соответствовать названию столбца в DataFrame (см. параметр Name внизу).

Объект ``Series`` также можно преобразовать в стандартный список, использую функцию ``to_list()``.

In [8]:
df['Country'].head().to_list()

['United States', 'China', 'Japan', 'Germany', 'United Kingdom']

Для выборки нескольких столбцов необходимо указать их в виде списка. Обратите внимание, что список оформляется в отдельных квадратных скобках. Результатом также будет DataFrame с индексом аналогичным оригинальному, но только с выбранными столбцами. 

In [9]:
df[['Country', 'GDP']].head()

Unnamed: 0,Country,GDP
0,United States,20936
1,China,14722
2,Japan,4975
3,Germany,3806
4,United Kingdom,2707


Для выбора строк из DataFrame используются операторы ``loc`` и ``iloc``. <br>
Оператор ``loc`` выбирает строку по значению индекса.<br>
Для примера давайте сделаем индексом столбец 'Country' и попробуем выбрать строку с данными по отдельной стране.

In [10]:
df.set_index('Country', inplace=True)
df.head()

Unnamed: 0_level_0,Region,GDP,GDP_PPP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
United States,Americas,20936,20936
China,Asia,14722,24273
Japan,Asia,4975,5328
Germany,Europe,3806,4469
United Kingdom,Europe,2707,3019


In [11]:
df.loc['China']

Region      Asia
GDP        14722
GDP_PPP    24273
Name: China, dtype: object

Аналогично оператор ``iloc`` позволяет выбрать строку по ее порядковому номеру (от нуля).

In [12]:
df.iloc[2]

Region     Asia
GDP        4975
GDP_PPP    5328
Name: Japan, dtype: object

Операторы ``loc`` и ``iloc`` также позволяют выделять несколько строк, используя вырезание (slicing), аналогично спискам в python.

In [13]:
df.loc['China':'Germany']

Unnamed: 0_level_0,Region,GDP,GDP_PPP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,Asia,14722,24273
Japan,Asia,4975,5328
Germany,Europe,3806,4469


In [14]:
df.iloc[1:4]

Unnamed: 0_level_0,Region,GDP,GDP_PPP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,Asia,14722,24273
Japan,Asia,4975,5328
Germany,Europe,3806,4469


В качестве второго параметра операторам ``loc`` и ``iloc`` можно передать название (для ``loc``) или номер (для ``iloc``) столбца (или нескольких столбцов) для того чтобы выбрать строку(и) не целиком, а только отдельные столбцы.

In [15]:
df.loc['China', 'GDP']

14722

In [16]:
df.loc[:'Germany', ['Region', 'GDP']]

Unnamed: 0_level_0,Region,GDP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
United States,Americas,20936
China,Asia,14722
Japan,Asia,4975
Germany,Europe,3806


In [17]:
df.iloc[:3, :2]

Unnamed: 0_level_0,Region,GDP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
United States,Americas,20936
China,Asia,14722
Japan,Asia,4975


Часто нам требуется выбрать часть таблицы не по номеру строк или значению индекса, а по значению в каком-либо из столбцов или какому-то сложному условию на основе данных нескольких столбцов. Для этого в pandas существуют функционал фильтрации строк в DataFrame.

Для того, чтобы применить фильтр, необходимо задать условие фильтрации в виде логического выражения в квадратных скобках после названия DataFrame (там, где мы до этого указывали название столбца, который хотим выбрать).

Например, для получения всех стран с ВВП больше 2 трлн долл. нам необходимо условие ``df['GDP'] > 2000``. Чтобы выбрать все строки, удовлетворяющие этому условию, необходимо ввести его при выборке данных из DataFrame следующим образом:

``df[ <Логическое условие> ]``

Например:

In [18]:
df[ df['GDP'] > 2000 ]

Unnamed: 0_level_0,Region,GDP,GDP_PPP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
United States,Americas,20936,20936
China,Asia,14722,24273
Japan,Asia,4975,5328
Germany,Europe,3806,4469
United Kingdom,Europe,2707,3019
India,Asia,2622,9907
France,Europe,2603,3115


Условия можно комбинировать, используя стандартные логические операторы в python. Для этого все условия указываются в отдельных круглых скобках.

In [19]:
df[ (df['GDP'] > 2000) & (df['Region'] == 'Europe') ]

Unnamed: 0_level_0,Region,GDP,GDP_PPP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Germany,Europe,3806,4469
United Kingdom,Europe,2707,3019
France,Europe,2603,3115


Если после фильтрации строк необходимо получить только часть столбцов, то можно воспользоваться оператором ``loc`` и, как в примерах выше, указать в качестве второго параметра столбцы, которые необходимо получить. Синтаксис условия при этом остается прежним. 

In [20]:
df.loc[ df['GDP'] > 2000, ['Region', 'GDP'] ]

Unnamed: 0_level_0,Region,GDP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
United States,Americas,20936
China,Asia,14722
Japan,Asia,4975
Germany,Europe,3806
United Kingdom,Europe,2707
India,Asia,2622
France,Europe,2603


Pandas обладает продвинутым функционалом для сортировки данных в DataFrame. Для целей данного тренинга рассмотрим наиболее простые примеры использования двух основных функций сортировки:

``sort_index()`` - для сортировки по индексу <br>
``sort_values()`` - для сортировки по значениям какого-либо столбца

In [21]:
df.sort_index(ascending=False).head()

Unnamed: 0_level_0,Region,GDP,GDP_PPP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
United States,Americas,20936,20936
United Kingdom,Europe,2707,3019
Turkey,Asia,720,2371
Switzerland,Europe,747,616
Spain,Europe,1281,1815


In [23]:
df.sort_values(by='GDP', ascending=False).head()

Unnamed: 0_level_0,Region,GDP,GDP_PPP
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
United States,Americas,20936,20936
China,Asia,14722,24273
Japan,Asia,4975,5328
Germany,Europe,3806,4469
United Kingdom,Europe,2707,3019


### Редактирование DataFrame

Используя нотацию, рассмотренную выше, можно не только получать значения выбранных ячеек или фрагментов таблицы, но и присваивать им новые значения.

Для примера загрузим данные о продажах ритейл сети, создадим копию DataFrame и изменим в ней какое-нибудь значение.

In [24]:
df = pd.read_excel('Examples/Sales by region.xlsx', index_col=0)
df.head()

Unnamed: 0_level_0,Выручка,EBITDA,Трафик
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Архангельская,70386,4996,245
Брянская,174393,24839,581
Москва,1104732,107753,2897
Московская,1037186,152317,2444
Мурманская,459649,67101,1003


In [25]:
df2 = df.copy()
df2.loc['Брянская', 'Трафик'] = 1000
df2.head(2)

Unnamed: 0_level_0,Выручка,EBITDA,Трафик
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Архангельская,70386,4996,245
Брянская,174393,24839,1000


Для добавления новых строк в таблицу используется функция ``append()``. Ей необходимо передать объект типа ``Series`` или ``DataFrame``, с именем, которое будет назначено значению индекса в новой строке (либо без имени для числового индекса). Названия столбцов могут отличаться, от основной таблицы. В таком случае отсутствующие в основной таблице столбцы будут добавлены справа.

Объекты ``Series`` и ``DataFrame`` создаются на основе словаря, где столбцы представлены ключами словаря, а строки списком значений для каждого ключа (или единственными значением для ``Series``).

Для примера создадим строку с данными по еще одному региону и добавим ее в общую таблицу.

In [26]:
df3 = pd.Series({'Выручка' : 30000, 'EBITDA' : 2700, 'Трафик' : 100}, name='Амурская')
df3

Выручка    30000
EBITDA      2700
Трафик       100
Name: Амурская, dtype: int64

In [27]:
df.append(df3).tail() # Функция tail(n) возвращает n последних строк DataFrame (по умолчанию 5)

Unnamed: 0_level_0,Выручка,EBITDA,Трафик
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Санкт-Петербург,510183,85969,1302
Свердловская,185195,12001,619
Тверская,169848,21195,546
Челябинская,187169,20877,733
Амурская,30000,2700,100


Теперь попробуем добавить сразу несколько регионов в виде DataFrame с набором столбцов, немного отличающимся от таблицы df.

In [28]:
df4 = pd.DataFrame(
        {'Выручка' : [30000, 170000],
         'Трафик' : [100, 500], 
         'Ср.чек' : [300, 340]},
            index=['Амурская', 'Омская'])
df4

Unnamed: 0,Выручка,Трафик,Ср.чек
Амурская,30000,100,300
Омская,170000,500,340


In [29]:
df.append(df4).tail()

Unnamed: 0,Выручка,EBITDA,Трафик,Ср.чек
Свердловская,185195,12001.0,619,
Тверская,169848,21195.0,546,
Челябинская,187169,20877.0,733,
Амурская,30000,,100,300.0
Омская,170000,,500,340.0


Как видим, python добавил новый столбец "Ср.чек" в основную таблицу и заполнил недостающие данные NaN.

Удаление строк производится функцией ``drop()``, которой передаются индексы строк, которые нужно удалить.

In [30]:
df = df.append(df3)
df.tail()

Unnamed: 0_level_0,Выручка,EBITDA,Трафик
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Санкт-Петербург,510183,85969,1302
Свердловская,185195,12001,619
Тверская,169848,21195,546
Челябинская,187169,20877,733
Амурская,30000,2700,100


In [31]:
df.drop('Амурская', inplace=True)
df.tail()

Unnamed: 0_level_0,Выручка,EBITDA,Трафик
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Нижегородская,21341,2047,62
Санкт-Петербург,510183,85969,1302
Свердловская,185195,12001,619
Тверская,169848,21195,546
Челябинская,187169,20877,733


Добавление столбца к DataFrame осуществляется путем присваивания столбцу с соответствующим именем каких-либо значений.

In [32]:
df['New'] = 10
df.head()

Unnamed: 0_level_0,Выручка,EBITDA,Трафик,New
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Архангельская,70386,4996,245,10
Брянская,174393,24839,581,10
Москва,1104732,107753,2897,10
Московская,1037186,152317,2444,10
Мурманская,459649,67101,1003,10


Для удаления столбца можно использовать оператор ``del``, либо фунцию ``drop()`` по аналогии со строками. Во втором случае необходимо изменить параметр ``axis`` на 1. В pandas принято, что строковый индекс расположен по оси 0, а индекс столбцов (да, столбцы тоже являются индексом!) - по оси 1. 

In [33]:
df.drop('New', axis=1).head()

Unnamed: 0_level_0,Выручка,EBITDA,Трафик
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Архангельская,70386,4996,245
Брянская,174393,24839,581
Москва,1104732,107753,2897
Московская,1037186,152317,2444
Мурманская,459649,67101,1003


In [34]:
del df['New']
df.head()

Unnamed: 0_level_0,Выручка,EBITDA,Трафик
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Архангельская,70386,4996,245
Брянская,174393,24839,581
Москва,1104732,107753,2897
Московская,1037186,152317,2444
Мурманская,459649,67101,1003


Чаще всего значения нового столбца необходимо вычислить на основе существующих. Для этого можно использовать обычные арифметические операции в python и названия столбцов в качестве операндов. Результат выражения будет посчитан для каждой строки DataFrame и добавлен в новый столбец. Например, рассчитаем средний чек по каждому региону.

In [35]:
df['Ср.чек'] = df['Выручка'] / df['Трафик']
df['Ср.чек'] = df['Ср.чек'].astype(int) # Функция astype() приводит значение к определенному типу данных 
                                        # (в данном случае к целочисленному - int)
df.head()

Unnamed: 0_level_0,Выручка,EBITDA,Трафик,Ср.чек
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Архангельская,70386,4996,245,287
Брянская,174393,24839,581,300
Москва,1104732,107753,2897,381
Московская,1037186,152317,2444,424
Мурманская,459649,67101,1003,458


Различные преобразования можно проводить и с данными других типов, например со строками.

In [36]:
df['Регион полн.'] = df.index + ' область'
df.head(2)

Unnamed: 0_level_0,Выручка,EBITDA,Трафик,Ср.чек,Регион полн.
Регион,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Архангельская,70386,4996,245,287,Архангельская область
Брянская,174393,24839,581,300,Брянская область


In [37]:
del df['Регион полн.']

В pandas также существует ряд функций-агрегаторов для вычисления обобщающий значений на основе данных столбца DataFrame.<br>
Основные из них практически аналогичны функциям в Excel:
    
``sum()``<br>
``mean()``<br>
``count()``<br>
``min()``<br>
``max()``<br>

In [38]:
df['Ср.чек'].mean()

345.0

In [39]:
EBITDA_m = df['EBITDA'].sum() / df['Выручка'].sum()
print('Average EBITDA margin is {:.0%}'.format(EBITDA_m))

Average EBITDA margin is 13%


Также довольно полезны для анализа следующие функции, отсутствующие в Excel:

``idmxax()`` - вычисляет индекс строки с наибольшим значением в указанном столбце<br>
``dfcumsum()`` - считает кумулятивную сумму по столбцу<br>
``describe()`` - возвращает таблицу с основными статистическими параметрами по столбцу или всему DataFrame

In [40]:
df['EBITDA'].idxmax()

'Московская'

In [41]:
df['EBITDA'].cumsum()

Регион
Архангельская        4996
Брянская            29835
Москва             137588
Московская         289905
Мурманская         357006
Нижегородская      359053
Санкт-Петербург    445022
Свердловская       457023
Тверская           478218
Челябинская        499095
Name: EBITDA, dtype: int64

In [42]:
df['EBITDA'].sum()

499095

In [43]:
df.describe().astype(int)

Unnamed: 0,Выручка,EBITDA,Трафик,Ср.чек
count,10,10,10,10
mean,392008,49909,1043,345
std,389450,51066,931,65
min,21341,2047,62,255
25%,170984,14220,554,299
50%,186182,23017,676,327
75%,497549,81252,1227,388
max,1104732,152317,2897,458


Существует также ряд функций для получения описания массива нечисловых данных (хотя они также применимы и для числовых данных). Рассмотрим для примера следующий текстовый ряд. 

In [44]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [45]:
obj.unique() # уникальные значения Series

array(['c', 'a', 'd', 'b'], dtype=object)

In [46]:
obj.value_counts() # количество повторений каждого значения

c    3
a    3
b    2
d    1
dtype: int64

In [47]:
obj.describe() # описательная статистика для текстового столбца

count     9
unique    4
top       c
freq      3
dtype: object