# Пакет `pandas`
программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки `NumPy`, являющейся инструментом более низкого уровня. 

---

**Источники:**

[pandas](https://ru.wikipedia.org/wiki/Pandas)

[Введение в pandas: анализ данных на Python](https://khashtamov.com/ru/pandas-introduction/)

[Сводные таблицы в Python](http://datareview.info/article/svodnyie-tablitsyi-v-python/)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

# для Linux
!which pip

# для Windows
# !pip -V

/home/ira/anaconda3/envs/LevelUp_DataScience/bin/pip


In [2]:
!conda install pandas -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



In [3]:
import pandas as pd

pd.__version__

'1.2.1'

## `DataFrame` и `Series`

### `Series`

`Series` представляет из себя объект, похожий на одномерный массив (`list`, например), но отличительной его чертой является **наличие ассоциированных меток**, т.н. **индексов**, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь (`dict`) в Python.

В строковом представлении объекта `Series`, индекс находится слева, а сам элемент справа.

Если индекс явно не задан, то `pandas` автоматически создаёт `RangeIndex` от `0` до `N-1`, где `N` - общее количество элементов.

In [4]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

У `Series` есть тип хранимых элементов (`dtype`), в данном случае это `int64`, т.к. переданы целочисленные значения.

У объекта `Series` есть атрибуты через которые можно получить список элементов и индексы, это `values` и `index` соответственно.

In [5]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [6]:
my_series.values

array([ 5,  6,  7,  8,  9, 10])

Доступ к элементам объекта `Series` возможны по их индексу (аналогично словарю и доступом по ключу).

In [7]:
my_series[4]

9

Индексы можно задавать явно:

In [8]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], 
                       index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2['f']

10

Делать выборку по нескольким индексам и осуществлять групповое присваивание:

In [9]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [10]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

Фильтровать `Series` различными способами, а также применять математические операции и многое другое:

In [11]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [12]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

Так как `Series` напоминает нам словарь, где ключом является индекс, а значением сам элемент, то можно сделать так:

In [13]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [14]:
'd' in my_series3

True

У объекта `Series` и его индекса есть атрибут `name`, задающий имя объекту и индексу соответственно.

In [15]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

Индекс можно поменять "на лету", присвоив список атрибуту `index` объекта `Series`.

Список с индексами по длине должен совпадать с количеством элементов в `Series`.

In [16]:
my_series3.index = ['A', 'B', 'C', 'D']
my_series3

A    5
B    6
C    7
D    8
Name: numbers, dtype: int64

### `DataFrame`

Объект `DataFrame` лучше всего представлять себе в виде обычной таблицы, так как `DataFrame` является табличной структурой данных.

В любой таблице всегда присутствуют строки и столбцы.

Столбцами в объекте `DataFrame` выступают объекты `Series`, строки которых являются их непосредственными элементами.

In [17]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], 
    'population': [17.04, 143.5, 9.5, 45.5], 
    'square': [2724902, 17125191, 207600, 603628]
})

df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


Столбец в `DataFrame` - это `Series`:

In [18]:
type(df['country'])

pandas.core.series.Series

In [19]:
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

Объект `DataFrame` имеет 2 индекса: по строкам и по столбцам.

Если индекс по строкам явно не задан (например, колонка по которой нужно их строить), то `pandas` задаёт целочисленный индекс `RangeIndex` от `0` до `N-1`, где `N` это количество строк в таблице.

In [20]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [21]:
df.index

RangeIndex(start=0, stop=4, step=1)

Индекс по строкам можно задать разными способами, например, при формировании самого объекта `DataFrame` или "на лету":

In [22]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], 
    'population': [17.04, 143.5, 9.5, 45.5], 
    'square': [2724902, 17125191, 207600, 603628]
},  index=['kz', 'ru', 'by', 'ua'])

df

Unnamed: 0,country,population,square
kz,Kazakhstan,17.04,2724902
ru,Russia,143.5,17125191
by,Belarus,9.5,207600
ua,Ukraine,45.5,603628


In [23]:
df.index = ['KZ', 'RU', 'BY', 'UA']

# индексу можно задать имя
df.index.name = 'Country Code'

df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Объекты `Series` из `DataFrame` будут иметь те же индексы, что и объект `DataFrame`:

In [24]:
df['country']

Country Code
KZ    Kazakhstan
RU        Russia
BY       Belarus
UA       Ukraine
Name: country, dtype: object

Доступ к строкам по индексу возможен несколькими способами:
- `.loc` - используется для доступа по строковой метке
- `.iloc` - используется для доступа по числовому значению (начиная от 0)

In [25]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [26]:
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

Можно делать выборку по индексу и интересующим колонкам.

`.loc` в квадратных скобках принимает 2 аргумента: интересующий индекс, в том числе поддерживается слайсинг и колонки.

In [27]:
df.loc[['KZ', 'RU'], 'population']

Country Code
KZ     17.04
RU    143.50
Name: population, dtype: float64

In [28]:
df.loc['KZ':'BY', :]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600


Фильтровать `DataFrame` с помощью т.н. булевых массивов:

In [29]:
df[df.population > 10]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628


In [30]:
df[df.population > 10][['country', 'square']]

Unnamed: 0_level_0,country,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1
KZ,Kazakhstan,2724902
RU,Russia,17125191
UA,Ukraine,603628


К столбцам можно обращаться, используя атрибут или нотацию словарей Python.

In [31]:
df.population

Country Code
KZ     17.04
RU    143.50
BY      9.50
UA     45.50
Name: population, dtype: float64

In [32]:
df['population']

Country Code
KZ     17.04
RU    143.50
BY      9.50
UA     45.50
Name: population, dtype: float64

Можно сбросить индексы:

In [33]:
df.reset_index()

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


`pandas` при операциях над `DataFrame`, по умолчанию возвращает новый объект `ataFrame`.

Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:

In [34]:
df['density'] = df['population'] / df['square'] * 1000000

df

Unnamed: 0_level_0,country,population,square,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


Удаление столбца по имени:

In [35]:
# df = df.drop(['density'], axis='columns')
# ИЛИ
df.drop(['density'], axis='columns', inplace=True)
# ИЛИ
# del df['density']

df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Переименовывать столбцы нужно через метод `rename`:

In [36]:
df = df.rename(columns={'Country Code': 'country_code'})

df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


### Чтение и запись данных

`pandas` поддерживает все самые популярные форматы хранения данных. 

Чтение данных осуществляется методом `pandas.read_<type>`, а запись `DataFrame.to_<type>`.

*У этих методов есть дополнительные параметры, которые можно посмотреть в [официальной документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

In [37]:
pandas_io_tools_html = 'https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html'
df_info_list = pd.read_html(pandas_io_tools_html)

df_info_list

[   Format Type       Data Description          Reader        Writer
 0         text                    CSV        read_csv        to_csv
 1         text  Fixed-Width Text File        read_fwf           NaN
 2         text                   JSON       read_json       to_json
 3         text                   HTML       read_html       to_html
 4         text        Local clipboard  read_clipboard  to_clipboard
 5       binary               MS Excel      read_excel      to_excel
 6       binary           OpenDocument      read_excel           NaN
 7       binary            HDF5 Format        read_hdf        to_hdf
 8       binary         Feather Format    read_feather    to_feather
 9       binary         Parquet Format    read_parquet    to_parquet
 10      binary             ORC Format        read_orc           NaN
 11      binary                Msgpack    read_msgpack    to_msgpack
 12      binary                  Stata      read_stata      to_stata
 13      binary                   

In [38]:
df_info_list[0]

Unnamed: 0,Format Type,Data Description,Reader,Writer
0,text,CSV,read_csv,to_csv
1,text,Fixed-Width Text File,read_fwf,
2,text,JSON,read_json,to_json
3,text,HTML,read_html,to_html
4,text,Local clipboard,read_clipboard,to_clipboard
5,binary,MS Excel,read_excel,to_excel
6,binary,OpenDocument,read_excel,
7,binary,HDF5 Format,read_hdf,to_hdf
8,binary,Feather Format,read_feather,to_feather
9,binary,Parquet Format,read_parquet,to_parquet


Чаще всего приходится работать с `csv`-файлами. Например, чтобы сохранить наш `DataFrame` со странами, достаточно написать:

In [39]:
df.to_csv('countries_tmp.csv')

Считать данные из `csv`-файла и превратить в `DataFrame` можно функцией `read_csv`.

In [40]:
df_tmp = pd.read_csv('countries_tmp.csv')

df_tmp

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


### Группировка и агрегирование в `pandas`

За группировку отвечает метод `pandas.groupby`.

Для примера возьмем [данные (data set) Титаника](https://www.kaggle.com/c/titanic).

In [41]:
titanic_df = pd.read_csv('./../../data/titanic.csv')

# показать все колонки
pd.options.display.max_columns = None

titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [42]:
# показать первые 5 строк
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [43]:
# подсчитать, сколько женщин и мужчин выжило, а сколько нет
titanic_df.groupby(['Sex', 'Survived'])['PassengerId'].count()

Sex     Survived
female  0            81
        1           233
male    0           468
        1           109
Name: PassengerId, dtype: int64

In [44]:
# анализ выживания в разрезе класса кабины
titanic_df.groupby(['Pclass', 'Survived'])['PassengerId'].count()

Pclass  Survived
1       0            80
        1           136
2       0            97
        1            87
3       0           372
        1           119
Name: PassengerId, dtype: int64

In [45]:
# процент выживших для каждого пола
titanic_df.groupby('Sex')[['Survived']].mean()

Unnamed: 0_level_0,Survived
Sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


Грубо говоря, из каждых четырех женщин, находившихся на борту, выжили три, в то время как из каждых пяти мужчин выжил только один!

In [46]:
# взаимосвязь между показателем выживаемости, полом и классом
titanic_df.groupby(['Sex', 'Pclass'])['Survived'].aggregate('mean').unstack()

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [47]:
# если без unstack()
titanic_df.groupby(['Sex', 'Pclass'])['Survived'].aggregate('mean')

Sex     Pclass
female  1         0.968085
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: Survived, dtype: float64

Хотя каждый шаг этой последовательности вполне понятен, тем не менее длинную строку кода достаточно трудно читать и использовать.

Подобные операции широко распространены, в связи с чем библиотека `pandas` имеет в своем составе специальный метод `pivot_table,` лаконично реализующий данный тип многомерной агрегации.

### Сводные таблицы

**Сводная таблица (англ. Pivot table)** — инструмент обработки данных, служащий для их обобщения.


*Термин "сводная таблица" может быть знаком из `Microsoft Excel` или любым иным, предназначенным для обработки и анализа данных. 


В `pandas` сводные таблицы строятся через метод `DataFrame.pivot_table`.

In [48]:
# взаимосвязь между показателем выживаемости, полом и классом
titanic_df.pivot_table(values='Survived', 
                       index='Sex', 
                       columns='Pclass')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [49]:
# посчитать сколько всего женщин и мужчин было в конкретном классе корабля
pvt = titanic_df.pivot_table(index=['Sex'], 
                             columns=['Pclass'], 
                             values='Name', 
                             aggfunc='count')

pvt

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,94,76,144
male,122,108,347


In [50]:
# качестве индекса будет пол человека, 
# колонками станут значения из Pclass, 
# функцией агрегирования будет count по колонке Name.
pvt.loc['female', [1, 2, 3]]

Pclass
1     94
2     76
3    144
Name: female, dtype: int64

### Многоуровневые сводные таблицы

Точно так же, как при использовании `groupby`, группирование в сводной таблице может иметь несколько уровней и задаваться посредством различных параметров.

In [51]:
# разделить возраст на интервалы
age = pd.cut(titanic_df['Age'], [0, 18, 80])

age

0      (18.0, 80.0]
1      (18.0, 80.0]
2      (18.0, 80.0]
3      (18.0, 80.0]
4      (18.0, 80.0]
           ...     
886    (18.0, 80.0]
887    (18.0, 80.0]
888             NaN
889    (18.0, 80.0]
890    (18.0, 80.0]
Name: Age, Length: 891, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 80]]

In [52]:
# взаимосвязь между 
# показателем выживаемости, полом, классом и возрастом

titanic_df.pivot_table(values='Survived', 
                       index=['Sex', age], 
                       columns='Pclass')

Unnamed: 0_level_0,Pclass,1,2,3
Sex,Age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


In [53]:
# добавить информацию о стоимости билета (квантили):
fare = pd.qcut(titanic_df['Fare'], 2)

fare

0       (-0.001, 14.454]
1      (14.454, 512.329]
2       (-0.001, 14.454]
3      (14.454, 512.329]
4       (-0.001, 14.454]
             ...        
886     (-0.001, 14.454]
887    (14.454, 512.329]
888    (14.454, 512.329]
889    (14.454, 512.329]
890     (-0.001, 14.454]
Name: Fare, Length: 891, dtype: category
Categories (2, interval[float64]): [(-0.001, 14.454] < (14.454, 512.329]]

In [54]:
titanic_df.pivot_table(values='Survived', 
                       index=['Sex', age], 
                       columns=[fare, 'Pclass'])

Unnamed: 0_level_0,Fare,"(-0.001, 14.454]","(-0.001, 14.454]","(-0.001, 14.454]","(14.454, 512.329]","(14.454, 512.329]","(14.454, 512.329]"
Unnamed: 0_level_1,Pclass,1,2,3,1,2,3
Sex,Age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
female,"(0, 18]",,1.0,0.714286,0.909091,1.0,0.318182
female,"(18, 80]",,0.88,0.444444,0.972973,0.914286,0.391304
male,"(0, 18]",,0.0,0.26087,0.8,0.818182,0.178571
male,"(18, 80]",0.0,0.098039,0.125,0.391304,0.030303,0.192308


В результате получили четырехмерную агрегацию, демонстрирующую взаимосвязь между соответствующими величинами.

### Дополнительные параметры сводной таблицы

Полная [сигнатура метода `pivot_table`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html) объекта `DataFrame` является следующей:

```
pandas.pivot_table(values=None, 
                   index=None, 
                   columns=None, 
                   aggfunc='mean', 
                   fill_value=None, 
                   margins=False, 
                   dropna=True, 
                   margins_name='All', 
                   observed=False)
```


Параметры `fill_value` и `dropna` задают способ обработки отсутствующих данных. 

Параметр `aggfunc` задает тип агрегации. По умолчанию его значение равно `mean`. Как и в случае `groupby`, тип агрегации можно задать либо с помощью предопределенной строки (например, `sum`, `mean`, `count`, `min`, `max` и др.), либо посредством функции, реализующей агрегацию (например, `np.sum()`, `min()`, `sum()` и др.).
Кроме того, параметр `aggfunc` может быть задан в виде словаря, отображающего столбцы на любые из желаемых значений, перечисленных выше:

In [55]:
titanic_df.pivot_table(index='Sex', 
                       columns='Pclass', 
                       aggfunc={'Survived': sum, 
                                'Fare': 'mean'})

Unnamed: 0_level_0,Fare,Fare,Fare,Survived,Survived,Survived
Pclass,1,2,3,1,2,3
Sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47
