# Введение в pandas
Как мы видели до этого NumPy позволяет эффективно хранить многомерные массивы и выполнять векторизованные операции над ними. Это необходимо для работы различных научных библиотек и методов машинного обучения. Однако данные в реальном мире не хранятся в виде многомерных массивов чисел, готовых для подачи в функции библиотек машинного обучения. Обычно данные могут хранится в разрозненных файлах (например, `csv`, `json`, `excel`) или часто в реляционных СУБД. Перед тем, как начать создавать обучающие модели необходимо выгрузить, объединить в единую структуру, провести очистку, анализ, предобработку данных. Для этого существует pandas.

Pandas - библиотека для анализа и манипуляции данных. Он работает поверх NumPy включая в себя все его преимущества и дополняя обширной функциональностью. Pandas позволяет загружать данные из [различных источников](https://pandas.pydata.org/pandas-docs/stable/io.html) (`csv`, `json`, `excel`, `SQL`), [объединять различные данные](https://pandas.pydata.org/pandas-docs/stable/merging.html) в единую структуру, включает в себя готовые функции для вычисления всевозможных [статистических показателей](https://pandas.pydata.org/pandas-docs/stable/computation.html), позволяет работать над [иерархической структурой](https://pandas.pydata.org/pandas-docs/stable/advanced.html) данных, включает в себя очень мощный механизм [группировки и трансформации](https://pandas.pydata.org/pandas-docs/stable/groupby.html) данных.

Начнем, как обычно, с импорта библиотеки и проверим версию pandas

In [1]:
import numpy as np
import pandas
pandas.__version__

'0.20.3'

Для удобства при импорте pandas указывается алиас pd

In [2]:
import pandas as pd

Как обычно вы можете получить документацию по модулю с помощью знака `?` после названия

In [3]:
pd?

Основные струтуры данных в pandas это `Series` и `DataFrame`. `Series` - это одномерная, а `DataFrame` - двухмерная структура данных. Начнем с `Series`.

## Series - одномерная структура данных
Тип `Series` хранит одномерный массив данных и позволяет его индексировать различным образом. Создать `Series` объект можно разными способами. Начнем с обычного массива

In [4]:
data = pd.Series([0, 1, 2, 3, 4])
data

0    0
1    1
2    2
3    3
4    4
dtype: int64

Значения `Series` хранятся в обычном `ndarray`. Их можно получить с помощью аттрибуда `values`

In [5]:
data.values

array([0, 1, 2, 3, 4], dtype=int64)

Индекс объекта хранится в отдельном атрибуте `index`

In [6]:
data.index

RangeIndex(start=0, stop=5, step=1)

`Series` поддерживает индексацию в стиле NumPy

In [7]:
data[1:-2]

1    1
2    2
dtype: int64

Однако индексы `Series` могут быть другого типа

In [8]:
data = pd.Series(range(4),
                 index=['a', 'b', 'c', 'd'])
data

a    0
b    1
c    2
d    3
dtype: int32

Эти индексы можно использовать точно также, как и численные индексы для доступа к данным

In [9]:
data['b':'d']

b    1
c    2
d    3
dtype: int32

In [10]:
data[['a', 'c']]

a    0
c    2
dtype: int32

При этом индексация по номеру также работает

In [11]:
data[-1]

3

`Series` может быть создан из объекта `dict`

In [12]:
data = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4})
data

a    1
b    2
c    3
d    4
dtype: int64

In [13]:
data[:'c']

a    1
b    2
c    3
dtype: int64

## DataFrame - двухмерная структура данных
`DataFrame` основная структура, используемая в pandas. `DataFrame` включает в себя возможности электронных таблиц (таких как Excel) и реляционных баз данных. 

Для работы с `DataFrame` возьмем некоторые демографические и экономические показатели несколькоих стран

In [14]:
countries = ['Afghanistan', 'Kazakhstan', 'Kyrgyzstan', 'Tajikistan', 'Turkmenistan', 'Uzbekistan']
area = [652864, 2724900, 199951, 143100, 491210, 448978]
population = [34656032, 17987736, 6019480, 8734951, 5662544, 32979000]
gdp = [21, 156.189, 7.061, 27.802, 42.355, 68.324]
gini = [29, 26.4, 27.4, 30.8, 40.8, 36.7]

`DataFrame` может быть создан из `dict` объекта. При этом ключи будут использоваться в качестве названия колонки, а список значений в качестве значений колонки. В качестве индексов будем использовать название стран

In [15]:
central_asia = pd.DataFrame(data={'area': area, 
                                  'population': population}, 
                            index=countries)
central_asia

Unnamed: 0,area,population
Afghanistan,652864,34656032
Kazakhstan,2724900,17987736
Kyrgyzstan,199951,6019480
Tajikistan,143100,8734951
Turkmenistan,491210,5662544
Uzbekistan,448978,32979000


Как и в `Series` значения в `DataFrame` хранятся в виде `ndarray` и их можно получить с помощью атрибута `values`

In [16]:
central_asia.values

array([[  652864, 34656032],
       [ 2724900, 17987736],
       [  199951,  6019480],
       [  143100,  8734951],
       [  491210,  5662544],
       [  448978, 32979000]], dtype=int64)

Можно получить список индексов и колонок с помощью атрибутов `index` и `columns` соответсвенно

In [17]:
print(central_asia.index)
print(central_asia.columns)

Index(['Afghanistan', 'Kazakhstan', 'Kyrgyzstan', 'Tajikistan', 'Turkmenistan',
       'Uzbekistan'],
      dtype='object')
Index(['area', 'population'], dtype='object')


Можно получить значения колонки целиком использовав название колонки

In [18]:
central_asia['population']

Afghanistan     34656032
Kazakhstan      17987736
Kyrgyzstan       6019480
Tajikistan       8734951
Turkmenistan     5662544
Uzbekistan      32979000
Name: population, dtype: int64

Каждая колонка в отельности является `Series`

In [19]:
type(central_asia['population'])

pandas.core.series.Series

Мы можем добавить новую колонку в `DataFrame` следующим образом

In [20]:
central_asia['gdp'] = gdp
central_asia

Unnamed: 0,area,population,gdp
Afghanistan,652864,34656032,21.0
Kazakhstan,2724900,17987736,156.189
Kyrgyzstan,199951,6019480,7.061
Tajikistan,143100,8734951,27.802
Turkmenistan,491210,5662544,42.355
Uzbekistan,448978,32979000,68.324


Или если есть готовый `Series` объект, то можно использовать его. Обратите внимание, что при этом `Series` должен использовать такой же индекс, как и у `DataFrame`

In [21]:
gini_series = pd.Series(gini, index=countries)
central_asia['gini'] = gini_series
central_asia

Unnamed: 0,area,population,gdp,gini
Afghanistan,652864,34656032,21.0,29.0
Kazakhstan,2724900,17987736,156.189,26.4
Kyrgyzstan,199951,6019480,7.061,27.4
Tajikistan,143100,8734951,27.802,30.8
Turkmenistan,491210,5662544,42.355,40.8
Uzbekistan,448978,32979000,68.324,36.7


Так как pandas создан поверх NumPy он поддерживает векторизованные вычисления. Например, мы можем вычислить ВВП на душу населения следующим образом

In [22]:
central_asia['gdp_per_capita'] = 1e9 * central_asia['gdp'] / central_asia['population']
central_asia

Unnamed: 0,area,population,gdp,gini,gdp_per_capita
Afghanistan,652864,34656032,21.0,29.0,605.955119
Kazakhstan,2724900,17987736,156.189,26.4,8683.08274
Kyrgyzstan,199951,6019480,7.061,27.4,1173.024912
Tajikistan,143100,8734951,27.802,30.8,3182.845559
Turkmenistan,491210,5662544,42.355,40.8,7479.853578
Uzbekistan,448978,32979000,68.324,36.7,2071.742624


## Выбор данных и индексация
Как и NumPy pandas поддерживает булевые маски для выбора подмножества данных соответсвующих определенному условию. Например, можно выбрать страны, у которых коэффициент Джини выше определнного уровня

In [23]:
gini_series[gini_series > 30]

Tajikistan      30.8
Turkmenistan    40.8
Uzbekistan      36.7
dtype: float64

То же самое можно сделать для `DataFrame`

In [24]:
central_asia[central_asia['gini'] > 30]

Unnamed: 0,area,population,gdp,gini,gdp_per_capita
Tajikistan,143100,8734951,27.802,30.8,3182.845559
Turkmenistan,491210,5662544,42.355,40.8,7479.853578
Uzbekistan,448978,32979000,68.324,36.7,2071.742624


Или более сложное условие

In [25]:
central_asia['population_density'] = central_asia['population'] / central_asia['area']
central_asia[(central_asia['gdp_per_capita'] > 2000) & (central_asia['population_density'] > 50)]

Unnamed: 0,area,population,gdp,gini,gdp_per_capita,population_density
Tajikistan,143100,8734951,27.802,30.8,3182.845559,61.040887
Uzbekistan,448978,32979000,68.324,36.7,2071.742624,73.453488


При выборе данных в `DataFrame` можно указать список колонок, чтобы оставить только подмножество колонок

In [26]:
central_asia[['area', 'population']]

Unnamed: 0,area,population
Afghanistan,652864,34656032
Kazakhstan,2724900,17987736
Kyrgyzstan,199951,6019480
Tajikistan,143100,8734951
Turkmenistan,491210,5662544
Uzbekistan,448978,32979000


### Атрибуты `loc` и `iloc`
Как мы видели до этого для доступа к данным pandas позволяет использовать как индексы строк, так и срезы (slices). Однако если в качестве индексов используются целые числа, то это может привести к путанице. Рассмотрим следующий пример, в котором в качестве индексов используются нечетные числа

In [27]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data[[1, 3]]

1    a
3    b
dtype: object

Однако, если выбрать срез `1:3`, то получится следующий результат

In [28]:
data[1:3]

3    b
5    c
dtype: object

Чтобы избежать этой путаницы в pandas есть специальные атрибуты `loc` и `iloc` для явного указания индексов. 

Атрибут `loc` всегда использует явный индекс

In [29]:
data.loc[1:3]

1    a
3    b
dtype: object

Атрибут `iloc` всегда использует номер строки, который также называется неявным индексом

In [30]:
data.iloc[1:3]

3    b
5    c
dtype: object

Атрибуты `loc` и `iloc` также есть в `DataFrame`

In [32]:
central_asia.loc[['Kazakhstan', 'Uzbekistan']]

Unnamed: 0,area,population,gdp,gini,gdp_per_capita,population_density
Kazakhstan,2724900,17987736,156.189,26.4,8683.08274,6.601246
Uzbekistan,448978,32979000,68.324,36.7,2071.742624,73.453488


In [35]:
central_asia.loc['Kyrgyzstan' : 'Turkmenistan']

Unnamed: 0,area,population,gdp,gini,gdp_per_capita,population_density
Kyrgyzstan,199951,6019480,7.061,27.4,1173.024912,30.104776
Tajikistan,143100,8734951,27.802,30.8,3182.845559,61.040887
Turkmenistan,491210,5662544,42.355,40.8,7479.853578,11.527746


In [36]:
central_asia.iloc[[1, 5]]

Unnamed: 0,area,population,gdp,gini,gdp_per_capita,population_density
Kazakhstan,2724900,17987736,156.189,26.4,8683.08274,6.601246
Uzbekistan,448978,32979000,68.324,36.7,2071.742624,73.453488


In [39]:
central_asia.iloc[2 : 5]

Unnamed: 0,area,population,gdp,gini,gdp_per_capita,population_density
Kyrgyzstan,199951,6019480,7.061,27.4,1173.024912,30.104776
Tajikistan,143100,8734951,27.802,30.8,3182.845559,61.040887
Turkmenistan,491210,5662544,42.355,40.8,7479.853578,11.527746


В атрибуте `loc` можно указать колонки, которые нужно вытащить

In [40]:
central_asia.loc[['Kazakhstan', 'Uzbekistan'], ['population', 'gdp_per_capita']]

Unnamed: 0,population,gdp_per_capita
Kazakhstan,17987736,8683.08274
Uzbekistan,32979000,2071.742624


Колонки также можно указывать в виде срезов

In [41]:
central_asia.loc['Kazakhstan': , 'gdp': ]

Unnamed: 0,gdp,gini,gdp_per_capita,population_density
Kazakhstan,156.189,26.4,8683.08274,6.601246
Kyrgyzstan,7.061,27.4,1173.024912,30.104776
Tajikistan,27.802,30.8,3182.845559,61.040887
Turkmenistan,42.355,40.8,7479.853578,11.527746
Uzbekistan,68.324,36.7,2071.742624,73.453488


То же сакмое можно сделать с помощью `iloc`, в котором вместо названий указываются номера колонок

In [43]:
central_asia.iloc[1:, 2:]

Unnamed: 0,gdp,gini,gdp_per_capita,population_density
Kazakhstan,156.189,26.4,8683.08274,6.601246
Kyrgyzstan,7.061,27.4,1173.024912,30.104776
Tajikistan,27.802,30.8,3182.845559,61.040887
Turkmenistan,42.355,40.8,7479.853578,11.527746
Uzbekistan,68.324,36.7,2071.742624,73.453488
