## Введение в Pandas

### Основы

Библиотека **Pandas** основана на Numpy и применяется для обработки и анализа данных. Как правило, реальные данные хранятся не в виде массивов чисел, а в виде структурированного набора данных (*sql, csv, json, excel, xml* и т.д.). Для обработки, отображения, преобразования и любых манипуляций с этими данными применяется Pandas.

Pandas основана на **Series** и **DataFrame**. Это специальные структуры данных, причем *Series* - это одномерная структура, а *DataFrame* - двухмерная структура данных.

Импортируем библиотеки в проект:

In [1]:
import numpy as np
import pandas as pd

%matplotlib inline

pd.__version__

'0.24.2'

## Data Series

Pandas **Series** - это одномерный индексированный массив данных, который может хранить данные любого типа (числа, строки, объекты python). В отличие однородного массива numpy, в котором представленные данные имеют один тип, в Series тип данных может быть произвольный (гетерогенный массив). Pandas Series также очень похож на словарь.

Простой способ создать Series: 
```python
s = pd.Series(data, index)
```
где *data*:
  - список, словарь, кортеж,
  - Numpy массив,
  - скалярный тип данных (integer, string, ...)  

и *index* - массив индексов (может быть как числом, так и любым другим значением).

Особенности:
- Если *data* - массив numpy, то длина index должна совпадать с длиной массива данных.
- Если *index* не обозначен, то он создается автоматически в виде набора чисел: `0, ..., len(data)-1`

Создадим простейший объект pandas Series:

In [2]:
d = pd.Series([0, 1, 2, 3, 4, 5, 6, 7])
d

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
dtype: int64

Знаения и индексы можно получить с помощью следующих атрибутов:

In [3]:
d.values    # get data values

array([0, 1, 2, 3, 4, 5, 6, 7], dtype=int64)

In [4]:
d.index     # get data indexes

RangeIndex(start=0, stop=8, step=1)

Заметим, что pandas Series, как и массивы numpy, имеют атрибут типа хранимых значений `dtype`.

Значения *Series* представляют собой массив numpy, поэтому к ним применимы любые операции и преобразования из библиотеки numpy (математические операции, функции, методы Numpy).

Series можно создать с помощью словаря `dict` или явного указания значений и индексов:

In [5]:
# Example with a dictionary:
pd.Series({'a':1, 'b':2, 'c':3, 'd':4})

a    1
b    2
c    3
d    4
dtype: int64

In [6]:
# Create series with data and index:
d = pd.Series(data=[1, 3, 5, np.nan, 6], index=['a', 'b', 'c', 'd', 'e'])

In [7]:
'a' in d   # Check index

True

In [8]:
'z' in d   # Check index

False

Также можно создать Series с помощью скалярной величины (константы).В таком случае элементы вектора инициализируются константным значением:

In [9]:
pd.Series(data=7, index=range(5))

0    7
1    7
2    7
3    7
4    7
dtype: int64

#### Индексация и доступ к элементам

Доступ к значениям в pandas Series производится аналогично массивам в numpy, даже если индексы представлены не как вектор целых чисел. Например:

In [10]:
d = pd.Series(data=7, index=['a', 'b', 'c', 'd', 'e'])
d[0:4]    # Get slice of pandas Series by index

a    7
b    7
c    7
d    7
dtype: int64

Тот же самый срез можно получить по истиным значениям индексов:

In [11]:
d['a':'d']    # Get slice of pandas Series by named index

a    7
b    7
c    7
d    7
dtype: int64

В pandas Series можно добавлять новые элементы или изменять существующие. Также доступно множественное присваивание:

In [12]:
d['f'] = 10       # Add new element
d['a':'d'] = -1   # Assign new value
d

a    -1
b    -1
c    -1
d    -1
e     7
f    10
dtype: int64

#### Фильтрация значений

Аналогично numpy, с помощью булевых масок и выражений возможна фильтрация значений в Series:

In [13]:
d[d > 0]    # Get values from pandas Series

e     7
f    10
dtype: int64

In [14]:
d[d < 0]    # Get values from pandas Series

a   -1
b   -1
c   -1
d   -1
dtype: int64

In [15]:
d > 0       # Get boolean mask of pandas Series

a    False
b    False
c    False
d    False
e     True
f     True
dtype: bool

У объекта Series и его индекса есть атрибут `name`, задающий имя объекту и индексу.

In [16]:
d.name = 'num'          # data name
d.index.name = 'let'    # index name
d

let
a    -1
b    -1
c    -1
d    -1
e     7
f    10
Name: num, dtype: int64

Pandas позволяет динамически менять индекс Series. Для этого необходимо присвоить атрибуту index новые значения.

In [17]:
d.index = ['A', 'B', 'C', 'D', 'E', 'F']    # New index
d

A    -1
B    -1
C    -1
D    -1
E     7
F    10
Name: num, dtype: int64

Дополнительные примеры использования pandas Series:

In [18]:
# Create pandas series from list comprehension
pd.Series([i**2 for i in range(7)])

0     0
1     1
2     4
3     9
4    16
5    25
6    36
dtype: int64

In [19]:
# Create series with numpy random array:

N = 8                 # Number of samples
np.random.seed(5)     # Random seed
pd.Series([np.random.randint(-N, N) for x in range(N)])

0   -5
1    6
2    7
3    5
4   -2
5   -2
6   -8
7    1
dtype: int64

/ TODO: Dataframe