## Введение в Pandas

### Основы

Библиотека **Pandas** основана на Numpy и применяется для обработки и анализа данных, представленных в виде больших разнородных таблиц. Как правило, реальные данные хранятся не в виде массивов чисел, а в виде структурированного набора данных (*sql, csv, json, excel, xml* и т.д.). Для обработки, отображения, преобразования и любых манипуляций с этими данными и применяется Pandas.

Библиотека Pandas основана на понятиях **Series** и **DataFrame**. Это специальные структуры данных, причем *Series* - это одномерная структура, а *DataFrame* - двумерная структура данных. Посмотрим, как ими пользоваться на примерах ниже.

Импортируем библиотеки в проект:

In [None]:
import numpy as np
import pandas as pd

%matplotlib inline

pd.__version__

## Data Series

Pandas **Series** - это одномерный индексированный массив данных, который может хранить данные любого типа (числа, строки, объекты python). В отличие однородного массива numpy, в котором представленные данные имеют один тип, в Series тип данных может быть произвольный (гетерогенный массив). Pandas Series также очень похож на словарь.

Простой способ создать Series: 
```python
s = pd.Series(data, index)
```
где *data*:
  - список, словарь, кортеж,
  - numpy массив,
  - скалярный тип данных (integer, string, ...)  

и *index* - массив индексов (может быть как числом, так и любым другим значением).

Особенности:
- Если *data* - массив numpy, то длина index должна совпадать с длиной массива данных.
- Если *index* не обозначен, то он создается автоматически в виде набора чисел: `0, ..., len(data)-1`

Создадим простейший объект pandas Series:

In [None]:
d = pd.Series([0, 1, 2, 3, 4, 5, 6, 7])
d

Знаения и индексы можно получить с помощью следующих атрибутов:

In [None]:
d.values    # get data values

In [None]:
d.index     # get data indexes

Заметим, что pandas Series, как и массивы numpy, имеют атрибут типа хранимых значений `dtype`.

Значения *Series* представляют собой массив numpy, поэтому к ним применимы любые операции и преобразования из библиотеки numpy (математические операции, функции, методы Numpy).

Series можно создать с помощью словаря `dict` или явного указания значений и индексов:

In [None]:
# Example with a dictionary:
pd.Series({'a':1, 'b':2, 'c':3, 'd':4})

In [None]:
# Create series with data and index:
d = pd.Series(data=[1, 3, 5, np.nan, 6], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
'a' in d   # Check index

In [None]:
'z' in d   # Check index

Также можно создать Series с помощью скалярной величины (константы).В таком случае элементы вектора инициализируются константным значением:

In [None]:
pd.Series(data=7, index=range(5))

### Индексация и доступ к элементам

Доступ к значениям в pandas Series производится аналогично массивам в numpy, даже если индексы представлены не как вектор целых чисел. Например:

In [None]:
d = pd.Series(data=7, index=['a', 'b', 'c', 'd', 'e'])
d[0:4]    # Get slice of pandas Series by index

Тот же самый срез можно получить по именованым значениям индексов:

In [None]:
d['a':'d']    # Get slice of pandas Series by named index

В pandas Series можно добавлять новые элементы или изменять существующие. Также доступно множественное присваивание:

In [None]:
d['f'] = 10       # Add new element
d['a':'d'] = -1   # Assign new value
d

### Фильтрация значений

Аналогично numpy, с помощью булевых масок и выражений возможна фильтрация значений в Series:

In [None]:
d[d > 0]    # Get values from pandas Series

In [None]:
d[d < 0]    # Get values from pandas Series

In [None]:
d > 0       # Get boolean mask of pandas Series

У объекта Series и его индекса есть атрибут `name`, задающий имя объекту и индексу.

In [None]:
d.name = 'num'          # data name
d.index.name = 'let'    # index name
d

Pandas позволяет динамически менять индекс Series. Для этого необходимо присвоить атрибуту index новые значения.

In [None]:
d.index = ['A', 'B', 'C', 'D', 'E', 'F']    # New index
d

Дополнительные примеры использования pandas Series:

In [None]:
# Create pandas series from list comprehension
pd.Series([i**2 for i in range(7)])

In [None]:
# Create series with numpy random array:

N = 8                 # Number of samples
np.random.seed(5)     # Random seed
pd.Series([np.random.randint(-N, N) for x in range(N)])

## DataFrame

Pandas **DataFrame** - можно представить как таблицу данных. Это многомерный массив, включающий в себя возможности и особенности привычных таблиц (Excel) и реляционных баз данных (SQL). В таблице присутствуют сроки и столбцы. **Столбцы** в DataFrame - объекты Series, **строки** которых являются их непосредственными элементами. Иными словами, DataFrame это набор Series.

In [None]:
# Create dict of two pandas Series
d = {
    'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
    'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
}
# Create pandas DataFrame
df = pd.DataFrame(d)
df

Как видно, пропущенные значения имеют тип NaN.

Доступ к именам строк с помощью атрибута `index`

In [None]:
df.index

Доступ к именам столбцов с помощью атрибута `columns`

In [None]:
df.columns

Доступ ко всем значениям таблицы с помощью атрибута `values`

In [None]:
df.values

### Добавление и удаление столбцов

Добавление столбца в таблицу и инициализация его каким-либо значением:

In [None]:
df['three'] = 0
df

Добавление столбца в таблицу. Элементы задаются из списка:

In [None]:
df['four'] = [i for i in range(4)]
df

Добавление столбца неполного размера. Столбец дополняется до необходимой длины, а элементы столбца инициализируются значением по умолчанию `NaN`:

In [None]:
df['one_tr'] = df['one'][:1]
df

Создание таблицы с помощью словаря `dict`:

In [None]:
ddict = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20, 'd': 30}]
pd.DataFrame(data=ddict, index=['one', 'two'])

Удаление столбца с помощью `del`

In [None]:
del df['four']
df

Удаление столбца с помощью метода `pop()`

In [None]:
df.pop('two')
df

Создадим простейшую таблицу на базе словаря. Для этого определим одномерные списки, которые будут выступать в роли pandas Series.

In [None]:
fpgas = ['Spartan-7', 'Artix-7', 'Kintex-7', 'Virtex-7']
options = [
    'LCells', 
    'BRAMs', 
    'DSPs',
    'Transceivers', 
    'Memory Speed', 
    'Pins'
]

lcells = [102, 215, 478, 1955]
brams = [4.2, 13.0, 34.0, 68.0]
dsps = [160, 740, 1920, 3600]
trns = [np.NaN, 16, 32, 96]
mems = [800, 1066, 1866, 1866]
pins = [400, 500, 500, 1200]

Ключи словаря будут использоваться в качестве названия колонки, а передаваемый список в качестве значений. 
Параметр опций (options) будем использовать как индекс DataFrame

In [None]:
# Set DataFrame data and index:
df_data = {options[0]: lcells, options[1]: brams}
df_index = fpgas

# Create DataFrame:
ft = pd.DataFrame(df_data, df_index)
ft

Если индекс по строкам не задан явно, то pandas задаёт целочисленный индекс от 0 до N-1, где N - количество строк в таблице

In [None]:
pd.DataFrame(df_data)

Доступ к именам столбцов и значениям по столбцам (для всей таблицы):

In [None]:
print(ft.columns, '\n')

In [None]:
print(ft.values, '\n')

Доступ к значениям колонки осуществляется путем передачи названия этой колонки (или нескольких). Каждая колонка в отельности является Series:

In [None]:
ft['BRAMs']

In [None]:
ft['LCells']

In [None]:
type(ft['BRAMs'])   # pandas Series

Добавление новой колонки в DataFrame:

In [None]:
ft[options[2]] = dsps    # Add new column
ft

In [None]:
ft[options[3]] = trns    # Add new column
ft

Добавление имени индекса строк:

In [None]:
ft.index.name = '7Series'   # Add Index name
ft

### Индексация, выбор данных


| Operation | Syntax |  Result |
| -- | -- | -- | 
| Select column |   df[col] | Series |
| Select row by label | df.loc[label] | Series |
| Select row by integer location | df.iloc[loc] | Series |
| Slice rows | df[5:10] | DataFrame |
| Select rows by boolean vector | df[bool_vec] | DataFrame |

Столбец по выбранному признаку

In [None]:
ft['DSPs']   # Return Series (column)

Строка по выбранному признаку. `.loc` - используется для доступа по строковой метке. Указывает явный индекс.

In [None]:
ft.loc['Artix-7']   # Return Series (row)

In [None]:
ft.loc['Artix-7'][['DSPs', 'BRAMs']]   # Return DSPs & BRAMs columns

Строка (обращение по целочисленному индексу). `.iloc` - используется для доступа по числовому значению (начиная от 0), то есть - неявный индекс (в таблице не отображается его числовое значение).

In [None]:
ft.iloc[1]   # Return Series (row by int location)

Срез по строкам

In [None]:
ft[0:2]   # Slice of series

Выбор по булевой маске (показать строки при выполнении условия)

In [None]:
ft[ft.DSPs > 1000]

In [None]:
ft[ft.DSPs > 1000]['DSPs']

In [None]:
ft[ft.DSPs > 1000][['DSPs', 'BRAMs']]

In [None]:
# DSP / BRAM ratio:
ft['DSPs'] / ft['BRAMs']

In [None]:
# Only for Artix-7
(ft['DSPs'] / ft['BRAMs']).loc['Artix-7']

Сбросить явно указанный **индекс** можно с помощью соответствующего метода:

In [None]:
ft.reset_index()