## Введение в Pandas

### Основы

Библиотека **Pandas** основана на Numpy и применяется для обработки и анализа данных, представленных в виде больших разнородных таблиц. Как правило, реальные данные хранятся не в виде массивов чисел, а в виде структурированного набора данных (*sql, csv, json, excel, xml* и т.д.). Для обработки, отображения, преобразования и любых манипуляций с этими данными и применяется Pandas.

Библиотека Pandas основана на понятиях **Series** и **DataFrame**. Это специальные структуры данных, причем *Series* - это одномерная структура, а *DataFrame* - двумерная структура данных. Посмотрим, как ими пользоваться на примерах ниже.

Импортируем библиотеки в проект:

In [1]:
import numpy as np
import pandas as pd

%matplotlib inline

pd.__version__

'0.24.2'

## Data Series

Pandas **Series** - это одномерный индексированный массив данных, который может хранить данные любого типа (числа, строки, объекты python). В отличие однородного массива numpy, в котором представленные данные имеют один тип, в Series тип данных может быть произвольный (гетерогенный массив). Pandas Series также очень похож на словарь.

Простой способ создать Series: 
```python
s = pd.Series(data, index)
```
где *data*:
  - список, словарь, кортеж,
  - numpy массив,
  - скалярный тип данных (integer, string, ...)  

и *index* - массив индексов (может быть как числом, так и любым другим значением).

Особенности:
- Если *data* - массив numpy, то длина index должна совпадать с длиной массива данных.
- Если *index* не обозначен, то он создается автоматически в виде набора чисел: `0, ..., len(data)-1`

Создадим простейший объект pandas Series:

In [2]:
d = pd.Series([0, 1, 2, 3, 4, 5, 6, 7])
d

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
dtype: int64

Знаения и индексы можно получить с помощью следующих атрибутов:

In [3]:
d.values    # get data values

array([0, 1, 2, 3, 4, 5, 6, 7], dtype=int64)

In [4]:
d.index     # get data indexes

RangeIndex(start=0, stop=8, step=1)

Заметим, что pandas Series, как и массивы numpy, имеют атрибут типа хранимых значений `dtype`.

Значения *Series* представляют собой массив numpy, поэтому к ним применимы любые операции и преобразования из библиотеки numpy (математические операции, функции, методы Numpy).

Series можно создать с помощью словаря `dict` или явного указания значений и индексов:

In [5]:
# Example with a dictionary:
pd.Series({'a':1, 'b':2, 'c':3, 'd':4})

a    1
b    2
c    3
d    4
dtype: int64

In [6]:
# Create series with data and index:
d = pd.Series(data=[1, 3, 5, np.nan, 6], index=['a', 'b', 'c', 'd', 'e'])

In [7]:
'a' in d   # Check index

True

In [8]:
'z' in d   # Check index

False

Также можно создать Series с помощью скалярной величины (константы).В таком случае элементы вектора инициализируются константным значением:

In [9]:
pd.Series(data=7, index=range(5))

0    7
1    7
2    7
3    7
4    7
dtype: int64

### Индексация и доступ к элементам

Доступ к значениям в pandas Series производится аналогично массивам в numpy, даже если индексы представлены не как вектор целых чисел. Например:

In [10]:
d = pd.Series(data=7, index=['a', 'b', 'c', 'd', 'e'])
d[0:4]    # Get slice of pandas Series by index

a    7
b    7
c    7
d    7
dtype: int64

Тот же самый срез можно получить по именованым значениям индексов:

In [11]:
d['a':'d']    # Get slice of pandas Series by named index

a    7
b    7
c    7
d    7
dtype: int64

В pandas Series можно добавлять новые элементы или изменять существующие. Также доступно множественное присваивание:

In [12]:
d['f'] = 10       # Add new element
d['a':'d'] = -1   # Assign new value
d

a    -1
b    -1
c    -1
d    -1
e     7
f    10
dtype: int64

### Фильтрация значений

Аналогично numpy, с помощью булевых масок и выражений возможна фильтрация значений в Series:

In [13]:
d[d > 0]    # Get values from pandas Series

e     7
f    10
dtype: int64

In [14]:
d[d < 0]    # Get values from pandas Series

a   -1
b   -1
c   -1
d   -1
dtype: int64

In [15]:
d > 0       # Get boolean mask of pandas Series

a    False
b    False
c    False
d    False
e     True
f     True
dtype: bool

У объекта Series и его индекса есть атрибут `name`, задающий имя объекту и индексу.

In [16]:
d.name = 'num'          # data name
d.index.name = 'let'    # index name
d

let
a    -1
b    -1
c    -1
d    -1
e     7
f    10
Name: num, dtype: int64

Pandas позволяет динамически менять индекс Series. Для этого необходимо присвоить атрибуту index новые значения.

In [17]:
d.index = ['A', 'B', 'C', 'D', 'E', 'F']    # New index
d

A    -1
B    -1
C    -1
D    -1
E     7
F    10
Name: num, dtype: int64

Дополнительные примеры использования pandas Series:

In [18]:
# Create pandas series from list comprehension
pd.Series([i**2 for i in range(7)])

0     0
1     1
2     4
3     9
4    16
5    25
6    36
dtype: int64

In [19]:
# Create series with numpy random array:

N = 8                 # Number of samples
np.random.seed(5)     # Random seed
pd.Series([np.random.randint(-N, N) for x in range(N)])

0   -5
1    6
2    7
3    5
4   -2
5   -2
6   -8
7    1
dtype: int64

## DataFrame

Pandas **DataFrame** - можно представить как таблицу данных. Это многомерный массив, включающий в себя возможности и особенности привычных таблиц (Excel) и реляционных баз данных (SQL). В таблице присутствуют сроки и столбцы. **Столбцы** в DataFrame - объекты Series, **строки** которых являются их непосредственными элементами. Иными словами, DataFrame это набор Series.

In [20]:
# Create dict of two pandas Series
d = {
    'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
    'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
}
# Create pandas DataFrame
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


Как видно, пропущенные значения имеют тип NaN.

Доступ к именам строк с помощью атрибута `index`

In [21]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Доступ к именам столбцов с помощью атрибута `columns`

In [22]:
df.columns

Index(['one', 'two'], dtype='object')

Доступ ко всем значениям таблицы с помощью атрибута `values`

In [23]:
df.values

array([[ 1.,  1.],
       [ 2.,  2.],
       [ 3.,  3.],
       [nan,  4.]])

### Добавление и удаление столбцов

Добавление столбца в таблицу и инициализация его каким-либо значением:

In [24]:
df['three'] = 0
df

Unnamed: 0,one,two,three
a,1.0,1,0
b,2.0,2,0
c,3.0,3,0
d,,4,0


Добавление столбца в таблицу. Элементы задаются из списка:

In [25]:
df['four'] = [i for i in range(4)]
df

Unnamed: 0,one,two,three,four
a,1.0,1,0,0
b,2.0,2,0,1
c,3.0,3,0,2
d,,4,0,3


Добавление столбца неполного размера. Столбец дополняется до необходимой длины, а элементы столбца инициализируются значением по умолчанию `NaN`:

In [26]:
df['one_tr'] = df['one'][:1]
df

Unnamed: 0,one,two,three,four,one_tr
a,1.0,1,0,0,1.0
b,2.0,2,0,1,
c,3.0,3,0,2,
d,,4,0,3,


Создание таблицы с помощью словаря `dict`:

In [27]:
ddict = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20, 'd': 30}]
pd.DataFrame(data=ddict, index=['one', 'two'])

Unnamed: 0,a,b,c,d
one,1,2,,
two,5,10,20.0,30.0


Удаление столбца с помощью `del`

In [28]:
del df['four']
df

Unnamed: 0,one,two,three,one_tr
a,1.0,1,0,1.0
b,2.0,2,0,
c,3.0,3,0,
d,,4,0,


Удаление столбца с помощью метода `pop()`

In [29]:
df.pop('two')
df

Unnamed: 0,one,three,one_tr
a,1.0,0,1.0
b,2.0,0,
c,3.0,0,
d,,0,


Создадим простейшую таблицу на базе словаря. Для этого определим одномерные списки, которые будут выступать в роли pandas Series.

In [30]:
fpgas = ['Spartan-7', 'Artix-7', 'Kintex-7', 'Virtex-7']
options = [
    'LCells', 
    'BRAMs', 
    'DSPs',
    'Transceivers', 
    'Memory Speed', 
    'Pins'
]

lcells = [102, 215, 478, 1955]
brams = [4.2, 13.0, 34.0, 68.0]
dsps = [160, 740, 1920, 3600]
trns = [np.NaN, 16, 32, 96]
mems = [800, 1066, 1866, 1866]
pins = [400, 500, 500, 1200]

Ключи словаря будут использоваться в качестве названия колонки, а передаваемый список в качестве значений. 
Параметр опций (options) будем использовать как индекс DataFrame

In [31]:
# Set DataFrame data and index:
df_data = {options[0]: lcells, options[1]: brams}
df_index = fpgas

# Create DataFrame:
ft = pd.DataFrame(df_data, df_index)
ft

Unnamed: 0,LCells,BRAMs
Spartan-7,102,4.2
Artix-7,215,13.0
Kintex-7,478,34.0
Virtex-7,1955,68.0


Если индекс по строкам не задан явно, то pandas задаёт целочисленный индекс от 0 до N-1, где N - количество строк в таблице

In [32]:
pd.DataFrame(df_data)

Unnamed: 0,LCells,BRAMs
0,102,4.2
1,215,13.0
2,478,34.0
3,1955,68.0


Доступ к именам столбцов и значениям по столбцам (для всей таблицы):

In [33]:
print(ft.columns, '\n')

Index(['LCells', 'BRAMs'], dtype='object') 



In [34]:
print(ft.values, '\n')

[[ 102.     4.2]
 [ 215.    13. ]
 [ 478.    34. ]
 [1955.    68. ]] 



Доступ к значениям колонки осуществляется путем передачи названия этой колонки (или нескольких). Каждая колонка в отельности является Series:

In [35]:
ft['BRAMs']

Spartan-7     4.2
Artix-7      13.0
Kintex-7     34.0
Virtex-7     68.0
Name: BRAMs, dtype: float64

In [36]:
ft['LCells']

Spartan-7     102
Artix-7       215
Kintex-7      478
Virtex-7     1955
Name: LCells, dtype: int64

In [37]:
type(ft['BRAMs'])   # pandas Series

pandas.core.series.Series

Добавление новой колонки в DataFrame:

In [38]:
ft[options[2]] = dsps    # Add new column
ft

Unnamed: 0,LCells,BRAMs,DSPs
Spartan-7,102,4.2,160
Artix-7,215,13.0,740
Kintex-7,478,34.0,1920
Virtex-7,1955,68.0,3600


In [39]:
ft[options[3]] = trns    # Add new column
ft

Unnamed: 0,LCells,BRAMs,DSPs,Transceivers
Spartan-7,102,4.2,160,
Artix-7,215,13.0,740,16.0
Kintex-7,478,34.0,1920,32.0
Virtex-7,1955,68.0,3600,96.0


Добавление имени индекса строк:

In [40]:
ft.index.name = '7Series'   # Add Index name
ft

Unnamed: 0_level_0,LCells,BRAMs,DSPs,Transceivers
7Series,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Spartan-7,102,4.2,160,
Artix-7,215,13.0,740,16.0
Kintex-7,478,34.0,1920,32.0
Virtex-7,1955,68.0,3600,96.0


### Индексация, выбор данных


| Operation | Syntax |  Result |
| -- | -- | -- | 
| Select column |   df[col] | Series |
| Select row by label | df.loc[label] | Series |
| Select row by integer location | df.iloc[loc] | Series |
| Slice rows | df[5:10] | DataFrame |
| Select rows by boolean vector | df[bool_vec] | DataFrame |

Столбец по выбранному признаку

In [41]:
ft['DSPs']   # Return Series (column)

7Series
Spartan-7     160
Artix-7       740
Kintex-7     1920
Virtex-7     3600
Name: DSPs, dtype: int64

Строка по выбранному признаку. `.loc` - используется для доступа по строковой метке. Указывает явный индекс.

In [42]:
ft.loc['Artix-7']   # Return Series (row)

LCells          215.0
BRAMs            13.0
DSPs            740.0
Transceivers     16.0
Name: Artix-7, dtype: float64

In [43]:
ft.loc['Artix-7'][['DSPs', 'BRAMs']]   # Return DSPs & BRAMs columns

DSPs     740.0
BRAMs     13.0
Name: Artix-7, dtype: float64

Строка (обращение по целочисленному индексу). `.iloc` - используется для доступа по числовому значению (начиная от 0), то есть - неявный индекс (в таблице не отображается его числовое значение).

In [44]:
ft.iloc[1]   # Return Series (row by int location)

LCells          215.0
BRAMs            13.0
DSPs            740.0
Transceivers     16.0
Name: Artix-7, dtype: float64

Срез по строкам

In [45]:
ft[0:2]   # Slice of series

Unnamed: 0_level_0,LCells,BRAMs,DSPs,Transceivers
7Series,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Spartan-7,102,4.2,160,
Artix-7,215,13.0,740,16.0


Выбор по булевой маске (показать строки при выполнении условия)

In [46]:
ft[ft.DSPs > 1000]

Unnamed: 0_level_0,LCells,BRAMs,DSPs,Transceivers
7Series,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kintex-7,478,34.0,1920,32.0
Virtex-7,1955,68.0,3600,96.0


In [47]:
ft[ft.DSPs > 1000]['DSPs']

7Series
Kintex-7    1920
Virtex-7    3600
Name: DSPs, dtype: int64

In [48]:
ft[ft.DSPs > 1000][['DSPs', 'BRAMs']]

Unnamed: 0_level_0,DSPs,BRAMs
7Series,Unnamed: 1_level_1,Unnamed: 2_level_1
Kintex-7,1920,34.0
Virtex-7,3600,68.0


In [49]:
# DSP / BRAM ratio:
ft['DSPs'] / ft['BRAMs']

7Series
Spartan-7    38.095238
Artix-7      56.923077
Kintex-7     56.470588
Virtex-7     52.941176
dtype: float64

In [50]:
# Only for Artix-7
(ft['DSPs'] / ft['BRAMs']).loc['Artix-7']

56.92307692307692

Сбросить явно указанный **индекс** можно с помощью соответствующего метода:

In [51]:
ft.reset_index()

Unnamed: 0,7Series,LCells,BRAMs,DSPs,Transceivers
0,Spartan-7,102,4.2,160,
1,Artix-7,215,13.0,740,16.0
2,Kintex-7,478,34.0,1920,32.0
3,Virtex-7,1955,68.0,3600,96.0
