 “Python Data Science Handbook by
Jake VanderPlas (O’Reilly). Copyright 2017 Jake VanderPlas, 978-1-491-91205-8.”

## Бібліотека Pandas. Частина 1

Імпорт бібіліотеки та перевірка її версії

In [None]:
import pandas
pandas.__version__

Імпорт бібіліотеки pandas під псевдонімом pd

In [None]:
import numpy as np
import pandas as pd

Для відображення всіх методів бібліотеки pandas використовуйте клавішу Tab

In [None]:
#pd.<Tab>

В бібліотеці Pandas реалізовано три структури даних: Series, DataFrame, Index.

Об'єкт **Series** - одновимірний масив індексованих даних. 

Об'єкт **DataFrame** - двовимірний масив індексованих даних. 

Об'єкт **Index** - незмінний масив (immutable array) або впорядкована множина (ordered set). 

### Об'єкт Series бібліотеки Pandas

Скористаємося синтаксисом **pd.Series(data, index)** для створення об'єкту Series з нуля.

#### Створення об'єкту Series зі списку

In [None]:
x = [0.25, 0.5, 0.75, 1.0]  #список
index = [0, 1, 2, 3]  #цілочислова послідовність
data = pd.Series(x, index)  #або pd.Series([0.25,0.5,0.75,1.0])
data

In [None]:
print(data.values) # доступ до послідовності значень (numpy масив)

In [None]:
print(data.index) # доступ до послідовності індексів (об'єкт Index)

In [None]:
type(data)

Аналогічно масивам бібліотеки NumPy, до даних data можна звертатися за відповідним їм індексом за допомогою використання квадратних
дужок. 

In [None]:
data[1]

In [None]:
data[1:3]

#### Створення об'єкту Series зі скалярної величини

In [None]:
x = 5  #скалярне значення
index =[0, 1, 2, 3]  #цілочислова послідовність
data = pd.Series(x, index)  #або pd.Series(5, index=index)
data

In [None]:
type(data)

#### Створення об'єкту Series з масиву NumPy

Може здатися, що об'єкт Series і одновимірний масив бібліотеки NumPy взаємозамінні. Основна відмінність між ними - **індекс**. У той час як індекс масиву NumPy, який використовується для доступу до значень, - **цілочисельний і описується неявно**, індекс об'єкта Series бібліотеки Pandas **описується явно і пов'язується зі значеннями**. 

Явна опис індексу розширює можливості об'єкту Series. Такий індекс не повинен бути цілим числом, а може складатися зі значень будь-якого потрібного типу.
Наприклад, при бажанні ми можемо використовувати як індекс літери: 

In [None]:
x = np.array([0.25, 0.5, 0.75, 1.0]) #масив NumPy 
index = ['a', 'b', 'c', 'd']
data = pd.Series(data=x, index=index)  
data

In [None]:
data['b']

Можна навіть застосувати індекси, які є непослідовними або неузгодженими:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data

In [None]:
data[5]

#### Створення об'єкту Series зі словника

Об'єкт Series бібліотеки Pandas можна розглядати як спеціалізований різновид словника мови Python. 
Словник - це структура, що задає відповідність довільних ключів набору довільних значень. 

За замовчуванням буде створено об'єкт Series з індексами, отриманими з ключів. 
Отже, для нього можливий звичайний доступ до елементів, такий же, як для словника:

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135} # словник
population = pd.Series(population_dict)
population

In [None]:
population['California']

Однак, на відміну від словника, об'єкт Series підтримує характерні для масивів операції, такі як зрізи: 

In [None]:
population['California':'Illinois']

### Об'єкт DataFrame бібліотеки Pandas

Скористаємося синтаксисом pd.DataFrame(data) для створення об'єкту DataFrame з нуля.

Якщо об'єкт Series - аналог одновимірного масиву, об'єкт DataFrame - аналог двовимірного масиву з індексами рядків і іменами стовпців. 

#### Створення об'єкту DataFrame з одного об'єкту Series.

In [None]:
population_dict = {'California': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 12882135} # словник
population = pd.Series(population_dict) # об'єкт Series
print(population)

pd.DataFrame(population, columns=['population']) # об'єкт DataFrame

#### Створення об'єкту DataFrame зі словника об'єктів Series

In [None]:
population_dict = {'California': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 12882135}
population = pd.Series(population_dict) #об'єкт Series
population

In [None]:
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297, 
             'Florida': 170312, 
             'Illinois': 149995}
area = pd.Series(area_dict) #об'єкт Series
area

In [None]:
data = {'population': population, 'area': area} #словник об'єктів Series
states = pd.DataFrame(data) # об'єкт DataFrame
states

In [None]:
type(states)

Аналогічно об'єкту Series у об'єкта DataFrame є атрибут index, що забезпечує доступ до мітках індексу: 

In [None]:
states.index

Крім цього, у об'єкта DataFrame є атрибут columns, що представляє собою об'єкт Index, що містить назви стовпців  

In [None]:
states.columns

#### Створення об'єкту DataFrame з двовимірного масиву NumPy

Якщо у нас є двовимірний масив даних, ми можемо створити об'єкт DataFrame з будь-якими заданими іменами стовпців і індексів. 

In [None]:
data = np.random.rand(3, 2)
pd.DataFrame(data, columns=['first', 'second'], index=['a','b','c'])

### Об'єкт Index бібліотеки Pandas

Як об'єкт Series, так і об'єкт DataFrame містять явний індекс, що забезпечує можливість посилатися на дані і перетворювати їх. 
Об'єкт Index можна розглядати або як незмінний масив (immutable array), або як впорядковану множину (ordered set). 

#### Об'єкт Index як незмінний масив (immutable array)

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Об'єкт Index має атрибути, які знайомі нам по масивам NumPy: ndim (розмірність), shape (форма), size (кількість значень), dtype (тип даних), itemsize (розмір в байтах одного елементу масиву), nbytes (розмір в байтах всього масиву)

In [None]:
print("Index size", ind.size)
print("Index shape", ind.shape)
print("Index ndim", ind.ndim)
print("Index dtype", ind.dtype)

Для здобуття окремих значень або зрізів використовується стандартна індексація:

In [None]:
ind[0]

In [None]:
ind[2]

In [None]:
ind[-1]

In [None]:
ind[-2]

**Основна відмінність між об'єктами Index та масивами NumPy** - це незмінність індексів. Незмінність індексів робить безпечним спільне використання індексів декількома об'єктами DataFrame.

In [None]:
ind[1] = 4

#### Об'єкт Index як впорядкована множина (ordered set)

Об'єкти бібліотеки Pandas створені для спрощення таких операцій, як об'єднання, перетин, різниця ті інші операції над наборами даних. 
Об'єднання, перетин, різницю та інші операції над множинами можна виконувати звичним чином з об'єктами Index.  

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA & indB  #перетин множин indA.intersection(indB)

In [None]:
indA | indB  #об'єднання множин 

In [None]:
indA ^ indB  #симетрична різниця множин 

## Індексація та вибірка даних в Pandas

### Вибірка даних з об'єкту Series

Об'єкт Series багато в чому поводиться подібно одновимірному масиву бібліотеки NumPy і стандартному словникові мови Python. 

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

In [None]:
data['e'] = 1.25 #розширення об'єкту Series за допомогою присвоєння значення для нового значення індексу
data

Зверніть увагу, що при виконанні зрізу за допомогою явного індексу (data ['a': 'c']) значення,
відповідне останньому індексу, включається в зріз, а при зрізі за допомогою неявного індексу (data [0: 2]) - не включається. 

In [None]:
data['a':'c'] #зріз за допомогою явного індексу (останнє значення включається до зрізу)

In [None]:
data[0:2] #зріз за допомогою неявного цілочислового індексу (останнє значення не включається до зрізу)

In [None]:
data[(data > 0.3) & (data < 0.8)] #маска

In [None]:
ind = ['a', 'e'] #"примхлива індексація"
data[ind] 

### Атрибути-індексатори loc, iloc

Розглянемо приклад. При наявності у об'єкта Series явного целочисленного індексу операція індексації (data [1]) 
буде використати наявні індекси, а операція зрізу (data [1: 3]) - неявний індекс в стилі мови Python.  

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
data[1] # використання явного індексу при індексації

In [None]:
data[1:3] # використання неявного індексу при зрізі

Через цю потенційну плутанину в разі цілочисельних індексів в бібліотеці Pandas передбачені спеціальні атрибути-індексатори, 
що дозволяють явним чином застосовувати певні схеми індексації. 

Атрибут **loc** дозволяє виконати індексацію та зрізи з використанням явного індексу:

In [None]:
data = pd.Series(['a','b','c'], index=[1,3,5])
data

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

Атрибут **iloc** дозволяє виконати індексацію та зрізи з використанням неявного індексу:

In [None]:
data.iloc[0]

In [None]:
data.iloc[0:2]

### Вибірка даних з об'єкту DataFrame

#### Об'єкт DataFrame як словник

In [None]:
population_dict = {'California': 38332521,
                  'Texas': 26448193,
                  'New York': 19651127,
                  'Florida': 19552860,
                  'Illinois': 12882135}
population = pd.Series(population_dict) #об'єкт Series
population

In [None]:
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297, 
             'Florida': 170312, 
             'Illinois': 149995}
area = pd.Series(area_dict) #об'єкт Series
area

In [None]:
data = {'population': population, 'area': area} #словник об'єктів Series
states = pd.DataFrame(data)
states

In [None]:
states['area']  #здобуття стовбця

In [None]:
states.area   #здобуття стовбця

In [None]:
states['density'] = states['population']/states['area']  #додавання стовбця

In [None]:
states

#### Об'єкт DataFrame як двовимірний масив

Об'єкт DataFrame можна розглядати як двовимірний масив з розширеними можливостями. 
Погляньмо на вихідний масив даних за допомогою атрибута values: 

In [None]:
states.values

Ми можемо виконати безліч звичних для масивів дій над об'єктом DataFrame. Наприклад, транспонувати весь DataFrame, помінявши місцями рядки
і стовпці: 

In [None]:
states.T

Однак, коли мова заходить про індексацію об'єктів DataFrame, стає ясно, що індексація заважає нам розглядати їх просто як масиви NumPy. Зокрема, вказівка окремого індексу для масиву означає доступ до рядка: 

In [None]:
states.values[0]

а вказівка окремого «індексу» для об'єкта DataFrame - доступ до стобвця: 

In [None]:
states['area']

Отже, нам необхідний ще один тип синтаксису для індексації, аналогічної по стилю індексації масивів NumPy. 
Бібліотека Pandas застосовує згадані раніше індексатори loc, iloc.
За допомогою індексатора iloc можна індексувати вихідний масив, як ніби це простий масив NumPy (використовуючи неявний
синтаксис мови Python), але зі збереженням в результуючих даних міток об'єкта DataFrame для індексу і стовпців: 

In [None]:
states.iloc[:3, :2]

In [None]:
states.loc[:'Illinois', 'population']

In [None]:
states.loc[states.density > 100, ['population', 'density']] #маска та "примхлива індексація"

In [None]:
states.iloc[0, 2] = 90 # зміна значення
states

In [None]:
states['Florida':'Illinois'] #зріз по індексу рядка

In [None]:
states[1:3]   #зріз по номеру рядка

In [None]:
states[states.density > 100] #маска