# <center>Тема 1.4
## <center>Бібліотека Pandas

<center><img src='https://sites.google.com/site/ridkisnitvarini16/_/rsrc/1523859094694/home/zubr/velika-panda/%D0%BF%D0%B0%D0%BD%D0%B4%D0%B0_1.jpg' width="30%">

### <center>Загальні відомості

**Pandas** - це бібліотека, яка надає зручні інструменти для зберігання даних і роботи з ними. Використовується в області аналізу даних та машинного навчання.

Pandas чудово підходить для роботи з одновимірними і двовимірними таблицями даних, надає можливість працювати з файлами CSV, таблицями Excel, SQL та багатьма іншими форматами.

- Повна документація за бібліотекою: https://pandas.pydata.org/pandas-docs/stable/

Для початку роботи, бібліотеку необіхдно імпортувати:

In [1]:
import pandas as pd

Зазвичай у парі з Pandas використовується бібілотека NumPy.

In [2]:
import numpy as np

### <center>Структура даних Series

**Series** - це маркована одновимірна структура даних, яку можна уявити як таблицю з одним рядком. З Series можна працювати як зі звичайним масивом (звертатися за номером індексу), а також як з асоційованим масивом, тобто використовувати ключ для доступу до елементів даних.

Створити структуру Series можна на базі різних типів даних:

- словники;
- списки;
- масиви з numpy: ndarray;
- скалярні величини.

Конструктор класу Series виглядає наступним чином:

- `data` - масив, словник або скалярне значення, на базі якого буде побудована Series;

- `index` - список міток, який буде використовуватися для доступу до елементів Series. Довжина списку повинна дорівнювати довжині `data`;

- `dtype` - об'єкт *numpy.dtype*, який визначає тип даних;

- `copy` - створює копію масиву даних, якщо параметр дорівнює True, в іншому випадку нічого не робить.

У більшості випадків під час створення Series використовують тільки перші два параметра. Розглянемо різні варіанти, як це можна зробити.

#### <center>Створення Series зі списку</center>

Найпростіший спосіб створити Series - це передати в якості єдиного параметра в конструктор класу список.

In [5]:
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)

0    1
1    2
2    3
3    4
4    5
dtype: int64


Для доступу до елементів Series, в даному випадку, можна використовувати тільки позитивні цілі числа - лівий стовпець чисел, який починається з нуля. Це і є індекси елементів структури, які показані в правому стовпці.

In [6]:
s1[1]

2

Тепер передамо в якості другого параметру список рядків (в нашому випадку - окремі символи). Це дозволить нам звертатися до елементів структури Series не тільки за числовим індексом, а й за міткою, що зробить роботу з таким об'єктом схожою на роботу зі словником.

In [7]:
s2 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
print(s2)

a    1
b    2
c    3
d    4
e    5
dtype: int64


Зверніть увагу на лівий стовпець, в ньому містяться мітки, які ми передали в якості параметра `index` під час створення структури. Правий стовпець - це, як і раніше, елементи структури.

In [11]:
s2['b']

2

#### <center>Створення Series з масиву ndarray</center>

Створимо простий масив з п'яти чисел, аналогічний списку з попереднього розділу.

In [12]:
ndarr = np.array([1, 2, 3, 4, 5])
type(ndarr)

numpy.ndarray

Тепер створимо Series з символьними знаками.

In [13]:
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])
print(s3)

a    1
b    2
c    3
d    4
e    5
dtype: int32


#### <center>Створення Series зі словника</center>

Ще один спосіб створити структуру Series - це використовувати словник для одночасного задання міток і значень.

In [15]:
d = {'a':1, 'b':2, 'c':3}
s4 = pd.Series(d)
print(s4)

a    1
b    2
c    3
dtype: int64


Ключі зі словника `d` стануть мітками структури `s4`, а значення словника - значеннями в структурі.

#### <center>Створення Series з використанням константи </center>

Розглянемо ще один спосіб створення структури. Цього разу значення в комірках структури будуть однаковими.

In [16]:
a = 7
s5 = pd.Series(a, ['a', 'b', 'c'])
print(s5)

a    7
b    7
c    7
dtype: int64


У створеній структурі Series є три елементи з однаковим значенням.

#### <center>Робота з елементами Series</center>

До елементів Series можна звертатися за чисельним індексом. У разі такого підходу робота зі структурою не відрізняється від роботи зі списками.

In [17]:
s6 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s6[2]

3

Можна використовувати мітку, тоді робота з Series буде схожою на роботу зі словником.

In [18]:
s6['d']

4

Можна отримувати зрізи:

In [19]:
s6[:2]

a    1
b    2
dtype: int64

В поле для індексу можна помістити умовний вираз. Це дозволить вивести лише ті елементи, які задоволняють вказану умову.

In [21]:
s6[s6 <= 3]

a    1
b    2
c    3
dtype: int64

З структурами Series можна працювати так само, як з векторами: додавати, множити вектор на число тощо.

In [22]:
s7 = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])
s6 + s7

a    11
b    22
c    33
d    44
e    55
dtype: int64

In [23]:
s6 * 3

a     3
b     6
c     9
d    12
e    15
dtype: int64

### <center>Структура даних DataFrame

Якщо Series являє собою одновимірну структуру, яку можна уявити як таблицю з одним рядком, то **DataFrame** - це вже двовимірна структура - повноцінна таблиця з великою кількістю рядків і стовпців.

Конструктор класу DataFrame виглядає так:

- `data` - масив ndarray, словник або інший DataFrame;

- `index` - список міток для записів (назви рядків таблиці);

- `columns` - список міток для полів (назви стовпців таблиці);

- `dtype` - об'єкт *numpy.dtype*, який визначає тип даних;

- `copy` - створює копію масиву даних, якщо параметр дорівнює True, в іншому випадку нічого не робить.

Структуру DataFrame можна створити на базі:

- словника, в якості елементів якого повинні виступати: одновимірні ndarray, списки, інші словники, структури Series;
- структури Series;
- двовимірних ndarray;
- структурованих ndarray;
- інших DataFrame.

#### <center>Створення DataFrame зі словника</center>

В даному випадку буде використовуватися одновимірний словник, елементами якого будуть списки, структури Series тощо.

Дял початку розглянемо Series.

In [26]:
d = {"price": pd.Series([1, 2, 3], index=['v1', 'v2', 'v3']),
     "count": pd.Series([10, 12, 7], index=['v1', 'v2', 'v3'])}
df1 = pd.DataFrame(d)
print(df1)

    price  count
v1      1     10
v2      2     12
v3      3      7


Тепер побудуємо аналогічний словник, але на елементах ndarray.

In [27]:
d2 = {"price": np.array([1, 2, 3]),
      "count": np.array([10, 12, 7])}
df2 = pd.DataFrame(d2, index=['v1', 'v2', 'v3'])
print(df2)

    price  count
v1      1     10
v2      2     12
v3      3      7


Як видно - результат аналогічний попередньому. Замість ndarray також можна використовувати звичайний список.

In [28]:
d3 = {"price": [1, 2, 3],
      "count": [10, 12, 7]}
df3 = pd.DataFrame(d3, index=['v1', 'v2', 'v3'])
print(df3)

    price  count
v1      1     10
v2      2     12
v3      3      7


#### <center>Створення DataFrame зі списку словників</center>

До цього моменту ми створювали DataFrame зі словника, елементами якого були структури Series, списки і масиви. Тепер ми створимо DataFrame зі списку, елементами якого є словники.

In [32]:
d4 = [{"price": 3, "count":8}, {"price": 4, "count": 11}]
df4 = pd.DataFrame(d4, index=['v1', 'v2'])
print(df4)

    price  count
v1      3      8
v2      4     11


#### <center>Створення DataFrame з двовимірного масиву</center>

Створити DataFrame можна також і з двовимірного масиву. В наступному прикладі це буде ndarray з бібліотеки NumPy.

In [33]:
nda1 = np.array([[1, 2, 3], [10, 20, 30]])
df4 = pd.DataFrame(nda1)
print(df4)

    0   1   2
0   1   2   3
1  10  20  30


#### <center>Робота з елементами DataFrame

Основні способи роботи з Dataframe:
- `df['col']` - вибір стовпця; повертає Series
- `df.loc['label']` - вибір рядка за міткою; повертає Series
- `df.iloc[loc]` - вибір рядка за індексом; повертає Series
- `df[0:4]` - зріз за рядками; повертає DataFrame
- `df[bool_vec]` - вибір рядків, які відповідають умові; повертає DataFrame

Створимо DataFrame для розгляду цих операцій.

In [68]:
d = {"price": np.array([1, 2, 3]),
     "count": np.array([10, 20, 30]),
     "weight": np.array([2.3, 5.7, 8.9])}
df = pd.DataFrame(d, index=['a', 'b', 'c'])
print(df)

   price  count  weight
a      1     10     2.3
b      2     20     5.7
c      3     30     8.9


Вибір стовця:

In [69]:
df['count']

a    10
b    20
c    30
Name: count, dtype: int32

Вибір рядка за міткою:

In [70]:
df.loc['a']

price      1.0
count     10.0
weight     2.3
Name: a, dtype: float64

Вибір рядка за індексом:

In [71]:
df.iloc[1]

price      2.0
count     20.0
weight     5.7
Name: b, dtype: float64

Зріз за рядками:

In [72]:
df[0:2]

Unnamed: 0,price,count,weight
a,1,10,2.3
b,2,20,5.7


Зріз за індексами стовпців:

In [73]:
df.iloc[:, 0:2]

Unnamed: 0,price,count
a,1,10
b,2,20
c,3,30


Зріз за іменами стовпців:

In [74]:
df.loc[:, 'price':'count']

Unnamed: 0,price,count
a,1,10
b,2,20
c,3,30


Вибір рядків, які відповідають умові:

In [75]:
df[df['count'] >= 20]

Unnamed: 0,price,count,weight
b,2,20,5.7
c,3,30,8.9


### <center>Операції з даними в Pandas

#### <center>Доступ до даних DataFrame з використанням міток

Розглянемо різні варіанти використання міток, які можуть бути як іменами стовпців таблиці, так і іменами рядків. Для початку створимо новий DataFrame.

In [3]:
d = {"price":[1, 2, 3], "count": [10, 20, 30], "percent": [24, 51, 71]}
df = pd.DataFrame(d, index=['a', 'b', 'c'])
df

Unnamed: 0,price,count,percent
a,1,10,24
b,2,20,51
c,3,30,71


Звернення до конкретного стовпця - отримання всіх елементів стовпця *'count'*:

In [4]:
df['count']

a    10
b    20
c    30
Name: count, dtype: int64

Звернення з використанням масиву стовпців - отримання елементів стовпців *'count'* і *'price'*:

In [5]:
df[['count','price']]

Unnamed: 0,count,price
a,10,1
b,20,2
c,30,3


Звернення за зрізами міток - отримання елементів з мітками від *'a'* до *'b'*:

In [6]:
df['a':'b']

Unnamed: 0,price,count,percent
a,1,10,24
b,2,20,51


Звернення з використанням функції - отримання всіх елементів, у яких значення в стовпці *'count'* більше 15:

In [7]:
df[lambda x: x['count'] > 15]

Unnamed: 0,price,count,percent
b,2,20,51
c,3,30,71


Звернення через логіний вираз. Під час формування логічного виразу необхідно вказувати імена стовпців, за якими буде здійснюватися вибірка (так як і при роботі з функціями).

Отримати всі елементи, у яких *'price'* більше або дорівнює 2:

In [8]:
df[df['price'] >= 2]

Unnamed: 0,price,count,percent
b,2,20,51
c,3,30,71


#### <center>Використання атрибутів для доступу до даних

Для доступу до даних можна використовувати атрибути структур, в якості яких виступають мітки.

Створимо нову структуру Series:

In [9]:
s = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])

Для доступу до елементу через атрибут необхідно вказати його через крапку після імені змінної.

Оскільки структура `s` має мітки *'a', 'b', 'c', 'd', 'e'*, то для доступу до елементу з міткою *'a'* ми можемо використовувати синтаксис `s.a`.

In [10]:
s.a

10

In [11]:
s.c

30

Такий самий підхід можна застосувати для змінної типу DataFrame.

Отримаємо доступ до стовпця *'price'*:

In [13]:
d = {"price":[1, 2, 3], "count": [10, 20, 30], "percent": [24, 51, 71]}
df = pd.DataFrame(d, index=['a', 'b', 'c'])

df.price

a    1
b    2
c    3
Name: price, dtype: int64

### <center>Отримання випадкової вибірки зі структур Pandas

Бібліотека *pandas* надає можливість отримати випадковий набір даних з уже існуючої структури. Такий функціонал має як Series, так і DataFrame. У даних структур є метод `sample()`, який повертає випадкову підвибірку.

Повернемось до структури Series. Для того, щоб вибрати випадковим чином елемент з Series використовується наступний синтаксис:



In [14]:
s.sample()

a    10
dtype: int64

Можна зробити вибірку з декількох елементів, для цього потрібно передати потрібну кількість через параметр *n*.

In [15]:
s.sample(n=3)

a    10
c    30
e    50
dtype: int64

Також є можливість вказати частку (відсоток) від загального числа об'єктів в структурі, використовуючи параметр *frac*.

In [16]:
s.sample(frac=0.3)

b    20
d    40
dtype: int64

Цікавою особливістю є те, можна передати вектор ваг, довжина якого повинна дорівнювати кількості елементів в структурі. Сума ваг повинна дорівнювати одиниці. Вага, в даному випадку, це ймовірність появи елемента у вибірці.

У нашій тестовій структурі п'ять елементів, сформуємо вектор ваг для неї і зробимо вибірку з трьох елементів.

In [17]:
w = [0.1, 0.2, 0.5, 0.1, 0.1]
s.sample(n = 3, weights=w)

c    30
e    50
b    20
dtype: int64

Даний функціонал також доступний і для структури DataFrame.

In [18]:
d = {"price":[1, 2, 3, 5, 6], "count": [10, 20, 30, 40, 50], "percent": [24, 51, 71, 25, 42]}
df = pd.DataFrame(d)

df.sample()

Unnamed: 0,price,count,percent
0,1,10,24


У разі роботи з DataFrame можна вказати вісь.

In [26]:
df.sample(axis=1)    # стовпці

Unnamed: 0,price
0,1
1,2
2,3
3,5
4,6


In [27]:
df.sample(n=2, axis=1)

Unnamed: 0,price,percent
0,1,24
1,2,51
2,3,71
3,5,25
4,6,42


In [28]:
df.sample(n=2)    # за замовчуванням axis = 0 (рядки)

Unnamed: 0,price,count,percent
2,3,30,71
1,2,20,51


### <center>Додавання нових елементів до структур

Подібне додаванню нового об'єкта до словників.

In [29]:
s = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])
s

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [30]:
s['f'] = 60    # додамо новий елемет з міткою 'f'
s

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64

Додавання нового елемента в структуру DataFrame аналогічне:

In [34]:
d = {"price":[1, 2, 3, 5, 6], "count": [10, 20, 30, 40, 50], "percent": [24, 51, 71, 25, 42]}
df = pd.DataFrame(d)
df

Unnamed: 0,price,count,percent
0,1,10,24
1,2,20,51
2,3,30,71
3,5,40,25
4,6,50,42


In [36]:
df['value'] = [3, 14, 7, 91, 5]
df

Unnamed: 0,price,count,percent,value
0,1,10,24,3
1,2,20,51,14
2,3,30,71,7
3,5,40,25,91
4,6,50,42,5


### <center>Індексація з використанням логічних виразів

На практиці дуже часто доводиться отримувати певну підвибірку з існуючого набору даних. Наприклад, отримати всі товари, знижка на які більше п'яти відсотків. Або вибрати з бази інформацію про співробітників чоловічої статі старше 30 років. Це дуже схоже на процес фільтрації під час роботи з таблицями або отримання вибірки з бази даних. Схожий функціонал реалізований в *pandas* і ми вже тйого використовували, коли розглядали різні підходи до індексації.

Умовний вираз записується замість індексу в квадратних дужках при зверненні до елементів структури.

Під час роботи з Series можливі наступні варіанти використання:

In [37]:
s = pd.Series([10, 20, 30, 40, 50, 10, 10], ['a', 'b', 'c', 'd', 'e', 'f', 'g'])
s[s>30]

d    40
e    50
dtype: int64

In [38]:
s[s==10]

a    10
f    10
g    10
dtype: int64

In [39]:
s[(s>=30) & (s<50)]

c    30
d    40
dtype: int64

Під час роботи з DataFrame необхідно вказувати стовпець за яким буде проводитися фільтрація (вибірка).

In [41]:
d = {"price":[1, 2, 3, 5, 6], "count": [10, 20, 30, 40, 50], "percent": [24, 51, 71, 25, 42],
      "cat":["A", "B", "A", "A", "C"]}
df = pd.DataFrame(d)
df

Unnamed: 0,price,count,percent,cat
0,1,10,24,A
1,2,20,51,B
2,3,30,71,A
3,5,40,25,A
4,6,50,42,C


In [42]:
df[df["price"] > 3]

Unnamed: 0,price,count,percent,cat
3,5,40,25,A
4,6,50,42,C


В якості логічного виразу можна використовувати досить складні конструкції з використанням *map*, *filter*, лямбда-функцій тощо.

In [46]:
fn = df["cat"].map(lambda x: x == "A")
df[fn]

Unnamed: 0,price,count,percent,cat
0,1,10,24,A
2,3,30,71,A
3,5,40,25,A


### <center>Використання isin для роботи з даними в Pandas

За структурам даних Pandas можна будувати масиви з даними типу *boolean*, за яким можна перевірити наявність або відсутність того чи іншого елемента.

In [48]:
s = pd.Series([10, 20, 30, 40, 50, 10, 10], ['a', 'b', 'c', 'd', 'e', 'f', 'g'])
s.isin([10, 20])

a     True
b     True
c    False
d    False
e    False
f     True
g     True
dtype: bool

Робота з DataFrame аналогічна роботі зі структурою Series.

In [49]:
df = pd.DataFrame({"price":[1, 2, 3, 5, 6], "count": [10, 20, 30, 40, 50], 
                   "percent": [24, 51, 71, 25, 42]})
df.isin([1, 3, 25, 30, 10])

Unnamed: 0,price,count,percent
0,True,True,False
1,False,False,False
2,True,True,False
3,False,False,True
4,False,False,False


### <center>Виявлення пропущених даних

Дуже часто великі обсяги даних, які готуються для подальшого аналізу, мають пропуски. Для того, щоб можна було використовувати алгоритми машинного навчання, які будують моделі за цими даними, необхідно ці пропуски чимось заповнити.

Створимо структуру DataFrame, яка буде містити пропуски.

Для цього імпортуємо необхідну бібліотеку:

In [50]:
from io import StringIO

Після цього створимо об'єкт в форматі csv.

In [51]:
data = 'price,count,percent\n1,10,\n2,20,51\n3,30,'
df = pd.read_csv(StringIO(data))

Отриманий об'єкт `df` - це DataFrame з пропусками.

In [52]:
df

Unnamed: 0,price,count,percent
0,1,10,
1,2,20,51.0
2,3,30,


В даному прикладі, у об'єктів з індексами 0 і 2 відсутні дані в полі *percent*. Відсутні дані позначаються як ***NaN***. Додамо до існуючої структури ще один запис, у якого буде відсутнє значення в полі *count*.

In [53]:
df.loc[3] = {'price':4, 'count':None, 'percent':26.3}
df

Unnamed: 0,price,count,percent
0,1,10.0,
1,2,20.0,51.0
2,3,30.0,
3,4,,26.3


Для початку використаємо методи з бібліотеки *pandas*, які дозволяють швидко перевірити наявність елементів *NaN* в структурах. Якщо таблиця невелика, то можна використовувати метод `isnull()`.

In [54]:
pd.isnull(df)

Unnamed: 0,price,count,percent
0,False,False,True
1,False,False,False
2,False,False,True
3,False,True,False


Таким чином ми отримуємо таблицю того ж розміру, але на місці реальних даних в ній знаходяться логічні змінні.  Вони приймають значення *False*, якщо значення поля в об'єкта існує, або *True*, якщо значення в даному полі - це *NaN*. На додаток до цього можна подивитися детальну інформацію про об'єкт. Для цього можна скористатися методом `info()`.

In [55]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   price    4 non-null      int64  
 1   count    3 non-null      object 
 2   percent  2 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 128.0+ bytes


У нашому прикладі видно, що об'єкт `df` має три стовпці (*count, percent* і *price*), водночас у стовпці *price* всі об'єкти значимі - НЕ *NaN*, в стовпці *count* - один *NaN* об'єкт, в поле *percent* - два *NaN* об'єкти. 

Можна скористатися таким підходом для отримання кількості *NaN* елементів в записах:

In [56]:
df.isnull().sum()

price      0
count      1
percent    2
dtype: int64

### <center>Заміна пропущених даних

Пропущені дані об'єктів можна замінити на конкретні числові значення. Для цього можна використовувати метод `fillna()`. Використаємо структуру `df`, створену в попередньому розділі.

In [57]:
df

Unnamed: 0,price,count,percent
0,1,10.0,
1,2,20.0,51.0
2,3,30.0,
3,4,,26.3


In [58]:
df.fillna(0)

Unnamed: 0,price,count,percent
0,1,10,0.0
1,2,20,51.0
2,3,30,0.0
3,4,0,26.3


Цей метод не змінює поточну структуру. Він повертає структуру DataFrame, створену на базі існуючої, з заміною *NaN* значень на ті, які передані до методу в якості аргументу. Наприклад, дані можна заповнити середнім значенням по стовпцю.

In [59]:
df.fillna(df.mean())

Unnamed: 0,price,count,percent
0,1,10.0,38.65
1,2,20.0,51.0
2,3,30.0,38.65
3,4,20.0,26.3


В залежності від завдання, використовується той чи інший метод заповнення відсутніх елементів. В якості заміни може бути нульове значення, математичне сподівання, медіана тощо. 

Для заміни *NaN* елементів на конкретні значення також можна використовувати інтерполяцію, яка реалізована в методі `interpolate()`. Алгоритм інтерполяції задається через аргументи методу.

### <center>Видалення стовпців/об'єктів з пропущеними даними

Досить часто використовують інший підхід до відсутніх даних - це видалення записів (рядків) або колонок (стовпців), в яких зустрічаються пропуски. Для того, щоб видалити всі об'єкти, які містять значення *NaN*, застосовують метод `dropna()` без аргументів.

In [60]:
df.dropna()

Unnamed: 0,price,count,percent
1,2,20,51.0


Замість записів можна видалити колонки. Для цього потрібно викликати метод `dropna()` з аргументом `axis=1`.

In [61]:
df.dropna(axis=1)

Unnamed: 0,price
0,1
1,2
2,3
3,4


Pandas дозволяє задати поріг на кількість не-*NaN* елементів. У наведеному нижче прикладі будуть видалені всі стовпці, в яких кількість не-*NaN* елементів менше трьох.

In [62]:
df.dropna(axis = 1, thresh=3)

Unnamed: 0,price,count
0,1,10.0
1,2,20.0
2,3,30.0
3,4,


### <center>Об'єднання різних DataFrame

Іноді виникає необхідність об'єднання декількох DataFrame в одну таблицю. Розглянемо три окремі DataFrame:

In [63]:
df1 = pd.DataFrame(
    {
        'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3'],
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']
    },
    index=[0, 1, 2, 3])

df2 = pd.DataFrame(
    {
        'A': ['A4', 'A5', 'A6', 'A7'],
        'B': ['B4', 'B5', 'B6', 'B7'],
        'C': ['C4', 'C5', 'C6', 'C7'],
        'D': ['D4', 'D5', 'D6', 'D7']
    },
    index=[4, 5, 6, 7])

df3 = pd.DataFrame(
    {
        'A': ['A8', 'A9', 'A10', 'A11'],
        'B': ['B8', 'B9', 'B10', 'B11'],
        'C': ['C8', 'C9', 'C10', 'C11'],
        'D': ['D8', 'D9', 'D10', 'D11']
    },
    index=[8, 9, 10, 11])

In [64]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


df2

In [66]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


Тепер об'єднаємо їх в один DataFrame, використовуючи метод `concat()`. Якщо не задавати додаткових атрибутів, об'єднання відбудеться у стовпчик (за стовпцями).

In [67]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


Якщо ж вказати вісь `axis=1`, то об'єднання відбудеться за рядками. 

In [68]:
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


Іноді DataFrame можуть мати спільні стовпці. Наприклад, створимо два нових DataFrame з однаковим стовпцем *key*:

In [69]:
left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

In [70]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [71]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


Тепер об'єднаємо їх в один DataFrame за стовпцем *key*. Для цього використовується метод `merge()`

In [74]:
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
