In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datetime для работы с датами
import datetime
from datetime import datetime, date

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt

### Конкатенация данных

In [2]:
# создаем два объекта Series для конкатенации
s1 = pd.Series(np.arange(0, 3))
s2 = pd.Series(np.arange(5, 8))

In [3]:
s1

0    0
1    1
2    2
dtype: int64

In [4]:
s2

0    5
1    6
2    7
dtype: int64

In [5]:
# конкатенируем их
pd.concat([s1, s2]) # выравнивание не выполняется

0    0
1    1
2    2
0    5
1    6
2    7
dtype: int64

Создаем два объекта DataFrame для конкатенации, используя те же самые индексные метки и имена столбцов, но другие значения:

In [6]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), 
                   columns=['a', 'b', 'c'])

#df2 имеет значения 9 .. 18
df2 = pd.DataFrame(np.arange(9, 18).reshape(3, 3), 
                   columns=['a', 'b', 'c'])

In [7]:
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [8]:
df2

Unnamed: 0,a,b,c
0,9,10,11
1,12,13,14
2,15,16,17


In [9]:
# выполняем конкатенацию
pd.concat([df1, df2])

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
0,9,10,11
1,12,13,14
2,15,16,17


Демонстрируем конкатенацию двух объектов DataFrame с разными столбцами:

In [2]:
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), 
                   columns=['a', 'b', 'c'])
df2 = pd.DataFrame(np.arange(9, 18).reshape(3, 3), 
                   columns=['a', 'c', 'd'])
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [3]:
df2

Unnamed: 0,a,c,d
0,9,10,11
1,12,13,14
2,15,16,17


Выполняем конкатенацию, пропусками будут заполнены значения столбца d в датафрейме df1 и значения столбца b в датафрейме df2:

In [12]:
pd.concat([df1, df2], sort=False)

Unnamed: 0,a,b,c,d
0,0,1.0,2,
1,3,4.0,5,
2,6,7.0,8,
0,9,,10,11.0
1,12,,13,14.0
2,15,,16,17.0


Выполняем конкатенацию двух объектов,  но при этом создаем индекс с помощью заданных ключей; 

In [4]:
c = pd.concat([df1, df2], sort=False, keys=['df1', 'df2'])
# обратите внимание на метки строк в выводе
c

Unnamed: 0,Unnamed: 1,a,b,c,d
df1,0,0,1.0,2,
df1,1,3,4.0,5,
df1,2,6,7.0,8,
df2,0,9,,10,11.0
df2,1,12,,13,14.0
df2,2,15,,16,17.0


In [5]:
# мы можем извлечь данные, относящиеся к первому или второму исходному датафрейму
c.loc['df2']

Unnamed: 0,a,b,c,d
0,9,,10,11.0
1,12,,13,14.0
2,15,,16,17.0


### Переключение осей выравнивания

In [6]:
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [7]:
df2

Unnamed: 0,a,c,d
0,9,10,11
1,12,13,14
2,15,16,17


Конкатенируем датафреймы df1 и df2 по оси столбцов выравниваем по меткам строк, получаем дублирующиеся столбцы:

In [8]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,a,b,c,a.1,c.1,d
0,0,1,2,9,10,11
1,3,4,5,12,13,14
2,6,7,8,15,16,17


Создаем новый датафрейм df3, чтобы конкатенировать его с датафреймом df1 датафрейм df3 имеет общую с датафреймом df1 метку 2 и общий столбец (a)

In [9]:
df3 = pd.DataFrame(np.arange(20, 26).reshape(3, 2), 
                   columns=['a', 'd'], 
                   index=[2, 3, 4])
df3

Unnamed: 0,a,d
2,20,21
3,22,23
4,24,25


In [194]:
# конкатерируем их по оси столбцов. Происходит выравнивание по меткам строк,
# осуществляется заполнение значений столбцов df1, а затем 
# столбцов df3, получаем дублирующиеся столбцы
pd.concat([df1, df3], axis=1)

Unnamed: 0,a,b,c,a.1,d
0,0.0,1.0,2.0,,
1,3.0,4.0,5.0,,
2,6.0,7.0,8.0,20.0,21.0
3,,,,22.0,23.0
4,,,,24.0,25.0


### Определение типа соединения

По умолчанию **внешнее соединение** (`outer join`), т.е. выполняем конкатенацию вдоль оси строк (`axis=0`), осуществляя внешнее соединение индексных меток по оси столбцов. Если выполняем конкатенацию вдоль оси столбцов (`axis=1`), осуществляем внешнее соединение индексных меток по оси строк.

Внутреннее соединение (`inner join`) выполняет логическую операцию пересечения индексных меток.

In [10]:
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [11]:
df3

Unnamed: 0,a,d
2,20,21
3,22,23
4,24,25


Выполняем внутреннее соединение вместо внешнего результат представлен в виде одной строки:

In [12]:
pd.concat([df1, df3], axis=1, join='inner')

Unnamed: 0,a,b,c,a.1,d
2,6,7,8,20,21


In [13]:
df2

Unnamed: 0,a,c,d
0,9,10,11
1,12,13,14
2,15,16,17


In [14]:
# добавляем ключи к столбцам
df = pd.concat([df1, df2], 
               axis=1,
               keys=['df1', 'df2'])
df

Unnamed: 0_level_0,df1,df1,df1,df2,df2,df2
Unnamed: 0_level_1,a,b,c,a,c,d
0,0,1,2,9,10,11
1,3,4,5,12,13,14
2,6,7,8,15,16,17


In [15]:
# извлекаем данные из датафрейма 
# с помощью ключа 'df2'
df.loc[:, 'df2']

Unnamed: 0,a,c,d
0,9,10,11
1,12,13,14
2,15,16,17


### Присоединение вместо конкатенации

In [16]:
# метод .append() выполняет конкатенацию по оси острок (axis=0), 
# в результате получаем дублирующиеся индексные метки строк
df1.append(df2, sort=False)

Unnamed: 0,a,b,c,d
0,0,1.0,2,
1,3,4.0,5,
2,6,7.0,8,
0,9,,10,11.0
1,12,,13,14.0
2,15,,16,17.0


### Игнорирование меток индекса

In [17]:
# избавляемся от дублирования меток в итоговом индексе,  
# игнорируя индексные метки в датафреймах-источниках
df1.append(df2, ignore_index=True)

Unnamed: 0,a,b,c,d
0,0,1.0,2,
1,3,4.0,5,
2,6,7.0,8,
3,9,,10,11.0
4,12,,13,14.0
5,15,,16,17.0


### Слияние данных

In [18]:
# это наши клиенты
customers = {'customer_id': [10, 11],
             'name': ['Миша', 'Лена'],
             'address': ['пр. Невский',
                         'ул. Мира']}
customers = pd.DataFrame(customers)
customers

Unnamed: 0,customer_id,name,address
0,10,Миша,пр. Невский
1,11,Лена,ул. Мира


In [19]:
# это наши заказы, сделанные клиентами,
# они связаны с клиентами с помощью столбца customer_id
orders = {'customer_id': [10, 11, 10],
          'order_date': [date(2019, 12, 1),
                         date(2019, 12, 1),
                         date(2019, 12, 1)]}
orders = pd.DataFrame(orders)
orders

Unnamed: 0,customer_id,order_date
0,10,2019-12-01
1,11,2019-12-01
2,10,2019-12-01


In [20]:
# выполняем слияние датафреймов customers и orders так, чтобы
# мы могли отправить товары
customers.merge(orders)

Unnamed: 0,customer_id,name,address,order_date
0,10,Миша,пр. Невский,2019-12-01
1,10,Миша,пр. Невский,2019-12-01
2,11,Лена,ул. Мира,2019-12-01


In [21]:
left_data = {'key1': ['a', 'b', 'c'], 
            'key2': ['x', 'y', 'z'],
            'lval1': [ 0, 1, 2]}
right_data = {'key1': ['a', 'b', 'c'],
              'key2': ['x', 'a', 'z'], 
              'rval1': [ 6, 7, 8 ]}
left = pd.DataFrame(left_data, index=[0, 1, 2])
right = pd.DataFrame(right_data, index=[1, 2, 3])

In [22]:
left

Unnamed: 0,key1,key2,lval1
0,a,x,0
1,b,y,1
2,c,z,2


In [23]:
right

Unnamed: 0,key1,key2,rval1
1,a,x,6
2,b,a,7
3,c,z,8


In [24]:
# демонстрируем слияние, не указывая столбцы, по которым
# нужно выполнить слияние
# этот программный код неявно выполняет слияние 
# по всем общим столбцам
left.merge(right)

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0,6
1,c,z,2,8


In [25]:
# демонстрируем слияние, явно задав столбец,
# по значениям которого нужно связать 
# объекты DataFrame 
left.merge(right, on='key1')

Unnamed: 0,key1,key2_x,lval1,key2_y,rval1
0,a,x,0,x,6
1,b,y,1,a,7
2,c,z,2,z,8


In [26]:
# явно выполняем слияние с помощью двух столбцов
left.merge(right, on=['key1', 'key2'])

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0,6
1,c,z,2,8


In [27]:
# соединяем индексы строк обеих матриц
pd.merge(left, right, left_index=True, right_index=True)

Unnamed: 0,key1_x,key2_x,lval1,key1_y,key2_y,rval1
1,b,y,1,a,x,6
2,c,z,2,b,a,7


### Настройка семантики соединения при выполнении слияния

In [28]:
# внешнее соединение возращает все строки из внутреннего соединения, 
# а также строки датафреймов left и right,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
left.merge(right, how='outer')

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0.0,6.0
1,b,y,1.0,
2,c,z,2.0,8.0
3,b,a,,7.0


In [29]:
# левое соединение возращает все строки из внутреннего соединения, 
# а также строки датафрейма left,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
# итоговый датафрейм содержит общие строки датафреймов 
# left и right с метками 0 и 2 (строки датафреймов left и right, 
# у которых совпали значения в общих столбцах key1 и key2)
# а также уникальную строку датафрейма left с меткой 1 
# уникальная строка датафрейма left в итоговом датафрейме
# в столбце rval1 заполняется значением NaN, потому что
# в датафрейме left этот столбец отсутствовал
left.merge(right, how='left')

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0,6.0
1,b,y,1,
2,c,z,2,8.0


In [30]:
# правое соединение возращает все строки из внутреннего соединения, 
# а также строки датафрейма right,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
# итоговый датафрейм содержит общие строки датафреймов 
# left и right с метками 0 и 1 (строки датафреймов left и right, 
# у которых совпали значения в общих столбцах key1 и key2)
# а также уникальную строку датафрейма right с меткой 2
# уникальная строка датафрейма right в итоговом датафрейме
# в столбце lval1 заполняется значением NaN, потому что
# в датафрейме right этот столбец отсутствовал
left.merge(right, how='right')

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0.0,6
1,c,z,2.0,8
2,b,a,,7


In [31]:
# соединяем left с right (метод по умолчанию - outer)
# и поскольку эти объекты имеют дублирующиеся имена столбцов
# мы задаем параметы lsuffix и rsuffix
left.join(right, lsuffix='_left', rsuffix='_right')

Unnamed: 0,key1_left,key2_left,lval1,key1_right,key2_right,rval1
0,a,x,0,,,
1,b,y,1,a,x,6.0
2,c,z,2,b,a,7.0


In [32]:
# соединяем left с right с помощью внутреннего соединения
left.join(right, lsuffix='_left', rsuffix='_right', how='inner')

Unnamed: 0,key1_left,key2_left,lval1,key1_right,key2_right,rval1
1,b,y,1,a,x,6
2,c,z,2,b,a,7


### Поворот данных для преобразования значений в индексы и наоборот

In [34]:
# считываем данные акселерометра
sensor_readings = pd.read_csv("Data/accel.csv")
sensor_readings

Unnamed: 0,interval,axis,reading
0,0,X,0.0
1,0,Y,0.5
2,0,Z,1.0
3,1,X,0.1
4,1,Y,0.4
5,1,Z,0.9
6,2,X,0.2
7,2,Y,0.3
8,2,Z,0.8
9,3,X,0.3


In [35]:
# извлекаем показания по оси X
sensor_readings[sensor_readings['axis'] == 'X']

Unnamed: 0,interval,axis,reading
0,0,X,0.0
3,1,X,0.1
6,2,X,0.2
9,3,X,0.3


In [36]:
# поворачиваем данные. Интервалы становятся индексом, столбцы -
# это оси, а показания - значения столбцов
sensor_readings.pivot(index='interval', 
                     columns='axis', 
                     values='reading')

axis,X,Y,Z
interval,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0.0,0.5,1.0
1,0.1,0.4,0.9
2,0.2,0.3,0.8
3,0.3,0.2,0.7
