In [176]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datetime для работы с датами
import datetime
from datetime import datetime, date

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt

### Конкатенация данных

In [177]:
# создаем два объекта Series для конкатенации
s1 = pd.Series(np.arange(0, 3))
s2 = pd.Series(np.arange(5, 8))

In [178]:
s1

0    0
1    1
2    2
dtype: int64

In [179]:
s2

0    5
1    6
2    7
dtype: int64

In [180]:
# конкатенируем их
pd.concat([s1, s2]) # выравнивание не выполняется

0    0
1    1
2    2
0    5
1    6
2    7
dtype: int64

In [181]:
# создаем два объекта DataFrame для конкатенации,
# используя те же самые индексные метки и имена столбцов, 
# но другие значения
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), 
                   columns=['a', 'b', 'c'])
#df2 имеет значения 9 .. 18
df2 = pd.DataFrame(np.arange(9, 18).reshape(3, 3), 
                   columns=['a', 'b', 'c'])

In [182]:
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [183]:
df2

Unnamed: 0,a,b,c
0,9,10,11
1,12,13,14
2,15,16,17


In [184]:
# выполняем конкатенацию
pd.concat([df1, df2])

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
0,9,10,11
1,12,13,14
2,15,16,17


In [185]:
# демонстрируем конкатенацию двух объектов DataFrame
# с разными столбцами
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), 
                   columns=['a', 'b', 'c'])
df2 = pd.DataFrame(np.arange(9, 18).reshape(3, 3), 
                   columns=['a', 'c', 'd'])
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [186]:
df2

Unnamed: 0,a,c,d
0,9,10,11
1,12,13,14
2,15,16,17


In [187]:
# выполняем конкатенацию, пропусками будут заполнены
# значения столбца d в датафрейме df1 и
# значения столбца b в датафрейме df2
pd.concat([df1, df2], sort=False)

Unnamed: 0,a,b,c,d
0,0,1.0,2,
1,3,4.0,5,
2,6,7.0,8,
0,9,,10,11.0
1,12,,13,14.0
2,15,,16,17.0


In [188]:
# выполняем конкатенацию двух объектов, 
# но при этом создаем индекс с помощью
# заданных ключей 
c = pd.concat([df1, df2], sort=False, keys=['df1', 'df2'])
# обратите внимание на метки строк в выводе
c

Unnamed: 0,Unnamed: 1,a,b,c,d
df1,0,0,1.0,2,
df1,1,3,4.0,5,
df1,2,6,7.0,8,
df2,0,9,,10,11.0
df2,1,12,,13,14.0
df2,2,15,,16,17.0


In [189]:
# мы можем извлечь данные, относящиеся к первому 
# или второму исходному датафрейму
c.loc['df2']

Unnamed: 0,a,b,c,d
0,9,,10,11.0
1,12,,13,14.0
2,15,,16,17.0


### Переключение осей выравнивания

In [190]:
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [191]:
df2

Unnamed: 0,a,c,d
0,9,10,11
1,12,13,14
2,15,16,17


In [192]:
# конкатенируем датафреймы df1 и df2 по оси столбцов
# выравниваем по меткам строк, 
# получаем дублирующиеся столбцы
pd.concat([df1, df2], axis=1)

Unnamed: 0,a,b,c,a.1,c.1,d
0,0,1,2,9,10,11
1,3,4,5,12,13,14
2,6,7,8,15,16,17


In [193]:
# создаем новый датафрейм df3, чтобы конкатенировать его 
# с датафреймом df1
# датафрейм df3 имеет общую с датафреймом df1 
# метку 2 и общий столбец (a)
df3 = pd.DataFrame(np.arange(20, 26).reshape(3, 2), 
                   columns=['a', 'd'], 
                   index=[2, 3, 4])
df3

Unnamed: 0,a,d
2,20,21
3,22,23
4,24,25


In [194]:
# конкатерируем их по оси столбцов. Происходит выравнивание по меткам строк,
# осуществляется заполнение значений столбцов df1, а затем 
# столбцов df3, получаем дублирующиеся столбцы
pd.concat([df1, df3], axis=1)

Unnamed: 0,a,b,c,a.1,d
0,0.0,1.0,2.0,,
1,3.0,4.0,5.0,,
2,6.0,7.0,8.0,20.0,21.0
3,,,,22.0,23.0
4,,,,24.0,25.0


### Определение типа соединения

По умолчанию **внешнее соединение** (`outer join`): выполняем конкатенацию вдоль оси строк (`axis=0`), осуществляя внешнее соединение индексных меток по оси столбцов. Если выполняем конкатенацию вдоль оси столбцов (`axis=1`), осуществляем внешнее соединение индексных меток по оси строк.

Внутреннее соединение (`inner join`) выполняет логическую операцию пересечения индексных меток.

In [195]:
df1

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8


In [196]:
df3

Unnamed: 0,a,d
2,20,21
3,22,23
4,24,25


In [197]:
# выполняем внутреннее соединение вместо внешнего
# результат представлен в виде одной строки
pd.concat([df1, df3], axis=1, join='inner')

Unnamed: 0,a,b,c,a.1,d
2,6,7,8,20,21


In [198]:
df2

Unnamed: 0,a,c,d
0,9,10,11
1,12,13,14
2,15,16,17


In [199]:
# добавляем ключи к столбцам
df = pd.concat([df1, df2], 
               axis=1,
               keys=['df1', 'df2'])
df

Unnamed: 0_level_0,df1,df1,df1,df2,df2,df2
Unnamed: 0_level_1,a,b,c,a,c,d
0,0,1,2,9,10,11
1,3,4,5,12,13,14
2,6,7,8,15,16,17


In [200]:
# извлекаем данные из датафрейма 
# с помощью ключа 'df2'
df.loc[:, 'df2']

Unnamed: 0,a,c,d
0,9,10,11
1,12,13,14
2,15,16,17


### Присоединение вместо конкатенации

In [201]:
# метод .append() выполняет конкатенацию по оси острок (axis=0), 
# в результате получаем дублирующиеся индексные метки строк
df1.append(df2, sort=False)

Unnamed: 0,a,b,c,d
0,0,1.0,2,
1,3,4.0,5,
2,6,7.0,8,
0,9,,10,11.0
1,12,,13,14.0
2,15,,16,17.0


### Игнорирование меток индекса

In [202]:
# избавляемся от дублирования меток в итоговом индексе,  
# игнорируя индексные метки в датафреймах-источниках
df1.append(df2, ignore_index=True)

Unnamed: 0,a,b,c,d
0,0,1.0,2,
1,3,4.0,5,
2,6,7.0,8,
3,9,,10,11.0
4,12,,13,14.0
5,15,,16,17.0


### Слияние данных

In [203]:
# это наши клиенты
customers = {'CustomerID': [10, 11],
             'Name': ['Mike', 'Marcia'],
             'Address': ['Address for Mike',
                         'Address for Marcia']}
customers = pd.DataFrame(customers)
customers

Unnamed: 0,CustomerID,Name,Address
0,10,Mike,Address for Mike
1,11,Marcia,Address for Marcia


In [204]:
# это наши заказы, сделанные клиентами,
# они связаны с клиентами с помощью столбца CustomerID
orders = {'CustomerID': [10, 11, 10],
          'OrderDate': [date(2014, 12, 1),
                        date(2014, 12, 1),
                        date(2014, 12, 1)]}
orders = pd.DataFrame(orders)
orders

Unnamed: 0,CustomerID,OrderDate
0,10,2014-12-01
1,11,2014-12-01
2,10,2014-12-01


In [205]:
# выполняем слияние датафреймов customers и orders так, чтобы
# мы могли отправить товары
customers.merge(orders)

Unnamed: 0,CustomerID,Name,Address,OrderDate
0,10,Mike,Address for Mike,2014-12-01
1,10,Mike,Address for Mike,2014-12-01
2,11,Marcia,Address for Marcia,2014-12-01


In [206]:
# создаем данные, которые будем использовать в качестве примеров
# в оставшейся части этого раздела
left_data = {'key1': ['a', 'b', 'c'], 
            'key2': ['x', 'y', 'z'],
            'lval1': [ 0, 1, 2]}
right_data = {'key1': ['a', 'b', 'c'],
              'key2': ['x', 'a', 'z'], 
              'rval1': [ 6, 7, 8 ]}
left = pd.DataFrame(left_data, index=[0, 1, 2])
right = pd.DataFrame(right_data, index=[1, 2, 3])

In [206]:
left

Unnamed: 0,key1,key2,lval1
0,a,x,0
1,b,y,1
2,c,z,2


In [207]:
right

Unnamed: 0,key1,key2,rval1
1,a,x,6
2,b,a,7
3,c,z,8


In [208]:
# демонстрируем слияние, не указывая столбцы, по которым
# нужно выполнить слияние
# этот программный код неявно выполняет слияние 
# по всем общим столбцам
left.merge(right)

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0,6
1,c,z,2,8


In [209]:
# демонстрируем слияние, явно задав столбец,
# по значениям которого нужно связать 
# объекты DataFrame 
left.merge(right, on='key1')

Unnamed: 0,key1,key2_x,lval1,key2_y,rval1
0,a,x,0,x,6
1,b,y,1,a,7
2,c,z,2,z,8


In [210]:
# явно выполняем слияние с помощью двух столбцов
left.merge(right, on=['key1', 'key2'])

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0,6
1,c,z,2,8


In [211]:
# соединяем индексы строк обеих матриц
pd.merge(left, right, left_index=True, right_index=True)

Unnamed: 0,key1_x,key2_x,lval1,key1_y,key2_y,rval1
1,b,y,1,a,x,6
2,c,z,2,b,a,7


### Настройка семантики соединения при выполнении слияния

In [212]:
# внешнее соединение возращает все строки из внутреннего соединения, 
# а также строки датафреймов left и right,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
left.merge(right, how='outer')

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0.0,6.0
1,b,y,1.0,
2,c,z,2.0,8.0
3,b,a,,7.0


In [213]:
# левое соединение возращает все строки из внутреннего соединения, 
# а также строки датафрейма left,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
# итоговый датафрейм содержит общие строки датафреймов 
# left и right с метками 0 и 2 (строки датафреймов left и right, 
# у которых совпали значения в общих столбцах key1 и key2)
# а также уникальную строку датафрейма left с меткой 1 
# уникальная строка датафрейма left в итоговом датафрейме
# в столбце rval1 заполняется значением NaN, потому что
# в датафрейме left этот столбец отсутствовал
left.merge(right, how='left')

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0,6.0
1,b,y,1,
2,c,z,2,8.0


In [214]:
# правое соединение возращает все строки из внутреннего соединения, 
# а также строки датафрейма right,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
# итоговый датафрейм содержит общие строки датафреймов 
# left и right с метками 0 и 1 (строки датафреймов left и right, 
# у которых совпали значения в общих столбцах key1 и key2)
# а также уникальную строку датафрейма right с меткой 2
# уникальная строка датафрейма right в итоговом датафрейме
# в столбце lval1 заполняется значением NaN, потому что
# в датафрейме right этот столбец отсутствовал
left.merge(right, how='right')

Unnamed: 0,key1,key2,lval1,rval1
0,a,x,0.0,6
1,c,z,2.0,8
2,b,a,,7


In [215]:
# соединяем left с right (метод по умолчанию - outer)
# и поскольку эти объекты имеют дублирующиеся имена столбцов
# мы задаем параметы lsuffix и rsuffix
left.join(right, lsuffix='_left', rsuffix='_right')

Unnamed: 0,key1_left,key2_left,lval1,key1_right,key2_right,rval1
0,a,x,0,,,
1,b,y,1,a,x,6.0
2,c,z,2,b,a,7.0


In [216]:
# соединяем left с right с помощью внутреннего соединения
left.join(right, lsuffix='_left', rsuffix='_right', how='inner')

Unnamed: 0,key1_left,key2_left,lval1,key1_right,key2_right,rval1
1,b,y,1,a,x,6
2,c,z,2,b,a,7


### Поворот данных для преобразования значений в индексы и наоборот

In [217]:
# считываем данные акселерометра
sensor_readings = pd.read_csv("Data/accel.csv")
sensor_readings

Unnamed: 0,interval,axis,reading
0,0,X,0.0
1,0,Y,0.5
2,0,Z,1.0
3,1,X,0.1
4,1,Y,0.4
...,...,...,...
7,2,Y,0.3
8,2,Z,0.8
9,3,X,0.3
10,3,Y,0.2


In [218]:
# извлекаем показания по оси X
sensor_readings[sensor_readings['axis'] == 'X']

Unnamed: 0,interval,axis,reading
0,0,X,0.0
3,1,X,0.1
6,2,X,0.2
9,3,X,0.3


In [219]:
# поворачиваем данные. Интервалы становятся индексом, столбцы -
# это оси, а показания - значения столбцов
sensor_readings.pivot(index='interval', 
                     columns='axis', 
                     values='reading')

axis,X,Y,Z
interval,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0.0,0.5,1.0
1,0.1,0.4,0.9
2,0.2,0.3,0.8
3,0.3,0.2,0.7


### Состыковка с помощью неиерархических индексов

In [220]:
# создаем простой датафрейм с одним столбцом
df = pd.DataFrame({'a': [1, 2]}, index={'one', 'two'})
df

Unnamed: 0,a
one,1
two,2


In [221]:
# помещаем столбец в еще один уровень индекса строк 
# результатом становится объект Series, в которой
# значения можно просмотреть с помощью мультииндекса
stacked1 = df.stack()
stacked1

one  a    1
two  a    2
dtype: int64

In [222]:
# ищем значение для 'one'/'a', передав кортеж в индексатор
stacked1[('one', 'a')]

1

In [223]:
# создаем датафрейм с двумя столбцами
df = pd.DataFrame({'a': [1, 2],
                   'b': [3, 4]}, 
                  index={'one', 'two'})
df

Unnamed: 0,a,b
one,1,3
two,2,4


In [224]:
# помещаем оба столбца в отдельный уровень индекса
stacked2 = df.stack()
stacked2

one  a    1
     b    3
two  a    2
     b    4
dtype: int64

In [225]:
# ищем значение с помощью индекса 'one' / 'b'
stacked2[('one', 'b')]

3

### Расстыковка с помощью иерархических индексов

In [226]:
# создаем две копии данных акселерометра, 
# по одной для каждого пользователя
user1 = sensor_readings.copy()
user2 = sensor_readings.copy()
# добавляем столбец who в каждую копию
user1['who'] = 'Mike'
user2['who'] = 'Mikael'
# давайте отмасштабируем данные user2
user2['reading'] *= 100
# и организуем данные так, чтобы получить иерархический
# индекс строк
multi_user_sensor_data = pd.concat([user1, user2]) \
            .set_index(['who', 'interval', 'axis'])
multi_user_sensor_data

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,reading
who,interval,axis,Unnamed: 3_level_1
Mike,0,X,0.0
Mike,0,Y,0.5
Mike,0,Z,1.0
Mike,1,X,0.1
Mike,1,Y,0.4
...,...,...,...
Mikael,2,Y,30.0
Mikael,2,Z,80.0
Mikael,3,X,30.0
Mikael,3,Y,20.0


In [227]:
# извлекаем показания, относящиеся к пользователю Mike,
# с помощью индекса
multi_user_sensor_data.loc['Mike']

Unnamed: 0_level_0,Unnamed: 1_level_0,reading
interval,axis,Unnamed: 2_level_1
0,X,0.0
0,Y,0.5
0,Z,1.0
1,X,0.1
1,Y,0.4
...,...,...
2,Y,0.3
2,Z,0.8
3,X,0.3
3,Y,0.2


In [228]:
# извлекаем все показания по всем осям
# и по всем пользователям в интервале 1
multi_user_sensor_data.xs(1, level='interval')

Unnamed: 0_level_0,Unnamed: 1_level_0,reading
who,axis,Unnamed: 2_level_1
Mike,X,0.1
Mike,Y,0.4
Mike,Z,0.9
Mikael,X,10.0
Mikael,Y,40.0
Mikael,Z,90.0


In [229]:
# выполняем расстыковку, в результате самый внутренний 
# уровень индекса строк (уровень axis) 
# стал уровнем индекса столбцов
multi_user_sensor_data.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,reading,reading,reading
Unnamed: 0_level_1,axis,X,Y,Z
who,interval,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Mikael,0,0.0,50.0,100.0
Mikael,1,10.0,40.0,90.0
Mikael,2,20.0,30.0,80.0
Mikael,3,30.0,20.0,70.0
Mike,0,0.0,0.5,1.0
Mike,1,0.1,0.4,0.9
Mike,2,0.2,0.3,0.8
Mike,3,0.3,0.2,0.7


In [230]:
# выполняем расстыковку по уровню 0
multi_user_sensor_data.unstack(level=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,reading,reading
Unnamed: 0_level_1,who,Mikael,Mike
interval,axis,Unnamed: 2_level_2,Unnamed: 3_level_2
0,X,0.0,0.0
0,Y,50.0,0.5
0,Z,100.0,1.0
1,X,10.0,0.1
1,Y,40.0,0.4
...,...,...,...
2,Y,30.0,0.3
2,Z,80.0,0.8
3,X,30.0,0.3
3,Y,20.0,0.2


In [231]:
# выполняем расстыковку уровней
# who и axis
unstacked = multi_user_sensor_data.unstack(['who', 'axis'])
unstacked

Unnamed: 0_level_0,reading,reading,reading,reading,reading,reading
who,Mike,Mike,Mike,Mikael,Mikael,Mikael
axis,X,Y,Z,X,Y,Z
interval,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3
0,0.0,0.5,1.0,0.0,50.0,100.0
1,0.1,0.4,0.9,10.0,40.0,90.0
2,0.2,0.3,0.8,20.0,30.0,80.0
3,0.3,0.2,0.7,30.0,20.0,70.0


In [232]:
# и, конечно, мы можем выполнить состыковку уровней, 
# которые расстыковали
# выполняем состыковку уровня who
unstacked.stack(level='who')

Unnamed: 0_level_0,Unnamed: 1_level_0,reading,reading,reading
Unnamed: 0_level_1,axis,X,Y,Z
interval,who,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,Mikael,0.0,50.0,100.0
0,Mike,0.0,0.5,1.0
1,Mikael,10.0,40.0,90.0
1,Mike,0.1,0.4,0.9
2,Mikael,20.0,30.0,80.0
2,Mike,0.2,0.3,0.8
3,Mikael,30.0,20.0,70.0
3,Mike,0.3,0.2,0.7


### Расплавление данных

In [233]:
# продемонстрируем расплавление 
# с помощью этого датафрейма
data = pd.DataFrame({'Name' : ['Mike', 'Mikael'],
                     'Height' : [6.1, 6.0],
                     'Weight' : [220, 185]})
data

Unnamed: 0,Name,Height,Weight
0,Mike,6.1,220
1,Mikael,6.0,185


In [234]:
# расплавляем датафрейм, используем Name 
# в качестве идентификатора, а столбцы 
# Height and Weight в качестве переменных
pd.melt(data, 
        id_vars=['Name'],
        value_vars=['Height', 'Weight'])

Unnamed: 0,Name,variable,value
0,Mike,Height,6.1
1,Mikael,Height,6.0
2,Mike,Weight,220.0
3,Mikael,Weight,185.0


### Преимущества использования состыкованных данных

In [235]:
# поиск значений в состыкованных данных может быть
# намного быстрее поиска в обычных данных 

# время выполнения различных методов
import timeit
t = timeit.Timer("stacked1[('one', 'a')]", 
                 "from __main__ import stacked1, df")
r1 = timeit.timeit(lambda: stacked1.loc[('one', 'a')], 
                   number=10000)
r2 = timeit.timeit(lambda: df.loc['one']['a'], 
                   number=10000)
r3 = timeit.timeit(lambda: df.iloc[1, 0], 
                   number=10000)

# и вот наши результаты...  Да, это самый быстрый метод из всех трех
r1, r2, r3

(0.8755945769953541, 2.100069855005131, 0.1020474480028497)