In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

__Конкатенация данных, расположенных в нескольких объектах__

In [2]:
# Конкатенацию можно выполнить с помощью функции pd.concat()
# создаем два объекта Series
s1 = pd.Series(np.arange(0,3))
s2 = pd.Series(np.arange(5,8))
s1

0    0
1    1
2    2
dtype: int32

In [3]:
s2

0    5
1    6
2    7
dtype: int32

In [4]:
pd.concat([s1, s2])

0    0
1    1
2    2
0    5
1    6
2    7
dtype: int32

In [5]:
# создаем два объекта DataFrame для последующей конкатенации
df1 = pd.DataFrame(np.arange(9).reshape (3, 3), columns = ['a', 'b', 'c'])
df2 = pd.DataFrame(np.arange(9, 18).reshape (3, 3), columns = ['a', 'b', 'c'])
df1

   a  b  c
0  0  1  2
1  3  4  5
2  6  7  8

In [6]:
df2

    a   b   c
0   9  10  11
1  12  13  14
2  15  16  17

In [7]:
pd.concat([df1, df2])

    a   b   c
0   0   1   2
1   3   4   5
2   6   7   8
0   9  10  11
1  12  13  14
2  15  16  17

In [8]:
# демонстрируем конкатенацию двух DataFrame с разными столбцами
df1 = pd.DataFrame(np.arange(9).reshape (3, 3), columns = ['a', 'b', 'c'])
df2 = pd.DataFrame(np.arange(9, 18).reshape (3, 3), columns = ['a', 'c', 'd'])
df1

   a  b  c
0  0  1  2
1  3  4  5
2  6  7  8

In [9]:
df2

    a   c   d
0   9  10  11
1  12  13  14
2  15  16  17

In [10]:
pd.concat([df1, df2])

    a    b   c     d
0   0  1.0   2   NaN
1   3  4.0   5   NaN
2   6  7.0   8   NaN
0   9  NaN  10  11.0
1  12  NaN  13  14.0
2  15  NaN  16  17.0

In [11]:
# выполняем конкатенацию двух объектов, но при этом создаем индекс с помощью заданных ключей
c = pd.concat([df1, df2], keys = ['df1', 'df2'], sort = True)
c

        a    b   c     d
df1 0   0  1.0   2   NaN
    1   3  4.0   5   NaN
    2   6  7.0   8   NaN
df2 0   9  NaN  10  11.0
    1  12  NaN  13  14.0
    2  15  NaN  16  17.0

In [12]:
# ключи можно использовать что бы отобрать поднабор данных
c.loc['df2']

    a   b   c     d
0   9 NaN  10  11.0
1  12 NaN  13  14.0
2  15 NaN  16  17.0

__Переключение осей выравнивания__

In [13]:
# Функция pd.concat() позволяет задать ось к которой нужно применить выравнивание
# конкатенируем датафреймы df1 и df2 по оси столбцов выравниваем по меткам строк, получаем дублирующиеся столбцы
pd.concat([df1, df2], axis=1)

   a  b  c   a   c   d
0  0  1  2   9  10  11
1  3  4  5  12  13  14
2  6  7  8  15  16  17

In [14]:
# создаем новый DataFrame df3 чтобы конкатенировать его с датафреймом df1
# df3 имеет общую с df1 метку 2 и и общий столбец а
df3 = pd.DataFrame(np.arange(20, 26).reshape(3, 2),
                   columns = ['a', 'd'],
                   index = [2, 3, 4])
df3

    a   d
2  20  21
3  22  23
4  24  25

In [15]:
# конкатенируем их по оси столбцов. Выполняется выравнивание по меткам строк, осуществляется заполнение значений столбцо df1, 
# а затем столбцов # df3, получаем дублирующиеся столбцы
pd.concat([df1, df3], axis = 1)

     a    b    c     a     d
0  0.0  1.0  2.0   NaN   NaN
1  3.0  4.0  5.0   NaN   NaN
2  6.0  7.0  8.0  20.0  21.0
3  NaN  NaN  NaN  22.0  23.0
4  NaN  NaN  NaN  24.0  25.0

__Определение типа соединения__

In [16]:
# выполняем внутреннее соединение вместо внешнего
pd.concat([df1, df3], axis = 1, join = 'inner')

   a  b  c   a   d
2  6  7  8  20  21

In [17]:
# добавляем ключи к столбцам
df = pd.concat([df1, df2], axis = 1, keys = ['df1', 'df2'])
df

  df1       df2        
    a  b  c   a   c   d
0   0  1  2   9  10  11
1   3  4  5  12  13  14
2   6  7  8  15  16  17

In [18]:
# извлекаем данные из DataFrame с помощью ключа df2
df.loc[:, 'df2']

    a   c   d
0   9  10  11
1  12  13  14
2  15  16  17

__Игнорирование меток индекса__

In [19]:
# если необходимо избавиться от дублирования меток индекса в итоговом индексе и при этом сохранить все строки,
# можно воспользоваться параметром ignore_index = True
pd.concat([df1, df2], ignore_index = True)

    a    b   c     d
0   0  1.0   2   NaN
1   3  4.0   5   NaN
2   6  7.0   8   NaN
3   9  NaN  10  11.0
4  12  NaN  13  14.0
5  15  NaN  16  17.0

__СЛИЯНИЕ И СОЕДИНЕНИЕ ДАННЫХ__

Библиотека Pandas позволяет выполннить слиеяни объектов с помощью операций, аналогичных операциям соединения для баз данных, используя функцию .pd.merge() и метод .merge() объекта DataFrame. 
- __Процедура слияния__ объединяет данные двух объектов путем поиска совпадающих значений в одном или нескольких индексах столбцов или строк. Затем, применив семантику соединения к этим значенииям, она возвращает новый объект - комбинацию данных обоих объектов.

__Слияние данных раположенных в нескольких объектах__

In [20]:
# DataFrame с клиентами
customers = {'CustomerID': [10, 11],
             'Name': ['Mike', 'Marcia'],
             'Address': ['Address for Mike',
             'Address for Marcia']}
customers = pd.DataFrame(customers)
customers

   CustomerID    Name             Address
0          10    Mike    Address for Mike
1          11  Marcia  Address for Marcia

In [21]:
# DataFrame с заказами сделанными клиентами, связаны с помощью столбца customerID
orders = {'CustomerID': [10, 11, 10],
         'OrderDate': [date(2014, 12, 1),
                       date(2014, 12, 1),
                       date(2014, 12, 1)]}
orders = pd.DataFrame(orders)
orders

   CustomerID   OrderDate
0          10  2014-12-01
1          11  2014-12-01
2          10  2014-12-01

In [22]:
# выполняем слияние DataFrame customers and orders так чтобы мы могли отправить товары 
customers.merge(orders)

   CustomerID    Name             Address   OrderDate
0          10    Mike    Address for Mike  2014-12-01
1          10    Mike    Address for Mike  2014-12-01
2          11  Marcia  Address for Marcia  2014-12-01

In [25]:
# создаем данные, которые будем использовать в качестве примеров в оставшейся части этого раздела
left_data = {'key1': ['a', 'b', 'c'],
             'key2': ['x', 'y', 'z'],
             'lval1': [0, 1, 2]}
right_data = {'key1': ['a', 'b', 'c'],
              'key2': ['x', 'y', 'z'],
              'rval1': [6, 7, 8]}
left = pd.DataFrame(left_data, index = [0, 1, 2])
right = pd.DataFrame(right_data, index = [1, 2, 3])

In [24]:
left

  key1 key2  lval1
0    a    x      0
1    b    y      1
2    c    z      2

In [26]:
right

  key1 key2  rval1
1    a    x      6
2    b    y      7
3    c    z      8

In [27]:
# демонстрируем слияние, не указывая столбцы, по которым нужно выполнить слияние
# данный код неявно выполняет слияние по всем общим столбцам 
left.merge(right)

  key1 key2  lval1  rval1
0    a    x      0      6
1    b    y      1      7
2    c    z      2      8

In [28]:
# демонстрируем слияние, явно задав столбец, по значениям которого надо связать объекты DataFrame 
left.merge(right, on='key1')

  key1 key2_x  lval1 key2_y  rval1
0    a      x      0      x      6
1    b      y      1      y      7
2    c      z      2      z      8

In [29]:
# явно выполняем слияние с помощью двух столбцов
left.merge(right, on = ['key1', 'key2'])

  key1 key2  lval1  rval1
0    a    x      0      6
1    b    y      1      7
2    c    z      2      8

In [30]:
# соединяем индексы строк обеих матриц
pd.merge(left, right, left_index = True, right_index = True)

  key1_x key2_x  lval1 key1_y key2_y  rval1
1      b      y      1      a      x      6
2      c      z      2      b      y      7

__ПОВОРОТ ДАННЫХ ДЛЯ ПРЕОБРАЗОВАНИЯ ЗНАЧЕНИЙ В ИНДЕКСЫ И НАОБОРОТ__

In [31]:
# считываем данные акселерометра
sensor_readings = pd.read_csv('./accel.csv')
sensor_readings

    interval axis  reading
0          0    X      0.0
1          0    Y      0.5
2          0    Z      1.0
3          1    X      0.1
4          1    Y      0.4
..       ...  ...      ...
7          2    Y      0.3
8          2    Z      0.8
9          3    X      0.3
10         3    Y      0.2
11         3    Z      0.7

[12 rows x 3 columns]

In [32]:
# более оптимальным вариантом отображения станет такое представление в котором столбцы будут представлять уникальные значения
# переменной axis. Чтобы преобразовать данные в этот формат, используйте метод .pivot() объекта DataFrame
sensor_readings.pivot(index = 'interval',
                      columns = 'axis',
                      values = 'reading')

axis        X    Y    Z
interval               
0         0.0  0.5  1.0
1         0.1  0.4  0.9
2         0.2  0.3  0.8
3         0.3  0.2  0.7