# Настройка pandas

In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datetime для работы с датами
import datetime
from datetime import datetime, date

# Задаем некоторые опции библиотеки pandas, которые 
# настраивают вывод
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 60)

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

# Конкатенация данных

In [2]:
# создаем два объекта Series для конкатенации
s1 = pd.Series(np.arange(0, 3))
s2 = pd.Series(np.arange(5, 8))
s1

0    0
1    1
2    2
dtype: int32

In [3]:
s2

0    5
1    6
2    7
dtype: int32

In [4]:
# конкатенируем их
pd.concat([s1, s2])

0    0
1    1
2    2
0    5
1    6
2    7
dtype: int32

In [5]:
# создаем два объекта DataFrame для конкатенации,
# используя те же самые индексные метки и имена столбцов, 
# но другие значения
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), 
                   columns=['a', 'b', 'c'])
#df2 имеет значения 9 .. 18
df2 = pd.DataFrame(np.arange(9, 18).reshape(3, 3), 
                   columns=['a', 'b', 'c'])
df1

   a  b  c
0  0  1  2
1  3  4  5
2  6  7  8

In [6]:
df2

    a   b   c
0   9  10  11
1  12  13  14
2  15  16  17

In [7]:
# выполняем конкатенацию
pd.concat([df1, df2])

    a   b   c
0   0   1   2
1   3   4   5
2   6   7   8
0   9  10  11
1  12  13  14
2  15  16  17

In [8]:
# демонстрируем конкатенацию двух объектов DataFrame
# с разными столбцами
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), 
                   columns=['a', 'b', 'c'])
df2 = pd.DataFrame(np.arange(9, 18).reshape(3, 3), 
                   columns=['a', 'c', 'd'])
df1

   a  b  c
0  0  1  2
1  3  4  5
2  6  7  8

In [9]:
df2

    a   c   d
0   9  10  11
1  12  13  14
2  15  16  17

In [10]:
# выполняем конкатенацию, пропусками будут заполнены
# значения столбца d в датафрейме df1 и
# значения столбца b в датафрейме df2
pd.concat([df1, df2], sort=True)

    a    b   c     d
0   0  1.0   2   NaN
1   3  4.0   5   NaN
2   6  7.0   8   NaN
0   9  NaN  10  11.0
1  12  NaN  13  14.0
2  15  NaN  16  17.0

In [11]:
# выполняем конкатенацию двух объектов, 
# но при этом создаем индекс с помощью
# заданных ключей 
c = pd.concat([df1, df2], keys=['df1', 'df2'], sort=True)
# обратите внимание на метки строк в выводе
c

        a    b   c     d
df1 0   0  1.0   2   NaN
    1   3  4.0   5   NaN
    2   6  7.0   8   NaN
df2 0   9  NaN  10  11.0
    1  12  NaN  13  14.0
    2  15  NaN  16  17.0

In [12]:
# мы можем извлечь данные, относящиеся к первому 
# или второму исходному датафрейму
c.loc['df2']

    a   b   c     d
0   9 NaN  10  11.0
1  12 NaN  13  14.0
2  15 NaN  16  17.0

In [13]:
# конкатенируем датафреймы df1 и df2 по оси столбцов
# выравниваем по меткам строк, 
# получаем дублирующиеся столбцы
pd.concat([df1, df2], axis=1)

   a  b  c   a   c   d
0  0  1  2   9  10  11
1  3  4  5  12  13  14
2  6  7  8  15  16  17

In [14]:
# создаем новый датафрейм d3, чтобы конкатенировать его 
# с датафреймом df1
# датафрейм df3 имеет общую с датафреймом df1 
# метку 2 и общий столбец (a)
df3 = pd.DataFrame(np.arange(20, 26).reshape(3, 2), 
                   columns=['a', 'd'], 
                   index=[2, 3, 4])
df3

    a   d
2  20  21
3  22  23
4  24  25

In [15]:
# конкатерируем их по оси столбцов. Происходит выравнивание по меткам строк,
# осуществляется заполнение значений столбцов df1, а затем 
# столбцов df3, получаем дублирующиеся столбцы
pd.concat([df1, df3], axis=1)

     a    b    c     a     d
0  0.0  1.0  2.0   NaN   NaN
1  3.0  4.0  5.0   NaN   NaN
2  6.0  7.0  8.0  20.0  21.0
3  NaN  NaN  NaN  22.0  23.0
4  NaN  NaN  NaN  24.0  25.0

In [16]:
# выполняем внутреннее соединение вместо внешнего
# результат представлен в виде одной строки
pd.concat([df1, df3], axis=1, join='inner')

   a  b  c   a   d
2  6  7  8  20  21

In [17]:
# добавляем ключи к столбцам
df = pd.concat([df1, df2], 
               axis=1,
               keys=['df1', 'df2'])
df

  df1       df2        
    a  b  c   a   c   d
0   0  1  2   9  10  11
1   3  4  5  12  13  14
2   6  7  8  15  16  17

In [18]:
# извлекаем данные из датафрейма 
# с помощью ключа 'df2'
df.loc[:, 'df2']

    a   c   d
0   9  10  11
1  12  13  14
2  15  16  17

In [19]:
# метод .append() выполняет конкатенацию по оси острок (axis=0), 
# в результате получаем дублирующиеся индексные метки строк
df1.append(df2, sort=True)

    a    b   c     d
0   0  1.0   2   NaN
1   3  4.0   5   NaN
2   6  7.0   8   NaN
0   9  NaN  10  11.0
1  12  NaN  13  14.0
2  15  NaN  16  17.0

In [20]:
# избавляемся от дублирования меток в итоговом индексе,  
# игнорируя индексные метки в датафреймах-источниках
df1.append(df2, ignore_index=True, sort=True)

    a    b   c     d
0   0  1.0   2   NaN
1   3  4.0   5   NaN
2   6  7.0   8   NaN
3   9  NaN  10  11.0
4  12  NaN  13  14.0
5  15  NaN  16  17.0

# Слияние данных

In [21]:
# это наши клиенты
customers = {'CustomerID': [10, 11],
             'Name': ['Mike', 'Marcia'],
             'Address': ['Address for Mike',
                         'Address for Marcia']}
customers = pd.DataFrame(customers)
customers

   CustomerID    Name             Address
0          10    Mike    Address for Mike
1          11  Marcia  Address for Marcia

In [22]:
# это наши заказы, сделанные клиентами,
# они связаны с клиентами с помощью столбца CustomerID
orders = {'CustomerID': [10, 11, 10],
          'OrderDate': [date(2014, 12, 1),
                        date(2014, 12, 1),
                        date(2014, 12, 1)]}
orders = pd.DataFrame(orders)
orders

   CustomerID   OrderDate
0          10  2014-12-01
1          11  2014-12-01
2          10  2014-12-01

In [23]:
# выполняем слияние датафреймов customers и orders так, чтобы
# мы могли отправить товары
customers.merge(orders)

   CustomerID    Name             Address   OrderDate
0          10    Mike    Address for Mike  2014-12-01
1          10    Mike    Address for Mike  2014-12-01
2          11  Marcia  Address for Marcia  2014-12-01

In [24]:
# создаем данные, которые будем использовать в качестве примеров
# в оставшейся части этого раздела
left_data = {'key1': ['a', 'b', 'c'], 
            'key2': ['x', 'y', 'z'],
            'lval1': [ 0, 1, 2]}
right_data = {'key1': ['a', 'b', 'c'],
              'key2': ['x', 'a', 'z'], 
              'rval1': [ 6, 7, 8 ]}
left = pd.DataFrame(left_data, index=[0, 1, 2])
right = pd.DataFrame(right_data, index=[1, 2, 3])
left

  key1 key2  lval1
0    a    x      0
1    b    y      1
2    c    z      2

In [25]:
right

  key1 key2  rval1
1    a    x      6
2    b    a      7
3    c    z      8

In [26]:
# демонстрируем слияние, не указывая столбцы, по которым
# нужно выполнить слияние
# этот программный код неявно выполняет слияние 
# по всем общим столбцам
left.merge(right)

  key1 key2  lval1  rval1
0    a    x      0      6
1    c    z      2      8

In [27]:
# демонстрируем слияние, явно задав столбец,
# по значениям которого нужно связать 
# объекты DataFrame 
left.merge(right, on='key1')

  key1 key2_x  lval1 key2_y  rval1
0    a      x      0      x      6
1    b      y      1      a      7
2    c      z      2      z      8

In [28]:
# явно выполняем слияние с помощью двух столбцов
left.merge(right, on=['key1', 'key2'])

  key1 key2  lval1  rval1
0    a    x      0      6
1    c    z      2      8

In [29]:
# соединяем индексы строк обеих матриц
pd.merge(left, right, left_index=True, right_index=True)

  key1_x key2_x  lval1 key1_y key2_y  rval1
1      b      y      1      a      x      6
2      c      z      2      b      a      7

# Настройка семантики соединения при выполнении слияния

In [30]:
# внешнее соединение возращает все строки из внутреннего соединения, 
# а также строки датафреймов left и right,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
left.merge(right, how='outer')

  key1 key2  lval1  rval1
0    a    x    0.0    6.0
1    b    y    1.0    NaN
2    c    z    2.0    8.0
3    b    a    NaN    7.0

In [31]:
# левое соединение возращает все строки из внутреннего соединения, 
# а также строки датафрейма left,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
# итоговый датафрейм содержит общие строки датафреймов 
# left и right с метками 0 и 2 (строки датафреймов left и right, 
# у которых совпали значения в общих столбцах key1 и key2)
# а также уникальную строку датафрейма left с меткой 1 
# уникальная строка датафрейма left в итоговом датафрейме
# в столбце rval1 заполняется значением NaN, потому что
# в датафрейме left этот столбец отсутствовал
left.merge(right, how='left')

  key1 key2  lval1  rval1
0    a    x      0    6.0
1    b    y      1    NaN
2    c    z      2    8.0

In [32]:
# правое соединение возращает все строки из внутреннего соединения, 
# а также строки датафрейма right,
# не попавшие во внутреннее соединение 
# отсутствующие элементы заполняются значениями NaN
# итоговый датафрейм содержит общие строки датафреймов 
# left и right с метками 0 и 1 (строки датафреймов left и right, 
# у которых совпали значения в общих столбцах key1 и key2)
# а также уникальную строку датафрейма right с меткой 2
# уникальная строка датафрейма right в итоговом датафрейме
# в столбце lval1 заполняется значением NaN, потому что
# в датафрейме right этот столбец отсутствовал
left.merge(right, how='right')

  key1 key2  lval1  rval1
0    a    x    0.0      6
1    c    z    2.0      8
2    b    a    NaN      7

In [33]:
# соединяем left с right (метод по умолчанию - outer)
# и поскольку эти объекты имеют дублирующиеся имена столбцов
# мы задаем параметы lsuffix и rsuffix
left.join(right, lsuffix='_left', rsuffix='_right')

  key1_left key2_left  lval1 key1_right key2_right  rval1
0         a         x      0        NaN        NaN    NaN
1         b         y      1          a          x    6.0
2         c         z      2          b          a    7.0

In [34]:
# соединяем left с right с помощью внутреннего соединения
left.join(right, lsuffix='_left', rsuffix='_right', how='inner')

  key1_left key2_left  lval1 key1_right key2_right  rval1
1         b         y      1          a          x      6
2         c         z      2          b          a      7

# Поворот

In [35]:
# считываем данные акселерометра
sensor_readings = pd.read_csv("Data/accel.csv")
sensor_readings

    interval axis  reading
0          0    X      0.0
1          0    Y      0.5
2          0    Z      1.0
3          1    X      0.1
4          1    Y      0.4
..       ...  ...      ...
7          2    Y      0.3
8          2    Z      0.8
9          3    X      0.3
10         3    Y      0.2
11         3    Z      0.7

[12 rows x 3 columns]

In [36]:
# извлекаем показания по оси X
sensor_readings[sensor_readings['axis'] == 'X']

   interval axis  reading
0         0    X      0.0
3         1    X      0.1
6         2    X      0.2
9         3    X      0.3

In [37]:
# поворачиваем данные. Интервалы становятся индексом, столбцы -
# это оси, а показания - значения столбцов
sensor_readings.pivot(index='interval', 
                     columns='axis', 
                     values='reading')

axis        X    Y    Z
interval               
0         0.0  0.5  1.0
1         0.1  0.4  0.9
2         0.2  0.3  0.8
3         0.3  0.2  0.7

# Состыковка с помощью неиерархических индексов

In [38]:
# создаем простой датафрейм с одним столбцом
df = pd.DataFrame({'a': [1, 2]}, index={'one', 'two'})
df

     a
two  1
one  2

In [39]:
# помещаем столбец в еще один уровень индекса строк 
# результатом становится объект Series, в которой
# значения можно просмотреть с помощью мультииндекса
stacked1 = df.stack()
stacked1

two  a    1
one  a    2
dtype: int64

In [40]:
# ищем значение для 'one'/'a', передав кортеж в индексатор
stacked1[('one', 'a')]

2

In [41]:
# создаем датафрейм с двумя столбцами
df = pd.DataFrame({'a': [1, 2],
                   'b': [3, 4]}, 
                  index={'one', 'two'})
df

     a  b
two  1  3
one  2  4

In [42]:
# помещаем оба столбца в отдельный уровень индекса
stacked2 = df.stack()
stacked2

two  a    1
     b    3
one  a    2
     b    4
dtype: int64

In [43]:
# ищем значение с помощью индекса 'one' / 'b'
stacked2[('one', 'b')]

4

# Расстыковка с помощью иерархических индексов

In [44]:
# создаем две копии данных акселерометра, 
# по одной для каждого пользователя
user1 = sensor_readings.copy()
user2 = sensor_readings.copy()
# добавляем столбец who в каждую копию
user1['who'] = 'Mike'
user2['who'] = 'Mikael'
# давайте отмасштабируем данные user2
user2['reading'] *= 100
# и организуем данные так, чтобы получить иерархический
# индекс строк
multi_user_sensor_data = pd.concat([user1, user2]) \
            .set_index(['who', 'interval', 'axis'])
multi_user_sensor_data

                      reading
who    interval axis         
Mike   0        X         0.0
                Y         0.5
                Z         1.0
       1        X         0.1
                Y         0.4
...                       ...
Mikael 2        Y        30.0
                Z        80.0
       3        X        30.0
                Y        20.0
                Z        70.0

[24 rows x 1 columns]

In [45]:
# извлекаем показания, относящиеся к пользователю Mike,
# с помощью индекса
multi_user_sensor_data.loc['Mike']

               reading
interval axis         
0        X         0.0
         Y         0.5
         Z         1.0
1        X         0.1
         Y         0.4
...                ...
2        Y         0.3
         Z         0.8
3        X         0.3
         Y         0.2
         Z         0.7

[12 rows x 1 columns]

In [46]:
# извлекаем все показания по всем осям
# и по всем пользователям в интервале 1
multi_user_sensor_data.xs(1, level='interval')

             reading
who    axis         
Mike   X         0.1
       Y         0.4
       Z         0.9
Mikael X        10.0
       Y        40.0
       Z        90.0

In [47]:
# выполняем расстыковку, в результате самый внутренний 
# уровень индекса строк (уровень axis) 
# стал уровнем индекса столбцов
multi_user_sensor_data.unstack()

                reading             
axis                  X     Y      Z
who    interval                     
Mikael 0            0.0  50.0  100.0
       1           10.0  40.0   90.0
       2           20.0  30.0   80.0
       3           30.0  20.0   70.0
Mike   0            0.0   0.5    1.0
       1            0.1   0.4    0.9
       2            0.2   0.3    0.8
       3            0.3   0.2    0.7

In [48]:
# выполняем расстыковку по уровню 0
multi_user_sensor_data.unstack(level=0)

              reading     
who            Mikael Mike
interval axis             
0        X        0.0  0.0
         Y       50.0  0.5
         Z      100.0  1.0
1        X       10.0  0.1
         Y       40.0  0.4
...               ...  ...
2        Y       30.0  0.3
         Z       80.0  0.8
3        X       30.0  0.3
         Y       20.0  0.2
         Z       70.0  0.7

[12 rows x 2 columns]

In [49]:
# выполняем расстыковку уровней
# who и axis
unstacked = multi_user_sensor_data.unstack(['who', 'axis'])
unstacked

         reading                              
who         Mike           Mikael             
axis           X    Y    Z      X     Y      Z
interval                                      
0            0.0  0.5  1.0    0.0  50.0  100.0
1            0.1  0.4  0.9   10.0  40.0   90.0
2            0.2  0.3  0.8   20.0  30.0   80.0
3            0.3  0.2  0.7   30.0  20.0   70.0

In [50]:
# и, конечно, мы можем выполнить состыковку уровней, 
# которые расстыковали
# выполняем состыковку уровня who
unstacked.stack(level='who')

                reading             
axis                  X     Y      Z
interval who                        
0        Mikael     0.0  50.0  100.0
         Mike       0.0   0.5    1.0
1        Mikael    10.0  40.0   90.0
         Mike       0.1   0.4    0.9
2        Mikael    20.0  30.0   80.0
         Mike       0.2   0.3    0.8
3        Mikael    30.0  20.0   70.0
         Mike       0.3   0.2    0.7

# Расплавление

In [51]:
# продемонстрируем расплавление 
# с помощью этого датафрейма
data = pd.DataFrame({'Name' : ['Mike', 'Mikael'],
                     'Height' : [6.1, 6.0],
                     'Weight' : [220, 185]})
data

     Name  Height  Weight
0    Mike     6.1     220
1  Mikael     6.0     185

In [52]:
# расплавляем датафрейм, используем Name 
# в качестве идентификатора, а столбцы 
# Height and Weight в качестве переменных
pd.melt(data, 
        id_vars=['Name'],
        value_vars=['Height', 'Weight'])

     Name variable  value
0    Mike   Height    6.1
1  Mikael   Height    6.0
2    Mike   Weight  220.0
3  Mikael   Weight  185.0

# Преимущества использования состыкованных данных

In [53]:
# поиск значений в состыкованных данных может быть
# намного быстрее поиска в обычных данных 

# время выполнения различных методов
import timeit
t = timeit.Timer("stacked1[('one', 'a')]", 
                 "from __main__ import stacked1, df")
r1 = timeit.timeit(lambda: stacked1.loc[('one', 'a')], 
                   number=10000)
r2 = timeit.timeit(lambda: df.loc['one']['a'], 
                   number=10000)
r3 = timeit.timeit(lambda: df.iloc[1, 0], 
                   number=10000)

# и вот наши результаты...  Да, это самый быстрый метод из всех трех
r1, r2, r3

(0.6927868589099964, 1.2975215425876097, 0.10396356837177767)