### Libraries / Data

import numpy and pandas libraries

In [None]:
import numpy as np
import pandas as pd

specify some pandas settings that regulate output format

In [None]:
pd.options.display.max_rows = 10

### Dataframes merge

**Connection types**
<img src='..\images\join-types-merge-names.jpg'/>

**Merge function arguments**


| Аргумент        | Описание
| ------------- |:-------------:|
|left|Объект DataFrame в левой части операции слияния|
|right|Объект DataFrame в правой части операции слияния|
|how|Допустимые значения: 'inner', 'outer', 'left', 'right '|
|on|Имена столбцов, по которым производится соединение. Должны присутствовать в обоих объектах DataFrame. Если не заданы и не указаны никакие другие ключи соединения, то используются имена столбцов, общих для обоих объектов|
|left_on|Столбцы левого DataFrame, используемые как ключи соединения|
|right_on|Столбцы правого DataFrame, используемые как ключи соединения|
|left index|Использовать индекс строк левого DataFrame в качестве его ключа соединения (или нескольких ключей в случае мультииндекса)|
|right_index|То же, что left_index, но для правого DataFrame|
|sort|Сортировать слитые данные лексикографически по ключам соединения по умолчанию True. Иногда при работе с большими наборами данных лучше отключить
|suffixes|Кортеж строк, которые дописываются в конец совпадающих имен столбцов;
|сору|Если равен False, то в некоторых особых случаях разрешается не копировать данные в результирующую структуру.|

as examples:

In [None]:
df1 = pd.DataFrame({'key': ['a','a', 'a', 'b', 'b', 'c', 'd'],
                    'data1': range(7)},
                    index = range(3,10))
df2 = pd.DataFrame({'key': ['a', 'b', 'b', 'f'],
                    'data2': range(4)})

In [None]:
df1

In [None]:
df2

by default:

In [None]:
pd.merge(df1, df2)

by which columns to connect?

In [None]:
pd.merge(df1, df2, on='key')

different column names:

In [None]:
pd.merge(df1, df2, left_on='data1', right_on='data2')

suffix assignment:

In [None]:
pd.merge(df1, df2, left_on='data1', right_on='data2',suffixes=('_left', '_right'))

multicolumn connection:

In [None]:
pd.merge(df1, df2,
         left_on=['data1', 'key'],
         right_on=['data2', 'key'])

specify connection type:

In [None]:
pd.merge(df1, df2, how='outer')

In [None]:
df1

In [None]:
df2

In [None]:
pd.merge(df1, df2, left_index=True, right_on='data2')

In [None]:
pd.merge(df1, df2, left_on='data1', right_index=True)

In [None]:
pd.merge(df1, df2, left_index=True, right_index=True)

### Concatenation of dataframs

as examples:

In [None]:
df1 = pd.DataFrame(index = range(3), data = np.arange(9).reshape(3, 3), 
                   columns=['a', 'b', 'c'])
df2 = pd.DataFrame(index = range(2,5), data = np.arange(9, 18).reshape(3, 3), 
                   columns=['a', 'c', 'd'])

In [None]:
df1

In [None]:
df2

By default:

In [None]:
pd.concat([df1, df2], sort=True)

In [None]:
pd.concat([df1, df2], axis=0, sort=True, join='inner')

Column-axis:

In [None]:
pd.concat([df1, df2], axis=1, sort=True)

In [None]:
df1

In [None]:
df2

### "Long” и “Wide”

read accelerometer data ("Long")

In [None]:
long_format = pd.read_csv("../data/accel.csv")
long_format

"Wide" format, using unstack:

In [None]:
tmp = long_format.set_index(['interval','axis'])
tmp

In [None]:
tmp = tmp.unstack()
tmp

"Wide" format, using pivot:

In [None]:
wide_format = long_format.pivot(index='interval', 
                                columns='axis', 
                                values='reading')

wide_format

From "Wide" to "Long" format:

In [None]:
long_format_stack = wide_format.stack()
long_format_stack

create two copies of the accelerometer data, one for each user

In [None]:
user1 = long_format.copy()
user2 = long_format.copy()

add the who column to each copy

In [None]:
user1['who'] = 'Mike'
user2['who'] = 'David'

scale user2 data

In [None]:
user2['reading'] *= 100

In [None]:
user1.head()

In [None]:
user2.head()

organize the data to get a hierarchical index of rows

In [None]:
multi_user_long_format = pd.concat([user1, user2]).set_index(['who', 'interval', 'axis'])
multi_user_long_format

example for repetition extract all indications on all axes and on all users at interval == 1

In [None]:
multi_user_long_format.xs(1, level='interval')

undock, making the 2nd level of the row index (axis level) column level

In [None]:
multi_user_wide_format = multi_user_long_format.unstack()
multi_user_wide_format

parameter level:

In [None]:
multi_user_long_format.unstack(level = 1)