### Библиотеки / данные

импортируем библиотеки numpy и pandas

In [None]:
import numpy as np
import pandas as pd

задаем некоторые настройки pandas, регулирующие формат вывода

In [None]:
pd.options.display.max_rows = 10

### Слияние датафреймов

**Аргументы функции merge**


| Аргумент        | Описание
| ------------- |:-------------:|
|left|Объект DataFrame в левой части операции слияния|
|right|Объект DataFrame в правой части операции слияния|
|how|Допустимые значения: 'inner', 'outer', 'left', 'right '|
|on|Имена столбцов, по которым производится соединение. Должны присутствовать в обоих объектах DataFrame. Если не заданы и не указаны никакие другие ключи соединения, то используются имена столбцов, общих для обоих объектов|
|left_on|Столбцы левого DataFrame, используемые как ключи соединения|
|right_on|Столбцы правого DataFrame, используемые как ключи соединения|
|left index|Использовать индекс строк левого DataFrame в качестве его ключа соединения (или нескольких ключей в случае мультииндекса)|
|right_index|То же, что left_index, но для правого DataFrame|
|sort|Сортировать слитые данные лексикографически по ключам соединения по умолчанию True. Иногда при работе с большими наборами данных лучше отключить
|suffixes|Кортеж строк, которые дописываются в конец совпадающих имен столбцов;
|сору|Если равен False, то в некоторых особых случаях разрешается не копировать данные в результирующую структуру.|

для примеров:

In [None]:
df1 = pd.DataFrame({'key': ['a','a', 'a', 'b', 'b', 'c', 'd'],
                    'data1': range(7)},
                    index = range(3,10))
df2 = pd.DataFrame({'key': ['a', 'b', 'b', 'f'],
                    'data2': range(4)})

In [None]:
df1

In [None]:
df2

по умолчанию:

In [None]:
pd.merge(df1, df2)

по каким столбцам соединять?

In [None]:
pd.merge(df1, df2, on='key')

разные имена столбцов:

In [None]:
pd.merge(df1, df2, left_on='data1', right_on='data2')

задание суффиксовов:

In [None]:
pd.merge(df1, df2, left_on='data1', right_on='data2',suffixes=('_left', '_right'))

соединение по нескольким столбцам:

In [None]:
pd.merge(df1, df2,
         left_on=['data1', 'key'],
         right_on=['data2', 'key'])

указываем тип соединения:

In [None]:
pd.merge(df1, df2, how='outer')

### Конкатенация датафреймов

для примеров:

In [None]:
df1 = pd.DataFrame(index = range(3), data = np.arange(9).reshape(3, 3), 
                   columns=['a', 'b', 'c'])
df2 = pd.DataFrame(index = range(2,5), data = np.arange(9, 18).reshape(3, 3), 
                   columns=['a', 'c', 'd'])

In [None]:
df1

In [None]:
df2

По умолчанию:

In [None]:
pd.concat([df1, df2], sort=True)

In [None]:
pd.concat([df1, df2], axis=0, sort=True, join='inner')

По оси столбцов:

In [None]:
pd.concat([df1, df2], axis=1, sort=True)

In [None]:
df1

In [None]:
df2

### "Long” и “Wide”

считываем данные акселерометра ("Long")

In [None]:
long_format = pd.read_csv("accel.csv")
long_format

"Wide" формат, используем unstack:

In [None]:
tmp = long_format.set_index(['interval','axis'])
tmp

In [None]:
tmp = tmp.unstack()
tmp

"Wide" формат, используем pivot:

In [None]:
wide_format = long_format.pivot(index='interval', 
                                columns='axis', 
                                values='reading')

wide_format

Из "Wide" в "Long" формат:

In [None]:
long_format_stack = wide_format.stack()
long_format_stack

создаем две копии данных акселерометра, по одной для каждого пользователя

In [None]:
user1 = long_format.copy()
user2 = long_format.copy()

добавляем столбец who в каждую копию

In [None]:
user1['who'] = 'Mike'
user2['who'] = 'David'

отмасштабируем данные user2

In [None]:
user2['reading'] *= 100

In [None]:
user1.head()

In [None]:
user2.head()

организуем данные так, чтобы получить иерархический индекс строк

In [None]:
multi_user_long_format = pd.concat([user1, user2]).set_index(['who', 'interval', 'axis'])
multi_user_long_format

пример для повторения извлекаем все показания по всем осям и по всем пользователям при interval == 1

In [None]:
multi_user_long_format.xs(1, level='interval')

выполняем расстыковку, в результате 2-й уровень индекса строк (уровень axis) стал уровнем индекса столбцов

In [None]:
multi_user_wide_format = multi_user_long_format.unstack()
multi_user_wide_format

загружаем данные

In [None]:
tips = pd.read_csv("tips.csv")
tips.head()

In [None]:
tips['tip_pct'] = tips['tip'] / tips['total_bill']

In [None]:
tips.head()

### Механизм GroupBy

In [None]:
df = pd.DataFrame({'x': ['a','a','b','b','c','c'],
                   'y': [2,4,0,5,5,10]})
df

In [None]:
groups = df.groupby(['x'])
groups

получаем информацию о количестве групп, которые будут созданы

In [None]:
groups.ngroups

получаем информацию о количестве элементов в каждой группе

In [None]:
groups.size()

что представляют из себя найденные группы?

In [None]:
groups.groups

получаем данные конкретной группы

In [None]:
groups.get_group('b')

извлекаем первую строку каждой группы

In [None]:
groups.nth([1])

обход групп:

In [None]:
for key, group in groups:
    print(key)
    print(group)
     

вычисление среднего

In [None]:
groups.y.mean()

### Типы группировок

#### по столбцам: 

In [None]:
tips.head()

In [None]:
tips.groupby(['day','time']).tip.mean().unstack()

#### по уровням индекса

создаем копию данных и заново индексируем ее

In [None]:
copy_tips = tips.copy()
copy_tips = copy_tips.set_index(['day', 'time'])
copy_tips

группировать можем по одному или нескольким уровням индекса, передавая соответствующие значения столбцов аргументу level

In [None]:
copy_tips.groupby(level=['time']).sum()

In [None]:
copy_tips.groupby(level = ['day', 'time']).mean()

### Преобразование групп

Метод transform - это операция, используемая вместе с groupby (которая является одной из самых полезных в pandas). Преобразование через transform может вернуть версию полного набора данных, преобразованную ради дальнейшей их перекомпоновки. При подобном преобразовании форма выходных данных совпадает с формой входных. Распространенный пример — центрирование данных путем вычитания среднего значения по группам.

In [None]:

df = pd.DataFrame({'Col1': ['A', 'B', 'C', 'C', 'B', 'B', 'A'],
                   'Col2': [1, 2, 3, 4, 2, 5, 3]})
df
df['Col3'] = df.groupby('Col1').transform(sum)
df.sort_values('Col1')