# Упорядочение данных
Упорядочение данных (data wrangling) – термин, охватывающий диапазон тем, используемых для описания процесса преобразования сырых данных в чистый и организованный формат, готовый к использованию. Упорядочение данных – один из важных шагов в предобработке данных.    
Наиболее распространенной структурой данных, используемой для упорядочения является фрейм данных (`DataFrame()`) библиотеки `pandas`. Фреймы данных являются табличной формой представления данных.

In [64]:
# Загрузить библиотеку
import pandas as pd 

# Создать url адрес
url = 'https://tinyurl.com/titanic-csv'

# Загрузить данные как фреймы данных
dataframe = pd.read_csv(url)

# Показать первые пять строк
dataframe.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


В этом фрейме данных можно заметить три важных момента:
* во-первых, во фрейме данных каждая строка соответствует одному наблюдению, а каждый столбец соответствует одному признаку;
* во-вторых, каждый столбец содержит имя (`Name`, `Pclass`, `Age` и т.д.), а каждая строка содержит индексный номер (`0`, `1` и т.д.), которые можно использовать для выбора и управления наблюдениями и признаками;
* в-третьих, два столбца `Sex` и `SexCode` содержат одну и туже информацию в разных форматах; в столбце `Sex` пол  пассажиров обозначается `male`/`female`, в то время как в столбце `SexCode` пол обозначается `0`/`1`. Чтобы признаки были уникальными, поэтому нужно удалить один из столбцов.

### 1. Создание фрейма данных
##### Задача
Требуется создать новый фрейм данных
##### Решение
Создаем фрейм данных с помощью конструктора `DataFrame()` библиотеки `pandas`, затем определение каждого столбца по отдельности.

In [7]:
# Создать фрейм данных DataFrame
df = pd.DataFrame()

# Добавить столбцы
df['Имя'] = ['Иван Иванов', 'Петр Петров']
df['Возраст'] = [38, 25]
df['Водитель'] = [True, False]

# Показать DataFrame
df

Unnamed: 0,Имя,Возраст,Водитель
0,Иван Иванов,38,True
1,Петр Петров,25,False


В качестве альтернативы после того, как был создан объект `DataFrame`, можно добавить новые строки в конец фрейма данных.

In [9]:
# Создать строку
new_person = pd.Series(['Федор Федоров', 40, True], 
                       index=['Имя', 'Возраст', 'Водитель'])

# Добавить строку в конец фрейма данных
df.append(new_person, ignore_index=True)

Unnamed: 0,Имя,Возраст,Водитель
0,Иван Иванов,38,True
1,Петр Петров,25,False
2,Федор Федоров,40,True


### 2. Описание данных
##### Задача 
Требуется взглянуть на некоторые характеристики фрейма данных
##### Решение
Первым делом – взглянем на первые несколько строк с помощью метода `head`

In [10]:
# Создать url адрес
url = 'https://tinyurl.com/titanic-csv'

# Загрузить данные как фреймы данных
dataframe = pd.read_csv(url)

# Показать первые пять строк
dataframe.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


Также можно взглянуть на количество строк и столбцов

In [11]:
# Показать размерности
dataframe.shape

(1313, 6)

Используя метод `describe` можно получить описательную статистику для любых числовых столбцов

In [13]:
# Показать статистику
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


После загрузки данных неплохо понять как они структурированы и какую информацию содержат. В идеале нужно просмотреть все данные, но в большинстве реальных случаев данные могут содержать тысячи и миллионы строк и столбцов. Для таких случаев необходимо опираться на извлечение выборок с целью просмотра небольших срезов и вычисления сводной статистики этих данных.       
При помощи метода `head()` можно посмотреть первые пять строк фрейма данных, при помощи метода `tail()` можно постмотреть пять последних строк. С пмомощью атрибута `shape` можно увидеть сколько строк и столбцов содержится в дата фрейме. Метод `describe` показывает некоторые описательные статистики для любого числового столбца.    

### 3. Навигация по фреймам данных   
##### Задача
Требуется выбрать индивидуальные данные из фрейма данных
##### Решение
Используем методы `iloc` и `loc`

In [78]:
# Создать URL-адрес
url = 'https://tinyurl.com/titanic-csv'

# Загрузить данные
df = pd.read_csv(url)

# Выбрать первую строку
df.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

Для выбора среза строк, которые требуется получить, применяется оператор `:`

In [20]:
# Выбрать три строки (11, 12, 13)
df.iloc[11:14]

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Astor, Mrs John Jacob (Madeleine Talmadge Force)","Astor, Mrs John Jacob (Madeleine Talmadge Force)",1st,19.0,female,1,1
"Aubert, Mrs Leontine Pauline","Aubert, Mrs Leontine Pauline",1st,,female,1,1
"Barkworth, Mr Algernon H","Barkworth, Mr Algernon H",1st,,male,1,0


Также можно выбрать данные до определенной строки

In [21]:
# Выбрать все строки до 4-ой включительно
df.iloc[:4]

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1
"Allison, Mr Hudson Joshua Creighton","Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
"Allison, Mrs Hudson JC (Bessie Waldo Daniels)","Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


Фреймы данных не нуждаются в числовой индексации. Можно определить индекс фрейма любым значением, где значение является уникальным для каждой строки. Например, можно задать индексы на именах пассажиров , а затем выбрать строки, используя имя:

In [23]:
# Задать индекс
df = df.set_index(df['Name'])

# Показать строку
df.loc['Allen, Miss Elisabeth Walton']

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

Все строки в дата фрейме `pandas` имеют уникальное индексное значение. По умолчанию этот индекс является целым числом, указывающим на положение строки во фрейме данных. Однако это не обязательно. Индексы фреймов могут быть уникальными буквенно-цифровыми строковыми значениями или номерами клиентов.     
Для выбора отдельных строк и срезов строк библиотека `pandas` предоставляет два метода:
* метод `loc` полезен, когда индекс фрейма является меткой (например, строковым заначением);
* метод `iloc` работает, отыскивая позицию во фрейме данных, напрмер, `iloc[0]` вернет первую строку независимо от того, является ли индекс целым числом или меткой.   

### 4. Выбор строк на основе условных конструкций
##### Задача
Требуется отобрать строки фрейма данных на основе некоторого условия
##### Решение
Используем условное выражение

In [26]:
# Создать URL-адрес
url = 'https://tinyurl.com/titanic-csv'

# Загрузить данные
df = pd.read_csv(url)

# Показать пять верхних строк, где столбец 'Sex' равняется 'female'
df[df['Sex'] == 'female'].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1


Выражение `df['Sex'] == 'female'` – это условное выражение, обернув которое в `df[]`, можно поручить библиотеке `pandas` выбрать все строки во фрейме, где значение `df['Sex']` равняется `'female'`.     
Также можно составлять множественные условия, напрмер, все строки, где пассажиры являются женщинами 65 лет и старше:

In [27]:
df[(df['Sex'] == 'female') & (df['Age'] >= 65)]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


### 5. Замена значений
##### Задача
Требуется заменить значения во фрейме данных
##### Решение
Используем метод `replace` библиотеки `pandas`

In [30]:
# Заменить значения, показать строки
df.replace('female', 'woman').head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,woman,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,woman,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,woman,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


Метод `repalce` также принимает регулярные выражения

In [31]:
df.replace(r'1st', 'First', regex=True).head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",First,29.0,female,1,1
1,"Allison, Miss Helen Loraine",First,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",First,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",First,25.0,female,0,1
4,"Allison, Master Hudson Trevor",First,0.92,male,1,0


Метод `replace` — это инструмент, используемый для замены значений, который может принимать регулярные выражения.

### 6. Перименование столбцов
##### Решение
Требуется переименовать столбец во фрейме данных `pandas`
##### Задача
Используем метод `rename`

In [35]:
# Показать имена столбцов
df.columns

Index(['Name', 'PClass', 'Age', 'Sex', 'Survived', 'SexCode'], dtype='object')

In [43]:
# Переимовать столбец
df.rename(columns={'PClass': 'Passenger Class'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


Метод `rename` в качестве аргумента может принимать словарь, который используется для нескольких имен столбцов одновременно

In [45]:
# Переимовать несколько столбцов
df.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


Использование метода `rename` со словарем в качестве аргумента для параметра `columns` является предпочтительным способом переименования столбцов, поскольку он работает с любым количеством столбцов.     
Если требуется переименовать сразу все столбцы, то получить словарь с текущими значениями столбцов дата фрейма можно следующим образом:

In [46]:
# Загрузить библиотеку
import collections

# Создать словарь
column_names = collections.defaultdict(str)

# Создать ключи
for name in df.columns:
    column_names[name]

# Показать словарь
column_names

defaultdict(str,
            {'Name': '',
             'PClass': '',
             'Age': '',
             'Sex': '',
             'Survived': '',
             'SexCode': ''})

### 7. Нахождение минимума, максимума, суммы, среднего арифметического и количества
##### Задача
Требуется найти минимум, сумму и среднее арифметическое и количество значений числового столбца
##### Решение
Используем встроенные методы библиотеки `pandas` для описания статистических показателей

In [55]:
# Вычислить статистические показатели
print('Максисмум: ', df['Age'].max())
print('Минимум: ', df['Age'].min())
print('Среднее: ', df['Age'].mean())
print('Сумма: ', df['Age'].sum())
print('Количество: ', df['Age'].count())

Максисмум:  71.0
Минимум:  0.17
Среднее:  30.397989417989418
Сумма:  22980.88
Количество:  756


Помимо статистических показателей, используемых в данном решении, библиотека `pandas` предлагает:
* дисперсию `var`
* стандартное отклонение `std`
* коэффициент эксцесса `kurt`
* коэффициент ассиментрии `skew`
* стандартную ошибку среднего `sem`
* моду `mode`
* мединану `median`

In [56]:
# Вычислить статистические показатели
print('Дисперсия: ', df['Age'].var())
print('Стандартное отклонение: ', df['Age'].std())
print('Коэффициент эксцесса: ', df['Age'].kurt())
print('Коэффициент ассиметрии: ', df['Age'].skew())
print('Стандартная ошибка седнего: ', df['Age'].sem())
print('Мода: ', df['Age'].mode())
print('Медиана: ', df['Age'].median())

Дисперсия:  203.32047012439116
Стандартное отклонение:  14.259048710359018
Коэффициент эксцесса:  -0.036536168924722556
Коэффициент ассиметрии:  0.36851087371648295
Стандартная ошибка седнего:  0.5185965877244655
Мода:  0    22.0
dtype: float64
Медиана:  28.0


Эти методы можно применить ко всему фрейму данных

In [57]:
# Показать количество значений
df.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

### 8. Нахождение уникальных значений
##### Задача
Требуется выбрать все уникальные значения в столбце
##### Решение
Используем метод `unique` библиотеки `pandas`

In [60]:
# Выбрать уникальные значения
df['Sex'].unique()

array(['female', 'male'], dtype=object)

В качестве альтернативы метод `value_counts()` покажет все уникальные значения вместе с количеством появления каждого значения

In [61]:
# Показать количество появлений
df['Sex'].value_counts()

male      851
female    462
Name: Sex, dtype: int64

Методы `unique` и `value_counts` полезны для манипулирования и разведки категориальных столбцов. Часто в категориальных стобцах будут находится классы, которые должны быть обработаны на этапе упорядочивания данных.     
Например, на "Титанике" было 3 класса пасажиров, однако если применить метод `value_counts`, то можно обнаружить проблему:

In [62]:
# Показать количество появлений
df['PClass'].value_counts()

3rd    711
1st    322
2nd    279
*        1
Name: PClass, dtype: int64

Хотя, как и ожидалось, почти все пассажиры принадлежат к одному из трех классов, один пассажир имеет класс `*`. "Лишние" классы в категориальных данных являются обыденным делом. Подсчитать количество уникальных значений, можно с помощью метода `nunique()`

In [63]:
# Показать количество уникальных значений
df['PClass'].nunique()

4

### 9. Отбор пропущенных значений
##### Задача
Требуется выбрать пропущенные значения во фрейме данных
##### Решение
Используем методы `isnull()` и `notnull()`, которые возвращают булевы значения, указывающие, отсутствует значение или нет

In [77]:
# Выбрать пропущенные значения
df[df['Age'].isnull()].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,,1,0
14,"Baumann, Mr John D",1st,,,0,0
29,"Borebank, Mr John James",1st,,,0,0
32,"Bradley, Mr George",1st,,,1,0


Пропущенные значения являются повсеместной проблемой во время упорядочевания данных. В библиотеке `pandas` для обозначения пропущенных значений используется `NaN` библиотеки `NumPy`. Следует отметить, что в библиотеке `pandas` значение `NaN` реализовано нативно не полностью. Напрмер, если требуется заменить все строки, содержащие столбец `male` с пропущенными значениями, вернется ошибка `name 'NaN' is not defined`.

In [76]:
# Попытаться заменить значения с NaN
df['Sex'] = df['Sex'].replace('male', NaN)

NameError: name 'NaN' is not defined

Для того, чтобы иметь такую возможность, нужно импортировать библиотеку `NumPy`

In [69]:
# Загрузить библиотеку
import numpy as np

# Заменить значения с NaN
df['Sex'] = df['Sex'].replace('male', np.nan)

Нередко для отсутствующего наблюдения в наборе данных используются другие значения, например: `NONE`, `-999` или `.` Функция `read_csv` библиотеки `pandas` имеет параметр, позволяющий указывать значения, используемые для обозначения пропущенных значений:

In [80]:
# Загрузить данные, задать пропущенные значения
df = pd.read_csv(url, na_values=[np.nan, 'NONE', '-999'])

### 10. Удаление столбца
##### Задача
Требуется удалить столбец из фрейма данных
##### Решение
Применим метод `drop()` с параметром `axis=1`(т.е. осью столбцов)

In [81]:
# Удалить столбец
df.drop('Age', axis=1).head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


В качестве основного аргумента для удаления нескольких столбцов одновременно можно также использовать список имен столбцов:

In [83]:
# Отбросить столбцы
df.drop(['Age', 'Sex'], axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


Если столбец не имеет имени, его можно отбросить по индексу столбца с помощью массива `df.columns`:

In [84]:
# Отбросить столбец
df.drop(df.columns[1], axis=1).head(2)

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


Метод `drop` – это идеоматический метод удаления столбца. Альтернативный метод `del df['Age']`, которы работает большую часть времени, но не рекомендуется из-за того как он вызывается внутри библиотеки `pandas`.     
Рекомендуется взять в привычку не использовать агрумент `inplace=True` библиотеки `pandas`. Многие методы `pandas` включают встроенный параметр `inplace`, который при равенстве `True` редактируют `DataFrame` напрямую. Это может привести в проблемам в более сложных конвейерах обработки данных, потому что в этом случае фреймы данных рассматриваются как неизменяемые объекты (которыми они техническими и являются).     
Настоятельно рекомендуется рассматривать фреймы данных как немутирующие объекты:

In [86]:
# Создать новый фрейм данных
df_name_droped = df.drop(['Age'], axis=1)
df_name_droped.head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


В данном случае `df` не изменяется, а создается новый `df_name_droped`, который является копией `df` без стобца `'Age'`. 

### 11. Удаление строки
##### Задача
Требуется удалить одну или несколько строк из фрейма данных
##### Решение
Используем условное выражение для создания нового фрейма данных, исключив строки, которые необходимо удалить

In [87]:
# Удалить строки, показать первые две строки фрейма данных
df[df['Sex'] == 'male'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


Хотя технически можно использовать метод `drop()`, чтобы, напрмер, отбросить первые две строки: `df.drop([0, 1], axis=1)`, более практичный метод — обернуть условное выражение в `df[]`. Причина в том, что мощь условных выражений можно использовать для удаления одной строки, либо нескольких строк, что применяется на практике гораздо чаще.    
Условные выражения можно использовать, чтобы легко удалять отдельные строки сопоставляя их с уникальным значением:

In [88]:
# Удалить строку, значение имени в которой соответствует 'Allison, Miss Helen Loraine'
df[df['Name'] != 'Allison, Miss Helen Loraine'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


Условное выражение можно также использовать для удаления одной строки по ее индексу:

In [89]:
# Удалить строку с индексом равным 0
df[df.index != 0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


### 12. Удаление повторяющихся строк
##### Задача
Требуется удалить повторяющиеся строки из фрейма данных
##### Решение
Используем метод `drop_duplicates()` библиотеки `pandas

In [90]:
df.drop_duplicates().head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


На самом деле, данное решение повторяющиеся строки не отбрасывает

In [91]:
# Показать количество строк
print('Количество строк в исходом фрейме данных: ', len(df))
print('Количество строк после отброса дубликатов: ', len(df.drop_duplicates()))

Количество строк в исходом фрейме данных:  1313
Количество строк после отброса дубликатов:  1313


Причина в том, что метод `drop_duplicates` отбрасывает только те строки, которые совпадают по всем столбцам. При этом условии каждая строка в данном фрейме данных является уникальной. Вместе с тем, для того чтобы выполнить проверку на наличие повторяющихся строк необходимо рассматреть подмножество столбцов. Это можно сделать с помощью параметра `subset`:

In [92]:
# Удалить дубликаты
df.drop_duplicates(subset='Sex')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


В результате такой операции метод `drop_duplicates()` отбросил все строки в одинаковыми значениями в столбце `'Sex'` и оставил только два первых уникальных значения. Метод `drop_duplicates()` по умолчанию сохраняет первое появления повторяющейся строки и удаляет остальные. Управлять этим поведением можно с помощью параметра `keep=`:

In [94]:
# Удалить дубликаты
df.drop_duplicates(subset='Sex', keep='last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


Родственный метод `duplicated()` возвращает ряд булевых значений, обозначающих является ли строка фрейма дубликатом или нет.

In [104]:
df['Sex'].duplicated().head()

0    False
1     True
2    False
3     True
4     True
Name: Sex, dtype: bool

### 13. Группирование строк по значениям
##### Задача
Требуется сгруппировать строки в соответствии с некоторым общим значением
##### Решение
Используем мтод `groupby()` библиотеки `pandas`

In [105]:
# Сгруппировать строки по значениям столбца 'Sex' и вычислить среднее каждой группы
df.groupby('Sex').mean()

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


Метод `groupby()` является средство, после применения которого упорядоченные данные действительно начинают принимать форму. Сам по себе метод `groupby()` возвращает объект класса `DataFrameGroupBy`

In [106]:
# Сгруппировать строки
df.groupby('PClass')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11ed49910>

Для того, чтобы извлечь бизнес-пользу из объекта класса `DataFrameGroupBy`, необходимо применить какую-либо операцию к полученному объекту. Например, можно вычислить агрегированные статистики (среднее арифметическое, медиану, сумму, количество и т.д.)

In [108]:
# Сгруппировать строки, подсчитать строки
df.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

 Следует обратить внимание на чтодбец `Name`, указанный после метода `groupby`. Это добавление вызвано тем, что отдельные сводные статистики имеют смысл только для определенных типов данных. Например, расчет среднего возраста – оправдан, в отличие о вычисления суммарного возраста. В данном случае, группируем данные по выжившим паасажирам, а затем подсчитываем количество имен (= пассажиров) в каждой группе.     
Также можно группировать по первому столбцу, а затем сгруппировать по второму. Для этого передадим в качесте параметра в метод `groupby()` список с именами столбцов:

In [109]:
# Сгрупировать строки, вычислить среднее
df.groupby(['Sex', 'Survived'])['Age'].mean()

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

### 14. Группирование строк по времени
##### Задача
Требуется сгруппировать отдельные с троки по периодам времени
##### Решение
Используем метод `resample` библиотеки `pandas`

In [125]:
# Загрузить библиотеки
import pandas as pd
import numpy as np

# Создать диапазон дат
time_index = pd.date_range('01/01/2019', periods=100000, freq='300S')

# Создать фрейм данных
time_df = pd.DataFrame(index=time_index)

# Создать столбец случйных значений
time_df['Sale_Amount'] = np.random.randint(1, 10000, 100000)
time_df.head(2)

Unnamed: 0,Sale_Amount
2019-01-01 00:00:00,4708
2019-01-01 00:05:00,2622


Стандартный набор данных *Titanic* не содержит столбца с топим `datatime`, поэтому для примера создали пройстой фрейм данных, где каждая строка представляет отдельную продажу. Зная дату и время каждой продажи, а также сумму в рублях можем сгруппировать строки по неделям и подсчитать сумму продаж за каждую неделю.

In [126]:
# Сгруппировать строки по неделям, вычислить сумму за неделю
time_df.resample('W').sum().tail(2)

Unnamed: 0,Sale_Amount
2019-12-08,10210643
2019-12-15,7531965


Следует обратить внимание, что дата и время каждой продажи являются индексом `DataFrame`; это происходит потому что  метод `resample()` требует, чтобы индекс имел значения с типом данных `datatime`.    
Использую метод `resample()` можно группировать строки по широкому массиву периодов времени (смещений), а затем вычислять необходимые статистики в каждой группе времени.

In [127]:
# Сгруппировать по двум неделям и вычислить среднее
time_df.resample('2W').mean().head(2)

Unnamed: 0,Sale_Amount
2019-01-06,4884.761574
2019-01-20,4914.115079


In [132]:
# Сгрупировать по четыре месяца, подсчитать строки
time_df.resample('4M').count()

Unnamed: 0,Sale_Amount
2019-01-31,8928
2019-05-31,34560
2019-09-30,35136
2020-01-31,21376


В двух приведенных выше примерах индекс `datatime` является датой, несмотря на то, что группировка происходит по неделям и месяцам. Причина в том, что по умолчанию метод `resample()` возвращает метку  правого края (последнюю метку) временной группы. Управлять этим поведением можно с помощью параметра `label`:

In [134]:
# Сгруппировать по месяцу, подсчитать строки
time_df.resample('M', label='left').count().head(2)

Unnamed: 0,Sale_Amount
2018-12-31,8928
2019-01-31,8064


##### Дополниетльные материалы
Перечень псевдонимов для смещщений по времени, принятых в библиотеке `pandas`: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html 

### 15. Обход столбца в цикле
##### Задача
Требуется выполнить итерацию по каждому элементу в столбце и применить определенное действие
##### Решение
Столбец в `pandas`можно рассматривать как любую другую последовательность в Python

In [135]:
# Напечетать первые два имени в верхнем регистре
for name in df['Name'][:2]:
    print(name.upper())

ALLEN, MISS ELISABETH WALTON
ALLISON, MISS HELEN LORAINE


В дополнение к классическим циклам, также можно исползовать конструкцию генератора списка (list comprehension):

In [136]:
# Напечатать два первых имени в верхнем регистре
[name.upper() for name in df['Name'][:2]]

['ALLEN, MISS ELISABETH WALTON', 'ALLISON, MISS HELEN LORAINE']

Другим способом обхода столбца являестя метод `apply()` библиотеки `pandas`

### 16.  Применение функции ко всем элементам в столбце
##### Задача
Требуется применить определенную функцию ко всем элементам в столбце
##### Решение
Используем функцию `apply()` библиотеки `pandas`

In [137]:
# Создать функцию
def to_uppercase(string: str):
    return string.upper()

# Применить фнукцию, показать две строки
df['Name'].apply(to_uppercase)[:2]

0    ALLEN, MISS ELISABETH WALTON
1     ALLISON, MISS HELEN LORAINE
Name: Name, dtype: object

Метод `apply()` – один их способов выполнить очистку и упорядочение данных. Общепринято писать функцию, которая выполняет некоторые полезные операции, например: выделяет имя и фамилию, преобразовывает строковые значения в вещественные и т.д., и затем применять эту функцию к каждому элементу в столбце.

### 17. Применение функции к группам
##### Задача
Требуется применить определенную функцию к группам, которые были сгруппированы методом `groupby()`
##### Решение
Объединим методы `groupby()` и `apply()`

In [142]:
# Сгруппировать строки, применить функцию к группам
df[df['PClass'] != '*'].groupby('PClass').apply(lambda x: x.count())

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
PClass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1st,322,322,226,322,322,322
2nd,279,279,212,279,279,279
3rd,711,711,318,711,711,711


### 18. Конкатенация фреймов данных
##### Задача
Требуется связать псоледовательно два фрейма данных
##### Решение
Используем метод `concat()` с параметром `axis=0` библиотеки `pandas`

In [145]:
# Создать фрейм данных
data_a = {
    'id': [0, 1, 2, 3],
    'Name': ['Иван', 'Мария', 'Николай', 'Кристина'],
    'Surname': ['Федоров', 'Ракитина', 'Смирнов', 'Садальская']
}

a_df = pd.DataFrame(data_a, columns=['id', 'Name', 'Surname'])
a_df

Unnamed: 0,id,Name,Surname
0,0,Иван,Федоров
1,1,Мария,Ракитина
2,2,Николай,Смирнов
3,3,Кристина,Садальская


In [147]:
# Создать фрейм данных
data_b = {
    'id': [4, 5, 6, 7],
    'Name': ['John', 'Mary', 'Nik', 'Crystie'],
    'Surname': ['Philmore', 'Rackits', 'Smoore', 'Shadal']
}

b_df = pd.DataFrame(data_b, columns=['id', 'Name', 'Surname'])
b_df

Unnamed: 0,id,Name,Surname
0,4,John,Philmore
1,5,Mary,Rackits
2,6,Nik,Smoore
3,7,Crystie,Shadal


In [148]:
# Конкатенировать фреймы данных по строкам
pd.concat([a_df, b_df], axis=0)

Unnamed: 0,id,Name,Surname
0,0,Иван,Федоров
1,1,Мария,Ракитина
2,2,Николай,Смирнов
3,3,Кристина,Садальская
0,4,John,Philmore
1,5,Mary,Rackits
2,6,Nik,Smoore
3,7,Crystie,Shadal


In [149]:
# Конкатенировть фреймы данных по столбцам
pd.concat([a_df, b_df], axis=1)

Unnamed: 0,id,Name,Surname,id.1,Name.1,Surname.1
0,0,Иван,Федоров,4,John,Philmore
1,1,Мария,Ракитина,5,Mary,Rackits
2,2,Николай,Смирнов,6,Nik,Smoore
3,3,Кристина,Садальская,7,Crystie,Shadal


*"Конкатенировать"* – значит склеить два объекта вместе. В данном примере два фрейма данных были "склеены" с помощью метода `concat()`. Парметр `axis=` указывает на то, как мы хотим склеить два фрейма – хотим ли мы сложить их данные друг на друга, т.е. продолжить один другим (`axis=0`) или разместить рядом (`axis=1`).     
В качестве альтернативы добавления новой строки во фрейм данных можно применить метод `append()`:

In [151]:
# Создать строку
row =pd.Series(['8', 'Charles', 'McConagan'], index=['id', 'Name', 'Surname'])

# Добавить строку в конец фрейма данных
b_df.append(row, ignore_index=True)

Unnamed: 0,id,Name,Surname
0,4,John,Philmore
1,5,Mary,Rackits
2,6,Nik,Smoore
3,7,Crystie,Shadal
4,8,Charles,McConagan


### 19. Слияние фреймов данных
##### Задача
Требуется выполнить слияние двух фреймов данных
##### Решение
Используем мтод `merge()` с парметром `on=`, задающим столбец, по которому происходит слияние, библиотеки `pandas`

In [152]:
# Создать фрейм даных
employee_data = {
    'employee_id': ['1', '2', '3', '4'],
    'name': ['Amy Johnes', 'Allen Keys', 'Alice Beers', 'Tim Horton']
}
employee_df = pd.DataFrame(employee_data, columns=['employee_id', 'name'])
employee_df

Unnamed: 0,employee_id,name
0,1,Amy Johnes
1,2,Allen Keys
2,3,Alice Beers
3,4,Tim Horton


In [155]:
# Создать фрейм данных
sales_data = {
    'employee_id': ['3', '4', '5', '6'],
    'total_sales': [12345, 23512, 15234, 8245]
}
sales_df = pd.DataFrame(sales_data, columns=['employee_id', 'total_sales'])
sales_df

Unnamed: 0,employee_id,total_sales
0,3,12345
1,4,23512
2,5,15234
3,6,8245


In [156]:
# Выполнить слияние фреймов данных
pd.merge(employee_df, sales_df, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Beers,12345
1,4,Tim Horton,23512


По умолчанию меод `merge()` выполняет операцию внутреннего соединения, т.е. оставляет только те строки, которые есть в обоих фреймах данных. Если необходимо объединить фреймы данных целиком, необходимо сделать внешнее слияние при помощи параметра `how=`

In [159]:
# Выполнить слияние фреймов данных
pd.merge(employee_df, sales_df, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Johnes,
1,2,Allen Keys,
2,3,Alice Beers,12345.0
3,4,Tim Horton,23512.0
4,5,,15234.0
5,6,,8245.0


Этот же параметр можно использовать для указания левого или правого соединения

In [160]:
# Выполнить слияние фреймов данных
pd.merge(employee_df, sales_df, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Johnes,
1,2,Allen Keys,
2,3,Alice Beers,12345.0
3,4,Tim Horton,23512.0


In [161]:
# Выполнить слияние фреймов данных
pd.merge(employee_df, sales_df, on='employee_id', how='right')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Beers,12345
1,4,Tim Horton,23512
2,5,,15234
3,6,,8245


Если вместо слияния по двум столбцам необходимо выполнить слияние по индексам каждого фрейма данных, можно заменить параметры `left_on` и `right_on` на `rigth_index=True` и `left_index=True`.

Зачастую данные, которые нам нужно использовать, имеют сложный вид; они не всегда бывают цельными. Вместо этого на практике приходится работать с разрозненными наборами данных из многочисленных запросов к базам данных или файлам. Для того, чтобы получить все эти данные в одном месте, можно загрузить каждый запрос к данным или файл в отдельные фреймы данных, а затем слить их а один фрейм.     
В любой операции слияния необходимо указать три аспекта:    
* во-первых, необходимо указать оба фрейма данных для слияния;
* во-вторых, необходимо укащать имя(имена) столбцов, по которым будет выполняться слияние, т.е. таких столбцов, значения которых являются общими для обоих наборов двнных;
* в-третьих, необходимо указать тип операции слияния (внутренне, внешнее, левое или правое).

*Внутренее* слияние возвращает только те строки, которые совпадают во всех фреймах данных полностью.    
*Внешнее* слияние возвращает все строки в обоих фреймах данных. Если строка существует в одном наборе данных, но отстутствует в другом – пропущенные значения заполняются значениями `NaN`.     
*Левое* слияние возвращает все строки из левого фрейма и только те строки из правого фрейма, которые совпали с левым, пропущенные значения заменяются на `NaN`.     
*Правое* слияние зеркально левому. Оно возвращает все строки правого фрейма и только те сроки левого фрейма, которые совпадают с правым, проущенные значения заполняются `NaN`.

##### Дополнительные материалы
Документация библиотеки Pandas по операции слияние: https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html 