# Упорядочение данных
Упорядочение данных (data wrangling) – термин, охватывающий диапазон тем, используемых для описания процесса преобразования сырых данных в чистый и организованный формат, готовый к использованию. Упорядочение данных – один из важных шагов в предобработке данных.    
Наиболее распространенной структурой данных, используемой для упорядочения является фрейм данных (`DataFrame()`) библиотеки `pandas`. Фреймы данных являются табличной формой представления данных.

In [64]:
# Загрузить библиотеку
import pandas as pd 

# Создать url адрес
url = 'https://tinyurl.com/titanic-csv'

# Загрузить данные как фреймы данных
dataframe = pd.read_csv(url)

# Показать первые пять строк
dataframe.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


В этом фрейме данных можно заметить три важных момента:
* во-первых, во фрейме данных каждая строка соответствует одному наблюдению, а каждый столбец соответствует одному признаку;
* во-вторых, каждый столбец содержит имя (`Name`, `Pclass`, `Age` и т.д.), а каждая строка содержит индексный номер (`0`, `1` и т.д.), которые можно использовать для выбора и управления наблюдениями и признаками;
* в-третьих, два столбца `Sex` и `SexCode` содержат одну и туже информацию в разных форматах; в столбце `Sex` пол  пассажиров обозначается `male`/`female`, в то время как в столбце `SexCode` пол обозначается `0`/`1`. Чтобы признаки были уникальными, поэтому нужно удалить один из столбцов.

### 1. Создание фрейма данных
##### Задача
Требуется создать новый фрейм данных
##### Решение
Создаем фрейм данных с помощью конструктора `DataFrame()` библиотеки `pandas`, затем определение каждого столбца по отдельности.

In [7]:
# Создать фрейм данных DataFrame
df = pd.DataFrame()

# Добавить столбцы
df['Имя'] = ['Иван Иванов', 'Петр Петров']
df['Возраст'] = [38, 25]
df['Водитель'] = [True, False]

# Показать DataFrame
df

Unnamed: 0,Имя,Возраст,Водитель
0,Иван Иванов,38,True
1,Петр Петров,25,False


В качестве альтернативы после того, как был создан объект `DataFrame`, можно добавить новые строки в конец фрейма данных.

In [9]:
# Создать строку
new_person = pd.Series(['Федор Федоров', 40, True], 
                       index=['Имя', 'Возраст', 'Водитель'])

# Добавить строку в конец фрейма данных
df.append(new_person, ignore_index=True)

Unnamed: 0,Имя,Возраст,Водитель
0,Иван Иванов,38,True
1,Петр Петров,25,False
2,Федор Федоров,40,True


### 2. Описание данных
##### Задача 
Требуется взглянуть на некоторые характеристики фрейма данных
##### Решение
Первым делом – взглянем на первые несколько строк с помощью метода `head`

In [10]:
# Создать url адрес
url = 'https://tinyurl.com/titanic-csv'

# Загрузить данные как фреймы данных
dataframe = pd.read_csv(url)

# Показать первые пять строк
dataframe.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


Также можно взглянуть на количество строк и столбцов

In [11]:
# Показать размерности
dataframe.shape

(1313, 6)

Используя метод `describe` можно получить описательную статистику для любых числовых столбцов

In [13]:
# Показать статистику
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


После загрузки данных неплохо понять как они структурированы и какую информацию содержат. В идеале нужно просмотреть все данные, но в большинстве реальных случаев данные могут содержать тысячи и миллионы строк и столбцов. Для таких случаев необходимо опираться на извлечение выборок с целью просмотра небольших срезов и вычисления сводной статистики этих данных.       
При помощи метода `head()` можно посмотреть первые пять строк фрейма данных, при помощи метода `tail()` можно постмотреть пять последних строк. С пмомощью атрибута `shape` можно увидеть сколько строк и столбцов содержится в дата фрейме. Метод `describe` показывает некоторые описательные статистики для любого числового столбца.    

### 3. Навигация по фреймам данных   
##### Задача
Требуется выбрать индивидуальные данные из фрейма данных
##### Решение
Используем методы `iloc` и `loc`

In [78]:
# Создать URL-адрес
url = 'https://tinyurl.com/titanic-csv'

# Загрузить данные
df = pd.read_csv(url)

# Выбрать первую строку
df.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

Для выбора среза строк, которые требуется получить, применяется оператор `:`

In [20]:
# Выбрать три строки (11, 12, 13)
df.iloc[11:14]

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Astor, Mrs John Jacob (Madeleine Talmadge Force)","Astor, Mrs John Jacob (Madeleine Talmadge Force)",1st,19.0,female,1,1
"Aubert, Mrs Leontine Pauline","Aubert, Mrs Leontine Pauline",1st,,female,1,1
"Barkworth, Mr Algernon H","Barkworth, Mr Algernon H",1st,,male,1,0


Также можно выбрать данные до определенной строки

In [21]:
# Выбрать все строки до 4-ой включительно
df.iloc[:4]

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1
"Allison, Mr Hudson Joshua Creighton","Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
"Allison, Mrs Hudson JC (Bessie Waldo Daniels)","Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


Фреймы данных не нуждаются в числовой индексации. Можно определить индекс фрейма любым значением, где значение является уникальным для каждой строки. Например, можно задать индексы на именах пассажиров , а затем выбрать строки, используя имя:

In [23]:
# Задать индекс
df = df.set_index(df['Name'])

# Показать строку
df.loc['Allen, Miss Elisabeth Walton']

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

Все строки в дата фрейме `pandas` имеют уникальное индексное значение. По умолчанию этот индекс является целым числом, указывающим на положение строки во фрейме данных. Однако это не обязательно. Индексы фреймов могут быть уникальными буквенно-цифровыми строковыми значениями или номерами клиентов.     
Для выбора отдельных строк и срезов строк библиотека `pandas` предоставляет два метода:
* метод `loc` полезен, когда индекс фрейма является меткой (например, строковым заначением);
* метод `iloc` работает, отыскивая позицию во фрейме данных, напрмер, `iloc[0]` вернет первую строку независимо от того, является ли индекс целым числом или меткой.   

### 4. Выбор строк на основе условных конструкций
##### Задача
Требуется отобрать строки фрейма данных на основе некоторого условия
##### Решение
Используем условное выражение

In [26]:
# Создать URL-адрес
url = 'https://tinyurl.com/titanic-csv'

# Загрузить данные
df = pd.read_csv(url)

# Показать пять верхних строк, где столбец 'Sex' равняется 'female'
df[df['Sex'] == 'female'].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1


Выражение `df['Sex'] == 'female'` – это условное выражение, обернув которое в `df[]`, можно поручить библиотеке `pandas` выбрать все строки во фрейме, где значение `df['Sex']` равняется `'female'`.     
Также можно составлять множественные условия, напрмер, все строки, где пассажиры являются женщинами 65 лет и старше:

In [27]:
df[(df['Sex'] == 'female') & (df['Age'] >= 65)]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


### 5. Замена значений
##### Задача
Требуется заменить значения во фрейме данных
##### Решение
Используем метод `replace` библиотеки `pandas`

In [30]:
# Заменить значения, показать строки
df.replace('female', 'woman').head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,woman,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,woman,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,woman,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


Метод `repalce` также принимает регулярные выражения

In [31]:
df.replace(r'1st', 'First', regex=True).head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",First,29.0,female,1,1
1,"Allison, Miss Helen Loraine",First,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",First,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",First,25.0,female,0,1
4,"Allison, Master Hudson Trevor",First,0.92,male,1,0


Метод `replace` — это инструмент, используемый для замены значений, который может принимать регулярные выражения.

### 6. Перименование столбцов
##### Решение
Требуется переименовать столбец во фрейме данных `pandas`
##### Задача
Используем метод `rename`

In [35]:
# Показать имена столбцов
df.columns

Index(['Name', 'PClass', 'Age', 'Sex', 'Survived', 'SexCode'], dtype='object')

In [43]:
# Переимовать столбец
df.rename(columns={'PClass': 'Passenger Class'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


Метод `rename` в качестве аргумента может принимать словарь, который используется для нескольких имен столбцов одновременно

In [45]:
# Переимовать несколько столбцов
df.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


Использование метода `rename` со словарем в качестве аргумента для параметра `columns` является предпочтительным способом переименования столбцов, поскольку он работает с любым количеством столбцов.     
Если требуется переименовать сразу все столбцы, то получить словарь с текущими значениями столбцов дата фрейма можно следующим образом:

In [46]:
# Загрузить библиотеку
import collections

# Создать словарь
column_names = collections.defaultdict(str)

# Создать ключи
for name in df.columns:
    column_names[name]

# Показать словарь
column_names

defaultdict(str,
            {'Name': '',
             'PClass': '',
             'Age': '',
             'Sex': '',
             'Survived': '',
             'SexCode': ''})

### 7. Нахождение минимума, максимума, суммы, среднего арифметического и количества
##### Задача
Требуется найти минимум, сумму и среднее арифметическое и количество значений числового столбца
##### Решение
Используем встроенные методы библиотеки `pandas` для описания статистических показателей

In [55]:
# Вычислить статистические показатели
print('Максисмум: ', df['Age'].max())
print('Минимум: ', df['Age'].min())
print('Среднее: ', df['Age'].mean())
print('Сумма: ', df['Age'].sum())
print('Количество: ', df['Age'].count())

Максисмум:  71.0
Минимум:  0.17
Среднее:  30.397989417989418
Сумма:  22980.88
Количество:  756


Помимо статистических показателей, используемых в данном решении, библиотека `pandas` предлагает:
* дисперсию `var`
* стандартное отклонение `std`
* коэффициент эксцесса `kurt`
* коэффициент ассиментрии `skew`
* стандартную ошибку среднего `sem`
* моду `mode`
* мединану `median`

In [56]:
# Вычислить статистические показатели
print('Дисперсия: ', df['Age'].var())
print('Стандартное отклонение: ', df['Age'].std())
print('Коэффициент эксцесса: ', df['Age'].kurt())
print('Коэффициент ассиметрии: ', df['Age'].skew())
print('Стандартная ошибка седнего: ', df['Age'].sem())
print('Мода: ', df['Age'].mode())
print('Медиана: ', df['Age'].median())

Дисперсия:  203.32047012439116
Стандартное отклонение:  14.259048710359018
Коэффициент эксцесса:  -0.036536168924722556
Коэффициент ассиметрии:  0.36851087371648295
Стандартная ошибка седнего:  0.5185965877244655
Мода:  0    22.0
dtype: float64
Медиана:  28.0


Эти методы можно применить ко всему фрейму данных

In [57]:
# Показать количество значений
df.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

### 8. Нахождение уникальных значений
##### Задача
Требуется выбрать все уникальные значения в столбце
##### Решение
Используем метод `unique` библиотеки `pandas`

In [60]:
# Выбрать уникальные значения
df['Sex'].unique()

array(['female', 'male'], dtype=object)

В качестве альтернативы метод `value_counts()` покажет все уникальные значения вместе с количеством появления каждого значения

In [61]:
# Показать количество появлений
df['Sex'].value_counts()

male      851
female    462
Name: Sex, dtype: int64

Методы `unique` и `value_counts` полезны для манипулирования и разведки категориальных столбцов. Часто в категориальных стобцах будут находится классы, которые должны быть обработаны на этапе упорядочивания данных.     
Например, на "Титанике" было 3 класса пасажиров, однако если применить метод `value_counts`, то можно обнаружить проблему:

In [62]:
# Показать количество появлений
df['PClass'].value_counts()

3rd    711
1st    322
2nd    279
*        1
Name: PClass, dtype: int64

Хотя, как и ожидалось, почти все пассажиры принадлежат к одному из трех классов, один пассажир имеет класс `*`. "Лишние" классы в категориальных данных являются обыденным делом. Подсчитать количество уникальных значений, можно с помощью метода `nunique()`

In [63]:
# Показать количество уникальных значений
df['PClass'].nunique()

4

### 9. Отбор пропущенных значений
##### Задача
Требуется выбрать пропущенные значения во фрейме данных
##### Решение
Используем методы `isnull()` и `notnull()`, которые возвращают булевы значения, указывающие, отсутствует значение или нет

In [77]:
# Выбрать пропущенные значения
df[df['Age'].isnull()].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,,1,0
14,"Baumann, Mr John D",1st,,,0,0
29,"Borebank, Mr John James",1st,,,0,0
32,"Bradley, Mr George",1st,,,1,0


Пропущенные значения являются повсеместной проблемой во время упорядочевания данных. В библиотеке `pandas` для обозначения пропущенных значений используется `NaN` библиотеки `NumPy`. Следует отметить, что в библиотеке `pandas` значение `NaN` реализовано нативно не полностью. Напрмер, если требуется заменить все строки, содержащие столбец `male` с пропущенными значениями, вернется ошибка `name 'NaN' is not defined`.

In [76]:
# Попытаться заменить значения с NaN
df['Sex'] = df['Sex'].replace('male', NaN)

NameError: name 'NaN' is not defined

Для того, чтобы иметь такую возможность, нужно импортировать библиотеку `NumPy`

In [69]:
# Загрузить библиотеку
import numpy as np

# Заменить значения с NaN
df['Sex'] = df['Sex'].replace('male', np.nan)

Нередко для отсутствующего наблюдения в наборе данных используются другие значения, например: `NONE`, `-999` или `.` Функция `read_csv` библиотеки `pandas` имеет параметр, позволяющий указывать значения, используемые для обозначения пропущенных значений:

In [80]:
# Загрузить данные, задать пропущенные значения
df = pd.read_csv(url, na_values=[np.nan, 'NONE', '-999'])

### 10. Удаление столбца
##### Задача
Требуется удалить столбец из фрейма данных
##### Решение
Применим метод `drop()` с параметром `axis=1`(т.е. осью столбцов)

In [81]:
# Удалить столбец
df.drop('Age', axis=1).head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


В качестве основного аргумента для удаления нескольких столбцов одновременно можно также использовать список имен столбцов:

In [83]:
# Отбросить столбцы
df.drop(['Age', 'Sex'], axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


Если столбец не имеет имени, его можно отбросить по индексу столбца с помощью массива `df.columns`:

In [84]:
# Отбросить столбец
df.drop(df.columns[1], axis=1).head(2)

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


Метод `drop` – это идеоматический метод удаления столбца. Альтернативный метод `del df['Age']`, которы работает большую часть времени, но не рекомендуется из-за того как он вызывается внутри библиотеки `pandas`.     
Рекомендуется взять в привычку не использовать агрумент `inplace=True` библиотеки `pandas`. Многие методы `pandas` включают встроенный параметр `inplace`, который при равенстве `True` редактируют `DataFrame` напрямую. Это может привести в проблемам в более сложных конвейерах обработки данных, потому что в этом случае фреймы данных рассматриваются как неизменяемые объекты (которыми они техническими и являются).     
Настоятельно рекомендуется рассматривать фреймы данных как немутирующие объекты:

In [86]:
# Создать новый фрейм данных
df_name_droped = df.drop(['Age'], axis=1)
df_name_droped.head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


В данном случае `df` не изменяется, а создается новый `df_name_droped`, который является копией `df` без стобца `'Age'`. 