# 1. Предобработка данных в pandas
Данное задание направлено на знакомство с инструментарием, который пригодится в дальнейших практических заданиях.
##### Вы научитесь:
* работать с данными используя язык Python и пакет Pandas
* делать предобработку данных
* находить простые закономерности в данных    

##### Введение
Сейчас Python является одним из наиболее распространенных языков программирования. Одним из его преимуществ является большое количество пакетов, решающих самые разные задачи. В нашем курсе мы рекомендуем использовать библиотеки `Pandas`, `NumPy` и `SciPy`, которые существенно упрощают чтение, хранение и обработку данных. В дальнейших работах вы также познакомитесь с пакетом `Scikit-Learn`, в котором реализованы многие алгоритмы машинного обучения.

##### Начало работы
Для того, чтобы начать работать с данными, необходимо сначала загрузить их из файла. В данном задании мы будем работать с данными в формате CSV, предназначенном для хранения табличных данных: столбцы разделяются запятой, первая строка содержит имена столбцов.

##### Материалы
Набор данных взят с сайта Kaggle: https://www.kaggle.com/c/titanic/data     
Уроки по Pandas: https://bitbucket.org/hrojas/learn-pandas/src/master/      
Сборник рецептов по Pandas: https://github.com/AntonNeverovich/data-science/tree/master/cookbooks 


* * *


**1. Импортируйте необходимые библиотеки**

In [2]:
import pandas as pd

**2. Загрузите набор данных titanic.csv**

In [3]:
df = pd.read_csv('http://drive.dilibrium.ru/datasets/titanic.csv', index_col='PassengerId')
df

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Данные загружены в виде структуры данных `DataFrame`, с помощью которого можно удобно работать с ними. В данном случае параметр `index_col='PassengerId'` означает, что колонка `PassengerId` задает нумерацию строк данного набора данных.


***

**3. Найдите ответы на вопросы**

***1) Какое количество мужчин и женщин ехало на корабле? В качестве ответа приведите два числа через пробел.***

*Используем метод `value_counts()`*

In [9]:
df['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

*Альтернативный способ: группировка по полу и подсчет количества в группах по столбцу с именем*

In [8]:
df.groupby('Sex')['Name'].count()

Sex
female    314
male      577
Name: Name, dtype: int64

***2) Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.***

Данные о выживших пассажирах содержатся в столбце `Survived`. `0` означает, что пассажир погиб, `1` – что выжил.

*Используем метод `value_counts()` с параметром `normalize=`*

In [30]:
survived = df['Survived'].value_counts(normalize=True)[1]
round(survived * 100, 2)

38.38

Метод `value_counts()` возвращает тип данных `Series`, который содержит количество уникальных значений. В даном случае: значений из столбца `Survived` со значениями `0` и `1`. К объекту типа `Series` можно обращаться по индексу, как и массиву или списку Python, обернув его в квадратные скобки. В нашем случае инедекс результата работы метода `value_counts()` совпал со значением целевой переменной. Параметр `normalize=True` возвращает доли или частоту значений, путем деления количества значений на их сумму.

*Альтеранативный способ: выполнить расчет вручную*

In [31]:
survived2 = df[df['Survived'] == 1]['Survived'].count() / df['Survived'].count()
round(survived2 * 100, 2)

38.38

В данном случае мы воспользовались условным выражением `df['Survived'] == 1` для формирования нового набора данных, который содержит только те значения, которые удовлетворяют условному выражению, т.е. только выхивших пассажиров. А также методом `count()` для подсчета количества строк. Все вычисления делали по целевому столбцу `'Survived'`.

***3) Какую долю пассажиры первого класса составляли среди всех пассажиров? Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.***

*Используем метод `value_counts()`*

In [36]:
first_class = df['Pclass'].value_counts(normalize=True)
first_class

3    0.551066
1    0.242424
2    0.206510
Name: Pclass, dtype: float64

Искомое значение – доля пассажиров первого класса, записана второй по счету, т.е. с индексом `1`. Как и в редыдущем вопросе индекс объекта `Series` совпал со значением целевой переменной.

Округление, как другие функции, можно применять ко всем записям объекта `Series`

In [40]:
first_class_rounded = round(first_class * 100, 2)
first_class_rounded

3    55.11
1    24.24
2    20.65
Name: Pclass, dtype: float64

In [42]:
first_class_rounded[1]

24.24

*Документация по методу `value_counts()`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html* 

***4) Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.***

*Используем методы `mean()` и `median()` для столбца `'Age'`*

In [46]:
mean_age = df['Age'].mean()
median_age = df['Age'].median()
round(mean_age, 2), round(median_age, 2)

(29.7, 28.0)

*Также существует способ посмотреть на сводную статистику всего набора данных с помощью метода `describe()*

In [43]:
df.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


***5) Коррелируют ли число братьев/сестер/супругов с числом родителей/детей? Посчитайте корреляцию Пирсона между признаками SibSp и Parch***

**Критерий корреляции Пирсона** — это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, есть ли линейная связь между изменениями значений двух переменных.

*Используем метод `corr()`*

In [58]:
# выделим целевые столбцы в отдельный набор данных
sibsp_parch_df = df[['SibSp', 'Parch']]

# Посчитаем коэффициент корреляции Пирсона
sibsp_parch_df.corr()

Unnamed: 0,SibSp,Parch
SibSp,1.0,0.414838
Parch,0.414838,1.0


In [59]:
round(sibsp_parch_df.corr()['SibSp'][1], 2)

0.41

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от `0` до `±1`. Чем больше абсолютное значение `r` (коэфф. корреляции) – тем выше теснота связи между двумя величинами. `r = 0` говорит о полном отсутствии связи. `r = 1` – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше `1` или меньше `-1` – в расчетах допущена ошибка.  
Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения `r < 0.3` свидетельствуют о слабой связи, значения `r` от `0.3` до `0.7` - о связи средней тесноты, значения `r > 0.7` - о сильной связи.

Коэффициент корреляции Пирсона установлен в методе `corr()` по умолчанию. Если, например, стоит задача рассчитать корреляцию Спирмана или Кендалла, необходимо изменить параметр `method=`.

*Документация по методу `corr()`: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html*

***6) Какое самое популярное женское имя на корабле?***

Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name). Это задание — типичный пример того, с чем сталкивается специалист по анализу данных. Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию. Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен, а также разделения их на женские и мужские.

In [27]:
import unicodedata
import sys
import numpy as np

punctuation = dict.fromkeys(
    i for i in range(sys.maxunicode)
    if unicodedata.category(chr(i)).startswith('P')
    )

def clear_names(name: str):
        return name.lower().strip().translate(punctuation)

In [28]:
names = np.concatenate(df[df['Sex'] == 'female']['Name'].apply(lambda s: clear_names(s).split()).values)
names

array(['cumings', 'mrs', 'john', ..., 'catherine', 'helen', 'carrie'],
      dtype='<U14')

In [30]:
names_series = pd.Series(names)
stop_words = ['Mrs', 'Ms', 'Miss', 'miss', 'mrs']
names_series[~names_series.isin(stop_words)].value_counts().head()

mary         20
anna         17
william      15
elizabeth    15
margaret     12
dtype: int64

Pipeline нахождения самого популярного женского имени можно упрощенно составить следующим образом:   
1. необходимо разделить полное имя на отдельные слова, не будем злесь изобратеть алгоритм выделения имени из полного имени, просто примем гипотезу, что имена будут встречаться чаще, чем фамилии. Для разделения полного имени используем метод `split()`;
2. необходимо очистить имена от шума в виде знаков пунктуации. Для этого воспользуемся методом `translate()`. Данный метод похож на метод `replace()`, но считается, что он работает несколько быстрее, еще одним его преимуществом перед методом `replace()` будет то, что ему можно передать сразу несколько пар значений в виде словаря. Для данной задачи создажим словарь всех знаков препинания с помощью библиотеки `unicodedata`, ключи у которого представляют собсой знаки препинания, а значения равны `None`. В таком случае функция `translate()` фактически заменит знаки препинания на `None`, т.е. удалит их;
3. следующим шагом будет собрать все очищенные от знаков препинания имена в один массив. Будемиспользовать для этого массив `np.array` библиотеки NumPy для ускорения вычислений;
4. затем создадим из масива имен объект класса `Series` библиотеки pandas и сключим из него стоп-слова вроде `Miss` или `Mrs`;
5. вызовем метод `value_counts()` класса `Series` для подсчета количества уникальных слов;
6. дополнительно можно привести все имена в нижнему регистру, чтобы нивелировать ошибки ввода данных (какое-то имя может быть ошибочно записано в нижнем или верхнем регистре, а `Mary` и `mary` – это разные слова).