# Week_1 Assignment_1: Предобработка данных в Pandas

https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie/programming/DVbEI/vazhnost-priznakov

Данное задание направлено на знакомство с инструментарием, который пригодится в дальнейших практических заданиях.

Вы научитесь:
- работать с данными используя язык Python и пакет Pandas
- делать предобработку данных
- находить простые закономерности в данных

#### Введение
Сейчас Python является одним из наиболее распространенных языков программирования. Одним из его преимуществ является большое количество пакетов, решающих самые разные задачи. В нашем курсе мы рекомендуем использовать библиотеки Pandas, NumPy и SciPy, которые существенно упрощают чтение, хранение и обработку данных. В дальнейших работах вы также познакомитесь с пакетом Scikit-Learn, в котором реализованы многие алгоритмы машинного обучения.

#### Начало работы
Для того, чтобы начать работать с данными, необходимо сначала загрузить их из файла. В данном задании мы будем работать с данными в формате CSV, предназначенном для хранения табличных данных: столбцы разделяются запятой, первая строка содержит имена столбцов.

Пример загрузки данных в Pandas:  

    import pandas
    data = pandas.read_csv('titanic.csv', index_col='PassengerId')
Данные будут загружены в виде DataFrame, с помощью которого можно удобно работать с ними. В данном случае параметр

    index_col='PassengerId'
означает, что колонка PassengerId задает нумерацию строк данного датафрейма.  

Для того, чтобы посмотреть что представляют из себя данные, можно воспользоваться несколькими способами:

- более привычным с точки зрения Python (если индекс указывается только один, то производится выбор строк):

    data[:10]

- или же воспользоваться методом датафрейма:

    data.head()

Один из способов доступа к столбцам датафрейма — использовать квадратные скобки и название столбца:

    data['Pclass']

Для подсчета некоторых статистик (количества, среднее, максимум, минимум) можно также использовать методы датафрейма:

    data['Pclass'].value_counts()

Более подробно со списком методов датафрейма можно познакомиться в документации.

#### Материалы
Набор данных взят с сайта Kaggle: Titanic: Machine Learning from Disaster. https://www.kaggle.com/c/titanic/data

Уроки по Pandas: https://bitbucket.org/hrojas/learn-pandas

#### Инструкция по выполнению

Загрузите датасет titanic.csv и, используя описанные выше способы работы с данными, найдите ответы на вопросы

1. Какое количество мужчин и женщин ехало на корабле? В качестве ответа приведите два числа через пробел.
2. Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.
3. Какую долю пассажиры первого класса составляли среди всех пассажиров? Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.
4. Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.
5. Коррелируют ли число братьев/сестер/супругов с числом родителей/детей? Посчитайте корреляцию Пирсона между признаками SibSp и Parch.
6. Какое самое популярное женское имя на корабле? Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name). Это задание — типичный пример того, с чем сталкивается специалист по анализу данных. Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию. Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен, а также разделения их на женские и мужские.

Если ответом является нецелое число, то целую и дробную часть необходимо разграничивать точкой, например, 0.42. При необходимости округляйте дробную часть до двух знаков. 

## Подготовка данных

In [2]:
# load libraries
import pandas as pd
import numpy as np

In [4]:
# load data from file
data = pd.read_csv('titanic.csv', index_col='PassengerId')
data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [91]:
data.shape

(891, 11)

In [89]:
# индекс строк начинается не с нуля, а с единицы. Непорядок. Сделаем ресет индекса:
data.reset_index(drop=True, inplace=True)
data.head()
# теперь порядок

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Ответы на вопросы задания

### 1. Какое количество мужчин и женщин ехало на корабле? 
В качестве ответа приведите два числа через пробел.

ответ: **577 314**

In [17]:
data['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

### 2. Какой части пассажиров удалось выжить? 
Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.

ответ: **38.38**

In [22]:
data['Survived'].value_counts(1)

0    0.616162
1    0.383838
Name: Survived, dtype: float64

### 3. Какую долю пассажиры первого класса составляли среди всех пассажиров? 
Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.

ответ: **24.24**

In [5]:
data['Pclass'].value_counts(1)  # taken "1" as parameter we obtain outputs normalized to 1

3    0.551066
1    0.242424
2    0.206510
Name: Pclass, dtype: float64

### 4. Какого возраста были пассажиры? 
Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.

ответ: **29.70 28.0**

[In]: data['Age'].hasnans [Out]: True

[In]: data['Age'].dtypes [Out]: dtype('float64')

[In]: type(data['Age']) [Out]: pandas.core.series.Series

[method: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.mean.html?highlight=mean#pandas.Series.mean]

In [11]:
data['Age'].mean(skipna=True)

29.69911764705882

In [13]:
data['Age'].median(skipna=True)

28.0

### 5. Коррелируют ли число братьев/сестер/супругов с числом родителей/детей? 
Посчитайте корреляцию Пирсона между признаками SibSp и Parch.

ответ: **0.41**

sibsp: The dataset defines family relations in this way...
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were ignored)

parch: The dataset defines family relations in this way...
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
Some children travelled only with a nanny, therefore parch=0 for them.

[source: https://www.kaggle.com/c/titanic/data]

[method: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.corr.html?highlight=corr#pandas.Series.corr]

In [15]:
data['SibSp'].corr(data['Parch'], method='pearson')

0.4148376986201561

In [1]:
# коррелиция есть, но очень слабая

### 6. Какое самое популярное женское имя на корабле? Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name). 
Это задание — типичный пример того, с чем сталкивается специалист по анализу данных. Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию. Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен, а также разделения их на женские и мужские.

ответ: **Mary & Anna**

*!! Hint !!  First_Name always goes right after the ". " combination*

In [18]:
# проверим, нет ли в таблице пропущенных имен
data['Name'].hasnans

False

In [90]:
# вспомним как выглядит наша таблица с данными
data.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [101]:
# выделим первые имена пассажиров методом split (extract почему-то не захотел работать)

n = data.shape[0]                              # количество строк в таблице (нужно для цикла)
First_names = pd.Series([0.0] * n)             # создаем пустую серию нужной длины для складирования имен

for i in range(n):                             # запускаем цикл по всем строкам таблицы
    full_name = data['Name'][i]                # берем из таблицы очередную строку с полным именем
    first_name = full_name.split('.')[1]       # расщепляем полное имя на две части по знаку точки, берем вторую часть, тк там находится имя
    first_name = first_name[1:].split(' ')[0]  # отбрасываем первый пробел и снова расщепляем (по пробелу), берем первую часть - это и есть искомое имя
    First_names[i]=first_name                  # добавляем имя в серию
First_names[0:10]                              # смотрим чего получилось (первые 10 строк)

0        Owen
1        John
2       Laina
3     Jacques
4     William
5       James
6     Timothy
7       Gosta
8       Oscar
9    Nicholas
dtype: object

In [100]:
# считаем количество упоминаний оригинальных имен и выводим первые 15 строк
First_names.value_counts().head(20)

William      48
John         31
Thomas       19
Charles      16
George       16
Henry        15
James        15
Edward       13
Frederick    13
Richard      11
Johan        10
Joseph        9
Samuel        9
Mary          9
Karl          9
Anna          9
Alfred        7
Albert        7
Arthur        7
Peter         6
dtype: int64

In [98]:
# имена "Мария" и "Анна" упоминаются по 9 раз