## Титаник

10 апреля 1912 года «Титаник» отправился из Саутгемптона в свой первый и единственный рейс. Совершив остановки во французском Шербуре и ирландском Квинстауне, корабль вышел в Атлантический океан с 1317 пассажирами и 908 членами экипажа на борту. 15 апреля корабль потерпел затонул, при этом погибло 1502 из 2224 находившихся на борту людей.

Одной из причин большого количества жертв был тот факт, что спасательных шлюпок не хватало на всех пассажиров и членов команды.  Конечно, в спасении присутствовал некоторый элемент удачи, но некоторые группы пассажиров имели больше шансов - например женщины, дети или первый класс.

В данном задании предполагается написание программы для предсказания того, кто из пассажиров переживет трагедию.




### Цель задания:
Рассмотреть графический анализ предоставленных данных, сделать выводы и улучшить предоставленный базовый вариант предсказателя(написать свой).

#### В этом ноутбуке находятся полезные примеры того, как можно и нужно обращаться с данными.
*   Загрузка данных с помощью Pandas
*   Очистка зашумленных данных
*   Исследование данных и построение графиков с инструментом MatPlotLib

#### Примеры использования библиотек:
* [NumPy](http://www.numpy.org/)
* [Pandas](http://pandas.pydata.org/)
* [Matplotlib](http://matplotlib.org/)

*весь код, который уже есть в ноутбуке рекомендуется разобрать(что и как он делает) и использовать в дальнейшем*

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import seaborn

### Загрузка данных
#### Прочтем наши данные с помощью pandas:

In [None]:
df = pd.read_csv('train.csv') 

Рассмотрим данные: 

In [None]:
df

In [None]:
df.head()

In [None]:
df.describe()

### Давайте взглянем на данные:

Чуть выше результат работы функции, которая описывает данные в`Pandas` `DataFrame`. О `DataFrame` правильно будет думать как о продвинутой версии таблицы из Excel внутри Python. Как видим, в сводках содержится довольно много информации. Во-первых, у нас есть 891 запись о пассажирах.

Еще у нас есть информация о всех столбцах в `DataFrame`. Каждый столбец говорит нам что-либо о каждом пассажире, например их `name`(имя), `sex`(пол) или `age`(возраст). Эти столбцы называются признаками(features) нашего набора данных(dataset).

Для каждого столбца есть информация о том, сколько  значение он содержит. Большинство наших признаков содержат данных для кажого наблюдения(пассажира), например признак `survived`: 

    survived    891  non-null values 

В некоторых признаках не достает информации, например `age`(возраст): 

    age         714  non-null values 

В случае, если для наблюдения нет данных, в столбце будет стоять `NaN`(Not a Number).

### Один из способов позаботиться о неполных данных:
В признаках `ticket` и `cabin` есть множество неполных данных, поэтому скорее всего они не привнесут новой информации для анализа данных. Поэтому мы просто удалим их из нашего набора данных.

Удалить столбец можно с помощью одной строчки кода:

    df = df.drop(['ticket','cabin'], axis=1) 

axis=1 означает, что удалять нужно столбцы.

А вот эта строчка кода удалит все оставшиеся строки с пропущенными значениями:
   
    df = df.dropna()
     
Итак, мы удаляем столбцы, после этого удаляем строки с пропущенными значениями(их осталось не много) и получаем чистый и аккуратный набор данных, подготовленный к анализу. Из-за того, что `.dropna()` удаляет  строку из данных даже если в ней есть хотя бы 1 `NaN` в признаках, мы бы удалили почти весь набор данных без предварительного удаления столбцов `ticket` и `cabin`.



In [None]:
df = df.drop(['Ticket','Cabin'], axis=1)
# Удалим NaN
df = df.dropna() 

Лучшее описание pandas вот эта книга [book](http://shop.oreilly.com/product/0636920023784.do). Интерактивные уроки [here](https://bitbucket.org/hrojas/learn-pandas) (бесплатно!).

Второй вариант - отметить пропущенные значения отдельным признаком.

In [None]:
df["Null_Age"] = df.Age.isnull()
df["Null_Age"] = df["Null_Age"].astype('int')
df.Age.fillna(-1, inplace=True)

### Отобразим наши данные:

Тут мы используем библиотеку `matplotlib` с возможностями которой будем знакомиться по мере необходимости в них.

In [None]:
# Параметры нашего графика
fig = plt.figure(figsize=(18,6), dpi=1600) 
alpha=alpha_scatterplot = 0.2 
alpha_bar_chart = 0.55

# А нарисуем мы несколько разных графиков вместе
ax1 = plt.subplot2grid((2,3),(0,0))

# Рисуем график со столбцами по выжившим и погибшим
df.Survived.value_counts().plot(kind='bar', alpha=alpha_bar_chart)

ax1.set_xlim(-1, 2)
# и заголовок
plt.title("Hfcg, (1 = Survived)")    

plt.subplot2grid((2,3),(0,1))

plt.scatter(df.Survived, df.Age, alpha=alpha_scatterplot)

# подпишем ось Y
plt.ylabel("Age")
# выведем на заднем фоне графика сеточку
plt.grid(b=True, which='major', axis='y')  
plt.title("Survival by Age,  (1 = Survived)")

ax3 = plt.subplot2grid((2,3),(0,2))
df.Pclass.value_counts().plot(kind="barh", alpha=alpha_bar_chart)
ax3.set_ylim(-1, len(df.Pclass.value_counts()))
plt.title("Class Distribution")

plt.subplot2grid((2,3),(1,0), colspan=2)
# выведем 3 линии - распределение возрастов внутри классов
df.Age[df.Pclass == 1].plot(kind='kde')    
df.Age[df.Pclass == 2].plot(kind='kde')
df.Age[df.Pclass == 3].plot(kind='kde')
 # опять подпишем ось
plt.xlabel("Age")    
plt.title("Age Distribution within classes")
# sets our legend for our graph.
plt.legend(('1st Class', '2nd Class','3rd Class'),loc='best') 

ax5 = plt.subplot2grid((2,3),(1,2))
df.Embarked.value_counts().plot(kind='bar', alpha=alpha_bar_chart)
ax5.set_xlim(-1, len(df.Embarked.value_counts()))
plt.title("Passengers per boarding location")

### Визуализация данных:

Цель состоит в том, чтобы предсказать, выживет ли человек по набору исходных данных о нем.
 
Давайте посмотрим, сможем ли мы понять лучше возможные зависимости в данных. 

Для начала построим график по погибшим и выжившим.


In [None]:
plt.figure(figsize=(6,4))
fig, ax = plt.subplots()
df.Survived.value_counts().plot(kind='barh', color="blue", alpha=.65)
ax.set_ylim(-1, len(df.Survived.value_counts())) 
plt.title("Survival Breakdown (1 = Survived, 0 = Died)")

### Извлечем больше информации из данных,
### Разобьем предыдущий график еще и по полу


In [None]:
fig = plt.figure(figsize=(18,6))

#Создаем график с двумя подмножествами для женщин и мужчин по выживаемости.
#После этого мы вызываем метод value_counts() который подсчитывает количество разных значений в столбце. 
#'barh' это всего лишь график горизонтально расположенных столбцов
df_male = df.Survived[df.Sex == 'male'].value_counts().sort_index()
df_female = df.Survived[df.Sex == 'female'].value_counts().sort_index()

ax1 = fig.add_subplot(121)
df_male.plot(kind='barh',label='Male', alpha=0.55)
df_female.plot(kind='barh', color='#FA2379',label='Female', alpha=0.55)
plt.title("Who Survived? with respect to Gender, (raw value counts) "); plt.legend(loc='best')
ax1.set_ylim(-1, 2) 

#подкрутить график для отображения пропорций выживших
ax2 = fig.add_subplot(122)
(df_male/float(df_male.sum())).plot(kind='barh',label='Male', alpha=0.55)  
(df_female/float(df_female.sum())).plot(kind='barh', color='#FA2379',label='Female', alpha=0.55)
plt.title("Who Survived proportionally? with respect to Gender"); plt.legend(loc='best')

ax2.set_ylim(-1, 2)

Тут видно, что не смотря на то, что больше мужчин выжило в абсолютном значении, пропорция выживших женщин выше(~25% против ~20%)

#### Отлично:
Возможно мы можем узнать больше, рассматривая столбец Pclass. Здесь мы объединим 1 и 2 класс и отдельно оставим третий.

In [None]:
fig = plt.figure(figsize=(18,4), dpi=1600)
alpha_level = 0.65

# Возьмем код из предыдущих ячеек
# Да, это довольно много дополнительных столбцов, но в итоге мы опять вызоем
# value_counts() - так гораздо легче выводить графики.
# 1 и 2 класс, женщины
ax1=fig.add_subplot(141)
female_highclass = df.Survived[df.Sex == 'female'][df.Pclass != 3].value_counts()
female_highclass.plot(kind='bar', label='female, highclass', color='#FA2479', alpha=alpha_level)
ax1.set_xticklabels(["Survived", "Died"], rotation=0)
ax1.set_xlim(-1, len(female_highclass))
plt.title("Who Survived? with respect to Gender and Class"); plt.legend(loc='best')
# 3 класс, женщины
ax2=fig.add_subplot(142, sharey=ax1)
female_lowclass = df.Survived[df.Sex == 'female'][df.Pclass == 3].value_counts()
female_lowclass.plot(kind='bar', label='female, low class', color='pink', alpha=alpha_level)
ax2.set_xticklabels(["Died","Survived"], rotation=0)
ax2.set_xlim(-1, len(female_lowclass))
plt.legend(loc='best')
# 3 класс, мужчины
ax3=fig.add_subplot(143, sharey=ax1)
male_lowclass = df.Survived[df.Sex == 'male'][df.Pclass == 3].value_counts()
male_lowclass.plot(kind='bar', label='male, low class',color='lightblue', alpha=alpha_level)
ax3.set_xticklabels(["Died","Survived"], rotation=0)
ax3.set_xlim(-1, len(male_lowclass))
plt.legend(loc='best')

# 1 и 2 класс, мужчины
ax4=fig.add_subplot(144, sharey=ax1)
male_highclass = df.Survived[df.Sex == 'male'][df.Pclass != 3].value_counts()
male_highclass.plot(kind='bar', label='male, highclass', alpha=alpha_level, color='steelblue')
ax4.set_xticklabels(["Died","Survived"], rotation=0)
ax4.set_xlim(-1, len(male_highclass))
plt.legend(loc='best')

Отлично, мы получили еще больше информации о том, кто выжил, а кто погиб в катастрофе. С этим знанием мы можем полнее описать модель по данным.  _Это вообще обычный процесс интерактивного анализа данных_. Начиная с понимания основных взаимосвязей в данных и постепенно анализируя их вы понимаете всё больше и больше. 

### 1. Попробуем построить графики

Для начала - гистограмма по возрасту.

In [None]:
df.Age.hist()

И отдельно для мужчин и женщин.

In [None]:
df.Age[df.Sex=='male'].hist()
df.Age[df.Sex=='female'].hist()

Очевидно, людей в данной выборке можно разделить на 3 возрастные категории - условно дети(1), пожилые люди(3) и все остальные - среднего возраста(2).
Напишите функцию, которая сделает это. Сохраните эти категории в новый столбец AgeClass.

Построим гистограмму распределения стоимости билетов.

In [None]:
plt.hist(df.Fare, bins=5)
plt.title("Fare distribution")
plt.show()

### 2. Классификатор

Здесь мы представим вам самый простой классификатор. Этот классификатор по вектору признаков(т.е. по вектору на основе столбцов нашей таблицы за исключением целевого столбца survived) должен предсказать, выживет ли человек.
Новые данные для классификатора - это в общем-то такие же данные, как и в обучающей выборке, но для них не указано целевое значение Y(вспомните формальную постановку задачи машинного обучения).

Наш простейший классификатор предполагает, что женщины спасаются, а мужчины - нет, поэтому для всех женщин мы присваиваем 1, а для мужчин - 0 

In [None]:
def Classify(data):
    data['Survived_pred'] = 0 # data['Sex'] == 'female'
    for idx, row in data.iterrows():        
        if row['Sex'] == 'female':
            #
    return data

Здесь мы предполагаем, что в нашу функцию передают таблицу и через метод iterrows перебираем строки этой таблицы.
Первая строка функции создает столбец Survived_pred, в который мы будем записывать свои предсказания.
Метод дает для перебора кортеж(упорядоченное множество), где первый элемент индекс(idx в нашем случае), а второй элемент - row - сама строка.
Через метод .loc и индексирующие квадратные скобки мы можем присвоить значение определенной ячейке. Первый индекс через запятую - строка, второй индекс - столбец(можно писать как имя столбца, так и порядковый номер).

In [None]:
test_df = pd.read_csv('test.csv')

In [None]:
test_df.head()

In [None]:
test_df["Survived"] = 0

In [None]:
# код

In [None]:
test_df.to_csv('ans.csv',index=False)