# Тема (Context)
Загрузим и рассмотрим данные о пассажирах Титаника

# Оценка качества данных (Data quality assessment)
Для оценки качества данных подключим датасет и рассмотрим первые 10 строк:

In [108]:
import pandas as pd
titanic_data = pd.read_csv('./train.csv', index_col='PassengerId')
titanic_data[0:10]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,1,1,"Oconnor, Frankie",male,,2,0,209245,27.14,C12239,S
1,0,3,"Bryan, Drew",male,,0,0,27323,13.35,,S
2,0,3,"Owens, Kenneth",male,0.33,1,2,CA 457703,71.29,,S
3,0,3,"Kramer, James",male,19.0,0,0,A. 10866,13.04,,S
4,1,3,"Bond, Michael",male,25.0,0,0,427635,7.76,,S
5,0,2,"Sassano, Jonathan",male,35.0,0,0,13363,6.71,,S
6,0,3,"Conway, Jose",male,7.0,0,0,A/5,9.77,,S
7,1,3,"Werner, Linda",female,6.0,1,2,434426,31.5,,S
8,0,1,"Wardlaw, Michael",male,27.0,2,1,474849,73.02,A7253,S
9,0,2,"Greigo, Rudy",male,66.0,0,0,6981,9.14,D2969,C


можно заметить, что в колонке `Age` присутствуют значения `NaN`, от которых лучше избавиться (для примера посмотрите на возрасты первых двух пассажиров). Выберем один из способов с заменой недостающих данных на медиану. Для это вычислим медианный возраст:

In [109]:
median_age = titanic_data[:]['Age'].median()
median_age

39.0

Проведём замену и проверим, что всё прошло успешно:

In [110]:
titanic_data.loc[:]['Age'].fillna(median_age, inplace=True)

Далее стоит обратить внимание на признак `Sex` потому что формат данных в этой колонке можно улучшить: добавим колонку `SexCode`, которая будет похожа на `Sex`, но при этом заменим `male` на 0, а `female` на 1 так как с бинарными данными легче работать, чем со строками. Для начала проверим что в таблице присутствуют только два пола:

In [111]:
titanic_data.groupby('Sex').size()

Sex
female    43886
male      56114
dtype: int64

Создадим переменную `sex_code`, содержащую заменённые данные:

In [112]:
def string_to_code(sex):
    if sex == 'male':
        return 0
    return 1

sex_code = titanic_data[:]['Sex'].apply(string_to_code)

Добавим её в наш датасет перед колонкой `Sex` с последующим выводом для проверки:

In [113]:
titanic_data.insert(3, 'SexCode', sex_code)
titanic_data[:][:10]

Unnamed: 0_level_0,Survived,Pclass,Name,SexCode,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,1,1,"Oconnor, Frankie",0,male,39.0,2,0,209245,27.14,C12239,S
1,0,3,"Bryan, Drew",0,male,39.0,0,0,27323,13.35,,S
2,0,3,"Owens, Kenneth",0,male,0.33,1,2,CA 457703,71.29,,S
3,0,3,"Kramer, James",0,male,19.0,0,0,A. 10866,13.04,,S
4,1,3,"Bond, Michael",0,male,25.0,0,0,427635,7.76,,S
5,0,2,"Sassano, Jonathan",0,male,35.0,0,0,13363,6.71,,S
6,0,3,"Conway, Jose",0,male,7.0,0,0,A/5,9.77,,S
7,1,3,"Werner, Linda",1,female,6.0,1,2,434426,31.5,,S
8,0,1,"Wardlaw, Michael",0,male,27.0,2,1,474849,73.02,A7253,S
9,0,2,"Greigo, Rudy",0,male,66.0,0,0,6981,9.14,D2969,C


# Анализ данных (Data exploration)

# Итог (Summary)