# Предоработка данных в pandas

- Какое количество мужчин и женщин ехало на корабле? В качестве ответа приведите два числа через пробел.
- Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров. Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.
- Какую долю пассажиры первого класса составляли среди всех пассажиров? Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.
- Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров. В качестве ответа приведите два числа через пробел.
- Коррелируют ли число братьев/сестер/супругов с числом родителей/детей? Посчитайте корреляцию Пирсона между признаками SibSp и Parch.
- Какое самое популярное женское имя на корабле? Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name). Это задание — типичный пример того, с чем сталкивается специалист по анализу данных. Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию. Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен, а также разделения их на женские и мужские.

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('data/titanic.csv')
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [3]:
# Какое количество мужчин и женщин ехало на корабле? В качестве ответа приведите два числа через пробел.
males = data[data['Sex'] == 'male']['Sex'].size
females = data[data['Sex'] == 'female']['Sex'].size

print(males, females)

577 314


In [4]:
# Какой части пассажиров удалось выжить? Посчитайте долю выживших пассажиров.
# Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.

live_percent = round((data[data['Survived'] == 1].shape[0] / data.shape[0]) * 100, 2)
print(live_percent)

38.38


In [5]:
# Какую долю пассажиры первого класса составляли среди всех пассажиров?
# Ответ приведите в процентах (число в интервале от 0 до 100, знак процента не нужен), округлив до двух знаков.

first_class_percent = round((data[data['Pclass'] == 1].shape[0] / data.shape[0]) * 100, 2)

print(first_class_percent)

24.24


In [6]:
# Какого возраста были пассажиры? Посчитайте среднее и медиану возраста пассажиров.
# В качестве ответа приведите два числа через пробел.

mean_age = data['Age'].mean()
median_age = data['Age'].median()

print(mean_age, median_age)

29.69911764705882 28.0


In [7]:
# Коррелируют ли число братьев/сестер/супругов с числом родителей/детей?
# Посчитайте корреляцию Пирсона между признаками SibSp и Parch.

from scipy import stats

corr, pvalue = stats.pearsonr(data['SibSp'], data['Parch'])

print(corr)

0.4148376986201561


In [8]:
# Какое самое популярное женское имя на корабле?
# Извлеките из полного имени пассажира (колонка Name) его личное имя (First Name).
# Это задание — типичный пример того, с чем сталкивается специалист по анализу данных.
# Данные очень разнородные и шумные, но из них требуется извлечь необходимую информацию.
# Попробуйте вручную разобрать несколько значений столбца Name и выработать правило для извлечения имен,
# а также разделения их на женские и мужские.


import re

def find_name(x):
    if re.search('Miss.', x):
        return re.findall('Miss. ([\\w]*)', x)[0]
    if re.search('Mrs.[\\w ]*\(', x):
        return re.findall('Mrs.[\\w ]*\(([\\w]*)', x)[0]
    return re.findall('\. ([\\w]*)', x)[0]

female_data = data[data['Sex'] == 'female']
female_names = female_data['Name'].apply(find_name)
pop_name = female_names.value_counts().index[0]

print(pop_name)

Anna


# Random Forest Classifier - feature importance

Инструкция по выполнению

- Загрузите выборку из файла titanic.csv с помощью пакета Pandas.
- Оставьте в выборке четыре признака: класс пассажира (Pclass), цену билета (Fare), возраст пассажира (Age) и его пол (Sex).
- Обратите внимание, что признак Sex имеет строковые значения.
- Выделите целевую переменную — она записана в столбце Survived.
- В данных есть пропущенные значения — например, для некоторых пассажиров неизвестен их возраст. Такие записи при чтении их в pandas принимают значение nan. Найдите все объекты, у которых есть пропущенные признаки, и удалите их из выборки. 
- Обучите решающее дерево с параметром random_state=241 и остальными параметрами по умолчанию (речь идет о параметрах конструктора DecisionTreeСlassifier).
- Вычислите важности признаков и найдите два признака с наибольшей важностью. Их названия будут ответами для данной задачи (в качестве ответа укажите названия признаков через запятую или пробел, порядок не важен). 

In [9]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree

def change_string_sex(x):
    if x == 'male':
        return 0
    if x == 'female':
        return 1

data = pd.read_csv('data/titanic.csv')
data['Sex'] = data['Sex'].apply(change_string_sex)
data = data[data['Age'].notna()]

X = data[['Pclass','Fare','Age', 'Sex']]
y = data['Survived']

model = DecisionTreeClassifier(random_state=241)
model = model.fit(X, y)

feature_imp = model.feature_importances_

feature_imp = pd.DataFrame(feature_imp, columns=['feature_imp']).sort_values(by='feature_imp')
feature_imp = feature_imp.reset_index()
first_max = X.columns[int(feature_imp.loc[feature_imp.shape[0] - 1]['index'])]
second_max = X.columns[int(feature_imp.loc[feature_imp.shape[0] - 2]['index'])]

print(first_max, second_max)

Sex Fare
