Поработаем с датасетом Titanic. Это очень известный датасет для машинного обучения, а нам он пригодится, чтобы попрактиковаться с pandas. 

#### Задача 1. 

Считайте датасет (можно скопировать код из лекции). Выведите первые пять строчек датасета. Посмотрите информацию о датасете. Во-первых, пустые ячейки всегда мешают, а во-вторых, в машинном обучении неудобно работать с текстовыми данными и все стараются превращать в цифры. Давайте попробуем почистить датасет с этой позиции, но разумно: 

- Пропущенные ячейки возраста, наверное, можно заполнить средним арифметическим
- Пол можно заменить на чиселки - 1 для одного варианта и 0 для другого (не у всех пол известен, но там таких мало, можно заменить на тот же 0)
- Столбцы Ticket, Cabin и Embarked, скорее всего, содержат не очень интересную информацию: можно от них просто избавиться.
- Столбец с именами пока оставим как есть. 

In [19]:
import pandas as pd

titanic = pd.read_csv('titanic.csv', sep=';')
titanic.head()
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [21]:
#fixing age
mid_age = titanic['Age'].mean().astype(int)
titanic['Age'] = titanic['Age'].fillna(mid_age)

In [22]:
#checking
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
# fixing sex
#titanic.Sex.unique()
#unknown, male = 0, female = 1
titanic['Sex'] = titanic['Sex'].apply(lambda x: 1 if x == 'female' else 0)

In [None]:
#deleting Ticket, Cabin, Embarked
titanic = titanic.drop(['Ticket', 'Cabin', 'Embarked'], axis=1)

In [39]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare
0,1,0,3,Braund; Mr. Owen Harris,0,22.0,1,0,7.25
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,1,38.0,1,0,71.2833
2,3,1,3,Heikkinen; Miss. Laina,1,26.0,0,0,7.925
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),1,35.0,1,0,53.1
4,5,0,3,Allen; Mr. William Henry,0,35.0,0,0,8.05


#### Задача 2.

Сколько пассажиров выжило, а сколько - нет?

In [47]:
survived_amount = titanic['Survived'].sum()
unsurvived_amount = len(titanic) - survived_amount
print(f'Выжило всего человек: {survived_amount}, погибло: {unsurvived_amount}.')

Выжило всего человек: 342, погибло: 549.


#### Задача 3.

Какова доля выживших пассажиров из класса 3? А пассажиров из класса 1? (Доля - это отношение количества выживших пассажиров этого класса к общему количеству выживших пассажиров)

In [53]:
survived_3 = len(titanic[(titanic.Pclass == 3) & (titanic.Survived == 1)]) / survived_amount
survived_1 = len(titanic[(titanic.Pclass == 1) & (titanic.Survived == 1)]) / survived_amount
print(f'Доля выживших пассажиров из класс 3: {survived_3:.2%}, пассажиров из класса 1: {survived_1:.2%}.')

Доля выживших пассажиров из класс 3: 34.80%, пассажиров из класса 1: 39.77%.


#### Задача 4.

Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?

In [56]:
f_1_surv = len(titanic[(titanic.Sex == 1) & (titanic.Survived == 1) & (titanic.Pclass == 1)]) / survived_amount
m_3_surv = len(titanic[(titanic.Sex == 0) & (titanic.Survived == 1) & (titanic.Pclass == 3)]) / survived_amount
print(f'Доля выживших женщин из первого класса: {f_1_surv:.2%}, доля выживших мужчин из 3 класс: {m_3_surv:.2%}.')

Доля выживших женщин из первого класса: 26.61%, доля выживших мужчин из 3 класс: 14.04%.


#### Задача 5. 

Давайте заведем отдельный столбец с фамилией пассажира. Можно заметить, что в ячейке имени фамилия всегда пишется первой и через точку с запятой. Вам поможет lambda и split.

In [57]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare
0,1,0,3,Braund; Mr. Owen Harris,0,22.0,1,0,7.25
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,1,38.0,1,0,71.2833
2,3,1,3,Heikkinen; Miss. Laina,1,26.0,0,0,7.925
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),1,35.0,1,0,53.1
4,5,0,3,Allen; Mr. William Henry,0,35.0,0,0,8.05


In [58]:
titanic['Surname'] = titanic['Name'].apply(lambda x: x.split(';')[0])
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Surname
0,1,0,3,Braund; Mr. Owen Harris,0,22.0,1,0,7.25,Braund
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,1,38.0,1,0,71.2833,Cumings
2,3,1,3,Heikkinen; Miss. Laina,1,26.0,0,0,7.925,Heikkinen
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),1,35.0,1,0,53.1,Futrelle
4,5,0,3,Allen; Mr. William Henry,0,35.0,0,0,8.05,Allen


#### Задача 6.

Сколько всего получилось семей? Сколько человек в каждой семье? Сколько семей, в которых больше трех человек?

In [None]:
#sibsp = Number of Siblings/Spouses Aboard
# parch - Number of Parents/Children Aboard
titanic.SibSp.unique()

array([1, 0, 3, 4, 2, 5, 8])

In [63]:
titanic.Parch.unique()

array([0, 1, 2, 5, 3, 4, 6])

In [90]:
titanic['Family'] = titanic['SibSp'] + titanic['Parch'] + 1
families = titanic[titanic['Family'] > 1].groupby(['Surname', 'Fare', 'Family'])
fam_amount = len(families)
print('Всего семей:', fam_amount)

Всего семей: 208


In [86]:
print('Количество человек в каждой семье:')
print(families['Family'].mean(numeric_only=True))

Количество человек в каждой семье:
Surname         Fare      Family
Abbott          20.2500   3         3.0
Abelson         24.0000   2         2.0
Ahlin           9.4750    2         2.0
Aks             9.3500    2         2.0
Allison         151.5500  4         4.0
                                   ... 
Yasbeck         14.4542   2         2.0
Zabour          14.4542   2         2.0
de Messemaeker  17.4000   2         2.0
del Carlo       27.7208   2         2.0
van Billiard    14.5000   3         3.0
Name: Family, Length: 208, dtype: float64


In [87]:
print('Kоличество семей, в которых больше трех человек:')
families = titanic[titanic['Family'] > 3].groupby(['Surname', 'Fare', 'Family'])
print(len(families['Family'].mean(numeric_only=True)))

Kоличество семей, в которых больше трех человек:
28


#### Задача 7.

Создайте столбец "IsChild", который равен 1, если возраст меньше 20, и 0 иначе. 

In [89]:
titanic['IsChild'] = titanic['Age'].apply(lambda x: 1 if x < 20 else 0)
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Surname,Family,IsChild
0,1,0,3,Braund; Mr. Owen Harris,0,22.0,1,0,7.2500,Braund,2,0
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,1,38.0,1,0,71.2833,Cumings,2,0
2,3,1,3,Heikkinen; Miss. Laina,1,26.0,0,0,7.9250,Heikkinen,1,0
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),1,35.0,1,0,53.1000,Futrelle,2,0
4,5,0,3,Allen; Mr. William Henry,0,35.0,0,0,8.0500,Allen,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,Montvila; Rev. Juozas,0,27.0,0,0,13.0000,Montvila,1,0
887,888,1,1,Graham; Miss. Margaret Edith,1,19.0,0,0,30.0000,Graham,1,1
888,889,0,3,"Johnston; Miss. Catherine Helen ""Carrie""",1,29.0,1,2,23.4500,Johnston,4,0
889,890,1,1,Behr; Mr. Karl Howell,0,26.0,0,0,30.0000,Behr,1,0


#### Задача 8.

Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)? По отношению к общему количеству семей.

In [112]:
# fam_amount
child_families = len(titanic[(titanic['Family'] > 1) & (titanic['IsChild'] > 0)].groupby(['Surname', 'Fare', 'Family']))
print(f'Доля семей, в которых мин возраст меньше 20: {child_families/fam_amount:.2%}')


Доля семей, в которых мин возраст меньше 20: 35.58%
