Поработаем с датасетом Titanic. Это очень известный датасет для машинного обучения, а нам он пригодится, чтобы попрактиковаться с pandas. 

#### Задача 1. 

Считайте датасет (можно скопировать код из лекции). Выведите первые пять строчек датасета. Посмотрите информацию о датасете. Во-первых, пустые ячейки всегда мешают, а во-вторых, в машинном обучении неудобно работать с текстовыми данными и все стараются превращать в цифры. Давайте попробуем почистить датасет с этой позиции, но разумно: 

- Пропущенные ячейки возраста, наверное, можно заполнить средним арифметическим
- Пол можно заменить на чиселки - 1 для одного варианта и 0 для другого (не у всех пол известен, но там таких мало, можно заменить на тот же 0)
- Столбцы Ticket, Cabin и Embarked, скорее всего, содержат не очень интересную информацию: можно от них просто избавиться.
- Столбец с именами пока оставим как есть. 

In [38]:
import pandas as pd

df = pd.read_csv('titanic.csv', sep=";")
print("Первые 5 строк датасета:")
df.head()

Первые 5 строк датасета:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


In [39]:
print("\nИнформация о датасете:")
df.info()


Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [40]:
mean_age = df['Age'].mean()
df['Age'] = df['Age'].fillna(mean_age)

df = df.drop(columns=['Ticket', 'Cabin', 'Embarked'])

df['Sex'] = df['Sex'].map({'male': 1, 'female': 0}).fillna(0)

print("\nПервые 5 строк после преобразований:")
df.head()


Первые 5 строк после преобразований:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare
0,1,0,3,Braund; Mr. Owen Harris,1.0,22.0,1,0,7.25
1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,0.0,38.0,1,0,71.2833
2,3,1,3,Heikkinen; Miss. Laina,0.0,26.0,0,0,7.925
3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),0.0,35.0,1,0,53.1
4,5,0,3,Allen; Mr. William Henry,1.0,35.0,0,0,8.05


In [41]:
print("\nПропущенные значения:")
print(df.isnull().sum())


Пропущенные значения:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Fare           0
dtype: int64


#### Задача 2.

Сколько пассажиров выжило, а сколько - нет?

In [42]:
survival_counts = df['Survived'].value_counts()
survival_counts

Survived
0    549
1    342
Name: count, dtype: int64

In [43]:
survived = survival_counts.get(1, 0)  
not_survived = survival_counts.get(0, 0)

print(f"\nВыжило: {survived}")
print(f"Погибло: {not_survived}")


Выжило: 342
Погибло: 549


#### Задача 3.

Какова доля выживших пассажиров из класса 3? А пассажиров из класса 1? (Доля - это отношение количества выживших пассажиров этого класса к общему количеству выживших пассажиров)

In [44]:
survived_passengers = df[df['Survived'] == 1]

total_survived = len(survived_passengers)
survived_by_class = survived_passengers['Pclass'].value_counts()

share_class_1 = survived_by_class.get(1, 0) / total_survived
share_class_3 = survived_by_class.get(3, 0) / total_survived

print(f"Доля выживших пассажиров из класса 1: {share_class_1:.2%}")
print(f"Доля выживших пассажиров из класса 3: {share_class_3:.2%}")

Доля выживших пассажиров из класса 1: 39.77%
Доля выживших пассажиров из класса 3: 34.80%


#### Задача 4.

Какова доля выживших женщин из первого класса? А доля выживших мужчин из 3 класса?

In [45]:
women_cl1 = df[(df['Pclass'] == 1) & (df['Sex'] == 0)]
men_cl3 = df[(df['Pclass'] == 3) & (df['Sex'] == 1)]

survived_women_cl1 = women_cl1[women_cl1['Survived'] == 1].shape[0]
total_women_cl1 = women_cl1.shape[0]

survived_men_cl3 = men_cl3[men_cl3['Survived'] == 1].shape[0]
total_men_cl3 = men_cl3.shape[0]

print(f"Доля выживших женщин из первого класса: {survived_women_cl1 / total_women_cl1 if total_women_cl1 > 0 else 0:.2%}")
print(f"Доля выживших мужчин из третьего класса: {survived_men_cl3 / total_men_cl3 if total_men_cl3 > 0 else 0:.2%}")

Доля выживших женщин из первого класса: 96.81%
Доля выживших мужчин из третьего класса: 13.62%


#### Задача 5. 

Давайте заведем отдельный столбец с фамилией пассажира. Можно заметить, что в ячейке имени фамилия всегда пишется первой и через точку с запятой. Вам поможет lambda и split.

In [46]:
df['Surname'] = df['Name'].apply(lambda x: x.split(';')[0].strip())
print(df[['Name', 'Surname']].head())

                                                Name    Surname
0                            Braund; Mr. Owen Harris     Braund
1  Cumings; Mrs. John Bradley (Florence Briggs Th...    Cumings
2                             Heikkinen; Miss. Laina  Heikkinen
3       Futrelle; Mrs. Jacques Heath (Lily May Peel)   Futrelle
4                           Allen; Mr. William Henry      Allen


#### Задача 6.

Сколько всего получилось семей? Сколько человек в каждой семье? Сколько семей, в которых больше трех человек?

In [47]:
# я решила делать в тупую по фамилии

family_counts = df.groupby('Surname').size() 
large_families = family_counts[family_counts > 3]

print(f"Всего семей: {len(family_counts)}")
print(f"Количество человек в каждой семье:\n{family_counts}")
print(f"Семей, в которых больше трех человек: {len(large_families)}")

Всего семей: 667
Количество человек в каждой семье:
Surname
Abbing           1
Abbott           2
Abelson          2
Adahl            1
Adams            1
                ..
de Mulder        1
de Pelsmaeker    1
del Carlo        1
van Billiard     1
van Melkebeke    1
Length: 667, dtype: int64
Семей, в которых больше трех человек: 22


#### Задача 7.

Создайте столбец "IsChild", который равен 1, если возраст меньше 20, и 0 иначе. 

In [48]:
df['IsChild'] = df['Age'].apply(lambda x: 1 if x < 20 else 0)
print(df[['Name', 'Age', 'IsChild']].head(10))

                                                Name        Age  IsChild
0                            Braund; Mr. Owen Harris  22.000000        0
1  Cumings; Mrs. John Bradley (Florence Briggs Th...  38.000000        0
2                             Heikkinen; Miss. Laina  26.000000        0
3       Futrelle; Mrs. Jacques Heath (Lily May Peel)  35.000000        0
4                           Allen; Mr. William Henry  35.000000        0
5                                   Moran; Mr. James  29.699118        0
6                            McCarthy; Mr. Timothy J  54.000000        0
7                     Palsson; Master. Gosta Leonard   2.000000        1
8  Johnson; Mrs. Oscar W (Elisabeth Vilhelmina Berg)  27.000000        0
9                Nasser; Mrs. Nicholas (Adele Achem)  14.000000        1


#### Задача 8.

Какова доля семей, в которых минимальный возраст меньше 20 (семьи с детьми)? По отношению к общему количеству семей.

In [49]:
fam_min_age = df.groupby('Surname')['Age'].min()
total_fam = len(fam_min_age)
families_with_children = fam_min_age[fam_min_age < 20]

total_families_with_children = len(families_with_children) / total_fam if total_fam > 0 else 0

print(f"Общее количество семей: {total_fam}")
print(f"Количество семей с детьми: {len(families_with_children)}")
print(f"Доля семей с детьми: {total_families_with_children:.2%}")

Общее количество семей: 667
Количество семей с детьми: 124
Доля семей с детьми: 18.59%
