In [105]:
import pandas as pd

data = pd.read_csv("titanic_train.csv", index_col='PassengerId')

In [106]:
print("Количество мужчин и женщин:")
print(data['Sex'].value_counts())

Количество мужчин и женщин:
Sex
male      577
female    314
Name: count, dtype: int64


In [119]:
print("Распределение по классам для мужчин и женщин:")
sex_and_pclass = data.groupby(['Sex', 'Pclass']).size().unstack()
print(sex_and_pclass)

num_male = data[(data['Sex'] == 'male') & (data['Pclass'] == 2)].shape[0]
print(f"\nКоличество мужчин из второго класса: {num_male}")
pclass2_total = (data['Pclass'] == 2).sum()
print(f"Количество людей из второго класса: {pclass2_total}")

Распределение по классам для мужчин и женщин:
Pclass    1    2    3
Sex                  
female   94   76  144
male    122  108  347

Количество мужчин из второго класса: 108
Количество людей из второго класса: 184


In [108]:
median_fare = round(data['Fare'].median(), 2)
std_fare = round(data['Fare'].std(), 2)

print(f"Медиана Fare: {median_fare}")
print(f"Стандартное отклонение Fare: {std_fare}")

Медиана Fare: 14.45
Стандартное отклонение Fare: 49.69


In [109]:
age_survived = data[data['Survived'] == 1]['Age'].mean()
age_not_survived = data[data['Survived'] == 0]['Age'].mean()

print(f"Средний возраст выживших: {round(age_survived, 2)}")
print(f"Средний возраст погибших: {round(age_not_survived, 2)}")

if age_survived > age_not_survived:
    print("Ответ: Да, средний возраст выживших выше, чем у погибших.")
else:
    print("Ответ: Нет, средний возраст выживших не выше, чем у погибших.")

Средний возраст выживших: 28.34
Средний возраст погибших: 30.63
Ответ: Нет, средний возраст выживших не выше, чем у погибших.


In [110]:
young = data[data['Age'] < 30]
old = data[data['Age'] > 60]

young_survived = young['Survived'].mean() * 100
old_survived = old['Survived'].mean() * 100

if young_survived > old_survived:
    print("Да, пассажиры моложе 30 лет выживали чаще, чем те, кому больше 60 лет.")
else:
    print("Нет, пассажиры моложе 30 лет выживали не чаще, чем те, кому было 60 лет.")

print(f"Доля выживших среди молодых (<30): {round(young_survived, 1)} %")
print(f"Доля выживших среди пожилых (>60): {round(old_survived, 1)} %")

Да, пассажиры моложе 30 лет выживали чаще, чем те, кому больше 60 лет.
Доля выживших среди молодых (<30): 40.6 %
Доля выживших среди пожилых (>60): 22.7 %


In [111]:
survival_by_sex = data.groupby('Sex')['Survived'].mean() * 100

if survival_by_sex['female'] > survival_by_sex['male']:
    print("Да, женщины выживали чаще мужчин.")
else:
    print("Нет, мужчины выживали чаще женщин.")

print(f"Доля выживших среди мужчин: {round(survival_by_sex['male'], 1)} %")
print(f"Доля выживших среди женщин: {round(survival_by_sex['female'], 1)} %")

Да, женщины выживали чаще мужчин.
Доля выживших среди мужчин: 18.9 %
Доля выживших среди женщин: 74.2 %


In [112]:
print("ЭТО ПОДСЧЁТ ТИТУЛОВ У МУЖЧИН (не входит в задание, нужен для следующей ячейки).")
male = data[data['Sex'] == 'male']
male_titles = male['Name'].str.extract(r',\s*([^\.]+)\.', expand=False)
print(male_titles.value_counts())

ЭТО ПОДСЧЁТ ТИТУЛОВ У МУЖЧИН (не входит в задание, нужен для следующей ячейки).
Name
Mr          517
Master       40
Rev           6
Dr            6
Major         2
Col           2
Don           1
Sir           1
Capt          1
Jonkheer      1
Name: count, dtype: int64


In [113]:
male = data[data['Sex'] == 'male']['Name']
male_names = male.str.extract(r'(?:Mr\.|Master\.|Rev\.|Dr\.|Major\.|Col\.|Don\.|Sir\.|Capt\.|Jonkheer\.)\s+([A-Za-z]+)', expand=False)
counts = male_names.value_counts()

top_name = counts.idxmax()
top_count = counts.max()
print(f"Самое популярное мужское имя: {top_name} ({top_count} раз).")

Самое популярное мужское имя: William (35 раз).


In [114]:
age_by_sex = data.groupby(['Sex', 'Pclass'])['Age'].mean()
age_and_class = data.groupby('Pclass')['Age'].mean()

print("\nСредний возраст пассажиров в зависимости от пола и класса:")
print(round(age_by_sex, 1))

print("\nВерные утверждения:")

# 1. В среднем мужчины 1 класса старше 40 лет
if age_by_sex['male', 1] > 40:
    print("- В среднем мужчины 1 класса старше 40 лет")

# 2. В среднем женщины 1 класса старше 40 лет
if age_by_sex['female', 1] > 40:
    print("- В среднем женщины 1 класса старше 40 лет")

# 3. Мужчины всех классов старше женщин того же класса
if all(age_by_sex['male', c] > age_by_sex['female', c] for c in [1, 2, 3]):
    print("- Мужчины всех классов старше женщин того же класса")

# 4. Пассажиры 1 > 2 > 3 по возрасту
if age_and_class[1] > age_and_class[2] > age_and_class[3]:
    print("- В среднем, пассажиры 1 класса старше 2-го, а те старше 3-го")


Средний возраст пассажиров в зависимости от пола и класса:
Sex     Pclass
female  1         34.6
        2         28.7
        3         21.8
male    1         41.3
        2         30.7
        3         26.5
Name: Age, dtype: float64

Верные утверждения:
- В среднем мужчины 1 класса старше 40 лет
- Мужчины всех классов старше женщин того же класса
- В среднем, пассажиры 1 класса старше 2-го, а те старше 3-го
