<a href="https://colab.research.google.com/github/pa2e37/dap-2024/blob/main/les04/rep4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd

class TitanicAnalyzer:
    """
    Класс для анализа датасета Titanic.
    Позволяет структурировать код и избежать повторений.
    """

    def __init__(self, file_path: str):
        self.df = pd.read_csv(file_path, index_col="PassengerId")
        print("Данные загружены. Индекс установлен на 'PassengerId'.")

    def head(self, n=6):
        print("\n--- Первые строки ---")
        print(self.df.head(n))

    def describe(self):
        print("\n--- Описание данных ---")
        print(self.df.describe(include="all"))

    def gender_count(self):
        print("\n--- Количество мужчин / женщин ---")
        print(self.df['Sex'].value_counts())

    def pclass_distribution(self):
        print("\n--- Распределение Pclass ---")
        print("Общее распределение:")
        print(self.df['Pclass'].value_counts())

        print("\nПо полу:")
        print(self.df.groupby('Sex')['Pclass'].value_counts())

        male_2nd = (self.df['Sex'] == 'male') & (self.df['Pclass'] == 2)
        print("\nМужчин 2-го класса:", male_2nd.sum())

    def fare_stats(self):
        print("\n--- Медиана и std Fare ---")
        median = self.df['Fare'].median().round(2)
        std = self.df['Fare'].std().round(2)
        print(f"Медиана: {median}, Std: {std}")
        return median, std

    def survival_by_age(self):
        print("\n--- Выживаемость по возрасту ---")
        young_surv = self.df[self.df['Age'] < 30]['Survived'].mean().round(2)
        old_surv = self.df[self.df['Age'] > 60]['Survived'].mean().round(2)
        print("Моложе 30:", young_surv)
        print("Старше 60:", old_surv)

    def survival_by_gender(self):
        print("\n--- Выживаемость по полу ---")
        surv = self.df.groupby("Sex")['Survived'].mean().round(2)
        print(surv)

    def most_popular_male_name(self):
        print("\n--- Самое популярное мужское имя ---")

        male_df = self.df[self.df['Sex'] == 'male']

        def extract_name(full_name):
            # формат: "Lastname, Title. Firstname Middlename"
            try:
                return full_name.split(',')[1].split('.')[1].strip().split()[0]
            except Exception:
                return None

        first_names = male_df['Name'].apply(extract_name).dropna()

        popular = first_names.value_counts().idxmax()
        print("Самое популярное мужское имя:", popular)
        return popular

    def avg_age_by_class_gender(self):
        print("\n--- Средний возраст по классу и полу ---")
        print(self.df.groupby(['Pclass', 'Sex'])['Age'].mean().round(2))

    def avg_age_survived(self):
        print("\n--- Средний возраст выживших / погибших ---")
        print(self.df.groupby('Survived')['Age'].mean().round(2))

    def run_all(self):
        """Запуск всех методов по порядку"""
        self.head()
        self.describe()
        self.gender_count()
        self.pclass_distribution()
        self.fare_stats()
        self.survival_by_age()
        self.survival_by_gender()
        self.most_popular_male_name()
        self.avg_age_by_class_gender()
        self.avg_age_survived()