In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score


# Часть 1: Анализ данных Titanic

# Загрузка и предобработка данных
def preprocess_titanic_data():
    """Загрузка и предобработка данных Titanic"""
    # Загрузка данных
    titanic_data = pd.read_csv("Titanic.csv")

    # Удаление строк с пропущенными значениями
    cleaned_data = titanic_data.dropna()

    # Удаление неинформативных столбцов
    cols_to_drop = ['Name', 'Ticket', 'Cabin', 'PassengerId']
    cleaned_data = cleaned_data.drop(cols_to_drop, axis=1)

    # Преобразование категориальных признаков в числовые
    cleaned_data['Sex'] = cleaned_data['Sex'].map({'male': 0, 'female': 1})
    cleaned_data['Embarked'] = cleaned_data['Embarked'].map({'C': 1, 'Q': 2, 'S': 3})

    # Расчет потери данных
    initial_rows = titanic_data.shape[0]
    final_rows = cleaned_data.shape[0]
    data_loss_percent = ((initial_rows - final_rows) / initial_rows) * 100
    print(f"Процент потерянных данных после очистки: {data_loss_percent:.2f}%")

    return cleaned_data


# Обучение и оценка модели
def train_and_evaluate_titanic(data):
    """Обучение и оценка модели логистической регрессии"""
    # Разделение данных
    X = data.drop('Survived', axis=1)
    y = data['Survived']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Обучение модели со всеми признаками
    model = LogisticRegression(max_iter=1000)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"\nТочность модели со всеми признаками: {accuracy:.2f}")

    # Обучение модели без признака Embarked
    X_no_embarked = X.drop('Embarked', axis=1)
    X_train_ne, X_test_ne, y_train_ne, y_test_ne = train_test_split(X_no_embarked, y, test_size=0.2, random_state=42)

    model_ne = LogisticRegression(max_iter=1000)
    model_ne.fit(X_train_ne, y_train_ne)
    y_pred_ne = model_ne.predict(X_test_ne)
    accuracy_ne = accuracy_score(y_test_ne, y_pred_ne)
    print(f"Точность модели без признака Embarked: {accuracy_ne:.2f}")

titanic_data = preprocess_titanic_data()
train_and_evaluate_titanic(titanic_data)

Процент потерянных данных после очистки: 79.46%

Точность модели со всеми признаками: 0.73
Точность модели без признака Embarked: 0.73
