In [26]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [27]:
# Загрузим данные из файла titanic.csv
df = pd.read_csv('titanic.csv')

In [28]:
# Удаляем строки с пропущенными значениями
df_cleaned = df.dropna()

In [29]:
# Оставляем только числовые столбцы и 'Sex', 'Embarked'
df_cleaned = df_cleaned[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked', 'Survived']]

In [30]:
# Перекодируем 'Sex' и 'Embarked'
df_cleaned['Sex'] = df_cleaned['Sex'].map({'male': 0, 'female': 1})
df_cleaned['Embarked'] = df_cleaned['Embarked'].map({'C': 1, 'Q': 2, 'S': 3})

In [31]:
# Рассчитаем процент потерянных данных после выполнения всех шагов
initial_shape = df.shape[0]  # Исходное количество строк
cleaned_shape = df_cleaned.shape[0]  # Количество строк после очистки

lost_data_percentage = ((initial_shape - cleaned_shape) / initial_shape) * 100
print(f"Процент потерянных данных: {lost_data_percentage:.2f}%")

Процент потерянных данных: 79.46%


In [32]:
# Разделим данные на признаки (X) и целевую переменную (y)
X = df_cleaned.drop(columns=['Survived'])
y = df_cleaned['Survived']

# Разделим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [33]:
# Инициализируем и обучаем модель логистической регрессии
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)

# Сделаем предсказания на тестовой выборке
y_pred = clf.predict(X_test)

In [36]:
# Вычислим точность модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy}")

Точность модели: 0.7297297297297297


In [41]:
# Копия датафрейма без 'Embarked'
df_no_embarked = df_cleaned.drop(columns=['Embarked'])

# Признаки и целевая переменная
X_no_embarked = df_no_embarked.drop(columns=['Survived'])
y_no_embarked = df_no_embarked['Survived']

# Разделение на обучающую и тестовую
X_train_ne, X_test_ne, y_train_ne, y_test_ne = train_test_split(
    X_no_embarked, y_no_embarked, test_size=0.2, random_state=42)

# Обучение модели
model_no_embarked = LogisticRegression(max_iter=1000)
model_no_embarked.fit(X_train_ne, y_train_ne)

# Точность
accuracy_no_embarked = model_no_embarked.score(X_test_ne, y_test_ne)
print(f"Точность модели без Embarked: {accuracy_no_embarked}")


Точность модели без Embarked: 0.7297297297297297
