In [30]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

df = pd.read_csv('Titanic.csv')
initial_shape = df.shape[0] * df.shape[1]

Удалим все строки данных содержащие пропуски.

In [31]:
df.dropna(inplace=True)

Удалим столбцы содержащие не числовые значения, за исключением столбцов Sex и Embarked

In [32]:
non_numeric_columns = ['Name', 'Ticket', 'Cabin']
df.drop(columns=non_numeric_columns, inplace=True)

Перекодируем данные в числовой вид в столбцах Sex и Embarked. Sex – 0 и 1, Embarked – 1,2,3

In [33]:
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

df['Embarked'] = df['Embarked'].map({'C': 1, 'Q': 2, 'S': 3})

Удалим столбец PassengerId как не несущий полезной информации.

In [34]:
df.drop(columns=['PassengerId'], inplace=True)

Вычислим процент потерянных данных

In [35]:
lost_percent = ((initial_shape - df.shape[0] * df.shape[1]) / initial_shape) * 100
print(f"Процент потерянных данных: {lost_percent:.2f}%")

Процент потерянных данных: 86.31%


Разобьем полученные данные на обучающую и тестовые выборки

In [36]:
X = df.drop(columns=['Survived'])
y = df['Survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Решим задачу классификации методом логистической регрессии

In [20]:
model = LogisticRegression(max_iter=1000, random_state=0)
model.fit(X_train, y_train)

Выведем точность полученной модели

In [38]:
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy:.4f}")

Точность модели: 0.7297


Оценим влияние признака Embarked на точность модели

In [41]:
X_without_embarked = df.drop(columns=['Survived', 'Embarked'])
y = df['Survived']

X_train_we, X_test_we, y_train_we, y_test_we = train_test_split(X_without_embarked, y, test_size=0.2, random_state=0)

model_we = LogisticRegression(max_iter=1000, random_state=0)
model_we.fit(X_train_we, y_train_we)

y_pred_we = model_we.predict(X_test_we)
accuracy_we = accuracy_score(y_test_we, y_pred_we)
print(f"Точность без Embarked: {accuracy_we:.4f}")
print(f"Разница в точности: {accuracy_we - accuracy:.4f}")

Точность без Embarked: 0.8649
Разница в точности: 0.1351
