In [82]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import r2_score

**Подготовка данных**

In [None]:
data = pd.read_csv("Titanic.csv")
data.head()

In [58]:
# Разделение данных на признаки (X) и целевую переменную (y)
X = data.drop('Survived', axis=1)  # Удаляем столбец 'Survived' из признаков
y = data['Survived']  # Целевая переменная

# Разделение данных на обучающий и тестовый наборы (80% для обучения, 20% для тестирования)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# X_train содержит обучающие признаки
# y_train содержит соответствующие обучающие метки (выжил или нет)

# X_test содержит тестовые признаки
# y_test содержит соответствующие тестовые метки для оценки модели

In [59]:
# Выбор нужных признаков для тестового и обучающего наборов данных
X_test = X_test[['Age', 'Pclass', 'Sex']]
X_train = X_train[['Age', 'Pclass', 'Sex']]

In [60]:
# Кодирования категориального признака "Sex"
X_train_encoded = pd.get_dummies(X_train, columns=['Sex'])
X_test_encoded = pd.get_dummies(X_test, columns=['Sex'])

In [61]:
# Заполнение пропущенных значений для числового признака "Age" средним значением
X_train_encoded['Age'].fillna(X_train_encoded['Age'].mean(), inplace=True)
X_test_encoded['Age'].fillna(X_test_encoded['Age'].mean(), inplace=True)

**Обучение модели и оценка точности**

In [83]:
model = LogisticRegression()
model.fit(X_train_encoded, y_train)

In [84]:
y_train_pred = model.predict(X_train_encoded)
y_test_pred = model.predict(X_test_encoded)

In [85]:
# Точность на обучающем наборе данных
accuracy_train = accuracy_score(y_train, y_train_pred)
print("Точность на тренировочном наборе данных:", accuracy_train)

# Точность на тестовом наборе данных
accuracy_test = accuracy_score(y_test, y_test_pred)
print("Точность на тестовом наборе данных:", accuracy_test)

Точность на тренировочном наборе данных: 0.7907303370786517
Точность на тестовом наборе данных: 0.8100558659217877


**Вычисление R^2 для каждого из параметров**

In [78]:
# Для параметра "Sex"
model_sex = LinearRegression()
model_sex.fit(X_train_encoded[['Sex_female', 'Sex_male']], y_train)
y_sex_pred = model_sex.predict(X_test_encoded[['Sex_female', 'Sex_male']])
r2_sex = r2_score(y_test, y_sex_pred)

# Для параметра "Pclass"
model_pclass = LinearRegression()
model_pclass.fit(X_train_encoded[['Pclass']], y_train)
y_pclass_pred = model_pclass.predict(X_test_encoded[['Pclass']])
r2_pclass = r2_score(y_test, y_pclass_pred)

# Для параметра "Age"
model_age = LinearRegression()
model_age.fit(X_train_encoded[['Age']], y_train)
y_age_pred = model_age.predict(X_test_encoded[['Age']])
r2_age = r2_score(y_test, y_age_pred)

# R^2 для всех параметров
print("R^2 для переменной 'Sex':", r2_sex)
print("R^2 для переменной 'Pclass':", r2_pclass)
print("R^2 для переменной 'Age':", r2_age)

R^2 для переменной 'Sex': 0.29820907818611364
R^2 для переменной 'Pclass': 0.15199185850603114
R^2 для переменной 'Age': 0.004888855615906018
