# 🛳️ Анализ данных: Titanic с помощью Python и Pandas

## 📥 Загрузка и первичный просмотр данных

In [None]:
import seaborn as sns
import pandas as pd

df = sns.load_dataset('titanic')
df.head()

## 🧹 Проверка и обработка пропущенных значений

In [None]:
df.isnull().sum()

In [None]:
df = df.dropna(subset=['age', 'embarked', 'sex'])

## 🔄 Кодировка категориальных признаков

In [None]:
from sklearn.preprocessing import LabelEncoder

df['sex'] = LabelEncoder().fit_transform(df['sex'])
df['embarked'] = LabelEncoder().fit_transform(df['embarked'])

## 📊 Визуализация: распределение возраста по выживаемости

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.histplot(data=df, x='age', hue='survived', kde=True)
plt.title("Распределение возраста по выживаемости")
plt.show()

## 🤖 Модель логистической регрессии

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay

X = df[['age', 'fare', 'sex', 'pclass', 'embarked']]
y = df['survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

## 📉 Матрица ошибок (Confusion Matrix)

In [None]:
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=model.classes_)
disp.plot()
plt.title("Матрица ошибок")
plt.show()

## 🧠 Выводы
- Коэффициенты модели показывают вклад признаков в вероятность выживания.
- Пол (sex) и класс (pclass) оказывают значительное влияние.
- Можно улучшить точность, применяя другие модели или расширяя набор признаков.

## 🌲 Модель Random Forest и сравнение точности

In [None]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

rf_pred = rf_model.predict(X_test)
rf_accuracy = accuracy_score(y_test, rf_pred)

print("🎯 Accuracy Random Forest:", rf_accuracy)

## 🔍 Визуализация важности признаков (Random Forest)

In [None]:
import seaborn as sns

feature_importances = pd.Series(rf_model.feature_importances_, index=X.columns)
sns.barplot(x=feature_importances.values, y=feature_importances.index)
plt.title("🌟 Важность признаков (Random Forest)")
plt.show()