In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
pio.renderers.default = "png"


plt.style.use('ggplot')

In [2]:

url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)

print(f"Данные загружены. Размерность: {df.shape}")

df_raw = df.copy()

Данные загружены. Размерность: (891, 12)


In [3]:
# А) Распределение выживаемости по классам 
fig_pclass = px.histogram(df_raw, x="Pclass", color="Survived", barmode="group", 
                          title="Выживаемость в зависимости от класса билетов",
                          color_discrete_map={0: "red", 1: "green"})
fig_pclass.show()



ValueError: 
Image export using the "kaleido" engine requires the Kaleido package,
which can be installed using pip:

    $ pip install --upgrade kaleido


In [None]:


plot_df = df_raw.copy()


plot_df['Title_Viz'] = plot_df['Name'].str.extract(r' ([A-Za-z]+)\.', expand=False)
rare_titles_viz = ['Lady', 'Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona']
plot_df['Title_Viz'] = plot_df['Title_Viz'].replace(rare_titles_viz, 'Rare')
plot_df['Title_Viz'] = plot_df['Title_Viz'].replace(['Mlle', 'Ms'], 'Miss')
plot_df['Title_Viz'] = plot_df['Title_Viz'].replace('Mme', 'Mrs')


fig_age_clear = px.histogram(
    plot_df, 
    x="Age", 
    color="Title_Viz",       
    facet_col="Title_Viz",   
    facet_col_wrap=3,       
    title="Четкое распределение возраста по титулам (Обоснование групповой импутации)",
    labels={'Title_Viz': 'Титул', 'Age': 'Возраст', 'count': 'Кол-во людей'},
    nbins=20,               
    opacity=0.7
)


fig_age_clear.update_layout(showlegend=False)
fig_age_clear.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))

fig_age_clear.show()

In [None]:
fig_family = px.bar(df.groupby('FamilySize')['Survived'].mean().reset_index(), 
                    x='FamilySize', y='Survived', 
                    title="Шанс выживания в зависимости от размера семьи",
                    color='Survived', color_continuous_scale='Viridis')
fig_family.show()

In [None]:
import plotly.graph_objects as go

# Расчет корреляции с целевой переменной
correlations = df.corr()['Survived'].drop('Survived').sort_values(ascending=True)


colors = ['#EF553B' if val < 0 else '#00CC96' for val in correlations.values]
а
fig_corr = go.Figure()

fig_corr.add_trace(go.Bar(
    y=correlations.index,
    x=correlations.values,
    orientation='h',
    marker_color=colors,
    text=correlations.values.round(3),
    textposition='auto',
))

fig_corr.update_layout(
    title='<b>Влияние признаков на выживаемость (Корреляция Пирсона)</b>',
    xaxis_title='Коэффициент корреляции',
    yaxis_title='Признаки',
    height=800, 
    margin=dict(l=150), 
    template='plotly_white'
)

fig_corr.show()



In [None]:
results_data = {
    "Model": ["Voting", "Stacking", "RF", "XGB", "LGB", "NN", "DT", "KNN", "Ridge"],
    "Accuracy": [0.8212, 0.8101, 0.7989, 0.7989, 0.7933, 0.7821, 0.7933, 0.7765, 0.7821],
    "ROC-AUC": [0.8863, 0.8864, 0.8844, 0.8754, 0.8766, 0.8739, 0.8409, 0.8568, 0.7744]
}

final_metrics = pd.DataFrame(results_data).sort_values(by="Accuracy", ascending=False)
print("ФИНАЛЬНЫЕ МЕТРИКИ ПРОЕКТА:")
print(final_metrics.to_string(index=False))

ФИНАЛЬНЫЕ МЕТРИКИ ПРОЕКТА:
   Model  Accuracy  ROC-AUC
  Voting    0.8212   0.8863
Stacking    0.8101   0.8864
      RF    0.7989   0.8844
     XGB    0.7989   0.8754
     LGB    0.7933   0.8766
      DT    0.7933   0.8409
      NN    0.7821   0.8739
   Ridge    0.7821   0.7744
     KNN    0.7765   0.8568
