<a href="https://colab.research.google.com/github/Zero-Bite/Data_Analysis_Titanic_Kaggle/blob/main/Titanic_Kaggle.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Работа с классическим датасетом "Titanic - Machine Learning from Disaster"

https://www.kaggle.com/c/titanic/data

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [None]:
data_titanic = pd.read_csv('/content/titanic_train.csv')

In [None]:
data_titanic.head(5)

In [None]:
data_titanic.sample(3)

Этап описания данных выполнен автором датасета, поэтому перейдем к следующему этапу EDA - анализ пустых значений и их заполнение

In [None]:
data_titanic.info()

In [None]:
# посчитаем кол-во пустых записей по каждому из признаков.

data_titanic.isnull().sum(axis=0) # axis = 0 - сумма по столбцам

Признак 'Cabin' содержит в себе категориальные данные, в которых слишком много пропуском 687 из 891. Восстановить данные значения будет невозможно, поэтому удалим данный столбец.

In [None]:
data_titanic.drop('Cabin', inplace=True, axis=1)

In [None]:
data_titanic.sample(1)

Далее обработаем пустые значения в столбце 'Age'. Заполним пропуски медианным значением.

In [None]:
data_titanic.Age.median() # медиана

In [None]:
data_titanic.Age.mean() # также проверим среднее

In [None]:
plt.figure(figsize=(10, 10))
sns.histplot(data=data_titanic, x='Age', color='purple', kde=True)
plt.title('Визуализация возраста пассажиров Титаника')
plt.xlabel('Возраст')
plt.ylabel('Кол-во пассажиров определенного возраста')
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=(10, 10))
plt.bar(data_titanic.Age.value_counts().index, data_titanic.Age.value_counts().values)
plt.title('Визуализация возраста пассажиров Титаника')
plt.xlabel('Возраст')
plt.ylabel('Кол-во пассажиров определенного возраста')
plt.grid()
plt.show()

In [None]:
data_titanic.Age.fillna(data_titanic.Age.median(), inplace=True)

In [None]:
plt.figure(figsize=(10, 10))
sns.histplot(data=data_titanic, x='Age', color='purple', kde=True)
plt.title('Визуализация возраста пассажиров Титаника')
plt.xlabel('Возраст')
plt.ylabel('Кол-во пассажиров определенного возраста')
plt.grid()
plt.show()

Также заполним пропуски в признаке 'Embarked'. Так как это категориальный признак и кол-во пропусков крайне мало 2 из 891 => используем самое популярное значение.

In [None]:
data_titanic.Embarked.value_counts()

In [None]:
data_titanic.Embarked.value_counts().index[0]

In [None]:
data_titanic.Embarked.fillna('S', inplace=True)

Проверим что все пропуски заполнены

In [None]:
data_titanic.isnull().sum().sum()

In [None]:
tips = sns.load_dataset('tips')
tips.head(3)

Посмотрим на процент выживших

In [None]:
data_titanic.Survived.value_counts()

In [None]:
sns.countplot(x='Survived', data=data_titanic);

In [None]:
data_titanic.Survived.value_counts(normalize=True).round(3)

In [None]:
sns.barplot(x=data_titanic.Survived,
            y=data_titanic.Survived.value_counts(normalize=True));

# Гипотеза 1
Выживаемость пассажиров зависит от класса

In [None]:
sns.countplot(y='Pclass', hue='Survived', data=data_titanic);
plt.xlabel('Кол-во пассажиров')
plt.ylabel('Класс пассажира')
plt.title('Выживаемость пассажиров в зависимости от класса');

In [None]:
# найдем % выживших по каждому классу и сделаем вывод какой класс безопаснее
class_and_survive = data_titanic.groupby('Pclass')['Survived'].value_counts()
class_and_survive

In [None]:
# оставим информацию только о выживших
# для это создадим таблицу сопряженноси

table_class_surv = pd.crosstab(index=data_titanic.Pclass, columns=data_titanic.Survived)
table_class_surv

In [None]:
name_of_lines = ['Class_1', 'Class_2', 'Class_3']
names_of_columns = ['Died', 'Survived']

table_class_surv.index = name_of_lines
table_class_surv.columns = names_of_columns
table_class_surv

In [None]:
# на основе новой таблицы можем постоить график только для выживших
plt.figure(figsize=(15, 10));
sns.catplot(x='Survived', y=table_class_surv.index, data=table_class_surv, kind='bar', orient='h')
plt.title('Выживаемость пассажиров в зависимости от класса')
plt.ylabel('Класс')
plt.grid()
plt.show()

*Вывод - больше всего выжило людей из первого класса(в абсолютном коэффициенте)*


Посмотрим на выживаемость в относительном по классам.

In [None]:
# уже смотрели на разбиение, а теперь посмотрим на процентное
norm = data_titanic.groupby('Pclass')['Survived'].value_counts(normalize=True).round(2)
norm

In [None]:
norm_data_frame = norm.unstack()

norm_data_frame.columns



In [None]:
import matplotlib.pyplot as plt # еще раз импортируем

fig, axes = plt.subplots(1, 2, figsize=(15, 10))

axes[0].bar(norm_data_frame.index, norm_data_frame[1], color='green');
axes[0].set_xlabel('Класс')
axes[0].set_ylabel('Процент выживания по классу')
axes[0].set_title('Выживаемость пассажиров в зависимости от класса')
axes[0].grid()

axes[1].bar(norm_data_frame.index, norm_data_frame[0], color='red');
axes[1].set_xlabel('Класс')
axes[1].set_ylabel('Процент выживания по классу')
axes[1].set_title('Смертность пассажиров в зависимости от класса')
axes[1].grid()


plt.show()

Вывод: выживаемость связана с классом, в котором пассажир путешествовал. Больше всего выживших из класса_1, следовательно можно предположить, что либо более обеспеченных гостей выводили в первых рядах, либо их каюты находились ближе всех к спасательным шлюпкам.