# Проект: Анализ данных пассажиров Титаника
Цель проекта
Исследовать, очистить и обработать данные о пассажирах Титаника, выявить ключевые факторы, влияющие на выживаемость, и визуализировать результаты.
Этапы выполнения
1. Импорт и первичный анализ данных. Exploratory Data Analysis (EDA)
• Загрузите данные из файлов train.csv, test.csv и gender_submission.csv.
 • Проведите базовое исследование структуры данных, используя методы .head(), .info() и .describe(), чтобы понять, какие столбцы содержат пропуски или выбросы.
2. Очистка данных. Data Cleaning
• Обработка пропущенных значений:
   - Столбец Age: Заполните пропуски медианным значением или средним значением в зависимости от пассажирского класса и пола.
   - Столбец Embarked: Заполните пропуски наиболее частым значением.
   - Столбец Cabin: Этот столбец может содержать много пропусков, поэтому можно либо оставить только первую букву каюты, либо удалить столбец полностью.
   - Столбец Fare: Проверьте наличие пропущенных значений и заполните их медианным значением.
 • Обработка выбросов:
   - Проверьте значения в столбцах Age и Fare на наличие аномально высоких или низких значений и решите, что с ними делать.
Embarked: обозначает порт, из которого пассажир сел на борт корабля.
C — Cherbourg (Шербур)
Q — Queenstown (Куинстаун)
S — Southampton (Саутгемптон)

3. Создание новых признаков. Feature Engineering
• Извлеките титул пассажира из столбца Name и создайте новый признак Title, который может повлиять на выживаемость.
 • Создайте признак FamilySize на основе количества родственников на борту (SibSp и Parch).
 • Создайте бинарный признак IsAlone, указывающий, путешествовал ли пассажир один.
4. Анализ и визуализация данных. Data Visualization
• Проведите анализ факторов, влияющих на выживаемость, с помощью следующих визуализаций:
   - Гистограмма выживаемости (Survived): Покажите распределение выживания по категориям (выжил / не выжил).
   - Гистограмма распределения возраста (Age): Покажите распределение возраста среди выживших и не выживших.
   - Диаграмма размаха (boxplot) для стоимости билета (Fare): Показать разброс стоимости билета в зависимости от класса (Pclass) и статуса выживаемости.
   - Столбчатая диаграмма по классу и полу (Pclass, Sex): Сравните процент выживших в разных классах для мужчин и женщин.
   - Групповая столбчатая диаграмма (barplot) для FamilySize и выживаемости: Показать влияние размера семьи на выживаемость.
   - Круговая диаграмма для пункта отправления (Embarked): Показать процент выживших и не выживших для каждого пункта отправления.
   - Диаграмма рассеяния (scatterplot): Показать взаимосвязь между возрастом и стоимостью билета, используя цвет для обозначения выживаемости (Survived).
   - Тепловая карта корреляций (heatmap): Постройте корреляционную матрицу для количественных переменных, чтобы выявить взаимосвязи между различными признаками.
5. Сортировка и группировка данных. Data Aggregation & Grouping
• Выполните группировку по таким признакам, как Pclass, Sex, Embarked и FamilySize, чтобы изучить средний показатель выживаемости для каждой группы.
 • Используйте группировку и сортировку для анализа зависимости между стоимостью билета и классом (Pclass), а также между размером семьи и выживаемостью.
6. Подготовка отчета. Report Preparation
• Оформите краткий отчет о проделанной работе с описанием подходов к очистке и обработке данных, выводами по визуализациям и выявленным факторам, влияющим на выживаемость пассажиров.
Результат
Ваш проект должен включать:
 • Очищенные данные.
 • Набор визуализаций, показывающих ключевые зависимости и выводы.
 • Описание проделанных шагов и краткий анализ результатов.


In [174]:
# importing pandas as pd varable
import pandas as pd

## 1. Импорт и первичный анализ данных. Exploratory Data Analysis (EDA)
   ### • Загрузите данные из файлов train.csv, test.csv и gender_submission.csv.
   


In [175]:
# To read all csv files
train= pd.read_csv('./Data/train.csv')
test = pd.read_csv('./Data/test.csv')
gender_submission= pd.read_csv('./Data/gender_submission.csv')

### • Проведите базовое исследование структуры данных, используя методы .head(), .info() и .describe(), чтобы понять, какие столбцы содержат пропуски или выбросы.

### Info train 

In [176]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [177]:
train.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [178]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [179]:
train.shape

(891, 12)

In [180]:
train.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [181]:
train.isnull().sum()
#  

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [182]:
train.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [183]:
train.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

### info test.csv file

In [184]:
test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [185]:
test.tail()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.05,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.25,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.05,,S
417,1309,3,"Peter, Master. Michael J",male,,1,1,2668,22.3583,,C


In [186]:
test.shape

(418, 11)

In [187]:
test.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,3.0,39.0,1.0,0.0,31.5
max,1309.0,3.0,76.0,8.0,9.0,512.3292


In [188]:
test.isnull().sum()

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

In [189]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.1+ KB


### Info gender_submission.csv file

In [190]:
gender_submission.head()

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1


In [191]:
gender_submission.tail()

Unnamed: 0,PassengerId,Survived
413,1305,0
414,1306,1
415,1307,0
416,1308,0
417,1309,0


In [192]:
gender_submission.describe()

Unnamed: 0,PassengerId,Survived
count,418.0,418.0
mean,1100.5,0.363636
std,120.810458,0.481622
min,892.0,0.0
25%,996.25,0.0
50%,1100.5,0.0
75%,1204.75,1.0
max,1309.0,1.0


In [193]:
gender_submission.isnull().sum()

PassengerId    0
Survived       0
dtype: int64

In [194]:
gender_submission.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   PassengerId  418 non-null    int64
 1   Survived     418 non-null    int64
dtypes: int64(2)
memory usage: 6.7 KB


## 2. Очистка данных. Data Cleaning
### • Обработка пропущенных значений:
   - Столбец Age: Заполните пропуски медианным значением или средним значением в зависимости от пассажирского класса и пола.
   - Столбец Embarked: Заполните пропуски наиболее частым значением.
   - Столбец Cabin: Этот столбец может содержать много пропусков, поэтому можно либо оставить только первую букву каюты, либо удалить столбец полностью.
   - Столбец Fare: Проверьте наличие пропущенных значений и заполните их медианным значением.
### • Обработка выбросов:
   - Проверьте значения в столбцах Age и Fare на наличие аномально высоких или низких значений и решите, что с ними делать.

In [195]:
train.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [196]:
test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [197]:
test_survived = pd.merge(gender_submission,test,how='outer')

In [198]:
all_df= pd.merge(train, test_survived, how='outer')

In [199]:
all_df.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [200]:
all_df.shape

(1309, 12)

In [201]:
all_df= all_df.drop(columns=['Cabin'])

In [202]:
all_df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Embarked'],
      dtype='object')

In [203]:
all_df.Sex.value_counts()

Sex
male      843
female    466
Name: count, dtype: int64

In [204]:
def f_apply(n):
    if n=='male':
        return 1
    elif n== 'female':
        return 0
all_df.Sex = all_df.Sex.map(lambda sex: f_apply(sex))

In [205]:
all_df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
1304,1305,0,3,"Spector, Mr. Woolf",1,,0,0,A.5. 3236,8.05,S
1305,1306,1,1,"Oliva y Ocana, Dona. Fermina",0,39.0,0,0,PC 17758,108.9,C
1306,1307,0,3,"Saether, Mr. Simon Sivertsen",1,38.5,0,0,SOTON/O.Q. 3101262,7.25,S
1307,1308,0,3,"Ware, Mr. Frederick",1,,0,0,359309,8.05,S
1308,1309,0,3,"Peter, Master. Michael J",1,,1,1,2668,22.3583,C


###  Столбец Age: Заполните пропуски медианным значением или средним значением в зависимости от пассажирского класса и пола.

In [206]:
all_df.Pclass.unique()

array([3, 1, 2])

In [207]:
all_df.head(50)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,S
5,6,0,3,"Moran, Mr. James",1,,0,0,330877,8.4583,Q
6,7,0,1,"McCarthy, Mr. Timothy J",1,54.0,0,0,17463,51.8625,S
7,8,0,3,"Palsson, Master. Gosta Leonard",1,2.0,3,1,349909,21.075,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",0,27.0,0,2,347742,11.1333,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",0,14.0,1,0,237736,30.0708,C


In [208]:
def f_df_mean (index_i):
    result= all_df[(all_df.Pclass==all_df.iloc[index_i].Pclass)&(all_df.Sex==all_df.iloc[index_i].Sex)&(all_df.Embarked==all_df.iloc[index_i].Embarked)].Age.mean()


    return round(result)

# all_df.iloc[1]
age_isna = all_df.Age.isna()
# print(age_isna[])
for i in range(all_df.shape[0]):
    if age_isna[i]:
        value= f_df_mean(i)
        all_df.loc[i,'Age']=value



In [209]:
all_df.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           1
Embarked       2
dtype: int64

In [210]:
all_df=all_df.dropna()

In [211]:
all_df.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

In [212]:
all_df.shape
# мы патерйлы 3 rows 

(1306, 11)

In [213]:
all_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,S


In [214]:
# def f_do_int(index_i):
#     print("dadasd")
#     return all_df.iloc[index_i]*100
   


# for i in range(all_df.shape[0]):
#     if all_df.Age.iloc[i]<1:
#         value= f_do_int(i)
#         all_df.loc[i,'Age']=value  

In [215]:
# all_df.astype('int64')

In [216]:
all_df.to_csv('./New_data//all_dataFrame.csv')

## 3. Создание новых признаков. Feature Engineering
    • Извлеките титул пассажира из столбца Name и создайте новый признак Title, который может повлиять на выживаемость.
    • Создайте признак FamilySize на основе количества родственников на борту (SibSp и Parch).
    • Создайте бинарный признак IsAlone, указывающий, путешествовал ли пассажир один.
