### Загрузка данных

In [1]:
import pandas as pd

# Загрузка данных
file_path = './Titanic.csv'
data = pd.read_csv(file_path)

# Просмотр первых строк данных
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


Переменные содержат числовые, категориальные и текстовые типы данных.

### Предварительный анализ данных

In [2]:
# Общая информация о данных
data_info = data.info()

# Описательная статистика для числовых признаков
numeric_stats = data.describe()

# Уникальные значения в категориальных признаках
categorical_columns = data.select_dtypes(include=['object']).columns
unique_values = {col: data[col].unique() for col in categorical_columns}

data_info, numeric_stats, unique_values

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Survived     418 non-null    int64  
 2   Pclass       418 non-null    int64  
 3   Name         418 non-null    object 
 4   Sex          418 non-null    object 
 5   Age          332 non-null    float64
 6   SibSp        418 non-null    int64  
 7   Parch        418 non-null    int64  
 8   Ticket       418 non-null    object 
 9   Fare         417 non-null    float64
 10  Cabin        91 non-null     object 
 11  Embarked     418 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 39.3+ KB


(None,
        PassengerId    Survived      Pclass         Age       SibSp  \
 count   418.000000  418.000000  418.000000  332.000000  418.000000   
 mean   1100.500000    0.363636    2.265550   30.272590    0.447368   
 std     120.810458    0.481622    0.841838   14.181209    0.896760   
 min     892.000000    0.000000    1.000000    0.170000    0.000000   
 25%     996.250000    0.000000    1.000000   21.000000    0.000000   
 50%    1100.500000    0.000000    3.000000   27.000000    0.000000   
 75%    1204.750000    1.000000    3.000000   39.000000    1.000000   
 max    1309.000000    1.000000    3.000000   76.000000    8.000000   
 
             Parch        Fare  
 count  418.000000  417.000000  
 mean     0.392344   35.627188  
 std      0.981429   55.907576  
 min      0.000000    0.000000  
 25%      0.000000    7.895800  
 50%      0.000000   14.454200  
 75%      0.000000   31.500000  
 max      9.000000  512.329200  ,
 {'Name': array(['Kelly, Mr. James', 'Wilkes, Mrs. Jam

1. **Общая информация о данных**:
   - Датасет содержит 418 строк и 12 столбцов.
   - Типы данных включают числовые (`int64`, `float64`) и строковые (`object`).
   - Столбцы с пропусками: `Age` (332 непустых значений), `Fare` (417), `Cabin` (91).

2. **Описательная статистика числовых признаков**:
   - Основные метрики, такие как среднее значение, стандартное отклонение и диапазон, рассчитаны.

3. **Уникальные значения категориальных признаков**:
   - `Sex`: `['male', 'female']`.
   - `Embarked`: `['Q', 'S', 'C']`.
   - `Cabin` имеет множество уникальных значений, многие из которых отсутствуют (`NaN`).

### Выявление пропусков в данных

In [4]:
# Выявление пропусков в данных
missing_values = data.isnull().sum()
missing_values_percentage = (missing_values / len(data)) * 100

missing_info = pd.DataFrame({
    'Missing Values': missing_values,
    'Percentage (%)': missing_values_percentage
}).sort_values(by='Percentage (%)', ascending=False)

missing_info

Unnamed: 0,Missing Values,Percentage (%)
Cabin,327,78.229665
Age,86,20.574163
Fare,1,0.239234
PassengerId,0,0.0
Survived,0,0.0
Pclass,0,0.0
Name,0,0.0
Sex,0,0.0
SibSp,0,0.0
Parch,0,0.0


Обработка пропусков:

1. **`Cabin`**:
   - Пропущенные данные: 78.23%.
   - Решение: Исключить данный столбец из анализа, так как большинство значений отсутствует.

2. **`Age`**:
   - Пропущенные данные: 20.57%.
   - Решение: Заполнить пропуски средним значением или медианой, чтобы сохранить информацию.

3. **`Fare`**:
   - Пропущенные данные: 0.24%.
   - Решение: Заполнить пропуск средним или медианой.

In [5]:
# Удаление столбца Cabin
data_cleaned = data.drop(columns=['Cabin'])

# Заполнение пропусков в Age медианой
age_median = data_cleaned['Age'].median()
data_cleaned['Age'].fillna(age_median, inplace=True)

# Заполнение пропуска в Fare медианой
fare_median = data_cleaned['Fare'].median()
data_cleaned['Fare'].fillna(fare_median, inplace=True)

# Проверка на оставшиеся пропуски
remaining_missing = data_cleaned.isnull().sum()

remaining_missing

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data_cleaned['Age'].fillna(age_median, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data_cleaned['Fare'].fillna(fare_median, inplace=True)


Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,0
SibSp,0
Parch,0
Ticket,0
Fare,0


### Выявление категориальных признаков

In [6]:
# Определение категориальных признаков
categorical_features = data_cleaned.select_dtypes(include=['object']).columns.tolist()

categorical_features


['Name', 'Sex', 'Ticket', 'Embarked']

Преобразование категориальных данных:
Признаки Sex и Embarked будут преобразованы с использованием One-Hot Encoding.
Признаки Name и Ticket могут быть исключены или обработаны по-другому, в зависимости от их значимости для анализа.

### Преобразование категориальных данных

In [8]:
# One-Hot Encoding для категориальных признаков Sex и Embarked
data_encoded = pd.get_dummies(data_cleaned, columns=['Sex', 'Embarked'], drop_first=True)

# Исключение признаков Name и Ticket для упрощения анализа
data_encoded = data_encoded.drop(columns=['Name', 'Ticket'])

data_encoded.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_male,Embarked_Q,Embarked_S
0,892,0,3,34.5,0,0,7.8292,True,True,False
1,893,1,3,47.0,1,0,7.0,False,False,True
2,894,0,2,62.0,0,0,9.6875,True,True,False
3,895,0,3,27.0,0,0,8.6625,True,False,True
4,896,1,3,22.0,1,1,12.2875,False,False,True


### Нормализация числовых данных

In [9]:
from sklearn.preprocessing import MinMaxScaler

# Нормализация числовых данных
scaler = MinMaxScaler()
numerical_features = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare']
data_encoded[numerical_features] = scaler.fit_transform(data_encoded[numerical_features])

data_encoded.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_male,Embarked_Q,Embarked_S
0,892,0,1.0,0.452723,0.0,0.0,0.015282,True,True,False
1,893,1,1.0,0.617566,0.125,0.0,0.013663,False,False,True
2,894,0,0.5,0.815377,0.0,0.0,0.018909,True,True,False
3,895,0,1.0,0.353818,0.0,0.0,0.016908,True,False,True
4,896,1,1.0,0.287881,0.125,0.111111,0.023984,False,False,True


### Генерация новых признаков на основе существующих данных

In [10]:
# Генерация нового признака: общая семья (SibSp + Parch)
data_encoded['FamilySize'] = data_encoded['SibSp'] + data_encoded['Parch']

# Генерация нового признака: одинокий пассажир
data_encoded['IsAlone'] = (data_encoded['FamilySize'] == 0).astype(int)

# Проверка данных после генерации новых признаков
data_encoded.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_male,Embarked_Q,Embarked_S,FamilySize,IsAlone
0,892,0,1.0,0.452723,0.0,0.0,0.015282,True,True,False,0.0,1
1,893,1,1.0,0.617566,0.125,0.0,0.013663,False,False,True,0.125,0
2,894,0,0.5,0.815377,0.0,0.0,0.018909,True,True,False,0.0,1
3,895,0,1.0,0.353818,0.0,0.0,0.016908,True,False,True,0.0,1
4,896,1,1.0,0.287881,0.125,0.111111,0.023984,False,False,True,0.236111,0


Новые признаки :
1. **FamilySize** — общий размер семьи на борту (сумма `SibSp` и `Parch`).
2. **IsAlone** — индикатор, является ли пассажир одиноким.

### Отбор сгенерированных признаков для финального набора данных

In [11]:
# Оценка корреляции признаков
correlation_matrix = data_encoded.corr()

# Отбор признаков с высокой корреляцией с целевой переменной (Survived)
high_correlation_features = correlation_matrix['Survived'][abs(correlation_matrix['Survived']) > 0.1].index.tolist()

# Удаление целевой переменной из списка
high_correlation_features.remove('Survived')

high_correlation_features

['Pclass',
 'Parch',
 'Fare',
 'Sex_male',
 'Embarked_Q',
 'Embarked_S',
 'FamilySize',
 'IsAlone']