## Лабораторная работа 2
ИУ5-21М Стельмах Яна
## Цель работы 
Изучение продвинутых способов предварительной обработки данных для дальнейшего формирования моделей.

## Задание
Выбрать набор данных (датасет), содержащий категориальные и числовые признаки и пропуски в данных. Для выполнения следующих пунктов можно использовать несколько различных наборов данных (один для обработки пропусков, другой для категориальных признаков и т.д.) Просьба не использовать датасет, на котором данная задача решалась в лекции.

Для выбранного датасета (датасетов) на основе материалов лекций решить следующие задачи:

устранение пропусков в данных;

кодирование категориальных признаков;

нормализация числовых признаков.

## Ход работы

In [29]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

file_path = '/Users/Iana/Desktop/2М/MMO/data/Titanic-Dataset.csv'

# Загрузка данных
data = pd.read_csv(file_path)  # Указываем разделитель ';'
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [19]:
data.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Стратегии обработки пропусков:

Для числовых признаков (например, age) пропуски можно заполнить медианой или средним.

Для категориальных признаков (например, Embarked) пропуски можно заменить модой.

Если пропусков слишком много (как в Cabin), столбец можно удалить.

In [30]:
# Заполнение пропусков в возрасте медианой
data['Age'].fillna(data['Age'].median(), inplace=True)

# Заполнение пропусков в 'embarked' модой
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

# Удаление столбца 'deck' (много пропусков)
data.drop('Cabin', axis=1, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Age'].fillna(data['Age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)


In [22]:
data.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

Кодирование категориальных признаков
Категориальные признаки нужно преобразовать в числовые для машинного обучения.

Методы кодирования:

One-Hot Encoding (для номинальных признаков без порядка).

Ordinal Encoding (для порядковых признаков, например Pclass).

In [31]:
# One-Hot для Sex 
data = pd.get_dummies(data, columns=['Sex'], drop_first=True)

# Ordinal для Pclass (если считаем его порядковым)
data['Pclass'] = data['Pclass'].map({1: 'First', 2: 'Second', 3: 'Third'})  # Опционально
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Embarked,Sex_male
0,1,0,Third,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,S,True
1,2,1,First,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C,False
2,3,1,Third,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,S,False
3,4,1,First,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,S,False
4,5,0,Third,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,S,True


Результат после One-Hot Encoding:

Столбец Sex_male (True — male, False — female).

Результат после Ordinal Encoding:

Столбец Pclass (First - 1, Second - 2, Third - 3).


Нормализация числовых признаков
Числовые признаки в датасете:

Age

Fare

SibSp

Parch

Методы нормализации
StandardScaler (среднее = 0, дисперсия = 1) — для алгоритмов, чувствительных к масштабу (логистическая регрессия, SVM).

MinMaxScaler (диапазон [0, 1]) — для нейросетей или методов, основанных на расстояниях (KNN).

In [24]:
from sklearn.preprocessing import StandardScaler

# Выбираем числовые признаки
numeric_features = ['Age', 'Fare', 'SibSp', 'Parch']

# Инициализация и применение StandardScaler
scaler = StandardScaler()
data[numeric_features] = scaler.fit_transform(data[numeric_features])

In [25]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Sex_male,Embarked_Q,Embarked_S
0,1,0,Third,"Braund, Mr. Owen Harris",-0.565736,0.432793,-0.473674,A/5 21171,-0.502445,True,False,True
1,2,1,First,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0.663861,0.432793,-0.473674,PC 17599,0.786845,False,False,False
2,3,1,Third,"Heikkinen, Miss. Laina",-0.258337,-0.474545,-0.473674,STON/O2. 3101282,-0.488854,False,False,True
3,4,1,First,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0.433312,0.432793,-0.473674,113803,0.42073,False,False,True
4,5,0,Third,"Allen, Mr. William Henry",0.433312,-0.474545,-0.473674,373450,-0.486337,True,False,True


Все числовые признаки будут иметь среднее 0 и стандартное отклонение 1.

# Вывод

В age пропуски можно заполнены медианой.

Категориальный признак Embarked - пропуски заменены модой.

Пропусков у Cabin слишком много, столбец был удален.

Категориальные признаки закодированы (One-Hot/Ordinal).

Числовые признаки нормализованы (StandardScaler).

Данные готовы для передачи в модель (например, RandomForestClassifier или LogisticRegression).