In [1]:
# Импортируем библиотеку pandas, давая ей короткое имя 'pd' для удобства
import pandas as pd

# Загружаем данные из файла train.csv в DataFrame
# DataFrame - это специальная структура данных в pandas, похожая на таблицу
file_path = 'train.csv'
df = pd.read_csv(file_path)

# Выводим первые 5 строк нашего датасета, чтобы посмотреть на данные
print("Первые 5 строк датасета:")
df.head()

Первые 5 строк датасета:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [2]:
# Используем метод isnull() для создания маски пропущенных значений (True/False)
# Затем метод sum() считает количество True (пропусков) в каждом столбце
missing_values = df.isnull().sum()

# Выводим результат
print("Количество пропущенных значений в каждом столбце:")
print(missing_values)

Количество пропущенных значений в каждом столбце:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [5]:
# Рассчитываем медианное значение для столбца 'Age'
age_median = df['Age'].median()
print(f"Медианный возраст: {age_median}")

# Заполняем пропуски в 'Age' медианным значением
df['Age'] = df['Age'].fillna(age_median)


Медианный возраст: 28.0


In [6]:
# Находим самое частое значение (моду) для 'Embarked'
embarked_mode = df['Embarked'].mode()[0]
print(f"Самый частый порт посадки: {embarked_mode}")

# Заполняем пропуски модой (правильный способ)
df['Embarked'] = df['Embarked'].fillna(embarked_mode)


Самый частый порт посадки: S


In [7]:
# Удаляем столбец 'Cabin', так как в нем слишком много пропусков
# axis=1 означает, что мы удаляем столбец, а не строку
df = df.drop('Cabin', axis=1)
print("Столбец 'Cabin' удален.")


Столбец 'Cabin' удален.


In [8]:
print("\nКоличество пропущенных значений после заполнения:")
print(df.isnull().sum())


Количество пропущенных значений после заполнения:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64


In [9]:
# Импортируем MinMaxScaler из библиотеки scikit-learn
from sklearn.preprocessing import MinMaxScaler

# Создаем объект scaler
scaler = MinMaxScaler()

# Выбираем столбцы для нормализации
columns_to_normalize = ['Age', 'Fare']

# Применяем fit_transform: он вычисляет min/max и сразу преобразует данные
df[columns_to_normalize] = scaler.fit_transform(df[columns_to_normalize])

# Посмотрим на результат
print("Датасет после нормализации столбцов 'Age' и 'Fare':")
df.head()

Датасет после нормализации столбцов 'Age' и 'Fare':


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,0.271174,1,0,A/5 21171,0.014151,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,0.472229,1,0,PC 17599,0.139136,C
2,3,1,3,"Heikkinen, Miss. Laina",female,0.321438,0,0,STON/O2. 3101282,0.015469,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,0.434531,1,0,113803,0.103644,S
4,5,0,3,"Allen, Mr. William Henry",male,0.434531,0,0,373450,0.015713,S


In [10]:
# Удаляем ненужные столбцы
df.drop(['Name', 'Ticket', 'PassengerId'], axis=1, inplace=True)

# Применяем One-Hot Encoding к столбцам 'Sex' и 'Embarked'
# pd.get_dummies() автоматически преобразует категориальные данные
# drop_first=True удаляет один из столбцов для каждой категории,
# чтобы избежать мультиколлинеарности (это помогает избежать переобучения)
df = pd.get_dummies(df, columns=['Sex', 'Embarked'], drop_first=True)

print("Финальный вид датасета после всех преобразований:")
df.head()

Финальный вид датасета после всех преобразований:


Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_male,Embarked_Q,Embarked_S
0,0,3,0.271174,1,0,0.014151,True,False,True
1,1,1,0.472229,1,0,0.139136,False,False,False
2,1,3,0.321438,0,0,0.015469,False,False,True
3,1,1,0.434531,1,0,0.103644,False,False,True
4,0,3,0.434531,0,0,0.015713,True,False,True
