In [49]:
import pandas as pd
import warnings

In [50]:
warnings.filterwarnings("ignore")

In [51]:
df = pd.read_csv("train.csv")

In [52]:
print("5 первых строк датасета")
df.head()

5 первых строк датасета


Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True


In [53]:
print("Пропущенные значения по столбцам")
df.isnull().sum()

Пропущенные значения по столбцам


PassengerId       0
HomePlanet      201
CryoSleep       217
Cabin           199
Destination     182
Age             179
VIP             203
RoomService     181
FoodCourt       183
ShoppingMall    208
Spa             183
VRDeck          188
Name            200
Transported       0
dtype: int64

In [54]:
#списки столбцов по типам
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = df.select_dtypes(include=['object']).columns

In [55]:
#заполнение пропусков для числовых столбцов медианой
for col in numeric_cols:
    if df[col].isnull().sum() > 0:
        median_val = df[col].median()
        df[col] = df[col].fillna(median_val)
        print(f"Заполнили пропуски в числовом столбце '{col}' медианой: {median_val}")

Заполнили пропуски в числовом столбце 'Age' медианой: 27.0
Заполнили пропуски в числовом столбце 'RoomService' медианой: 0.0
Заполнили пропуски в числовом столбце 'FoodCourt' медианой: 0.0
Заполнили пропуски в числовом столбце 'ShoppingMall' медианой: 0.0
Заполнили пропуски в числовом столбце 'Spa' медианой: 0.0
Заполнили пропуски в числовом столбце 'VRDeck' медианой: 0.0


In [56]:
#заполнение пропусков для категориальных столбиков модой
for col in categorical_cols:
    if df[col].isnull().sum() > 0:
        mode_val = df[col].mode()[0]
        df[col] = df[col].fillna(mode_val)
        print(f"Заполнили пропуски в категориальном столбце '{col}' модой: {mode_val}")

Заполнили пропуски в категориальном столбце 'HomePlanet' модой: Earth
Заполнили пропуски в категориальном столбце 'CryoSleep' модой: False
Заполнили пропуски в категориальном столбце 'Cabin' модой: G/734/S
Заполнили пропуски в категориальном столбце 'Destination' модой: TRAPPIST-1e
Заполнили пропуски в категориальном столбце 'VIP' модой: False
Заполнили пропуски в категориальном столбце 'Name' модой: Alraium Disivering


In [57]:
print("\nПосле заполнения пропусков:")
df.isnull().sum()


После заполнения пропусков:


PassengerId     0
HomePlanet      0
CryoSleep       0
Cabin           0
Destination     0
Age             0
VIP             0
RoomService     0
FoodCourt       0
ShoppingMall    0
Spa             0
VRDeck          0
Name            0
Transported     0
dtype: int64

In [58]:
from sklearn.preprocessing import MinMaxScaler

In [59]:
scaler = MinMaxScaler()

In [60]:
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])
print("\nНормализованные числовые данные (первые 5 строк):")
df[numeric_cols].head()


Нормализованные числовые данные (первые 5 строк):


Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck
0,0.493671,0.0,0.0,0.0,0.0,0.0
1,0.303797,0.007608,0.000302,0.001064,0.0245,0.001823
2,0.734177,0.003001,0.119948,0.0,0.29967,0.00203
3,0.417722,0.0,0.043035,0.015793,0.148563,0.007997
4,0.202532,0.021149,0.002348,0.006428,0.025214,8.3e-05


In [61]:
categorical_cols = categorical_cols.drop(["Name", "PassengerId","Cabin"])

In [62]:
df = df.drop(["Name", "PassengerId","Cabin"], axis=1)

In [63]:
df = pd.get_dummies(df, columns=categorical_cols, drop_first=True)
print("\nДатасет после кодирования категориальных столбцов (первые 5 строк):")
df.head()


Датасет после кодирования категориальных столбцов (первые 5 строк):


Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Transported,HomePlanet_Europa,HomePlanet_Mars,CryoSleep_True,Destination_PSO J318.5-22,Destination_TRAPPIST-1e,VIP_True
0,0.493671,0.0,0.0,0.0,0.0,0.0,False,True,False,False,False,True,False
1,0.303797,0.007608,0.000302,0.001064,0.0245,0.001823,True,False,False,False,False,True,False
2,0.734177,0.003001,0.119948,0.0,0.29967,0.00203,False,True,False,False,False,True,True
3,0.417722,0.0,0.043035,0.015793,0.148563,0.007997,False,True,False,False,False,True,False
4,0.202532,0.021149,0.002348,0.006428,0.025214,8.3e-05,True,False,False,False,False,True,False


In [64]:
df.to_csv("processed_dataset.csv", index=False)
print("\nОбработанный датасет сохранён в 'processed_dataset.csv'")


Обработанный датасет сохранён в 'processed_dataset.csv'
