In [3]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder

# === 1. Обзор структуры данных ===
df = pd.read_csv("test.csv")  # Загрузка датасета
print(df.info())              # Общая информация
print(df.describe())          # Статистика по числовым признакам

# === 2. Обнаружение и обработка пропусков ===
print(df.isnull().sum())      # Проверка на пропуски
df.fillna(df.median(numeric_only=True), inplace=True)  # Заполнение медианой (если бы были)

# === 3. Обнаружение и удаление выбросов ===
selected_features = ['battery_power', 'int_memory', 'px_height', 'px_width', 'ram']
for col in selected_features:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    df = df[(df[col] >= lower) & (df[col] <= upper)]  # Удаление выбросов

# === 4. Масштабирование числовых признаков ===
scaler = StandardScaler()
numeric_features = df.select_dtypes(include=np.number).drop(columns=['id']).columns
df[numeric_features] = scaler.fit_transform(df[numeric_features])

# === 5. Кодирование категориальных признаков ===
# В данном случае категориальных признаков нет, но на случай их появления:
categorical_features = df.select_dtypes(include='object').columns
label_encoders = {}
for col in categorical_features:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le

# === 6. Финальный набор данных ===
print(df.info())        # Проверка после всех преобразований
print(df.shape)         # Размерность итогового набора


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             1000 non-null   int64  
 1   battery_power  1000 non-null   int64  
 2   blue           1000 non-null   int64  
 3   clock_speed    1000 non-null   float64
 4   dual_sim       1000 non-null   int64  
 5   fc             1000 non-null   int64  
 6   four_g         1000 non-null   int64  
 7   int_memory     1000 non-null   int64  
 8   m_dep          1000 non-null   float64
 9   mobile_wt      1000 non-null   int64  
 10  n_cores        1000 non-null   int64  
 11  pc             1000 non-null   int64  
 12  px_height      1000 non-null   int64  
 13  px_width       1000 non-null   int64  
 14  ram            1000 non-null   int64  
 15  sc_h           1000 non-null   int64  
 16  sc_w           1000 non-null   int64  
 17  talk_time      1000 non-null   int64  
 18  three_g  