In [9]:
# Импортируем pandas для таблиц и numpy для чисел
import pandas as pd
import numpy as np

# Фиксируем "случайность", чтобы данные каждый раз были одинаковые
np.random.seed(42)

# Создаём DataFrame из случайных данных: возраст, зарплата, опыт, город, образование
df = pd.DataFrame({
    # Генерируем случайные возраста от 18 до 60 — всего 100 значений
    'age': np.random.randint(18, 60, size=100),

    # Генерируем случайные зарплаты от 300 до 2000
    'salary': np.random.randint(300, 2000, size=100),

    # Генерируем опыт работы от 0 до 15 лет
    'work_exp': np.random.randint(0, 15, size=100),

    # Выбираем случайный город из четырёх
    'city': np.random.choice(['Tashkent', 'Samarkand', 'Bukhara', 'Namangan'], size=100),

    # Выбираем случайное образование
    'education': np.random.choice(['Bachelor', 'Master', 'College'], size=100)
})

# Вставляем пропуски в 20% строк каждого столбца
for col in df.columns:
    # Берём случайные 20% строк и ставим NaN
    df.loc[df.sample(frac=0.2).index, col] = np.nan

# Показываем первые 10 строк датасета
df

Unnamed: 0,age,salary,work_exp,city,education
0,56.0,500.0,0.0,Bukhara,Bachelor
1,46.0,1079.0,7.0,Tashkent,College
2,32.0,,0.0,Namangan,Bachelor
3,25.0,1356.0,,Namangan,College
4,38.0,1371.0,0.0,Samarkand,
...,...,...,...,...,...
95,59.0,1833.0,5.0,Namangan,
96,56.0,,7.0,Tashkent,
97,,1710.0,0.0,Namangan,Bachelor
98,45.0,1436.0,7.0,Bukhara,Master


In [10]:
# Импортируем SimpleImputer из sklearn
from sklearn.impute import SimpleImputer

# Создаём император среднего — он будет заполнять числа средним
num_imp = SimpleImputer(strategy='mean')

# Создаём импутиратора для категорий — он заполнит пропуски самым частым значением
cat_imp = SimpleImputer(strategy='most_frequent')

# Делаем копию датасета, чтобы не портить оригинал
df_simple = df.copy()

# Заполняем пропуски в числовых столбцах средним
df_simple[['age', 'salary', 'work_exp']] = num_imp.fit_transform(df[['age', 'salary', 'work_exp']])

# Заполняем пропуски в категориальных столбцах самым частым
df_simple[['city', 'education']] = cat_imp.fit_transform(df[['city', 'education']])

# Показываем первые 10 строк после имьютации
df_simple

Unnamed: 0,age,salary,work_exp,city,education
0,56.0000,500.0000,0.000,Bukhara,Bachelor
1,46.0000,1079.0000,7.000,Tashkent,College
2,32.0000,1316.7625,0.000,Namangan,Bachelor
3,25.0000,1356.0000,5.675,Namangan,College
4,38.0000,1371.0000,0.000,Samarkand,Master
...,...,...,...,...,...
95,59.0000,1833.0000,5.000,Namangan,Master
96,56.0000,1316.7625,7.000,Tashkent,Master
97,38.4625,1710.0000,0.000,Namangan,Bachelor
98,45.0000,1436.0000,7.000,Bukhara,Master


In [14]:
# Импортируем KNNImputer для соседей, и OrdinalEncoder для кодирования категорий
from sklearn.impute import KNNImputer
from sklearn.preprocessing import OrdinalEncoder

# Делаем копию датасета под KNN
df_knn = df.copy()

# Создаём кодировщик категорий в числа (чтобы KNN мог работать)
oe = OrdinalEncoder()

# Кодируем категориальные признаки в числа
df_knn[['city', 'education']] = oe.fit_transform(df_knn[['city', 'education']])

# Создаём KNN имьютер с 5 соседями
knn = KNNImputer(n_neighbors=5)

# Применяем KNN ко всем столбцам и создаём новый DataFrame
df_knn = pd.DataFrame(knn.fit_transform(df_knn), columns=df.columns)

# Показываем первые 10 строк
df_knn

Unnamed: 0,age,salary,work_exp,city,education
0,56.0,500.0,0.0,Bukhara,Bachelor
1,46.0,1079.0,7.0,Tashkent,College
2,32.0,,0.0,Namangan,Bachelor
3,25.0,1356.0,,Namangan,College
4,38.0,1371.0,0.0,Samarkand,
...,...,...,...,...,...
95,59.0,1833.0,5.0,Namangan,
96,56.0,,7.0,Tashkent,
97,,1710.0,0.0,Namangan,Bachelor
98,45.0,1436.0,7.0,Bukhara,Master


In [None]:
# Включаем экспериментальную поддержку IterativeImputer
from sklearn.experimental import enable_iterative_imputer

# Импортируем IterativeImputer
from sklearn.impute import IterativeImputer
from sklearn.preprocessing import OrdinalEncoder

# Копируем датасет для работы
df_it = df.copy()

# Кодируем категориальные признаки
oe = OrdinalEncoder()
df_it[['city', 'education']] = oe.fit_transform(df_it[['city', 'education']])

# Создаём итеративный имьютер с 10 итерациями
it = IterativeImputer(max_iter=10, random_state=42)

# Применяем умную имьютацию и собираем DataFrame обратно
df_it = pd.DataFrame(it.fit_transform(df_it), columns=df.columns)

# Показываем результат
df_it

In [None]:
# Импортируем MissingIndicator
from sklearn.impute import MissingIndicator

# Создаём индикатор пропусков
indicator = MissingIndicator()

# Строим матрицу 0/1 — пропуск / не пропуск
mask = indicator.fit_transform(df)

# Создаём DataFrame где столбцы называются 'column_missing'
mask_df = pd.DataFrame(mask, columns=[f'{df.columns[i]}_missing' for i in indicator.features_])

# Склеиваем исходный DataFrame с индикаторами пропусков
df_ind = pd.concat([df, mask_df], axis=1)

# Показываем первые 10 строк
df_ind