# Лабораторная работа 4: Очистка и предобработка данных

Анализ и очистка датасета healthy_meal_plans.csv от пропусков и выбросов с последующим масштабированием.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import warnings
warnings.filterwarnings('ignore')

# Загрузка данных
df = pd.read_csv('healthy_meal_plans.csv')

print("Базовая информация о датасете:")
print(f"Размер: {df.shape}")
print(f"Столбцы: {list(df.columns)}")
print(f"\nПервые 5 строк:")
df.head()


In [None]:
# Анализ пропусков
print("Пропуски в данных:")
missing_data = df.isnull().sum()
print(missing_data[missing_data > 0])

if missing_data.sum() == 0:
    print("Пропусков в данных нет")
else:
    print(f"Найдено {missing_data.sum()} пропусков")

# Информация о типах данных
print(f"\nТипы данных:")
print(df.dtypes)
print(f"\nОписательная статистика:")
df.describe()


In [None]:
# Анализ выбросов с помощью IQR метода
numeric_columns = df.select_dtypes(include=[np.number]).columns

print("Анализ выбросов (IQR метод):")
outliers_info = {}

for col in numeric_columns:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    outliers_count = len(outliers)
    outliers_info[col] = outliers_count
    
    print(f"{col:20}: {outliers_count:3d} выбросов ({outliers_count/len(df)*100:.1f}%)")

total_outliers = sum(outliers_info.values())
print(f"\nВсего выбросов найдено: {total_outliers}")


In [None]:
# Визуализация выбросов
fig, axes = plt.subplots(2, 4, figsize=(16, 8))
axes = axes.flatten()

for i, col in enumerate(numeric_columns):
    if i < len(axes):
        axes[i].boxplot(df[col])
        axes[i].set_title(f'{col}')
        axes[i].grid(True, alpha=0.3)

plt.suptitle('Boxplots для поиска выбросов', fontsize=14)
plt.tight_layout()
plt.show()

# Удаление выбросов
print("Удаление выбросов...")
df_clean = df.copy()

for col in numeric_columns:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    df_clean = df_clean[(df_clean[col] >= lower_bound) & (df_clean[col] <= upper_bound)]

print(f"Размер до очистки: {df.shape}")
print(f"Размер после очистки: {df_clean.shape}")
print(f"Удалено строк: {df.shape[0] - df_clean.shape[0]}")


In [None]:
# Анализ необходимости масштабирования
print("Анализ масштабов признаков:")
numeric_cols = df_clean.select_dtypes(include=[np.number]).columns

for col in numeric_cols:
    min_val = df_clean[col].min()
    max_val = df_clean[col].max()
    range_val = max_val - min_val
    std_val = df_clean[col].std()
    print(f"{col:20}: [{min_val:8.3f}, {max_val:8.3f}] | Диапазон: {range_val:8.3f} | σ: {std_val:6.3f}")

# Оценка необходимости масштабирования
ranges = [df_clean[col].max() - df_clean[col].min() for col in numeric_cols]
stds = [df_clean[col].std() for col in numeric_cols]

range_ratio = max(ranges) / min(ranges) if min(ranges) != 0 else float('inf')
std_ratio = max(stds) / min(stds) if min(stds) != 0 else float('inf')

print(f"\nОтношение макс/мин диапазонов: {range_ratio:.2f}")
print(f"Отношение макс/мин стандартных отклонений: {std_ratio:.2f}")

if range_ratio > 10 or std_ratio > 10:
    print("РЕКОМЕНДУЕТСЯ масштабирование")
    scaling_needed = True
else:
    print("Масштабирование желательно")
    scaling_needed = True


In [None]:
# Применение масштабирования
# Разделяем на числовые и категориальные признаки
numeric_data = df_clean[numeric_cols]
categorical_data = df_clean.select_dtypes(exclude=[np.number])

# StandardScaler
scaler_standard = StandardScaler()
numeric_standard = pd.DataFrame(
    scaler_standard.fit_transform(numeric_data),
    columns=numeric_cols,
    index=df_clean.index
)

# MinMaxScaler
scaler_minmax = MinMaxScaler()
numeric_normalized = pd.DataFrame(
    scaler_minmax.fit_transform(numeric_data),
    columns=numeric_cols,
    index=df_clean.index
)

# Объединяем с категориальными данными
df_standardized = pd.concat([categorical_data, numeric_standard], axis=1)
df_normalized = pd.concat([categorical_data, numeric_normalized], axis=1)

print("Масштабирование выполнено!")
print(f"Исходные данные: {df_clean.shape}")
print(f"Стандартизированные: {df_standardized.shape}")
print(f"Нормализованные: {df_normalized.shape}")


In [None]:
print(f"\nИтоговая статистика:")
print(f"Исходный размер: {df.shape[0]} строк")
print(f"После очистки: {df_clean.shape[0]} строк")
print(f"Удалено: {df.shape[0] - df_clean.shape[0]} строк ({(df.shape[0] - df_clean.shape[0])/df.shape[0]*100:.1f}%)")
print(f"Числовых признаков: {len(numeric_cols)}")
print(f"Категориальных признаков: {len(categorical_data.columns) if not categorical_data.empty else 0}")
print("Предобработка данных завершена!")
