# Credit Card Fraud Detection - SKLEARN

In [None]:
# -*- coding: utf-8 -*-
"""
Sklearn пример для бинарной классификации на Credit Card Fraud Detection
Запуск: python sklearn_example.py
"""

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (accuracy_score, precision_score, recall_score, 
                             f1_score, roc_auc_score, classification_report)
import time
import warnings
warnings.filterwarnings('ignore')

def main():
    print("=" * 70)
    print("SKLEARN ML ПАЙПЛАЙН - Credit Card Fraud Detection")
    print("=" * 70)
    
    # === ЭТАП 1: ЗАГРУЗКА ДАННЫХ ===
    print("\n1. ЗАГРУЗКА ДАННЫХ...")
    start_time = time.time()
    
    try:
        # Читаем CSV файл
        df = pd.read_csv('/work/dataset.csv')
        load_time = time.time() - start_time
        print(f"   ✓ Данные загружены за {load_time:.2f} секунд")
        print(f"   ✓ Размер данных: {df.shape[0]:,} строк, {df.shape[1]} столбцов")
    except FileNotFoundError:
        print("   ✗ Ошибка: Файл '/work/dataset.csv' не найден!")
        print("   Скачайте датасет с Kaggle: https://www.kaggle.com/mlg-ulb/creditcardfraud")
        return
    
    # === ЭТАП 2: ПРОСМОТР ДАННЫХ ===
    print("\n2. АНАЛИЗ ДАННЫХ...")
    print(f"   Столбцы: {list(df.columns)}")
    print(f"   Целевая переменная 'Class': {df['Class'].value_counts().to_dict()}")
    print(f"   Пропущенные значения: {df.isnull().sum().sum()}")
    
    # === ЭТАП 3: ПОДГОТОВКА ДАННЫХ ===
    print("\n3. ПОДГОТОВКА ДАННЫХ...")
    start_time = time.time()
    
    # В sklearn мы просто разделяем данные как есть
    # Все столбцы кроме 'Class' - это признаки, 'Class' - целевая переменная
    X = df.drop('Class', axis=1)  # Матрица признаков
    y = df['Class']               # Вектор целевой переменной
    
    # Разделяем на обучающую и тестовую выборки
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, 
        test_size=0.3,           # 30% на тест
        random_state=42,         # Для воспроизводимости
        stratify=y               # Сохраняем распределение классов
    )
    
    prep_time = time.time() - start_time
    print(f"   ✓ Данные подготовлены за {prep_time:.2f} секунд")
    print(f"   ✓ Обучающая выборка: {X_train.shape[0]:,} samples")
    print(f"   ✓ Тестовая выборка: {X_test.shape[0]:,} samples")
    
    # === ЭТАП 4: ОБУЧЕНИЕ МОДЕЛИ ===
    print("\n4. ОБУЧЕНИЕ МОДЕЛИ (RandomForest)...")
    start_time = time.time()
    
    # Создаем и обучаем модель
    model = RandomForestClassifier(
        n_estimators=100,        # Количество деревьев
        max_depth=10,            # Максимальная глубина
        random_state=42,         # Для воспроизводимости
        n_jobs=-1               # Используем все ядра процессора
    )
    
    model.fit(X_train, y_train)  # Обучаем модель!
    train_time = time.time() - start_time
    print(f"   ✓ Модель обучена за {train_time:.2f} секунд")
    
    # === ЭТАП 5: ПРЕДСКАЗАНИЯ ===
    print("\n5. ПРЕДСКАЗАНИЯ НА ТЕСТОВЫХ ДАННЫХ...")
    start_time = time.time()
    
    # Делаем предсказания
    y_pred = model.predict(X_test)           # Классы (0 или 1)
    y_pred_proba = model.predict_proba(X_test)[:, 1]  # Вероятности класса 1
    
    predict_time = time.time() - start_time
    print(f"   ✓ Предсказания сделаны за {predict_time:.2f} секунд")
    
    # === ЭТАП 6: ОЦЕНКА МОДЕЛИ ===
    print("\n6. ОЦЕНКА КАЧЕСТВА МОДЕЛИ:")
    print("-" * 50)
    
    # Вычисляем метрики
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    auc = roc_auc_score(y_test, y_pred_proba)
    
    # Выводим метрики
    print(f"   ТОЧНОСТЬ (Accuracy):  {accuracy:.4f}")
    print(f"   ТОЧНОСТЬ (Precision): {precision:.4f}")
    print(f"   ПОЛНОТА (Recall):     {recall:.4f}")
    print(f"   F1-MEASURE:          {f1:.4f}")
    print(f"   AUC-ROC:             {auc:.4f}")
    
    # Детальный отчет
    print("\n   ДЕТАЛЬНЫЙ ОТЧЕТ:")
    print(classification_report(y_test, y_pred, target_names=['Legit', 'Fraud']))
    
    # === ИТОГИ ===
    print("\n" + "=" * 70)
    print("ИТОГИ SKLEARN ПАЙПЛАЙНА:")
    print(f"   • Общее время выполнения: {load_time + prep_time + train_time + predict_time:.2f} сек")
    print(f"   • Размер данных: {df.shape[0]:,} строк × {df.shape[1]} столбцов")
    print(f"   • Лучшая метрика (AUC-ROC): {auc:.4f}")
    print("=" * 70)

if __name__ == "__main__":
    main()

# Credit Card Fraud Detection - SKLEARN - Jupyter

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (accuracy_score, precision_score, recall_score, 
                             f1_score, roc_auc_score, classification_report)
import time
import warnings
warnings.filterwarnings('ignore')


In [3]:
print("=" * 70)
print("SKLEARN ML ПАЙПЛАЙН - Credit Card Fraud Detection")
print("=" * 70)

# === ЭТАП 1: ЗАГРУЗКА ДАННЫХ ===
print("\n1. ЗАГРУЗКА ДАННЫХ...")
start_time = time.time()

try:
    # Читаем CSV файл
    df = pd.read_csv('/shared_data/creditcard.csv')
    load_time = time.time() - start_time
    print(f"   ✓ Данные загружены за {load_time:.2f} секунд")
    print(f"   ✓ Размер данных: {df.shape[0]:,} строк, {df.shape[1]} столбцов")
except FileNotFoundError:
    print("   ✗ Ошибка: Файл '/shared_data/creditcard.csv' не найден!")
    print("   Скачайте датасет с Kaggle: https://www.kaggle.com/mlg-ulb/creditcardfraud")

SKLEARN ML ПАЙПЛАЙН - Credit Card Fraud Detection

1. ЗАГРУЗКА ДАННЫХ...
   ✓ Данные загружены за 1.11 секунд
   ✓ Размер данных: 284,807 строк, 31 столбцов


In [4]:
# === ЭТАП 2: ПРОСМОТР ДАННЫХ ===
print("\n2. АНАЛИЗ ДАННЫХ...")
print(f"   Столбцы: {list(df.columns)}")
print(f"   Целевая переменная 'Class': {df['Class'].value_counts().to_dict()}")
print(f"   Пропущенные значения: {df.isnull().sum().sum()}")


2. АНАЛИЗ ДАННЫХ...
   Столбцы: ['Time', 'V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10', 'V11', 'V12', 'V13', 'V14', 'V15', 'V16', 'V17', 'V18', 'V19', 'V20', 'V21', 'V22', 'V23', 'V24', 'V25', 'V26', 'V27', 'V28', 'Amount', 'Class']
   Целевая переменная 'Class': {0: 284315, 1: 492}
   Пропущенные значения: 0


In [6]:
# === ЭТАП 3: ПОДГОТОВКА ДАННЫХ ===
print("\n3. ПОДГОТОВКА ДАННЫХ...")
start_time = time.time()

# В sklearn мы просто разделяем данные как есть
# Все столбцы кроме 'Class' - это признаки, 'Class' - целевая переменная
X = df.drop('Class', axis=1)  # Матрица признаков
y = df['Class']               # Вектор целевой переменной

# Разделяем на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.3,           # 30% на тест
    random_state=42,         # Для воспроизводимости
    stratify=y               # Сохраняем распределение классов
)

prep_time = time.time() - start_time
print(f"   ✓ Данные подготовлены за {prep_time:.2f} секунд")
print(f"   ✓ Обучающая выборка: {X_train.shape[0]:,} samples")
print(f"   ✓ Тестовая выборка: {X_test.shape[0]:,} samples")


3. ПОДГОТОВКА ДАННЫХ...
   ✓ Данные подготовлены за 0.09 секунд
   ✓ Обучающая выборка: 199,364 samples
   ✓ Тестовая выборка: 85,443 samples


In [7]:
# === ЭТАП 4: ОБУЧЕНИЕ МОДЕЛИ ===
print("\n4. ОБУЧЕНИЕ МОДЕЛИ (RandomForest)...")
start_time = time.time()

# Создаем и обучаем модель
model = RandomForestClassifier(
    n_estimators=100,        # Количество деревьев
    max_depth=10,            # Максимальная глубина
    random_state=42,         # Для воспроизводимости
    n_jobs=-1               # Используем все ядра процессора
)

model.fit(X_train, y_train)  # Обучаем модель!
train_time = time.time() - start_time
print(f"   ✓ Модель обучена за {train_time:.2f} секунд")


4. ОБУЧЕНИЕ МОДЕЛИ (RandomForest)...
   ✓ Модель обучена за 6.51 секунд


In [8]:
# === ЭТАП 5: ПРЕДСКАЗАНИЯ ===
print("\n5. ПРЕДСКАЗАНИЯ НА ТЕСТОВЫХ ДАННЫХ...")
start_time = time.time()

# Делаем предсказания
y_pred = model.predict(X_test)           # Классы (0 или 1)
y_pred_proba = model.predict_proba(X_test)[:, 1]  # Вероятности класса 1

predict_time = time.time() - start_time
print(f"   ✓ Предсказания сделаны за {predict_time:.2f} секунд")


5. ПРЕДСКАЗАНИЯ НА ТЕСТОВЫХ ДАННЫХ...
   ✓ Предсказания сделаны за 0.12 секунд


In [9]:
# === ЭТАП 6: ОЦЕНКА МОДЕЛИ ===
print("\n6. ОЦЕНКА КАЧЕСТВА МОДЕЛИ:")
print("-" * 50)

# Вычисляем метрики
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_pred_proba)

# Выводим метрики
print(f"   ТОЧНОСТЬ (Accuracy):  {accuracy:.4f}")
print(f"   ТОЧНОСТЬ (Precision): {precision:.4f}")
print(f"   ПОЛНОТА (Recall):     {recall:.4f}")
print(f"   F1-MEASURE:          {f1:.4f}")
print(f"   AUC-ROC:             {auc:.4f}")

# Детальный отчет
print("\n   ДЕТАЛЬНЫЙ ОТЧЕТ:")
print(classification_report(y_test, y_pred, target_names=['Legit', 'Fraud']))

# === ИТОГИ ===
print("\n" + "=" * 70)
print("ИТОГИ SKLEARN ПАЙПЛАЙНА:")
print(f"   • Общее время выполнения: {load_time + prep_time + train_time + predict_time:.2f} сек")
print(f"   • Размер данных: {df.shape[0]:,} строк × {df.shape[1]} столбцов")
print(f"   • Лучшая метрика (AUC-ROC): {auc:.4f}")
print("=" * 70)


6. ОЦЕНКА КАЧЕСТВА МОДЕЛИ:
--------------------------------------------------
   ТОЧНОСТЬ (Accuracy):  0.9995
   ТОЧНОСТЬ (Precision): 0.9569
   ПОЛНОТА (Recall):     0.7500
   F1-MEASURE:          0.8409
   AUC-ROC:             0.9682

   ДЕТАЛЬНЫЙ ОТЧЕТ:
              precision    recall  f1-score   support

       Legit       1.00      1.00      1.00     85295
       Fraud       0.96      0.75      0.84       148

    accuracy                           1.00     85443
   macro avg       0.98      0.87      0.92     85443
weighted avg       1.00      1.00      1.00     85443


ИТОГИ SKLEARN ПАЙПЛАЙНА:
   • Общее время выполнения: 7.82 сек
   • Размер данных: 284,807 строк × 31 столбцов
   • Лучшая метрика (AUC-ROC): 0.9682


In [13]:
confusion_matrix = pd.crosstab(y_test, y_pred, rownames=['Actual'], colnames=['Predicted'])
display(confusion_matrix)

Predicted,0,1
Actual,Unnamed: 1_level_1,Unnamed: 2_level_1
0,85290,5
1,37,111


# Housing - SKLEARN

In [None]:
# -*- coding: utf-8 -*-
"""
Sklearn пример для РЕГРЕССИИ на California Housing Dataset
Запуск: python sklearn_regression.py
"""

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.impute import SimpleImputer
import time
import warnings
warnings.filterwarnings('ignore')

def main():
    print("=" * 70)
    print("SKLEARN РЕГРЕССИЯ - California Housing Dataset")
    print("=" * 70)
    
    # === ЭТАП 1: ЗАГРУЗКА ДАННЫХ ===
    print("\n1. ЗАГРУЗКА ДАННЫХ...")
    start_time = time.time()
    
    try:
        # Читаем CSV файл
        df = pd.read_csv('/work/california_housing.csv')
        load_time = time.time() - start_time
        print(f"   ✓ Данные загружены за {load_time:.2f} секунд")
        print(f"   ✓ Размер данных: {df.shape[0]:,} строк, {df.shape[1]} столбцов")
    except FileNotFoundError:
        print("   ✗ Ошибка: Файл '/work/california_housing.csv' не найден!")
        print("   Скачайте датасет: https://www.kaggle.com/datasets/camnugent/california-housing-prices")
        return
    
    # === ЭТАП 2: ПРОСМОТР И ОЧИСТКА ДАННЫХ ===
    print("\n2. АНАЛИЗ И ОЧИСТКА ДАННЫХ...")
    print(f"   Исходные столбцы: {list(df.columns)}")
    
    # Проверяем пропущенные значения
    missing_before = df.isnull().sum()
    print(f"   Пропущенные значения до обработки:")
    for col, missing_count in missing_before.items():
        if missing_count > 0:
            print(f"     {col}: {missing_count} пропусков ({missing_count/len(df)*100:.1f}%)")
    
    # Удаляем текстовый признак 'ocean_proximity'
    if 'ocean_proximity' in df.columns:
        df = df.drop('ocean_proximity', axis=1)
        print("   ✓ Текстовый признак 'ocean_proximity' удален")
    
    print(f"   Столбцы после очистки: {list(df.columns)}")
    
    # Показываем статистику по целевой переменной
    target_col = 'median_house_value'  # Целевая переменная - цена дома
    print(f"   Целевая переменная '{target_col}':")
    print(f"     Min: ${df[target_col].min():,}, Max: ${df[target_col].max():,}")
    print(f"     Mean: ${df[target_col].mean():,.0f}, Std: ${df[target_col].std():,.0f}")
    
    # === ЭТАП 3: ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ ===
    print("\n3. ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ...")
    start_time = time.time()
    
    # Разделяем данные на признаки и целевую переменную ДО обработки пропусков
    X = df.drop(target_col, axis=1)  # Матрица признаков
    y = df[target_col]               # Вектор целевой переменной
    
    # Заполняем пропуски медианой для каждого столбца
    imputer = SimpleImputer(strategy='median')
    X_imputed = imputer.fit_transform(X)
    
    # Преобразуем обратно в DataFrame
    X_imputed = pd.DataFrame(X_imputed, columns=X.columns)
    
    # Проверяем результат
    missing_after = X_imputed.isnull().sum().sum()
    print(f"   ✓ Пропуски заполнены медианой")
    print(f"   ✓ Пропущенных значений после обработки: {missing_after}")
    
    # Показываем какие столбцы были обработаны
    for col in X.columns:
        if missing_before[col] > 0:
            median_val = imputer.statistics_[list(X.columns).index(col)]
            print(f"     {col}: {missing_before[col]} пропусков → заполнено медианой {median_val:.2f}")
    
    prep_time = time.time() - start_time
    print(f"   ✓ Обработка пропусков выполнена за {prep_time:.2f} секунд")
    
    # === ЭТАП 4: РАЗДЕЛЕНИЕ ДАННЫХ ===
    print("\n4. РАЗДЕЛЕНИЕ ДАННЫХ НА ОБУЧАЮЩУЮ И ТЕСТОВУЮ ВЫБОРКИ...")
    start_time = time.time()
    
    # Разделяем на обучающую и тестовую выборки
    X_train, X_test, y_train, y_test = train_test_split(
        X_imputed, y, 
        test_size=0.3,           # 30% на тест
        random_state=42,         # Для воспроизводимости
    )
    
    split_time = time.time() - start_time
    print(f"   ✓ Данные разделены за {split_time:.2f} секунд")
    print(f"   ✓ Обучающая выборка: {X_train.shape[0]:,} samples")
    print(f"   ✓ Тестовая выборка: {X_test.shape[0]:,} samples")
    print(f"   ✓ Числовые признаки: {list(X_imputed.columns)}")
    
    # === ЭТАП 5: ОБУЧЕНИЕ МОДЕЛИ ГРАДИЕНТНЫЙ БУСТИНГ ===
    print("\n5. ОБУЧЕНИЕ МОДЕЛИ (GradientBoostingRegressor)...")
    start_time = time.time()
    
    # Создаем и обучаем модель градиентного бустинга
    model = GradientBoostingRegressor(
        n_estimators=100,        # Количество деревьев в ансамбле
        learning_rate=0.1,       # Темп обучения
        max_depth=3,             # Максимальная глубина деревьев
        random_state=42,         # Для воспроизводимости
        subsample=0.8           # Доля samples для каждого дерева
    )
    
    model.fit(X_train, y_train)  # Обучаем модель!
    train_time = time.time() - start_time
    print(f"   ✓ Модель обучена за {train_time:.2f} секунд")
    print(f"   ✓ Обучено деревьев: {model.n_estimators}")
    
    # === ЭТАП 6: ПРЕДСКАЗАНИЯ ===
    print("\n6. ПРЕДСКАЗАНИЯ НА ТЕСТОВЫХ ДАННЫХ...")
    start_time = time.time()
    
    # Делаем предсказания (непрерывные значения!)
    y_pred = model.predict(X_test)  # Предсказанные цены домов
    
    predict_time = time.time() - start_time
    print(f"   ✓ Предсказания сделаны за {predict_time:.2f} секунд")
    
    # Показываем примеры реальных и предсказанных значений
    print("\n   Примеры предсказаний (первые 10):")
    comparison = pd.DataFrame({
        'Actual': y_test.values[:10],
        'Predicted': y_pred[:10],
        'Error': y_test.values[:10] - y_pred[:10]
    })
    print(comparison.round(2))
    
    # === ЭТАП 7: ОЦЕНКА МОДЕЛИ РЕГРЕССИИ ===
    print("\n7. ОЦЕНКА КАЧЕСТВА РЕГРЕССИИ:")
    print("-" * 50)
    
    # Вычисляем метрики регрессии
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, y_pred)
    mae = mean_absolute_error(y_test, y_pred)
    
    # Выводим метрики
    print(f"   СРЕДНЯЯ АБСОЛЮТНАЯ ОШИБКА (MAE):    ${mae:,.0f}")
    print(f"   СРЕДНЯЯ КВАДРАТИЧНАЯ ОШИБКА (MSE):  ${mse:,.0f}")
    print(f"   КОРЕНЬ ИЗ MSE (RMSE):               ${rmse:,.0f}")
    print(f"   КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ (R²):      {r2:.4f}")
    
    # Интерпретация R²
    print(f"\n   R² = {r2:.1%} - модель объясняет {r2:.1%} дисперсии целевой переменной")
    
    # Сравниваем с базовым предсказанием (среднее значение)
    baseline_mae = mean_absolute_error(y_test, [y_train.mean()] * len(y_test))
    print(f"   Улучшение над baseline (среднее):    {((baseline_mae - mae) / baseline_mae * 100):.1f}%")
    
    # === ЭТАП 8: АНАЛИЗ ВАЖНОСТИ ПРИЗНАКОВ ===
    print("\n8. ВАЖНОСТЬ ПРИЗНАКОВ:")
    feature_importance = pd.DataFrame({
        'feature': X_imputed.columns,
        'importance': model.feature_importances_
    }).sort_values('importance', ascending=False)
    
    print(feature_importance.to_string(index=False))
    
    # === ИТОГИ ===
    print("\n" + "=" * 70)
    print("ИТОГИ SKLEARN РЕГРЕССИИ:")
    print(f"   • Общее время выполнения: {load_time + prep_time + split_time + train_time + predict_time:.2f} сек")
    print(f"   • Размер данных: {df.shape[0]:,} строк × {df.shape[1]} столбцов")
    print(f"   • Обработано пропусков: {missing_before.sum()} значений")
    print(f"   • Все признаки числовые: {list(X_imputed.columns)}")
    print(f"   • Лучшая метрика (R²): {r2:.4f}")
    print(f"   • Ошибка предсказания: ±${rmse:,.0f}")
    print("=" * 70)

if __name__ == "__main__":
    main()

# Housing - SKLEARN - Jupyter

In [1]:
# -*- coding: utf-8 -*-
"""
Sklearn пример для РЕГРЕССИИ на California Housing Dataset
Запуск: python sklearn_regression.py
"""

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.impute import SimpleImputer
import time
import warnings
warnings.filterwarnings('ignore')

In [2]:
print("=" * 70)
print("SKLEARN РЕГРЕССИЯ - California Housing Dataset")
print("=" * 70)

# === ЭТАП 1: ЗАГРУЗКА ДАННЫХ ===
print("\n1. ЗАГРУЗКА ДАННЫХ...")
start_time = time.time()

try:
    # Читаем CSV файл
    df = pd.read_csv('/shared_data/housing.csv')
    load_time = time.time() - start_time
    print(f"   ✓ Данные загружены за {load_time:.2f} секунд")
    print(f"   ✓ Размер данных: {df.shape[0]:,} строк, {df.shape[1]} столбцов")
except FileNotFoundError:
    print("   ✗ Ошибка: Файл '/work/california_housing.csv' не найден!")
    print("   Скачайте датасет: https://www.kaggle.com/datasets/camnugent/california-housing-prices")

SKLEARN РЕГРЕССИЯ - California Housing Dataset

1. ЗАГРУЗКА ДАННЫХ...
   ✓ Данные загружены за 0.02 секунд
   ✓ Размер данных: 20,640 строк, 10 столбцов


In [3]:
# === ЭТАП 2: ПРОСМОТР И ОЧИСТКА ДАННЫХ ===
print("\n2. АНАЛИЗ И ОЧИСТКА ДАННЫХ...")
print(f"   Исходные столбцы: {list(df.columns)}")

# Проверяем пропущенные значения
missing_before = df.isnull().sum()
print(f"   Пропущенные значения до обработки:")
for col, missing_count in missing_before.items():
    if missing_count > 0:
        print(f"     {col}: {missing_count} пропусков ({missing_count/len(df)*100:.1f}%)")

# Удаляем текстовый признак 'ocean_proximity'
if 'ocean_proximity' in df.columns:
    df = df.drop('ocean_proximity', axis=1)
    print("   ✓ Текстовый признак 'ocean_proximity' удален")

print(f"   Столбцы после очистки: {list(df.columns)}")

# Показываем статистику по целевой переменной
target_col = 'median_house_value'  # Целевая переменная - цена дома
print(f"   Целевая переменная '{target_col}':")
print(f"     Min: ${df[target_col].min():,}, Max: ${df[target_col].max():,}")
print(f"     Mean: ${df[target_col].mean():,.0f}, Std: ${df[target_col].std():,.0f}")


2. АНАЛИЗ И ОЧИСТКА ДАННЫХ...
   Исходные столбцы: ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value', 'ocean_proximity']
   Пропущенные значения до обработки:
     total_bedrooms: 207 пропусков (1.0%)
   ✓ Текстовый признак 'ocean_proximity' удален
   Столбцы после очистки: ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value']
   Целевая переменная 'median_house_value':
     Min: $14,999.0, Max: $500,001.0
     Mean: $206,856, Std: $115,396


In [4]:
# === ЭТАП 3: ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ ===
print("\n3. ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ...")
start_time = time.time()

# Разделяем данные на признаки и целевую переменную ДО обработки пропусков
X = df.drop(target_col, axis=1)  # Матрица признаков
y = df[target_col]               # Вектор целевой переменной

# Заполняем пропуски медианой для каждого столбца
imputer = SimpleImputer(strategy='median')
X_imputed = imputer.fit_transform(X)

# Преобразуем обратно в DataFrame
X_imputed = pd.DataFrame(X_imputed, columns=X.columns)

# Проверяем результат
missing_after = X_imputed.isnull().sum().sum()
print(f"   ✓ Пропуски заполнены медианой")
print(f"   ✓ Пропущенных значений после обработки: {missing_after}")

# Показываем какие столбцы были обработаны
for col in X.columns:
    if missing_before[col] > 0:
        median_val = imputer.statistics_[list(X.columns).index(col)]
        print(f"     {col}: {missing_before[col]} пропусков → заполнено медианой {median_val:.2f}")

prep_time = time.time() - start_time
print(f"   ✓ Обработка пропусков выполнена за {prep_time:.2f} секунд")


3. ОБРАБОТКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙ...
   ✓ Пропуски заполнены медианой
   ✓ Пропущенных значений после обработки: 0
     total_bedrooms: 207 пропусков → заполнено медианой 435.00
   ✓ Обработка пропусков выполнена за 0.02 секунд


In [5]:
# === ЭТАП 4: РАЗДЕЛЕНИЕ ДАННЫХ ===
print("\n4. РАЗДЕЛЕНИЕ ДАННЫХ НА ОБУЧАЮЩУЮ И ТЕСТОВУЮ ВЫБОРКИ...")
start_time = time.time()

# Разделяем на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X_imputed, y, 
    test_size=0.3,           # 30% на тест
    random_state=42,         # Для воспроизводимости
)

split_time = time.time() - start_time
print(f"   ✓ Данные разделены за {split_time:.2f} секунд")
print(f"   ✓ Обучающая выборка: {X_train.shape[0]:,} samples")
print(f"   ✓ Тестовая выборка: {X_test.shape[0]:,} samples")
print(f"   ✓ Числовые признаки: {list(X_imputed.columns)}")


4. РАЗДЕЛЕНИЕ ДАННЫХ НА ОБУЧАЮЩУЮ И ТЕСТОВУЮ ВЫБОРКИ...
   ✓ Данные разделены за 0.00 секунд
   ✓ Обучающая выборка: 14,448 samples
   ✓ Тестовая выборка: 6,192 samples
   ✓ Числовые признаки: ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income']


In [6]:
# === ЭТАП 5: ОБУЧЕНИЕ МОДЕЛИ ГРАДИЕНТНЫЙ БУСТИНГ ===
print("\n5. ОБУЧЕНИЕ МОДЕЛИ (GradientBoostingRegressor)...")
start_time = time.time()

# Создаем и обучаем модель градиентного бустинга
model = GradientBoostingRegressor(
    n_estimators=100,        # Количество деревьев в ансамбле
    learning_rate=0.1,       # Темп обучения
    max_depth=3,             # Максимальная глубина деревьев
    random_state=42,         # Для воспроизводимости
    subsample=0.8           # Доля samples для каждого дерева
)

model.fit(X_train, y_train)  # Обучаем модель!
train_time = time.time() - start_time
print(f"   ✓ Модель обучена за {train_time:.2f} секунд")
print(f"   ✓ Обучено деревьев: {model.n_estimators}")


5. ОБУЧЕНИЕ МОДЕЛИ (GradientBoostingRegressor)...
   ✓ Модель обучена за 1.41 секунд
   ✓ Обучено деревьев: 100


In [7]:
# === ЭТАП 6: ПРЕДСКАЗАНИЯ ===
print("\n6. ПРЕДСКАЗАНИЯ НА ТЕСТОВЫХ ДАННЫХ...")
start_time = time.time()

# Делаем предсказания (непрерывные значения!)
y_pred = model.predict(X_test)  # Предсказанные цены домов

predict_time = time.time() - start_time
print(f"   ✓ Предсказания сделаны за {predict_time:.2f} секунд")

# Показываем примеры реальных и предсказанных значений
print("\n   Примеры предсказаний (первые 10):")
comparison = pd.DataFrame({
    'Actual': y_test.values[:10],
    'Predicted': y_pred[:10],
    'Error': y_test.values[:10] - y_pred[:10]
})
print(comparison.round(2))


6. ПРЕДСКАЗАНИЯ НА ТЕСТОВЫХ ДАННЫХ...
   ✓ Предсказания сделаны за 0.01 секунд

   Примеры предсказаний (первые 10):
     Actual  Predicted      Error
0   47700.0   42847.09    4852.91
1   45800.0   92942.06  -47142.06
2  500001.0  360341.87  139659.13
3  218600.0  263196.31  -44596.31
4  278000.0  237880.90   40119.10
5  158700.0  160058.98   -1358.98
6  198200.0  277725.92  -79525.92
7  157500.0  206392.72  -48892.72
8  340000.0  288229.14   51770.86
9  446600.0  440704.96    5895.04


In [8]:
# === ЭТАП 7: ОЦЕНКА МОДЕЛИ РЕГРЕССИИ ===
print("\n7. ОЦЕНКА КАЧЕСТВА РЕГРЕССИИ:")
print("-" * 50)

# Вычисляем метрики регрессии
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

# Выводим метрики
print(f"   СРЕДНЯЯ АБСОЛЮТНАЯ ОШИБКА (MAE):    ${mae:,.0f}")
print(f"   СРЕДНЯЯ КВАДРАТИЧНАЯ ОШИБКА (MSE):  ${mse:,.0f}")
print(f"   КОРЕНЬ ИЗ MSE (RMSE):               ${rmse:,.0f}")
print(f"   КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ (R²):      {r2:.4f}")

# Интерпретация R²
print(f"\n   R² = {r2:.1%} - модель объясняет {r2:.1%} дисперсии целевой переменной")

# Сравниваем с базовым предсказанием (среднее значение)
baseline_mae = mean_absolute_error(y_test, [y_train.mean()] * len(y_test))
print(f"   Улучшение над baseline (среднее):    {((baseline_mae - mae) / baseline_mae * 100):.1f}%")

# === ЭТАП 8: АНАЛИЗ ВАЖНОСТИ ПРИЗНАКОВ ===
print("\n8. ВАЖНОСТЬ ПРИЗНАКОВ:")
feature_importance = pd.DataFrame({
    'feature': X_imputed.columns,
    'importance': model.feature_importances_
}).sort_values('importance', ascending=False)

print(feature_importance.to_string(index=False))


7. ОЦЕНКА КАЧЕСТВА РЕГРЕССИИ:
--------------------------------------------------
   СРЕДНЯЯ АБСОЛЮТНАЯ ОШИБКА (MAE):    $37,592
   СРЕДНЯЯ КВАДРАТИЧНАЯ ОШИБКА (MSE):  $2,970,917,881
   КОРЕНЬ ИЗ MSE (RMSE):               $54,506
   КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ (R²):      0.7737

   R² = 77.4% - модель объясняет 77.4% дисперсии целевой переменной
   Улучшение над baseline (среднее):    58.5%

8. ВАЖНОСТЬ ПРИЗНАКОВ:
           feature  importance
     median_income    0.603432
          latitude    0.143552
         longitude    0.135507
housing_median_age    0.053353
        population    0.029093
    total_bedrooms    0.021366
        households    0.010613
       total_rooms    0.003084


In [9]:
# === ИТОГИ ===
print("\n" + "=" * 70)
print("ИТОГИ SKLEARN РЕГРЕССИИ:")
print(f"   • Общее время выполнения: {load_time + prep_time + split_time + train_time + predict_time:.2f} сек")
print(f"   • Размер данных: {df.shape[0]:,} строк × {df.shape[1]} столбцов")
print(f"   • Обработано пропусков: {missing_before.sum()} значений")
print(f"   • Все признаки числовые: {list(X_imputed.columns)}")
print(f"   • Лучшая метрика (R²): {r2:.4f}")
print(f"   • Ошибка предсказания: ±${rmse:,.0f}")
print("=" * 70)


ИТОГИ SKLEARN РЕГРЕССИИ:
   • Общее время выполнения: 1.46 сек
   • Размер данных: 20,640 строк × 9 столбцов
   • Обработано пропусков: 207 значений
   • Все признаки числовые: ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income']
   • Лучшая метрика (R²): 0.7737
   • Ошибка предсказания: ±$54,506
