<a href="https://colab.research.google.com/github/maxwildcats/optimizationwaywell/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# Подключаем Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Путь к папке с данными
DATA_PATH = '/content/drive/MyDrive/AI challenge/'

# Проверим, что файлы есть
import os
print("Файлы в папке:")
print(os.listdir(DATA_PATH))

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Файлы в папке:
['test.csv', 'train.csv', 'train_preprocessed.csv', 'train_preprocessed_features.csv', 'train_preprocessed_features_noheader.csv']


In [2]:
import pandas as pd
import numpy as np
import gc
import time
from datetime import timedelta

DATA_PATH = '/content/drive/MyDrive/AI challenge/'

# Определим категориальные признаки (все, кроме click)
CATEGORICAL_COLS = [
    'hour', 'C1', 'banner_pos', 'site_id', 'site_domain', 'site_category',
    'app_id', 'app_domain', 'app_category', 'device_id', 'device_ip',
    'device_model', 'device_type', 'device_conn_type', 'C14', 'C15',
    'C16', 'C17', 'C18', 'C19', 'C20', 'C21'
]

# Удалим служебные колонки
DROP_COLS = ['idx', 'id']

# Чтение и запись по частям
CHUNKSIZE = 500_000  # ~500 тыс строк за раз
OUTPUT_FILE = DATA_PATH + 'train_preprocessed.csv'

print("🔄 Начинаем построчную обработку train.csv...")
print(f"💾 Размер чанка: {CHUNKSIZE:,} строк")
print(f"📁 Выходной файл: {OUTPUT_FILE}\n")

# Таймер
start_time_total = time.time()
chunk_num = 0
first_chunk = True

try:
    for chunk in pd.read_csv(DATA_PATH + 'train.csv', chunksize=CHUNKSIZE):
        chunk_num += 1
        start_time_chunk = time.time()
        print(f"📦 Обрабатываем чанк #{chunk_num} (строки {(chunk_num-1)*CHUNKSIZE + 1}–{chunk_num*CHUNKSIZE})...")

        # Удаляем ненужные колонки
        for col in DROP_COLS:
            if col in chunk.columns:
                chunk = chunk.drop(columns=[col])
                print(f"   ✅ Удалён столбец: {col}")

        # Преобразуем категориальные признаки в числовые коды
        for col in CATEGORICAL_COLS:
            if col in chunk.columns:
                chunk[col] = chunk[col].fillna('').astype(str).astype('category').cat.codes
                print(f"   🔄 Преобразован столбец: {col}")

        # Записываем в новый файл
        if first_chunk:
            chunk.to_csv(OUTPUT_FILE, index=False, mode='w')
            print("   💾 Создан новый файл и записан первый чанк.")
            first_chunk = False
        else:
            chunk.to_csv(OUTPUT_FILE, index=False, mode='a', header=False)
            print("   ➕ Добавлен чанк в существующий файл.")

        # Очистка памяти
        del chunk
        gc.collect()
        print(f"   ✅ Чанк #{chunk_num} завершён. Время: {timedelta(seconds=time.time() - start_time_chunk)}\n")

except Exception as e:
    print(f"\n❌ ОШИБКА на чанке #{chunk_num}:")
    print(f"   {type(e).__name__}: {e}")
    print(f"   ⏱️ Время до ошибки: {timedelta(seconds=time.time() - start_time_total)}")
    raise e  # Остановим выполнение, чтобы ты увидел ошибку

# Финальный отчёт
total_time = timedelta(seconds=time.time() - start_time_total)
print(f"✅ ВСЕ ЧАНКИ ОБРАБОТАНЫ УСПЕШНО!")
print(f"⏱️  Общее время выполнения: {total_time}")
print(f"📁 Файл сохранён: {OUTPUT_FILE}")

🔄 Начинаем построчную обработку train.csv...
💾 Размер чанка: 500,000 строк
📁 Выходной файл: /content/drive/MyDrive/AI challenge/train_preprocessed.csv

📦 Обрабатываем чанк #1 (строки 1–500000)...
   ✅ Удалён столбец: idx
   ✅ Удалён столбец: id
   🔄 Преобразован столбец: hour
   🔄 Преобразован столбец: C1
   🔄 Преобразован столбец: banner_pos
   🔄 Преобразован столбец: site_id
   🔄 Преобразован столбец: site_domain
   🔄 Преобразован столбец: site_category
   🔄 Преобразован столбец: app_id
   🔄 Преобразован столбец: app_domain
   🔄 Преобразован столбец: app_category
   🔄 Преобразован столбец: device_id
   🔄 Преобразован столбец: device_ip
   🔄 Преобразован столбец: device_model
   🔄 Преобразован столбец: device_type
   🔄 Преобразован столбец: device_conn_type
   🔄 Преобразован столбец: C14
   🔄 Преобразован столбец: C15
   🔄 Преобразован столбец: C16
   🔄 Преобразован столбец: C17
   🔄 Преобразован столбец: C18
   🔄 Преобразован столбец: C19
   🔄 Преобразован столбец: C20
   🔄 Преобразо

In [1]:
import pandas as pd
import gc

DATA_PATH = '/content/drive/MyDrive/AI challenge/'
PREPROCESSED_FILE = DATA_PATH + 'train_preprocessed.csv'
FEATURES_FILE = DATA_PATH + 'train_preprocessed_features.csv'

print("✂️  Создаём файл только с признаками (без 'click')...")

chunksize = 500_000
first_chunk = True

for chunk in pd.read_csv(PREPROCESSED_FILE, chunksize=chunksize):
    # Удаляем 'click' — оставляем только признаки
    if 'click' in chunk.columns:
        chunk_features = chunk.drop(columns=['click'])
    else:
        chunk_features = chunk  # на всякий случай

    # Записываем
    if first_chunk:
        chunk_features.to_csv(FEATURES_FILE, index=False, mode='w')
        first_chunk = False
    else:
        chunk_features.to_csv(FEATURES_FILE, index=False, mode='a', header=False)

    del chunk, chunk_features
    gc.collect()

print(f"✅ Файл признаков сохранён: {FEATURES_FILE}")

✂️  Создаём файл только с признаками (без 'click')...
✅ Файл признаков сохранён: /content/drive/MyDrive/AI challenge/train_preprocessed_features.csv


In [2]:
print("📥 Загружаем столбец 'click' как label...")
labels = pd.read_csv(PREPROCESSED_FILE, usecols=['click'])['click'].values
print(f"✅ Загружено {len(labels):,} меток. Размер в памяти: ~{labels.nbytes / 1024**2:.1f} МБ")

📥 Загружаем столбец 'click' как label...
✅ Загружено 40,388,935 меток. Размер в памяти: ~308.1 МБ


In [4]:
import os

FEATURES_FILE = DATA_PATH + 'train_preprocessed_features.csv'
FEATURES_NOHEADER_FILE = DATA_PATH + 'train_preprocessed_features_noheader.csv'

print("✂️  Удаляем заголовок из файла признаков...")

# Пропускаем первую строку и перезаписываем файл
with open(FEATURES_FILE, 'r') as f:
    lines = f.readlines()

with open(FEATURES_NOHEADER_FILE, 'w') as f:
    f.writelines(lines[1:])  # пропускаем первую строку — заголовок

print(f"✅ Файл без заголовка сохранён: {FEATURES_NOHEADER_FILE}")

✂️  Удаляем заголовок из файла признаков...
✅ Файл без заголовка сохранён: /content/drive/MyDrive/AI challenge/train_preprocessed_features_noheader.csv


In [7]:
import pandas as pd
import gc

DATA_PATH = '/content/drive/MyDrive/AI challenge/'
PREPROCESSED_FILE = DATA_PATH + 'train_preprocessed.csv'
FEATURES_FILE = DATA_PATH + 'train_preprocessed_features.csv'

print("🔍 Читаем заголовок, чтобы точно знать порядок признаков...")
sample = pd.read_csv(PREPROCESSED_FILE, nrows=1)
feature_names = [col for col in sample.columns if col != 'click']
print(f"✅ Признаки ({len(feature_names)}): {feature_names}")

print("✂️  Создаём файл только с признаками (без 'click')...")

chunksize = 500_000
first_chunk = True

for chunk in pd.read_csv(PREPROCESSED_FILE, chunksize=chunksize):
    # Явно выбираем только нужные столбцы — по списку feature_names
    chunk_features = chunk[feature_names]  # ← Ключевая строка!

    if first_chunk:
        chunk_features.to_csv(FEATURES_FILE, index=False, mode='w')
        first_chunk = False
    else:
        chunk_features.to_csv(FEATURES_FILE, index=False, mode='a', header=False)

    del chunk, chunk_features
    gc.collect()

print(f"✅ Файл признаков сохранён: {FEATURES_FILE}")
print(f"📊 Проверяем количество столбцов в результате...")
test_chunk = pd.read_csv(FEATURES_FILE, nrows=1)
print(f"📈 Столбцов в файле признаков: {len(test_chunk.columns)} — должно быть 22")

🔍 Читаем заголовок, чтобы точно знать порядок признаков...
✅ Признаки (22): ['hour', 'C1', 'banner_pos', 'site_id', 'site_domain', 'site_category', 'app_id', 'app_domain', 'app_category', 'device_id', 'device_ip', 'device_model', 'device_type', 'device_conn_type', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21']
✂️  Создаём файл только с признаками (без 'click')...
✅ Файл признаков сохранён: /content/drive/MyDrive/AI challenge/train_preprocessed_features.csv
📊 Проверяем количество столбцов в результате...
📈 Столбцов в файле признаков: 22 — должно быть 22


In [4]:
# Явно задаём пути к файлам
DATA_PATH = '/content/drive/MyDrive/AI challenge/'
FEATURES_FILE = DATA_PATH + 'train_preprocessed_features.csv'
FEATURES_NOHEADER_FILE = DATA_PATH + 'train_preprocessed_features_noheader.csv'

print("✂️  Удаляем заголовок из файла признаков...")

with open(FEATURES_FILE, 'r') as f:
    lines = f.readlines()

with open(FEATURES_NOHEADER_FILE, 'w') as f:
    f.writelines(lines[1:])  # пропускаем первую строку — заголовок

print(f"✅ Файл без заголовка сохранён: {FEATURES_NOHEADER_FILE}")
FEATURES_NOHEADER_FILE = DATA_PATH + 'train_preprocessed_features_noheader.csv'

print("✂️  Удаляем заголовок из файла признаков...")

with open(FEATURES_FILE, 'r') as f:
    lines = f.readlines()

with open(FEATURES_NOHEADER_FILE, 'w') as f:
    f.writelines(lines[1:])  # пропускаем первую строку — заголовок

print(f"✅ Файл без заголовка сохранён: {FEATURES_NOHEADER_FILE}")

✂️  Удаляем заголовок из файла признаков...
✅ Файл без заголовка сохранён: /content/drive/MyDrive/AI challenge/train_preprocessed_features_noheader.csv
✂️  Удаляем заголовок из файла признаков...
✅ Файл без заголовка сохранён: /content/drive/MyDrive/AI challenge/train_preprocessed_features_noheader.csv


In [2]:
# Проверим, сколько столбцов в файле признаков
print("🔍 Проверяем train_preprocessed_features.csv...")
sample_features = pd.read_csv(DATA_PATH + 'train_preprocessed_features.csv', nrows=1)
print("Столбцы в файле признаков:")
print(list(sample_features.columns))
print(f"📊 Количество столбцов: {len(sample_features.columns)}")

🔍 Проверяем train_preprocessed_features.csv...
Столбцы в файле признаков:
['hour', 'C1', 'banner_pos', 'site_id', 'site_domain', 'site_category', 'app_id', 'app_domain', 'app_category', 'device_id', 'device_ip', 'device_model', 'device_type', 'device_conn_type', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21']
📊 Количество столбцов: 22


In [1]:
import os

DATA_PATH = '/content/drive/MyDrive/AI challenge/'
FEATURES_FILE = DATA_PATH + 'train_preprocessed_features.csv'
FEATURES_NOHEADER_FILE = DATA_PATH + 'train_preprocessed_features_noheader.csv'

print("✂️  Удаляем заголовок из файла признаков (без загрузки в RAM)...")

# Читаем файл построчно и пропускаем первую строку
with open(FEATURES_FILE, 'r', encoding='utf-8') as f_in:
    lines = f_in.readlines()

# Удаляем первую строку (заголовок)
data_lines = lines[1:]

# Записываем обратно без заголовка
with open(FEATURES_NOHEADER_FILE, 'w', encoding='utf-8') as f_out:
    f_out.writelines(data_lines)

print(f"✅ Файл без заголовка сохранён: {FEATURES_NOHEADER_FILE}")

# Проверяем: читаем первые 2 строки без заголовка
print("\n🔍 Проверяем первые 2 строки файла без заголовка...")
with open(FEATURES_NOHEADER_FILE, 'r', encoding='utf-8') as f:
    first_two = [next(f) for _ in range(2)]

for i, line in enumerate(first_two):
    print(f"Строка {i+1}: {line.strip()}")

print("✅ Проверка пройдена — файл содержит данные.")

✂️  Удаляем заголовок из файла признаков (без загрузки в RAM)...
✅ Файл без заголовка сохранён: /content/drive/MyDrive/AI challenge/train_preprocessed_features_noheader.csv

🔍 Проверяем первые 2 строки файла без заголовка...
Строка 1: 0,2,0,216,1510,2,1538,63,0,28511,153476,1100,1,1,102,4,6,18,0,19,0,27
Строка 2: 0,2,0,216,1510,2,1538,63,0,28511,104151,1749,1,0,100,4,6,18,0,19,60,27
✅ Проверка пройдена — файл содержит данные.


In [1]:
import pandas as pd
import gc

DATA_PATH = '/content/drive/MyDrive/AI challenge/'
PREPROCESSED_FILE = DATA_PATH + 'train_preprocessed.csv'
TRAIN_FINAL_FILE = DATA_PATH + 'train_final.csv'

print("🛠️  Создаём файл train_final.csv (признаки + click в последнем столбце)...")

chunksize = 500_000
first_chunk = True

for chunk_num, chunk in enumerate(pd.read_csv(PREPROCESSED_FILE, chunksize=chunksize)):
    # Убеждаемся, что click — последний столбец
    cols = [col for col in chunk.columns if col != 'click'] + ['click']
    chunk_reordered = chunk[cols]

    # Записываем в файл
    if first_chunk:
        chunk_reordered.to_csv(TRAIN_FINAL_FILE, index=False, mode='w')
        first_chunk = False
    else:
        chunk_reordered.to_csv(TRAIN_FINAL_FILE, index=False, mode='a', header=False)

    print(f"✅ Записан чанк #{chunk_num + 1}")

    del chunk, chunk_reordered
    gc.collect()

print(f"✅ Файл создан: {TRAIN_FINAL_FILE}")

# Проверяем первые 2 строки
print("\n🔍 Проверяем структуру файла...")
sample = pd.read_csv(TRAIN_FINAL_FILE, nrows=2)
print("Последний столбец:", sample.columns[-1])  # Должен быть 'click'
print("Пример данных:")
print(sample.iloc[:, -5:])  # последние 5 столбцов

🛠️  Создаём файл train_final.csv (признаки + click в последнем столбце)...
✅ Записан чанк #1
✅ Записан чанк #2
✅ Записан чанк #3
✅ Записан чанк #4
✅ Записан чанк #5
✅ Записан чанк #6
✅ Записан чанк #7
✅ Записан чанк #8
✅ Записан чанк #9
✅ Записан чанк #10
✅ Записан чанк #11
✅ Записан чанк #12
✅ Записан чанк #13
✅ Записан чанк #14
✅ Записан чанк #15
✅ Записан чанк #16
✅ Записан чанк #17
✅ Записан чанк #18
✅ Записан чанк #19
✅ Записан чанк #20
✅ Записан чанк #21
✅ Записан чанк #22
✅ Записан чанк #23
✅ Записан чанк #24
✅ Записан чанк #25
✅ Записан чанк #26
✅ Записан чанк #27
✅ Записан чанк #28
✅ Записан чанк #29
✅ Записан чанк #30
✅ Записан чанк #31
✅ Записан чанк #32
✅ Записан чанк #33
✅ Записан чанк #34
✅ Записан чанк #35
✅ Записан чанк #36
✅ Записан чанк #37
✅ Записан чанк #38
✅ Записан чанк #39
✅ Записан чанк #40
✅ Записан чанк #41
✅ Записан чанк #42
✅ Записан чанк #43
✅ Записан чанк #44
✅ Записан чанк #45
✅ Записан чанк #46
✅ Записан чанк #47
✅ Записан чанк #48
✅ Записан чанк #49
✅ З

In [4]:
import pandas as pd
import gc

DATA_PATH = '/content/drive/MyDrive/AI challenge/'
PREPROCESSED_FILE = DATA_PATH + 'train_preprocessed.csv'
TRAIN_FINAL_NOHEADER_FILE = DATA_PATH + 'train_final_noheader.csv'

print("🛠️  Создаём файл train_final_noheader.csv (без заголовка, click — последний столбец)...")

chunksize = 500_000

# Обработаем первый чанк отдельно — чтобы получить структуру
first_chunk = True

for chunk_num, chunk in enumerate(pd.read_csv(PREPROCESSED_FILE, chunksize=chunksize)):
    # Порядок: все признаки, затем click
    cols = [col for col in chunk.columns if col != 'click'] + ['click']
    chunk_reordered = chunk[cols]

    if first_chunk:
        # Записываем БЕЗ заголовка
        chunk_reordered.to_csv(TRAIN_FINAL_NOHEADER_FILE, index=False, mode='w', header=False)
        first_chunk = False
    else:
        chunk_reordered.to_csv(TRAIN_FINAL_NOHEADER_FILE, index=False, mode='a', header=False)

    print(f"✅ Записан чанк #{chunk_num + 1}")

    del chunk, chunk_reordered
    gc.collect()

print(f"✅ Файл создан: {TRAIN_FINAL_NOHEADER_FILE}")

# Проверяем первые 2 строки
print("\n🔍 Проверяем первые 2 строки файла...")
with open(TRAIN_FINAL_NOHEADER_FILE, 'r', encoding='utf-8') as f:
    for i in range(2):
        line = f.readline().strip()
        print(f"Строка {i+1}: {line[:100]}...")

🛠️  Создаём файл train_final_noheader.csv (без заголовка, click — последний столбец)...
✅ Записан чанк #1
✅ Записан чанк #2
✅ Записан чанк #3
✅ Записан чанк #4
✅ Записан чанк #5
✅ Записан чанк #6
✅ Записан чанк #7
✅ Записан чанк #8
✅ Записан чанк #9
✅ Записан чанк #10
✅ Записан чанк #11
✅ Записан чанк #12
✅ Записан чанк #13
✅ Записан чанк #14
✅ Записан чанк #15
✅ Записан чанк #16
✅ Записан чанк #17
✅ Записан чанк #18
✅ Записан чанк #19
✅ Записан чанк #20
✅ Записан чанк #21
✅ Записан чанк #22
✅ Записан чанк #23
✅ Записан чанк #24
✅ Записан чанк #25
✅ Записан чанк #26
✅ Записан чанк #27
✅ Записан чанк #28
✅ Записан чанк #29
✅ Записан чанк #30
✅ Записан чанк #31
✅ Записан чанк #32
✅ Записан чанк #33
✅ Записан чанк #34
✅ Записан чанк #35
✅ Записан чанк #36
✅ Записан чанк #37
✅ Записан чанк #38
✅ Записан чанк #39
✅ Записан чанк #40
✅ Записан чанк #41
✅ Записан чанк #42
✅ Записан чанк #43
✅ Записан чанк #44
✅ Записан чанк #45
✅ Записан чанк #46
✅ Записан чанк #47
✅ Записан чанк #48
✅ Записан

In [None]:
import lightgbm as lgb
from sklearn.metrics import roc_auc_score
import numpy as np
import pandas as pd
import gc
import time

DATA_PATH = '/content/drive/MyDrive/AI challenge/'
TRAIN_FINAL_NOHEADER_FILE = DATA_PATH + 'train_final_noheader.csv'

# Определяем признаки (для feature_name и валидации)
sample = pd.read_csv(DATA_PATH + 'train_preprocessed.csv', nrows=1)
feature_names = [col for col in sample.columns if col != 'click']
print(f"✅ Признаки: {feature_names}")

# Все признаки — категориальные (все, кроме последнего столбца — click)
n_features = len(feature_names)
categorical_indices = list(range(n_features))

# ========== Создание Dataset ==========
print("📦 Создаём LightGBM Dataset из файла без заголовка...")

train_data = lgb.Dataset(
    TRAIN_FINAL_NOHEADER_FILE,
    feature_name=feature_names,        # имена признаков
    categorical_feature=categorical_indices  # индексы категориальных признаков
)

train_data.construct()
print("✅ Dataset создан.")

# ========== Параметры модели ==========
params = {
    'objective': 'binary',
    'metric': 'auc',
    'n_estimators': 2000,
    'learning_rate': 0.03,
    'max_depth': 12,
    'num_leaves': 128,
    'subsample': 0.9,
    'colsample_bytree': 0.9,
    'random_state': 42,
    'device': 'cpu',
    'n_jobs': -1,
    'verbose': -1
}

# ========== Обучение ==========
print("\n🚀 Начинаем обучение LightGBM...")
start_time = time.time()

model = lgb.train(
    params,
    train_data,
    valid_sets=[train_data],
    callbacks=[
        lgb.early_stopping(stopping_rounds=100, verbose=True),
        lgb.log_evaluation(period=100)
    ]
)

train_time = time.time() - start_time
print(f"✅ Обучение завершено за {train_time:.1f} секунд.")

# ========== Валидация ==========
print("\n🔍 Загружаем валидационный чанк (последние 500к строк)...")

# Читаем последние 500к строк
total_rows = 40_388_935
skip_rows = total_rows - 500_000

val_data = pd.read_csv(
    TRAIN_FINAL_NOHEADER_FILE,
    skiprows=skip_rows,
    names=feature_names + ['click'],  # задаём имена столбцов вручную
    header=None
)

X_val = val_data.drop(columns=['click'])
y_val = val_data['click']

print("🧪 Делаем предсказание...")
y_pred_proba = model.predict(X_val)
roc_auc = roc_auc_score(y_val, y_pred_proba)
print(f"\n✅ 🎯 ROC-AUC на валидации: {roc_auc:.4f}")

# ========== Сохранение ==========
MODEL_PATH = DATA_PATH + 'lgbm_model_40m_final.txt'
model.save_model(MODEL_PATH)
print(f"💾 Модель сохранена: {MODEL_PATH}")

del train_data, val_data, X_val, y_val
gc.collect()

print("\n🎉 ПОЗДРАВЛЯЮ! Модель обучена на 40 млн строк без переполнения памяти!")
print("➡️  Переходим к предсказанию на test.csv...")

✅ Признаки: ['hour', 'C1', 'banner_pos', 'site_id', 'site_domain', 'site_category', 'app_id', 'app_domain', 'app_category', 'device_id', 'device_ip', 'device_model', 'device_type', 'device_conn_type', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21']
📦 Создаём LightGBM Dataset из файла без заголовка...
[LightGBM] [Info] Construct bin mappers from text data time 1.27 seconds
✅ Dataset создан.

🚀 Начинаем обучение LightGBM...




[100]	training's auc: 0.810348
[200]	training's auc: 0.818614
[300]	training's auc: 0.822747
[400]	training's auc: 0.825614
