<a href="https://colab.research.google.com/github/Olyaq/-/blob/main/Untitled18.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install -q kaggle imbalanced-learn

In [2]:
from google.colab import files
uploaded = files.upload()  # выбери kaggle.json

import os

# кладём и в ~/.kaggle, и в ~/.config/kaggle
os.makedirs("/root/.kaggle", exist_ok=True)
os.makedirs("/root/.config/kaggle", exist_ok=True)

if "kaggle.json" not in uploaded:
    # если вдруг файл называется типа kaggle(1).json
    name = list(uploaded.keys())[0]
    os.rename(name, "kaggle.json")

!cp kaggle.json /root/.kaggle/kaggle.json
!cp kaggle.json /root/.config/kaggle/kaggle.json
!chmod 600 /root/.kaggle/kaggle.json
!chmod 600 /root/.config/kaggle/kaggle.json


Saving kaggle.json to kaggle.json


In [3]:
import os
import pandas as pd
from kaggle.api.kaggle_api_extended import KaggleApi
from collections import Counter

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

from imblearn.over_sampling import RandomOverSampler, SMOTE, ADASYN
from imblearn.under_sampling import TomekLinks

# -------- 0. Загрузка датасета (как в задании 1) --------
api = KaggleApi()
api.authenticate()

dataset = 'snap/amazon-fine-food-reviews'
data_path = './data'
os.makedirs(data_path, exist_ok=True)
api.dataset_download_files(dataset, path=data_path, unzip=True)

csv_files = [f for f in os.listdir(data_path) if f.endswith('.csv')]
csv_path = os.path.join(data_path, csv_files[0])
print("Используем файл:", csv_path)

df = pd.read_csv(csv_path, low_memory=False)

target_keywords = ['score', 'rating', 'vote', 'like', 'grade', 'mark', 'review', 'eval']
found_targets = []
for col in df.columns:
    if any(k in col.lower() for k in target_keywords):
        found_targets.append(col)

print("Найденные потенциальные таргеты:", found_targets)
if not found_targets:
    raise ValueError("Целевой признак не найден")
target_col = found_targets[0]
print("Основной целевой признак:", target_col)

# -------- 1. Делаем из регрессии классификацию --------
df = df.dropna(subset=[target_col])
score = df[target_col].astype(float)

def make_label(x):
    if x <= 2:
        return 0  # негатив
    elif x == 3:
        return 1  # нейтрально
    else:
        return 2  # позитив

df["label"] = score.apply(make_label)
print("\nРаспределение классов (label):")
print(df["label"].value_counts())

# -------- 2. Простейшие числовые признаки --------
if "Text" in df.columns:
    df["text_len"] = df["Text"].astype(str).str.len()
else:
    df["text_len"] = 0

if "Summary" in df.columns:
    df["summary_len"] = df["Summary"].astype(str).str.len()
else:
    df["summary_len"] = 0

for col in ["HelpfulnessNumerator", "HelpfulnessDenominator"]:
    if col not in df.columns:
        df[col] = 0

df["help_ratio"] = df["HelpfulnessNumerator"] / (df["HelpfulnessDenominator"] + 1)

feature_cols = [
    "text_len",
    "summary_len",
    "HelpfulnessNumerator",
    "HelpfulnessDenominator",
    "help_ratio",
]

X = df[feature_cols].fillna(0)
y = df["label"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("\nРаспределение классов в train:")
print(Counter(y_train))


Dataset URL: https://www.kaggle.com/datasets/snap/amazon-fine-food-reviews
Используем файл: ./data/Reviews.csv
Найденные потенциальные таргеты: ['Score']
Основной целевой признак: Score

Распределение классов (label):
label
2    443777
0     82037
1     42640
Name: count, dtype: int64

Распределение классов в train:
Counter({2: 355021, 0: 65630, 1: 34112})


In [4]:
results = {}

# 1) Обучить DecisionTreeClassifier на исходных данных
tree_orig = DecisionTreeClassifier(max_depth=6, random_state=42)
tree_orig.fit(X_train, y_train)
y_pred = tree_orig.predict(X_test)
acc_orig = accuracy_score(y_test, y_pred)
results["original"] = acc_orig
print(f"[1] Accuracy на исходных данных: {acc_orig:.4f}")

# 2) Ухудшаем баланс: один класс оставляем на уровне 10% от самого большого
counts = Counter(y_train)
print("\nРаспределение классов до ухудшения баланса:", counts)

major_class, major_count = counts.most_common(1)[0]
class_to_shrink = [c for c in counts if c != major_class][0]
new_n = max(1, int(0.1 * major_count))

print(f"Будем уменьшать класс {class_to_shrink}: было {counts[class_to_shrink]}, оставим {new_n}")

idx_class = y_train[y_train == class_to_shrink].index
idx_other = y_train[y_train != class_to_shrink].index

idx_class_keep = idx_class.to_series().sample(
    n=min(new_n, len(idx_class)), random_state=42
).index

idx_new = idx_other.union(idx_class_keep)

X_train_imbal = X_train.loc[idx_new]
y_train_imbal = y_train.loc[idx_new]

print("Распределение классов после ухудшения баланса:")
print(Counter(y_train_imbal))

tree_imbal = DecisionTreeClassifier(max_depth=6, random_state=42)
tree_imbal.fit(X_train_imbal, y_train_imbal)
y_pred_imbal = tree_imbal.predict(X_test)
acc_imbal = accuracy_score(y_test, y_pred_imbal)
results["imbalanced"] = acc_imbal
print(f"[2] Accuracy на данных с искусственным дисбалансом: {acc_imbal:.4f}")

# 3) Методы балансировки: RandomOverSampler, SMOTE, ADASYN, TomekLinks
def run_sampler(name, sampler):
    if sampler is not None:
        X_res, y_res = sampler.fit_resample(X_train_imbal, y_train_imbal)
    else:
        X_res, y_res = X_train_imbal, y_train_imbal

    tree = DecisionTreeClassifier(max_depth=6, random_state=42)
    tree.fit(X_res, y_res)
    y_pred = tree.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    results[name] = acc
    print(f"[{name}] accuracy = {acc:.4f}, классы: {Counter(y_res)}")

# без ресемплинга для сравнения
run_sampler("no_resampling", None)
run_sampler("RandomOverSampler", RandomOverSampler(random_state=42))
run_sampler("SMOTE", SMOTE(random_state=42))
run_sampler("ADASYN", ADASYN(random_state=42))
run_sampler("TomekLinks", TomekLinks())

# Таблица с результатами
res_df = pd.DataFrame(
    [{"method": k, "accuracy": v} for k, v in results.items()]
).sort_values("accuracy", ascending=False)

print("\nСводная таблица accuracy:")
display(res_df)

# 4) Краткие выводы
print("\n=== Выводы ===")
print(f"- Модель на исходных данных: accuracy = {acc_orig:.4f}")
print(f"- После ручного сильного дисбаланса: accuracy = {acc_imbal:.4f}")
print("- Ресемплинг (особенно RandomOverSampler / SMOTE / ADASYN) "
      "обычно подтягивает качество по сравнению с model без ресемплинга "
      "на дисбалансном train.")
print("- TomekLinks больше чистит границы классов -> набор может стать меньше, "
      "а качество чуть меняться в ту или иную сторону в зависимости от данных.")


[1] Accuracy на исходных данных: 0.8017

Распределение классов до ухудшения баланса: Counter({2: 355021, 0: 65630, 1: 34112})
Будем уменьшать класс 0: было 65630, оставим 35502
Распределение классов после ухудшения баланса:
Counter({2: 355021, 0: 35502, 1: 34112})
[2] Accuracy на данных с искусственным дисбалансом: 0.8002
[no_resampling] accuracy = 0.8002, классы: Counter({2: 355021, 0: 35502, 1: 34112})
[RandomOverSampler] accuracy = 0.6613, классы: Counter({2: 355021, 0: 355021, 1: 355021})
[SMOTE] accuracy = 0.7153, классы: Counter({2: 355021, 0: 355021, 1: 355021})
[ADASYN] accuracy = 0.7271, классы: Counter({0: 359346, 1: 359053, 2: 355021})
[TomekLinks] accuracy = 0.7995, классы: Counter({2: 349337, 1: 34112, 0: 31851})

Сводная таблица accuracy:


Unnamed: 0,method,accuracy
0,original,0.801743
1,imbalanced,0.800248
2,no_resampling,0.800248
6,TomekLinks,0.799483
5,ADASYN,0.727058
4,SMOTE,0.715307
3,RandomOverSampler,0.661275



=== Выводы ===
- Модель на исходных данных: accuracy = 0.8017
- После ручного сильного дисбаланса: accuracy = 0.8002
- Ресемплинг (особенно RandomOverSampler / SMOTE / ADASYN) обычно подтягивает качество по сравнению с model без ресемплинга на дисбалансном train.
- TomekLinks больше чистит границы классов -> набор может стать меньше, а качество чуть меняться в ту или иную сторону в зависимости от данных.



Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.




Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.

