In [1]:
import data_loader
import data_analyze
import data_visual
import log

In [3]:
"""
dataset from https://www.kaggle.com/datasets/kaggle/recipe-ingredients-dataset
"""
file_path = "Food_Recipe.csv"

In [5]:
try:
    data = data_loader.load_data_csv(file_path) 
    log.add_log_info('Чтение файла прошло успешно')
except FileNotFoundError:
    log.add_log_error('Файл не найден')
except Exception as e:
    log.add_log_error(f'Произошла ошибка: {e}')
finally:
    log.add_log_debug('finally_after_load_data_csv')
    print(data.head())

                                                name  \
0  Dim Posto Recipe - Bengali Egg Curry With Popp...   
1              Roasted Vegetables Pizza Pouch Recipe   
2  Restaurant Style Paneer Butter Masala Recipe |...   
3   Shanghai Style Sweet And Spicy Crispy Lotus Stem   
4                       Mixed Vegetable Handi Recipe   

                                         description               cuisine  \
0  Dim Posto is a delicious Bengali Style Egg Cur...       Bengali Recipes   
1  Roasted Vegetables Pizza Pouch is a delicious,...       Italian Recipes   
2  Paneer Butter Masala also known as Paneer Maka...  North Indian Recipes   
3  Shanghai Style Sweet And Spicy Crispy Lotus St...               Chinese   
4  If you feel like eating something exotic, some...  North Indian Recipes   

      course         diet                                   ingredients_name  \
0     Dinner   Eggetarian  Whole Eggs, Potatoes (Aloo), Poppy seeds, Home...   
1  Appetizer   Vegetarian  Homemad

In [7]:
!pip install lightgbm



In [9]:
!pip install catboost



In [11]:
!pip install xgboost



In [7]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.ensemble import (
    GradientBoostingClassifier,
    AdaBoostClassifier,
    ExtraTreesClassifier,
    StackingClassifier
)
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from catboost import CatBoostClassifier
from xgboost import XGBClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.feature_extraction.text import TfidfVectorizer

# Игнорирование предупреждений (опционально)
warnings.filterwarnings('ignore')

# Проверка столбцов
print("Столбцы в наборе данных:")

print(data.columns)

is_null = data_analyze.check_data(data)
is_null.sum()

Столбцы в наборе данных:
Index(['name', 'description', 'cuisine', 'course', 'diet', 'ingredients_name',
       'ingredients_quantity', 'prep_time (in mins)', 'cook_time (in mins)',
       'instructions', 'image_url'],
      dtype='object')


name                     0
description              1
cuisine                 30
course                  92
diet                    76
ingredients_name         2
ingredients_quantity     2
prep_time (in mins)     16
cook_time (in mins)     16
instructions             0
image_url                0
dtype: int64

In [9]:
# Разделение столбцов на числовые и категориальные
numeric_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_columns = data.select_dtypes(include=['object']).columns.tolist()

In [11]:
# Обработка пропущенных значений для числовых столбцов
if data[numeric_columns].isnull().sum().any():
    data[numeric_columns] = data[numeric_columns].fillna(data[numeric_columns].median())

# Обработка пропущенных значений для категориальных столбцов
if data[categorical_columns].isnull().sum().any():
    data[categorical_columns] = data[categorical_columns].fillna(data[categorical_columns].mode().iloc[0])

In [13]:
is_null = data_analyze.check_data(data)
is_null.sum()

name                    0
description             0
cuisine                 0
course                  0
diet                    0
ingredients_name        0
ingredients_quantity    0
prep_time (in mins)     0
cook_time (in mins)     0
instructions            0
image_url               0
dtype: int64

In [15]:
data.drop(columns=['name', 'description', 'course', 'diet', 'ingredients_quantity', 'prep_time (in mins)', 'cook_time (in mins)', 'instructions', 'image_url'],inplace=True)     
data.rename(columns={"cuisine": "group", "ingredients_name": "ingredients_name"},inplace=True)
data.head()

Unnamed: 0,group,ingredients_name
0,Bengali Recipes,"Whole Eggs, Potatoes (Aloo), Poppy seeds, Home..."
1,Italian Recipes,"Homemade Pizza Dough, Onion, Red Bell pepper (..."
2,North Indian Recipes,"Paneer (Homemade Cottage Cheese), Tomatoes, Ca..."
3,Chinese,"Lotus root, Garlic, Ginger, Roasted Peanuts (M..."
4,North Indian Recipes,"Oil, Cumin seeds (Jeera), Bay leaves (tej patt..."


In [17]:
data.groupby('group').agg(['count'])

Unnamed: 0_level_0,ingredients_name
Unnamed: 0_level_1,count
group,Unnamed: 1_level_2
Afghan,2
African,17
American,4
Andhra,89
Arab,3
...,...
Udupi,9
Uttar Pradesh,9
Uttarakhand - North Kumaon,2
Uttarakhand-North Kumaon,1


In [45]:
!pip install pymystem3 

Collecting pymystem3
  Downloading pymystem3-0.2.0-py3-none-any.whl.metadata (5.5 kB)
Downloading pymystem3-0.2.0-py3-none-any.whl (10 kB)
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0


In [19]:
import nltk
from nltk.corpus import stopwords
from pymystem3 import Mystem
from string import punctuation
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Mskaf\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [21]:
mystem = Mystem()
russian_stopwords = stopwords.words("russian")
russian_stopwords.extend(['лента','ассорт','разм','арт','что', 'это', 'так', 'вот', 'быть', 'как', 'в', '—', 'к', 'на'])

In [23]:
def preprocess_text(text):
    text = str(text)
    tokens = mystem.lemmatize(text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords
              and token != " "
    and len(token)>=3
              and token.strip() not in punctuation
              and token.isdigit()==False]
    text = " ".join(tokens)
    log.add_log_info(text)
    return text

In [25]:
preprocess_text("Мой дядя самых честных правил, Когда не в шутку занемог, Он уважать себя заставил И лучше выдумать не мог.")

'дядя самый честный правило шутка занемогать уважать заставлять выдумывать мочь'

In [27]:
print('Было:', data['ingredients_name'][0])
print('Стало:', preprocess_text(data['ingredients_name'][0]))

Было: Whole Eggs, Potatoes (Aloo), Poppy seeds, Homemade tomato puree, Panch Phoran Masala, Turmeric powder (Haldi), Onion, Ginger, Garlic, Green Chilli, Mustard oil, Dry Red Chilli, Bay leaf (tej patta), Sugar, Salt
Стало: whole eggs potatoes aloo ),  poppy seeds homemade tomato puree panch phoran masala turmeric powder haldi ),  onion ginger garlic green chilli mustard oil dry red chilli bay leaf tej patta ),  sugar salt


In [35]:
data['processed']=data['ingredients_name'].apply(preprocess_text)
data.head()

KeyboardInterrupt: 

In [21]:
# Обработка пропущенных значений для числовых столбцов
if data[numeric_columns].isnull().sum().any():
    data[numeric_columns] = data[numeric_columns].fillna(data[numeric_columns].median())

# Обработка пропущенных значений для категориальных столбцов
if data[categorical_columns].isnull().sum().any():
    data[categorical_columns] = data[categorical_columns].fillna(data[categorical_columns].mode().iloc[0])

# Кодирование категориальных признаков с использованием LabelEncoder
label_encoders = {}
for column in categorical_columns:
    le = LabelEncoder()
    data[column] = le.fit_transform(data[column])
    label_encoders[column] = le
print("Кодирование категориальных признаков с использованием LabelEncoder")

KeyError: "None of [Index(['prep_time (in mins)', 'cook_time (in mins)'], dtype='object')] are in the [columns]"

In [29]:
X = data.ingredients_name #processed
y = data.group

In [33]:
# Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print("Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов")

Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов


In [35]:
# Определение базовых классификаторов
base_classifiers = [
    ('gradient_boosting', GradientBoostingClassifier(random_state=42)),
    ('catboost', CatBoostClassifier(verbose=0, random_state=42)),
    ('ada_boost', AdaBoostClassifier(random_state=42)),
    ('extra_trees', ExtraTreesClassifier(random_state=42)),
    ('quadratic_discriminant', QuadraticDiscriminantAnalysis()),
    ('k_neighbors', KNeighborsClassifier()),
    ('decision_tree', DecisionTreeClassifier(random_state=42)),
    ('xgboost', XGBClassifier(use_label_encoder=False, eval_metric='mlogloss', random_state=42)),
    ('svm', SVC(kernel='linear', probability=True, random_state=42))
]
print("Определение базовых классификаторов")

Определение базовых классификаторов


In [37]:
# Определение мета-классификатора
meta_classifier = LogisticRegression(random_state=42, max_iter=1000)
print("Определение мета-классификатора")

Определение мета-классификатора


In [39]:
# Создание StackingClassifier
stacking_clf = StackingClassifier(
    estimators=base_classifiers,
    final_estimator=meta_classifier,
    cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
    n_jobs=-1,
    passthrough=False
)
print("Создание StackingClassifier")

Создание StackingClassifier


In [41]:
# Обучение StackingClassifier
stacking_clf.fit(X_train, y_train)
print("Обучение StackingClassifier")

ValueError: could not convert string to float: 'Makki Ka Atta (Yellow Corn Meal Flour), Whole Wheat Flour, Salt, Whole Eggs, Onion, Garlic, Salt, Black pepper powder, Onion, Red Bell pepper (Capsicum), Green bell peppers, Red Chilli powder, Cumin powder (Jeera), Garlic, Dried oregano, Salt, Tomatoes, Onion, Garlic, Sugar, Red Chilli flakes, Dried oregano, Salt, Hung Curd (Greek Yogurt), Lemon juice'

In [51]:
# Прогнозирование на тестовых данных
y_pred = stacking_clf.predict(X_test)
print("Прогнозирование на тестовых данных")

AttributeError: 'StackingClassifier' object has no attribute 'estimators_'

In [45]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from imblearn.pipeline import Pipeline

text_clf = Pipeline([('vect', CountVectorizer(ngram_range=(1,2))),
                     ('tfidf', TfidfTransformer()),
                     ('clf', MultinomialNB())])

In [47]:
text_clf = text_clf.fit(X_train, y_train)
y_pred = text_clf.predict(X_test)

In [49]:
print('Score:', text_clf.score(X_test, y_test))

Score: 0.37433155080213903


In [31]:

'''
# Определение целевой переменной
target_column = 'cuisine'

# Проверка уникальных значений целевой переменной
print("\nУникальные значения целевой переменной:")
print(data[target_column].unique())

# Разделение столбцов на числовые и категориальные
numeric_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_columns = data.select_dtypes(include=['object']).columns.tolist()
print("Разделение столбцов на числовые и категориальные")

# Удаление столбца 'Unnamed: 0', если он существует
if 'Unnamed: 0' in data.columns:
    data.drop(columns=['Unnamed: 0'], inplace=True)
print("Удаление столбца 'Unnamed: 0', если он существует")

# Обновление списка числовых столбцов после удаления 'Unnamed: 0'
numeric_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
print("Обновление списка числовых столбцов после удаления 'Unnamed: 0'")

# Убедитесь, что целевая переменная не входит в список признаков
if target_column in numeric_columns:
    numeric_columns.remove(target_column)
if target_column in categorical_columns:
    categorical_columns.remove(target_column)
print("Убедитесь, что целевая переменная не входит в список признаков")

# Обработка пропущенных значений для числовых столбцов
if data[numeric_columns].isnull().sum().any():
    data[numeric_columns] = data[numeric_columns].fillna(data[numeric_columns].median())
print("Обработка пропущенных значений для числовых столбцов")

# Обработка пропущенных значений для категориальных столбцов
if data[categorical_columns].isnull().sum().any():
    data[categorical_columns] = data[categorical_columns].fillna(data[categorical_columns].mode())
print("Обработка пропущенных значений для категориальных столбцов")

# Кодирование категориальных признаков с использованием LabelEncoder
label_encoders = {}
for column in categorical_columns:
    le = LabelEncoder()
    data[column] = le.fit_transform(data[column])
    label_encoders[column] = le
print("Кодирование категориальных признаков с использованием LabelEncoder")

# Масштабирование числовых признаков с использованием StandardScaler
scaler = StandardScaler()
data[numeric_columns] = scaler.fit_transform(data[numeric_columns])
print("Масштабирование числовых признаков с использованием StandardScaler")

# Определение признаков и целевой переменной
X = data.drop(columns=[target_column])
y = data[target_column]
print("Определение признаков и целевой переменной")

print(y)

# Проверка целевой переменной на многоклассовость
num_classes = len(y.unique())
print(f"\nКоличество классов: {num_classes}")

print(y.unique())
'''

# Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
print("Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов")

# Определение базовых классификаторов
base_classifiers = [
    ('gradient_boosting', GradientBoostingClassifier(random_state=42)),
    ('catboost', CatBoostClassifier(verbose=0, random_state=42)),
    ('ada_boost', AdaBoostClassifier(random_state=42)),
    ('extra_trees', ExtraTreesClassifier(random_state=42)),
    ('quadratic_discriminant', QuadraticDiscriminantAnalysis()),
    ('k_neighbors', KNeighborsClassifier()),
    ('decision_tree', DecisionTreeClassifier(random_state=42)),
    ('xgboost', XGBClassifier(use_label_encoder=False, eval_metric='mlogloss', random_state=42)),
    ('svm', SVC(kernel='linear', probability=True, random_state=42))
]
print("Определение базовых классификаторов")

# Определение мета-классификатора
meta_classifier = LogisticRegression(random_state=42, max_iter=1000)
print("Определение мета-классификатора")

# Создание StackingClassifier
stacking_clf = StackingClassifier(
    estimators=base_classifiers,
    final_estimator=meta_classifier,
    cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
    n_jobs=-1,
    passthrough=False
)
print("Создание StackingClassifier")

# Обучение StackingClassifier
stacking_clf.fit(X_train, y_train)
print("Обучение StackingClassifier")

# Прогнозирование на тестовых данных
y_pred = stacking_clf.predict(X_test)
print("Прогнозирование на тестовых данных")

# Оценка модели
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)
print("Оценка модели")

print(f'\nStacking Classifier Accuracy: {accuracy:.4f}')
print('Classification Report:')
print(report)

# Визуализация матрицы ошибок
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8,6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues',
            xticklabels=np.unique(y),
            yticklabels=np.unique(y))
plt.xlabel('Предсказанные классы')
plt.ylabel('Истинные классы')
plt.title('Матрица ошибок для Stacking Classifier')
plt.show()

# Важность признаков на основе мета-классификатора (Logistic Regression)
if isinstance(stacking_clf.final_estimator_, LogisticRegression):
    coef = stacking_clf.final_estimator_.coef_
    if coef.ndim > 1:
        # Для многоклассовой классификации усредняем коэффициенты
        coef = np.mean(coef, axis=0)
    feature_importances = np.abs(coef)

    # Проверяем соответствие количества признаков базовым классификаторам
    if len(feature_importances) == len(base_classifiers):
        # Сортировка признаков по важности
        indices = np.argsort(feature_importances)[::-1]

        # Получение имен базовых классификаторов
        clf_names = [name for name, _ in base_classifiers]

        # Визуализация важности классификаторов
        plt.figure(figsize=(12,6))
        plt.title("Важность базовых классификаторов на основе мета-классификатора (Logistic Regression)")
        plt.bar(range(len(feature_importances)), feature_importances[indices], align='center')
        plt.xticks(range(len(feature_importances)), np.array(clf_names)[indices], rotation=90)
        plt.xlabel('Классификаторы')
        plt.ylabel('Важность')
        plt.tight_layout()
        plt.show()
    else:
        print("Невозможно сопоставить важности признаков с базовыми классификаторами из-за несоответствия размеров.")


Столбцы в наборе данных:
Index(['name', 'description', 'cuisine', 'course', 'diet', 'ingredients_name',
       'ingredients_quantity', 'prep_time (in mins)', 'cook_time (in mins)',
       'instructions', 'image_url'],
      dtype='object')


AttributeError: 'int' object has no attribute 'lower'

In [7]:
# Проверка столбцов
print("Столбцы в наборе данных:")
print(data.columns)

Столбцы в наборе данных:
Index(['name', 'description', 'cuisine', 'course', 'diet', 'ingredients_name',
       'ingredients_quantity', 'prep_time (in mins)', 'cook_time (in mins)',
       'instructions', 'image_url'],
      dtype='object')


In [9]:
# Определение целевой переменной
target_column = 'cuisine'

In [11]:
# Проверка уникальных значений целевой переменной
print("Уникальные значения целевой переменной:")
print(data[target_column].unique())

Уникальные значения целевой переменной:
['Bengali Recipes' 'Italian Recipes' 'North Indian Recipes' 'Chinese'
 'Andhra' 'Karnataka' 'Mexican' 'Indian' 'Tamil Nadu' 'Coastal Karnataka'
 'Mughlai' 'Konkan' 'European' 'Thai' 'Mangalorean' 'Goan Recipes'
 'Himachal' 'Asian' 'Kerala Recipes' 'French' 'South Indian Recipes'
 'Continental' 'Oriya Recipes' 'Indo Chinese' 'Karnataka Coastal' 'Coorg'
 'Japanese' 'Kashmiri' 'Chettinad' 'Greek' 'Sichuan' 'African'
 'Hyderabadi' 'Parsi Recipes' 'Sri Lanka' 'Sindhi' 'Mediterranean'
 'Uttar Pradesh' 'Udupi' 'Fusion' 'Maharashtrian Recipes' 'Rajasthani'
 'Indonesian' 'Middle Eastern' 'Gujarati Recipes\ufeff' 'Punjabi'
 'Malaysian' 'Awadhi' 'Malvani' 'South Karnataka' 'Bihari' 'Sri Lankan'
 'Arab' nan 'Uttarakhand - North Kumaon' 'North Karnataka' 'Vietnamese'
 'American' 'North East India Recipes' 'Nepalese' 'Cantonese' 'Afghan'
 'Hunan' 'Kongunadu' 'Pakistani' 'Assamese' 'Caribbean ' 'Korean'
 'Lucknowi' 'Haryana' 'Caribbean' 'Uttarakhand-North Kumao

In [13]:
is_null = data_analyze.check_data(data)
is_null.sum()

name                     0
description              1
cuisine                 30
course                  92
diet                    76
ingredients_name         2
ingredients_quantity     2
prep_time (in mins)     16
cook_time (in mins)     16
instructions             0
image_url                0
dtype: int64

In [15]:
# Разделение столбцов на числовые и категориальные
numeric_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_columns = data.select_dtypes(include=['object']).columns.tolist()

In [17]:
# Обработка пропущенных значений для числовых столбцов
if data[numeric_columns].isnull().sum().any():
    data[numeric_columns] = data[numeric_columns].fillna(data[numeric_columns].median())

# Обработка пропущенных значений для категориальных столбцов
if data[categorical_columns].isnull().sum().any():
    data[categorical_columns] = data[categorical_columns].fillna(data[categorical_columns].mode().iloc[0])

In [19]:
is_null = data_analyze.check_data(data)
is_null.sum()

name                    0
description             0
cuisine                 0
course                  0
diet                    0
ingredients_name        0
ingredients_quantity    0
prep_time (in mins)     0
cook_time (in mins)     0
instructions            0
image_url               0
dtype: int64

In [93]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from sklearn.ensemble import GradientBoostingClassifier, AdaBoostClassifier, ExtraTreesClassifier
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from catboost import CatBoostClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier

# Предположим, что 'ingredients' - это колонка с ингредиентами, а 'cuisine' - класс (тип кухни)

X = data['ingredients_name'] # Входные данные
y = data['cuisine'] # Выходные данные

'''
X = data.drop(columns=[target_column])
y = data[target_column]

# Преобразование ингредиентов в числовой формат (например, с помощью CountVectorizer)
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X_vectorized = vectorizer.fit_transform(X)
'''

from sklearn.preprocessing import LabelEncoder, StandardScaler

# Кодирование категориальных признаков с использованием LabelEncoder
label_encoders = {}
for column in categorical_columns:
    le = LabelEncoder()
    data[column] = le.fit_transform(data[column])
    label_encoders[column] = le

# Разделение на обучающие и тестовые наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

ValueError: Found input variables with inconsistent numbers of samples: [10, 4986]

In [89]:
type(X)

pandas.core.frame.DataFrame

In [91]:
type(X_vectorized)

scipy.sparse._csr.csr_matrix

In [85]:
# Инициализация классификаторов
classifiers = {
    #"Gradient Boosting": GradientBoostingClassifier(),
    "CatBoost": CatBoostClassifier(silent=True),
    "AdaBoost": AdaBoostClassifier(),
    "Extra Trees": ExtraTreesClassifier(),
    "Quadratic Discriminant Analysis": QuadraticDiscriminantAnalysis(),
    "KNeighbors": KNeighborsClassifier(),
    "Decision Tree": DecisionTreeClassifier(),
    "SVM": SVC(kernel='linear'),
    "XGBoost": XGBClassifier(use_label_encoder=False, eval_metric='mlogloss'),
    "LightGBM": LGBMClassifier(),
}

# Словарь для хранения метрик
metrics = {}


In [87]:

for name, clf in classifiers.items():
    # Обучение модели
    clf.fit(X_train, y_train)
    '''
    # Прогнозирование
    y_pred = clf.predict(X_test)
    
    # Сохранение метрик
    accuracy = accuracy_score(y_test, y_pred)
    metrics[name] = {
        'Accuracy': accuracy,
        'Report': classification_report(y_test, y_pred)
    }'''

CatBoostError: Bad value for num_feature[non_default_doc_idx=0,feature_idx=0]="Chatpata Peanut Salad - Peanut Chaat Recipe": Cannot convert 'b'Chatpata Peanut Salad - Peanut Chaat Recipe'' to float

In [None]:
# Вывод метрик
for name, metric in metrics.items():
    print(f"{name}:\nAccuracy: {metric['Accuracy']:.4f}")
    print(metric['Report'])

In [29]:
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Кодирование категориальных признаков с использованием LabelEncoder
label_encoders = {}
for column in categorical_columns:
    le = LabelEncoder()
    data[column] = le.fit_transform(data[column])
    label_encoders[column] = le

# Масштабирование числовых признаков с использованием StandardScaler
scaler = StandardScaler()
data[numeric_columns] = scaler.fit_transform(data[numeric_columns])

In [31]:
# Определение признаков и целевой переменной
X = data.drop(columns=[target_column])
y = data[target_column]

In [33]:
# Проверка целевой переменной на многоклассовость
num_classes = len(y.unique())
print(f"Количество классов: {num_classes}")

Количество классов: 76


In [43]:
import numpy as np
from sklearn.model_selection import train_test_split, StratifiedKFold

# Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42#, stratify=y
)

In [49]:
!pip install catboost

Collecting catboost
  Downloading catboost-1.2.7-cp312-cp312-win_amd64.whl.metadata (1.2 kB)
Collecting graphviz (from catboost)
  Downloading graphviz-0.20.3-py3-none-any.whl.metadata (12 kB)
Downloading catboost-1.2.7-cp312-cp312-win_amd64.whl (101.7 MB)
   ---------------------------------------- 0.0/101.7 MB ? eta -:--:--
   ---------------------------------------- 0.0/101.7 MB ? eta -:--:--
   ---------------------------------------- 0.0/101.7 MB ? eta -:--:--
   ---------------------------------------- 0.3/101.7 MB ? eta -:--:--
   ---------------------------------------- 0.3/101.7 MB ? eta -:--:--
   ---------------------------------------- 0.3/101.7 MB ? eta -:--:--
   ---------------------------------------- 0.5/101.7 MB 524.3 kB/s eta 0:03:14
   ---------------------------------------- 0.5/101.7 MB 524.3 kB/s eta 0:03:14
   ---------------------------------------- 0.8/101.7 MB 578.7 kB/s eta 0:02:55
   ---------------------------------------- 0.8/101.7 MB 578.7 kB/s eta 0:02:

In [66]:
from sklearn.ensemble import (
    GradientBoostingClassifier,
    AdaBoostClassifier,
    ExtraTreesClassifier,
    StackingClassifier
)
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from catboost import CatBoostClassifier
from xgboost import XGBClassifier
from sklearn.svm import SVC

# Определение базовых классификаторов
base_classifiers = [
    ('gradient_boosting', GradientBoostingClassifier(random_state=42)),
    ('catboost', CatBoostClassifier(verbose=0, random_state=42)),
    ('ada_boost', AdaBoostClassifier(random_state=42)),
    ('extra_trees', ExtraTreesClassifier(random_state=42)),
    ('quadratic_discriminant', QuadraticDiscriminantAnalysis()),
    ('k_neighbors', KNeighborsClassifier()),
    ('decision_tree', DecisionTreeClassifier(random_state=42)),
    ('svm', SVC(kernel='linear', probability=True, random_state=42))
]

In [69]:
# Определение мета-классификатора
meta_classifier = LogisticRegression(random_state=42, max_iter=1000)

In [71]:
# Создание StackingClassifier
stacking_clf = StackingClassifier(
    estimators=base_classifiers,
    final_estimator=meta_classifier,
    cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
    n_jobs=-1,
    passthrough=False
)

In [77]:
# Обучение StackingClassifier
stacking_clf.fit(X_train, y_train)

ValueError: y has only 1 sample in class 0, covariance is ill defined.

In [75]:
# Прогнозирование на тестовых данных
y_pred = stacking_clf.predict(X_test)

AttributeError: 'StackingClassifier' object has no attribute 'estimators_'

In [81]:
from sklearn.metrics import accuracy_score,  classification_report

# Создание и обучение классификатора градиентного бустинга
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
clf.fit(X_train, y_train)

# Прогнозирование и оценка точности
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f'Accuracy: {accuracy:.2f}')

# Вывод полного отчета
report = classification_report(y_test, y_pred)
print(report)

Accuracy: 0.40
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         1
           1       0.00      0.00      0.00         2
           2       0.00      0.00      0.00         1
           3       0.63      0.57      0.60        21
           5       0.18      0.17      0.17        12
           6       0.57      0.80      0.67         5
           7       0.36      0.62      0.45         8
           8       0.00      0.00      0.00         0
           9       0.50      0.19      0.28        36
          10       0.75      0.27      0.40        11
          11       0.00      0.00      0.00         1
          12       0.00      0.00      0.00         2
          13       0.00      0.00      0.00         1
          15       0.47      0.56      0.51        16
          16       0.00      0.00      0.00        12
          17       0.00      0.00      0.00         2
          18       0.48      0.59      0.53       218
          19

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
