In [1]:
import data_loader
import data_analyze
import data_visual
import log

In [3]:
"""
dataset from https://www.kaggle.com/datasets/kaggle/recipe-ingredients-dataset
"""
file_path = "Food_Recipe.csv"

In [5]:
try:
    data = data_loader.load_data_csv(file_path) 
    log.add_log_info('Чтение файла прошло успешно')
except FileNotFoundError:
    log.add_log_error('Файл не найден')
except Exception as e:
    log.add_log_error(f'Произошла ошибка: {e}')
finally:
    log.add_log_debug('finally_after_load_data_csv')
    print(data.head())

                                                name  \
0  Dim Posto Recipe - Bengali Egg Curry With Popp...   
1              Roasted Vegetables Pizza Pouch Recipe   
2  Restaurant Style Paneer Butter Masala Recipe |...   
3   Shanghai Style Sweet And Spicy Crispy Lotus Stem   
4                       Mixed Vegetable Handi Recipe   

                                         description               cuisine  \
0  Dim Posto is a delicious Bengali Style Egg Cur...       Bengali Recipes   
1  Roasted Vegetables Pizza Pouch is a delicious,...       Italian Recipes   
2  Paneer Butter Masala also known as Paneer Maka...  North Indian Recipes   
3  Shanghai Style Sweet And Spicy Crispy Lotus St...               Chinese   
4  If you feel like eating something exotic, some...  North Indian Recipes   

      course         diet                                   ingredients_name  \
0     Dinner   Eggetarian  Whole Eggs, Potatoes (Aloo), Poppy seeds, Home...   
1  Appetizer   Vegetarian  Homemad

In [7]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.ensemble import (
    GradientBoostingClassifier,
    AdaBoostClassifier,
    ExtraTreesClassifier,
    StackingClassifier
)
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from catboost import CatBoostClassifier
from xgboost import XGBClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.feature_extraction.text import TfidfVectorizer

# Игнорирование предупреждений (опционально)
warnings.filterwarnings('ignore')

# Проверка столбцов
print("Столбцы в наборе данных:")

print(data.columns)

is_null = data_analyze.check_data(data)
is_null.sum()

Столбцы в наборе данных:
Index(['name', 'description', 'cuisine', 'course', 'diet', 'ingredients_name',
       'ingredients_quantity', 'prep_time (in mins)', 'cook_time (in mins)',
       'instructions', 'image_url'],
      dtype='object')


name                     0
description              1
cuisine                 30
course                  92
diet                    76
ingredients_name         2
ingredients_quantity     2
prep_time (in mins)     16
cook_time (in mins)     16
instructions             0
image_url                0
dtype: int64

In [9]:
# Разделение столбцов на числовые и категориальные
numeric_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_columns = data.select_dtypes(include=['object']).columns.tolist()

In [11]:
# Обработка пропущенных значений для числовых столбцов
if data[numeric_columns].isnull().sum().any():
    data[numeric_columns] = data[numeric_columns].fillna(data[numeric_columns].median())

# Обработка пропущенных значений для категориальных столбцов
if data[categorical_columns].isnull().sum().any():
    data[categorical_columns] = data[categorical_columns].fillna(data[categorical_columns].mode().iloc[0])

In [13]:
is_null = data_analyze.check_data(data)
is_null.sum()

name                    0
description             0
cuisine                 0
course                  0
diet                    0
ingredients_name        0
ingredients_quantity    0
prep_time (in mins)     0
cook_time (in mins)     0
instructions            0
image_url               0
dtype: int64

In [15]:
# Кодирование категориальных признаков с использованием LabelEncoder
label_encoders = {}
for column in categorical_columns:
    le = LabelEncoder()
    data[column] = le.fit_transform(data[column])
    label_encoders[column] = le
print("Кодирование категориальных признаков с использованием LabelEncoder")

Кодирование категориальных признаков с использованием LabelEncoder


In [17]:
X = data.ingredients_name
y = data.cuisine

In [19]:
# Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print("Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов")

Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов


In [21]:
# Определение базовых классификаторов
base_classifiers = [
    ('gradient_boosting', GradientBoostingClassifier(random_state=42)),
    ('catboost', CatBoostClassifier(verbose=0, random_state=42)),
    ('ada_boost', AdaBoostClassifier(random_state=42)),
    ('extra_trees', ExtraTreesClassifier(random_state=42)),
    ('quadratic_discriminant', QuadraticDiscriminantAnalysis()),
    ('k_neighbors', KNeighborsClassifier()),
    ('decision_tree', DecisionTreeClassifier(random_state=42)),
    ('xgboost', XGBClassifier(use_label_encoder=False, eval_metric='mlogloss', random_state=42)),
    ('svm', SVC(kernel='linear', probability=True, random_state=42))
]
print("Определение базовых классификаторов")

Определение базовых классификаторов


In [23]:
# Определение мета-классификатора
meta_classifier = LogisticRegression(random_state=42, max_iter=1000)
print("Определение мета-классификатора")

Определение мета-классификатора
