In [1]:
 !pip install gspread google-auth pandas --q


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [1]:
import pandas as pd
import numpy as np
from sshtunnel import SSHTunnelForwarder
import psycopg2
from sqlalchemy import create_engine
import sqlalchemy
from getpass import getpass
from dotenv import load_dotenv
import re
import os
from openai import OpenAI
import requests
import json
import time
from tqdm import tqdm
import aiohttp
import asyncio
from tqdm import tqdm
tqdm.pandas()  # активируем прогресс-бар для pandas
import gspread
from google.oauth2 import service_account

from google.oauth2.service_account import Credentials
from sklearn.metrics import (
    confusion_matrix, 
    accuracy_score, 
    precision_score, 
    recall_score, 
    f1_score, 
    classification_report
)
from sklearn.utils import resample
import matplotlib.pyplot as plt
import seaborn as sns

# по умолчанию отображать до 50 колонок
pd.options.display.max_columns = 50  

# увеличиваем максимальную ширину столбца, чтобы видеть больше данных
pd.set_option('display.max_colwidth', 130) 

# Отключаем уведомления о том, что в будущих версиях библиотеки будут отключены
# warnings.filterwarnings('ignore', category=FutureWarning) 

# Объявим функции

In [2]:
# Загружаем переменные окружения
load_dotenv('keys.env')

# Ваш API ключ DeepSeek
API_KEY = os.getenv('DEEPSEEK_API_KEY')
API_URL = "https://api.deepseek.com/v1/chat/completions"  # Проверьте актуальный URL в документации

db_password = os.getenv('DB_PASSWORD')

# Формируем строку подключения
engine = create_engine(f'postgresql+psycopg2://admin:{db_password}@localhost/proverkacheka')

In [3]:
def select_db(query, engine):
    """
    подключение к базе данных через SSH туннель выполнение SQL-запроса
    """
    os.system('pkill -f "ssh -fN -L 5432:localhost:5432"')
    os.system('ssh -fN -L 5432:localhost:5432 data_insight')
    return pd.read_sql_query(query, engine)

In [70]:
# Настройки сессии post (асинхронные запросы)
async def async_ask_deepseek(session, message, max_retries=3):
    headers = {
        "Content-Type": "application/json",
        "Authorization": f"Bearer {API_KEY}"
    }
    # настройки для бинарной классификации
    data = {
    "model": "deepseek-chat",
    "messages": [{"role": "user", "content": message}],
    "temperature": 0.2,
    "max_tokens": 5, 
    "stop": ["\n"]   
 }  
    
    for attempt in range(max_retries):
        try:
            async with session.post(API_URL, headers=headers, json=data, timeout=aiohttp.ClientTimeout(total=60)) as response:
                if response.status == 200:
                    result = await response.json()
                    return result['choices'][0]['message']['content']
                else:
                    print(f"Ошибка HTTP {response.status}: {await response.text()}")
                    if response.status in [429, 500, 502, 503]:  # Повторяемые ошибки
                        await asyncio.sleep(2 ** attempt + random.random())
                        continue
                    else:
                        return f"Ошибка: HTTP {response.status}"
        
        except asyncio.TimeoutError:
            print(f"Таймаут на попытке {attempt + 1}")
            if attempt < max_retries - 1:
                await asyncio.sleep(2 ** attempt)
                continue
            return "Ошибка: Таймаут запроса"
        
        except aiohttp.ClientPayloadError as e:
            print(f"Ошибка чтения ответа на попытке {attempt + 1}: {e}")
            if attempt < max_retries - 1:
                await asyncio.sleep(2 ** attempt)
                continue
            return "Ошибка: Не удалось прочитать ответ"
        
        except Exception as e:
            print(f"Неожиданная ошибка на попытке {attempt + 1}: {e}")
            if attempt < max_retries - 1:
                await asyncio.sleep(2 ** attempt)
                continue
            return f"Ошибка: {str(e)}"
    
    return "Ошибка: Превышено количество попыток"

# Асинхронная классификация с прогресс-баром и сохранением порядка
async def async_classify_with_progress(prompt, categories_dict, df, batch_size=5, max_concurrent=5):
    """
    Асинхронная классификация с прогресс-баром и сохранением порядка
    """
    # Словарь переводим в строку для DeepSeek
    categories_list = [f"{cat_id} - {cat_description}" for cat_id, cat_description in categories_dict.items()]
    categories_text = ", ".join(categories_list)
    
    # Сохраняем порядок для асинхронной работы
    original_index = df.index
    # Все товары в список
    texts = df['name'].tolist() 
    
    async with aiohttp.ClientSession(connector=aiohttp.TCPConnector(limit=100, limit_per_host=10)) as session:
        tasks = []
        for text in texts:
            full_prompt = prompt.format(categories=categories_text, text=text)
            task = async_ask_deepseek(session, full_prompt)
            tasks.append(task)
        
        # Ограничиваем одновременные запросы
        semaphore = asyncio.Semaphore(max_concurrent)
        
        async def process_with_progress(task, pbar):
            async with semaphore:
                result = await task
                pbar.update(1)
                return result
        
        # Выполняем с прогресс-баром
        results = []
        with tqdm(total=len(tasks), desc="Classifying") as pbar:
            # Обрабатываем батчами для стабильности
            for i in range(0, len(tasks), batch_size):
                batch_tasks = tasks[i:i + batch_size]
                batch_results = await asyncio.gather(
                    *[process_with_progress(task, pbar) for task in batch_tasks],
                    return_exceptions=True
                )
                
                # Обрабатываем исключения в результатах
                processed_results = []
                for result in batch_results:
                    if isinstance(result, Exception):
                        print(f"Исключение в задаче: {result}")
                        processed_results.append("Ошибка при обработке")
                    else:
                        processed_results.append(result)
                
                results.extend(processed_results)
                
                # Небольшая пауза между батчами
                if i + batch_size < len(tasks):
                    await asyncio.sleep(1)
    
    # Возвращаем Series с исходными индексами
    return pd.Series(results, index=original_index)

# Разметим категории с помощью DeepSeek
async def main():
    try:
        results = await async_classify_with_progress(prompt, categories, df, batch_size=10, max_concurrent=3)
        df['predicted'] = results
        print("Классификация завершена успешно!")
        
        # Сохраняем промежуточные результаты
        df.to_csv('classified_results.csv', index=False)
        
    except Exception as e:
        print(f"Критическая ошибка в main: {e}")


In [5]:
def load_google_sheet(spreadsheet_id, worksheet_name, credentials_file='credentials.json'):
    """
    Загружает данные из Google Sheets в pandas DataFrame
    
    Parameters:
    spreadsheet_id (str): ID Google таблицы
    worksheet_name (str): Название листа или 'gid' листа
    credentials_file (str): Путь к файлу credentials.json
    
    Returns:
    pd.DataFrame: DataFrame с данными из таблицы
    """
    # Авторизация
    SCOPES = ['https://www.googleapis.com/auth/spreadsheets.readonly',
              'https://www.googleapis.com/auth/drive']
    
    creds = Credentials.from_service_account_file(credentials_file, scopes=SCOPES)
    client = gspread.authorize(creds)
    
    # Открываем таблицу и лист
    spreadsheet = client.open_by_key(spreadsheet_id)
    
    # Пробуем открыть лист по названию, если не получается - по ID
    try:
        worksheet = spreadsheet.worksheet(worksheet_name)
    except gspread.exceptions.WorksheetNotFound:
        # Если worksheet_name - число (gid), используем get_worksheet_by_id
        if worksheet_name.isdigit():
            worksheet = spreadsheet.get_worksheet_by_id(int(worksheet_name))
        else:
            raise ValueError(f"Лист с названием или ID '{worksheet_name}' не найден")
    
    # Получаем данные
    data = worksheet.get_all_records()
    df = pd.DataFrame(data)
    
    return df

## Загрузим датасеты по API Google_sheets 

загрузим данные с ручной разметкой

In [10]:
# https://docs.google.com/spreadsheets/d/1jdF79NSN22TTLH9EWezOmTBpKGbbY78KqpQ3tVOnXC0/edit?gid=477734183#gid=477734183
df1 = load_google_sheet( spreadsheet_id = '1jdF79NSN22TTLH9EWezOmTBpKGbbY78KqpQ3tVOnXC0'
                        , worksheet_name = 'result'
                        , credentials_file='credentials.json')

print(f"Размер данных: {df1.shape}")
df1.head(3)

Размер данных: (3000, 6)


Unnamed: 0,url,inn,price,name,flag,sourse
0,https://proverkacheka.com/check/28068853-23ebbc15,7704218694,24210,200Г ТОМАТЫ ЧЕРРИ ОРАНЖЕВЫЕ СЛАДКАЯ ЯГОДА,0,1
1,https://proverkacheka.com/check/28610397-cd7bfb7d,6678098280,165000,Оплата поездки на автобусе,0,1
2,https://proverkacheka.com/check/28618238-20f0d787,7709068298,20800,1/1 Брусника лист,0,1


In [8]:
# https://docs.google.com/spreadsheets/d/1sDLwmtJN_e-cAMmzZdTKM4i8O6LX1JXd0LnDAtv7OIE/edit?gid=921451212#gid=921451212
df2 = load_google_sheet( spreadsheet_id = '1sDLwmtJN_e-cAMmzZdTKM4i8O6LX1JXd0LnDAtv7OIE'
                        , worksheet_name = 'result'
                        , credentials_file='credentials.json')

print(f"Размер данных: {df2.shape}")
df2.head(3)

Размер данных: (3000, 5)


Unnamed: 0,inn,price,name,flag,sourse
0,7725776121,800,4620325695550 пакет,0,2
1,7705935687,59900,футболка o'stin slm48123922,1,2
2,7702764909,9600,9: 01705000 нейтрализатор запаха для обуви a27189,0,2


In [11]:
# https://docs.google.com/spreadsheets/d/186V1d577OLB8HQFnM1bVVaZZp85Q7hUzfg6LQSm7eg0/edit?gid=884186924#gid=884186924
df3 = load_google_sheet( spreadsheet_id = '186V1d577OLB8HQFnM1bVVaZZp85Q7hUzfg6LQSm7eg0'
                        , worksheet_name = 'result'
                        , credentials_file='credentials.json')

print(f"Размер данных: {df3.shape}")
df3.head(3)

Размер данных: (3060, 5)


Unnamed: 0,inn,price,name,flag,sourse
0,1648054022,7900,"подставка-держатель для телефона, универсальная (цвет: черный)",0,3
1,1648054022,76300,"влажный корм whiskas для котят от 1 до 12 месяцев, рагу с ягненком, 28 шт по 75г",0,3
2,1648054022,11900,"напиток любимый ""апельсиновое манго"" с мякотью, 0,95л",0,3


**проанализируем тип данных в ячейках перед объединением**

In [12]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   url     3000 non-null   object
 1   inn     3000 non-null   int64 
 2   price   3000 non-null   int64 
 3   name    3000 non-null   object
 4   flag    3000 non-null   int64 
 5   sourse  3000 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 140.8+ KB


In [13]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   inn     3000 non-null   int64 
 1   price   3000 non-null   int64 
 2   name    3000 non-null   object
 3   flag    3000 non-null   int64 
 4   sourse  3000 non-null   int64 
dtypes: int64(4), object(1)
memory usage: 117.3+ KB


In [14]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3060 entries, 0 to 3059
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   inn     3060 non-null   int64 
 1   price   3060 non-null   int64 
 2   name    3060 non-null   object
 3   flag    3060 non-null   int64 
 4   sourse  3060 non-null   int64 
dtypes: int64(4), object(1)
memory usage: 119.7+ KB


In [77]:
# объединим датафреймы 
df = pd.concat([df1
                , df2
                , df3]
                , ignore_index=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9060 entries, 0 to 9059
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   url     3000 non-null   object
 1   inn     9060 non-null   int64 
 2   price   9060 non-null   int64 
 3   name    9060 non-null   object
 4   flag    9060 non-null   int64 
 5   sourse  9060 non-null   int64 
dtypes: int64(4), object(2)
memory usage: 424.8+ KB


In [16]:
# Приводим к нижнему регистру name
df['name'] = df['name'].apply(lambda x: x.lower() if isinstance(x, str) else x)
df.sample(3)

Unnamed: 0,url,inn,price,name,flag,sourse
3808,,7725776121,99900,6956104504828 шорты мужские,1,2
508,https://proverkacheka.com/check/31902940-d899c6fd,6911029284,44000,"швеллер 15*15*15*1,5 шв 13.2000.500",0,1
7062,,7705935687,603000,рюкзак nike wr419657473,1,3


In [17]:
# датасет для тестовой разметки
df100 = df.sample(100, random_state = 42)

In [18]:
# Загрузим словарь категорий из GoogleSheets по API
categories = {}

# Формируем промт с запросом

prompt = '''
Ты AI-ассистент маркетолога. Задача классифицировать товары на fashion (1) и не-fashion (0).

КРИТЕРИИ:
FASHION (1):
- Праздничная, повседневная, домашняя одежда и обувь для детей, мужчин, женщин, унисекс
- Нижнее белье, купальники
- Спортивная одежда и обувь, которые можно носить каждый день (кроссовки, кеды, куртки, носки, брюки, рюкзаки)
- Аксессуары, солнцезащитные очки, зонты, кошельки

НЕ-FASHION (0):
- Не-одежда
- Сборы, платежи
- Эротические костюмы
- Аксессуары для волос
- Средства по уходу за одеждой и обувью
- Ювелирные изделия, бижутерия
- Карнавальные тематические костюмы
- Одежда/обувь для рыбалки и охоты
- Ортопедическая одежда и обувь
- Рабочая и профессиональная одежда, СИЗ
- Спортивная экипировка

ИНСТРУКЦИЯ:
- Верни ТОЛЬКО одно число: 0 или 1
- Без объяснений, без дополнительного текста
- Без переносов строк
- Без точек, запятых или других символов

Товар: "{text}"

Ответ:'''

In [25]:
# Разметим категории с помощью DeepSeek
async def main():
    try:
        results = await async_classify_with_progress(prompt, categories, df)
        df['predicted'] = results
        print("Классификация завершена успешно!")
        
        # # Сохраняем результаты
        # df10.to_excel('classified_results.xlsx', index=False)
        
    except Exception as e:
        print(f"Критическая ошибка в main: {e}")

await main()

Classifying:   4%|▍         | 346/9060 [02:50<1:11:00,  2.05it/s]

Ошибка HTTP 404: 


Classifying:   5%|▌         | 466/9060 [03:51<1:06:55,  2.14it/s]

Ошибка HTTP 404: 


Classifying:   6%|▌         | 561/9060 [04:40<1:13:02,  1.94it/s]

Ошибка HTTP 404: 


Classifying:   9%|▉         | 821/9060 [06:48<1:00:18,  2.28it/s]

Ошибка HTTP 404: 


Classifying:   9%|▉         | 841/9060 [06:58<59:47,  2.29it/s]  

Ошибка HTTP 404: 


Classifying:  21%|██▏       | 1931/9060 [17:03<1:04:09,  1.85it/s]

Ошибка HTTP 404: 


Classifying:  27%|██▋       | 2421/9060 [21:48<59:38,  1.86it/s]  

Ошибка HTTP 404: 


Classifying:  29%|██▉       | 2626/9060 [23:43<1:15:02,  1.43it/s]

Ошибка HTTP 404: 


Classifying:  31%|███▏      | 2851/9060 [25:54<48:49,  2.12it/s]  

Ошибка HTTP 404: 


Classifying:  32%|███▏      | 2896/9060 [26:17<49:01,  2.10it/s]  

Ошибка HTTP 404: 


Classifying:  34%|███▎      | 3036/9060 [27:32<49:36,  2.02it/s]  

Ошибка HTTP 404: 


Classifying:  34%|███▍      | 3081/9060 [27:57<54:31,  1.83it/s]  

Ошибка HTTP 404: 


Classifying:  34%|███▍      | 3111/9060 [28:12<56:18,  1.76it/s]  

Ошибка HTTP 404: 


Classifying:  35%|███▌      | 3206/9060 [29:01<51:13,  1.90it/s]  

Ошибка HTTP 404: 


Classifying:  36%|███▋      | 3290/9060 [29:48<34:29,  2.79it/s]  

Ошибка HTTP 404: 


Classifying:  38%|███▊      | 3401/9060 [30:46<44:09,  2.14it/s]  

Ошибка HTTP 404: 


Classifying:  39%|███▉      | 3551/9060 [32:03<43:46,  2.10it/s]  

Ошибка HTTP 404: 


Classifying:  42%|████▏     | 3806/9060 [34:14<38:51,  2.25it/s]  

Ошибка HTTP 404: 


Classifying:  43%|████▎     | 3866/9060 [34:45<40:49,  2.12it/s]  

Ошибка HTTP 404: 


Classifying:  43%|████▎     | 3916/9060 [35:11<40:57,  2.09it/s]  

Ошибка HTTP 404: 


Classifying:  46%|████▌     | 4156/9060 [37:11<40:17,  2.03it/s]  

Ошибка HTTP 404: 


Classifying:  48%|████▊     | 4336/9060 [38:45<36:41,  2.15it/s]  

Ошибка HTTP 404: 


Classifying:  50%|████▉     | 4516/9060 [40:19<35:06,  2.16it/s]  

Ошибка HTTP 404: 


Classifying:  52%|█████▏    | 4706/9060 [41:58<35:56,  2.02it/s]  

Ошибка HTTP 404: 


Classifying:  63%|██████▎   | 5731/9060 [50:43<29:12,  1.90it/s]

Ошибка HTTP 404: 


Classifying:  68%|██████▊   | 6186/9060 [54:39<22:09,  2.16it/s]

Ошибка HTTP 404: 


Classifying:  74%|███████▍  | 6691/9060 [59:10<20:04,  1.97it/s]

Ошибка HTTP 404: 


Classifying:  74%|███████▍  | 6711/9060 [59:21<19:33,  2.00it/s]

Ошибка HTTP 404: 


Classifying:  76%|███████▌  | 6861/9060 [1:00:40<20:38,  1.78it/s]

Ошибка HTTP 404: 


Classifying:  78%|███████▊  | 7046/9060 [1:02:14<15:59,  2.10it/s]

Ошибка HTTP 404: 


Classifying:  82%|████████▏ | 7411/9060 [1:05:21<14:42,  1.87it/s]

Ошибка HTTP 404: 


Classifying:  82%|████████▏ | 7436/9060 [1:05:33<11:49,  2.29it/s]

Ошибка HTTP 404: 


Classifying:  85%|████████▌ | 7726/9060 [1:08:05<10:31,  2.11it/s]

Ошибка HTTP 404: 


Classifying:  86%|████████▌ | 7806/9060 [1:08:46<09:42,  2.15it/s]

Ошибка HTTP 404: 


Classifying:  87%|████████▋ | 7916/9060 [1:09:45<08:28,  2.25it/s]

Ошибка HTTP 404: 


Classifying:  90%|█████████ | 8156/9060 [1:11:49<07:15,  2.08it/s]

Ошибка HTTP 404: 


Classifying:  90%|█████████ | 8191/9060 [1:12:06<06:38,  2.18it/s]

Ошибка HTTP 404: 


Classifying:  92%|█████████▏| 8325/9060 [1:13:13<04:37,  2.65it/s]

Ошибка HTTP 404: 


Classifying:  96%|█████████▌| 8661/9060 [1:16:05<03:36,  1.84it/s]

Ошибка HTTP 404: 


Classifying:  98%|█████████▊| 8871/9060 [1:17:54<01:36,  1.96it/s]

Ошибка HTTP 404: 


Classifying:  98%|█████████▊| 8881/9060 [1:18:00<01:41,  1.77it/s]

Ошибка HTTP 404: 


Classifying: 100%|█████████▉| 9055/9060 [1:19:26<00:01,  2.93it/s]

Ошибка HTTP 404: 


Classifying: 100%|██████████| 9060/9060 [1:19:28<00:00,  1.90it/s]

Классификация завершена успешно!





In [28]:
q=df.copy()
len(q)

9060

Оценим количество строк, пропущенных из-за сбоя соединения 

In [55]:
# потеряно строк из-за сбоя соединения
print('потеряно строк из-за сбоя соединения', len(df.query("predicted == 'Ошибка: HTTP 404'")))

# удалим потерянные строки
df = df.query("predicted != 'Ошибка: HTTP 404'")

потеряно строк из-за сбоя соединения 42


In [56]:
# приведем тип данных к интеджер
df['predicted'] = df['predicted'].astype(int)

# Сохраним размеченные данные для соотнесения ручной разметки и разметки LLM

In [57]:
df.to_csv('df_9000.csv', index=False, sep=';', encoding='utf-8')

<class 'pandas.core.frame.DataFrame'>
Index: 9018 entries, 0 to 9059
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   url        2990 non-null   object
 1   inn        9018 non-null   int64 
 2   price      9018 non-null   int64 
 3   name       9018 non-null   object
 4   flag       9018 non-null   int64 
 5   sourse     9018 non-null   int64 
 6   predicted  9018 non-null   int64 
dtypes: int64(5), object(2)
memory usage: 563.6+ KB


# Оценим качество разметки 

In [58]:
# загрузим результаты, проверенные руками
# https://docs.google.com/spreadsheets/d/1dcjsEUvei5tFVmMHibw0wSm6QyvcE1J8V6Rt6ISxMjg/edit?usp=sharing
df_9000 = load_google_sheet( spreadsheet_id = '1dcjsEUvei5tFVmMHibw0wSm6QyvcE1J8V6Rt6ISxMjg'
                        , worksheet_name = 'fixed'
                        , credentials_file='credentials.json')

print(f"Размер данных: {df.shape}")
df_9000.head(3)

Размер данных: (9018, 7)


Unnamed: 0,url,sourse,inn,price,name,flag,predicted,Ошибка руками,Ошибка LLM
0,https://proverkacheka.com/check/28068853-23ebbc15,1,7704218694,24210,200г томаты черри оранжевые сладкая ягода,0,0,,
1,https://proverkacheka.com/check/28610397-cd7bfb7d,1,6678098280,165000,оплата поездки на автобусе,0,0,,
2,https://proverkacheka.com/check/28618238-20f0d787,1,7709068298,20800,1/1 брусника лист,0,0,,


In [59]:
# проверим типы данных
df_9000.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9018 entries, 0 to 9017
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   url            9018 non-null   object
 1   sourse         9018 non-null   int64 
 2   inn            9018 non-null   int64 
 3   price          9018 non-null   int64 
 4   name           9018 non-null   object
 5   flag           9018 non-null   int64 
 6   predicted      9018 non-null   int64 
 7   Ошибка руками  9018 non-null   object
 8   Ошибка LLM     9018 non-null   object
dtypes: int64(5), object(4)
memory usage: 634.2+ KB


In [60]:
y_true = df_9000['flag']
y_pred = df_9000['predicted']

In [61]:
# Базовые метрики для бина. Бинарная классификация
print('Метрики для Test_1 (Бинарная классификация)')
print('-' * 50)

f1 = f1_score(y_true, y_pred, average='binary')
recall = recall_score(y_true, y_pred, average='binary', zero_division=0)
precision = precision_score(y_true, y_pred, average='binary', zero_division=0)
accuracy = accuracy_score(y_true, y_pred,)

print(f'F1-score: {f1:.2f}')
print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')
print(f'Accuracy: {accuracy:.2f}')


# Дополнительно: матрица ошибок и полный отчет
print('\nConfusion Matrix:')
print(confusion_matrix(y_true, y_pred,))

Метрики для Test_1 (Бинарная классификация)
--------------------------------------------------
F1-score: 0.96
Precision: 0.96
Recall: 0.96
Accuracy: 0.98

Confusion Matrix:
[[5785  112]
 [ 113 3008]]


In [76]:
import asyncio
import aiohttp
import pandas as pd
import random
from tqdm import tqdm

async def async_ask_deepseek(session, message, max_retries=2):
    """
    Асинхронный запрос к DeepSeek API для классификации текста
    Оптимизирован для скорости с сохранением надежности
    """
    headers = {
        "Content-Type": "application/json",
        "Authorization": f"Bearer {API_KEY}"
    }
    
    # Оптимизированные настройки для быстрой классификации
    data = {
        "model": "deepseek-chat",
        "messages": [{"role": "user", "content": message}],
        "temperature": 0.1,        # Низкая случайность для консистентности результатов
        "max_tokens": 3,           # Сокращено для возврата только ID категории
        "stop": ["\n", ".", ","]   # Стоп-символы для быстрого завершения генерации
    }  
    
    # Цикл повторных попыток при временных сбоях
    for attempt in range(max_retries):
        try:
            # Асинхронный POST-запрос с сокращенным таймаутом
            async with session.post(API_URL, headers=headers, json=data, 
                                  timeout=aiohttp.ClientTimeout(total=15)) as response:
                
                # Успешный ответ - извлекаем результат
                if response.status == 200:
                    result = await response.json()
                    return result['choices'][0]['message']['content']
                else:
                    print(f"Ошибка HTTP {response.status}")
                    
                    # Повторяемые ошибки - делаем повторную попытку
                    if response.status in [429, 500, 502, 503]:
                        # Сокращенный экспоненциальный бэкофф с случайной добавкой
                        wait_time = min(1 * (attempt + 1) + random.random(), 3)
                        await asyncio.sleep(wait_time)
                        continue
                    else:
                        # Критические ошибки - возвращаем ошибку
                        return f"Ошибка: HTTP {response.status}"
        
        # Обработка таймаута запроса
        except asyncio.TimeoutError:
            print(f"Таймаут на попытке {attempt + 1}")
            if attempt < max_retries - 1:
                # Короткая пауза перед повторной попыткой
                await asyncio.sleep(1 * (attempt + 0.5))
                continue
            return "Ошибка: Таймаут"
        
        # Обработка ошибок чтения ответа
        except aiohttp.ClientPayloadError as e:
            print(f"Ошибка чтения на попытке {attempt + 1}")
            if attempt < max_retries - 1:
                await asyncio.sleep(1)
                continue
            return "Ошибка: Чтение ответа"
        
        # Обработка всех остальных исключений
        except Exception as e:
            print(f"Неожиданная ошибка на попытке {attempt + 1}: {e}")
            if attempt < max_retries - 1:
                await asyncio.sleep(1)
                continue
            return f"Ошибка: {str(e)}"
    
    # Все попытки исчерпаны
    return "Ошибка: Превышено количество попыток"


async def async_classify_with_progress(prompt, categories_dict, df, batch_size=10, max_concurrent=5):
    """
    Оптимизированная асинхронная классификация с прогресс-баром
    Увеличена параллельность и сокращены задержки
    """
    # Преобразуем словарь категорий в текстовый список для промпта
    categories_list = [f"{cat_id} - {cat_description}" 
                      for cat_id, cat_description in categories_dict.items()]
    categories_text = ", ".join(categories_list)
    
    # Сохраняем исходные индексы DataFrame для восстановления порядка после асинхронной обработки
    original_index = df.index
    # Извлекаем тексты товаров в список для обработки
    texts = df['name'].tolist()
    
    # Создаем HTTP-сессию без кэширования DNS
    async with aiohttp.ClientSession(
        connector=aiohttp.TCPConnector(
            limit=50,           # Общее максимальное количество соединений
            limit_per_host=20,  # Максимальное количество соединений на один хост
            use_dns_cache=False, # ОТКЛЮЧЕНО кэширование DNS
            ttl_dns_cache=None  # Время жизни DNS-записей не установлено
        )
    ) as session:
        
        # Создаем задачи для асинхронного выполнения
        tasks = []
        for text in texts:
            # Форматируем промпт с подстановкой категорий и текста товара
            full_prompt = prompt.format(categories=categories_text, text=text)
            # Создаем задачу для асинхронного выполнения
            task = async_ask_deepseek(session, full_prompt)
            tasks.append(task)
        
        # Семафор для ограничения количества одновременных запросов
        # Защита от превышения rate limits API
        semaphore = asyncio.Semaphore(max_concurrent)
        
        async def process_with_progress(task, pbar):
            """
            Обертка для задачи с ограничением параллелизма и обновлением прогресса
            """
            # Ограничиваем параллельное выполнение через семафор
            async with semaphore:
                # Выполняем задачу и ждем результат
                result = await task
                # Обновляем прогресс-бар на 1 шаг
                pbar.update(1)
                return result
        
        # Список для накопления результатов классификации
        results = []
        
        # Создаем прогресс-бар для визуализации процесса
        with tqdm(total=len(tasks), desc="Классификация", unit="запрос") as pbar:
            
            # Обрабатываем задачи батчами для контроля памяти и стабильности
            for i in range(0, len(tasks), batch_size):
                # Выделяем текущий батч задач
                batch_tasks = tasks[i:i + batch_size]
                
                # Параллельное выполнение всех задач в батче
                # return_exceptions=True - обрабатываем исключения без прерывания
                batch_results = await asyncio.gather(
                    *[process_with_progress(task, pbar) for task in batch_tasks],
                    return_exceptions=True
                )
                
                # Обрабатываем результаты батча
                processed_results = []
                for result in batch_results:
                    if isinstance(result, Exception):
                        # Логируем исключения и добавляем сообщение об ошибке
                        print(f"Исключение в задаче: {result}")
                        processed_results.append("Ошибка")
                    else:
                        # Добавляем успешный результат
                        processed_results.append(result)
                
                # Добавляем обработанные результаты в общий список
                results.extend(processed_results)
                
                # Короткая пауза между батчами для стабильности API
                # Предотвращает превышение rate limits
                if i + batch_size < len(tasks):
                    await asyncio.sleep(0.3)
        
        # Возвращаем результаты в виде Series с сохранением исходного порядка
        return pd.Series(results, index=original_index)


async def main():
    """
    Основная функция запуска процесса классификации
    Координирует весь процесс и обрабатывает критические ошибки
    """
    try:
        # Запускаем оптимизированную классификацию с увеличенной параллельностью
        results = await async_classify_with_progress(
            prompt=prompt,
            categories_dict=categories,
            df=df,
            batch_size=15,        # Увеличен размер батча для эффективности
            max_concurrent=8      # Увеличено количество параллельных запросов
        )
        
        # Добавляем результаты классификации в исходный DataFrame
        df['predicted'] = results
        print("Классификация завершена успешно!")
        
        # Сохраняем результаты в CSV файл для избежания потери данных
        df.to_csv('classified_results.csv', index=False)
        print("Результаты сохранены в 'classified_results.csv'")
        
    except Exception as e:
        # Обработка критических ошибок, которые могут возникнуть в основном процессе
        print(f"Критическая ошибка в main: {e}")

In [81]:
df1000 = df.sample(1000, random_state=1000)

In [82]:
async def main():
    try:
        # Запускаем оптимизированную классификацию с увеличенной параллельностью
        results = await async_classify_with_progress(
            prompt=prompt,
            categories_dict=categories,
            df=df1000,
            batch_size=15,        # Увеличен размер батча для эффективности
            max_concurrent=8      # Увеличено количество параллельных запросов
        )
        
        # Добавляем результаты классификации в исходный DataFrame
        df1000['predicted'] = results
        print("Классификация завершена успешно!")
        
        # # Сохраняем результаты в CSV файл для избежания потери данных
        # df.to_csv('classified_results.csv', index=False)
        # print("Результаты сохранены в 'classified_results.csv'")
        
    except Exception as e:
        # Обработка критических ошибок, которые могут возникнуть в основном процессе
        print(f"Критическая ошибка в main: {e}")
await main()

Классификация: 100%|██████████| 1000/1000 [03:48<00:00,  4.38запрос/s]

Классификация завершена успешно!





In [85]:
df1000

Unnamed: 0,url,inn,price,name,flag,sourse,predicted
5391,,7728594673,399900,"пальто, в комплекте с поя (024125857014,xl,1900)",1,2,1
165,https://proverkacheka.com/check/30886537-99754dfa,7825706086,22999,*СЕЛО ЗЕЛ.Творог 5% 500г,0,1,0
3882,,7704656218,299000,cl 1073578 multi colour m shg,0,2,1
6145,,1648054022,15900,"средство от засоров synergetic концентрированное, с дезинфицирующим эффектом, 1 л",0,3,0
896,https://proverkacheka.com/check/31597959-2a172ef4,7719723690,14999,Сырные Медальоны (6 шт.),0,1,0
...,...,...,...,...,...,...,...
3223,,7725776121,800,4620325656698 пакет,0,2,0
4566,,7715867370,69900,3.трикотажная футболка с коротким р s5n342z8 8684688648567,1,2,1
8271,,9701048328,3100,тетрадь общая prof-press жизнь котиков 18 листов а5 на скрепке в клетку,0,3,0
7680,,7735092378,39900,"бумага снегурочка (a4, 80г/м , белизна 146% cie, 500 листов) (гарантия - нет)",0,3,0


In [89]:
df1000['predicted'] = df1000['predicted'].astype(int)

y_true = df1000['flag']
y_pred = df1000['predicted']

In [90]:
# Базовые метрики для бина. Бинарная классификация
print('Метрики для Test_1 (Бинарная классификация)')
print('-' * 50)

f1 = f1_score(y_true, y_pred, average='binary')
recall = recall_score(y_true, y_pred, average='binary', zero_division=0)
precision = precision_score(y_true, y_pred, average='binary', zero_division=0)
accuracy = accuracy_score(y_true, y_pred,)

print(f'F1-score: {f1:.2f}')
print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}')
print(f'Accuracy: {accuracy:.2f}')


# Дополнительно: матрица ошибок и полный отчет
print('\nConfusion Matrix:')
print(confusion_matrix(y_true, y_pred,))

Метрики для Test_1 (Бинарная классификация)
--------------------------------------------------
F1-score: 0.95
Precision: 0.95
Recall: 0.95
Accuracy: 0.97

Confusion Matrix:
[[638  16]
 [ 17 329]]
