In [None]:
import pandas as pd
import time
from detoxify import Detoxify

# Функция для анализа токсичности с помощью Detoxify
def analyze_toxicity(text):
    try:
        # Загрузка модели Detoxify
        model = Detoxify('original')  # Используем предобученную модель
        results = model.predict(text)  # Анализ текста
        
        # Преобразуем значения в бинарные (1 или 0) в зависимости от порога 0.65
        binary_results = {key: 1 if value > 0.65 else 0 for key, value in results.items()}
        
        return binary_results
    except Exception as e:
        print(f"Ошибка при анализе текста: {e}")
        return {
            'toxic': 0,
            'severe_toxic': 0,
            'obscene': 0,
            'threat': 0,
            'insult': 0,
            'identity_hate': 0
        }

# Загрузка данных
df1 = pd.read_csv('jigsaw-toxic-comment-train.csv')
df2 = pd.read_csv('jigsaw-toxic-comment-train-google-ru-cleaned.csv')
df3 = pd.read_csv('jigsaw-unintended-bias-train_ru_clean.csv')
df4 = pd.read_csv('russian-language-toxic-comments.csv')

# Приведение столбцов к единому формату
# Для первого датасета
df1['toxic'] = df1[['severe_toxicity', 'obscene', 'threat', 'insult', 'identity_attack']].max(axis=1)
df1['severe_toxic'] = df1['severe_toxicity']
df1['obscene'] = df1['obscene']
df1['threat'] = df1['threat']
df1['insult'] = df1['insult']
df1['identity_hate'] = df1['identity_attack']

# Для второго датасета
df2['toxic'] = df2['toxic']
df2['severe_toxic'] = df2['severe_toxic']
df2['obscene'] = df2['obscene']
df2['threat'] = df2['threat']
df2['insult'] = df2['insult']
df2['identity_hate'] = df2['identity_hate']

# Для третьего датасета
df3['toxic'] = df3[['severe_toxicity', 'obscene', 'threat', 'insult', 'identity_attack']].max(axis=1)
df3['severe_toxic'] = df3['severe_toxicity']
df3['obscene'] = df3['obscene']
df3['threat'] = df3['threat']
df3['insult'] = df3['insult']
df3['identity_hate'] = df3['identity_attack']

# Выбор нужных столбцов
df1 = df1[['id', 'comment_text', 'toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']]
df2 = df2[['id', 'comment_text', 'toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']]
df3 = df3[['id', 'comment_text', 'toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']]

# Объединение первых трех датасетов
combined_df = pd.concat([df1, df2, df3], ignore_index=True)

# Обработка пропущенных значений (если есть)
combined_df.fillna(0, inplace=True)

# Добавление новых колонок к четвертому датасету с помощью Detoxify
for index, row in df4.iterrows():
    if index % 100 == 0:
        print(f"Обработано {index} строк")
    toxicity_scores = analyze_toxicity(row['comment'])
    for key, value in toxicity_scores.items():
        df4.at[index, key] = value

# Переименование столбцов для соответствия формату
df4.rename(columns={'comment': 'comment_text'}, inplace=True)
df4['id'] = range(len(combined_df), len(combined_df) + len(df4))  # Создание уникальных ID

# Выбор нужных столбцов
df4 = df4[['id', 'comment_text', 'toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']]

# Объединение с уже существующим объединенным датасетом
final_combined_df = pd.concat([combined_df, df4], ignore_index=True)

# Обработка пропущенных значений (если есть)
final_combined_df.fillna(0, inplace=True)

# Сохранение в CSV
final_combined_df.to_csv('final_combined_toxicity_data.csv', index=False)

print("Объединение завершено. Данные сохранены в 'final_combined_toxicity_data.csv'.")

  from .autonotebook import tqdm as notebook_tqdm


Обработано 0 строк
Обработано 100 строк
Обработано 200 строк
Обработано 300 строк
Обработано 400 строк
Обработано 500 строк
Обработано 600 строк
Обработано 700 строк
Обработано 800 строк
Обработано 900 строк
Обработано 1000 строк
Обработано 1100 строк
Обработано 1200 строк
Обработано 1300 строк
Обработано 1400 строк
Обработано 1500 строк
Обработано 1600 строк
Обработано 1700 строк
Обработано 1800 строк
Обработано 1900 строк
Обработано 2000 строк
Обработано 2100 строк
Обработано 2200 строк
Обработано 2300 строк
Обработано 2400 строк
Обработано 2500 строк
Обработано 2600 строк
Обработано 2700 строк
Обработано 2800 строк
Обработано 2900 строк
Обработано 3000 строк
Обработано 3100 строк
Обработано 3200 строк
Обработано 3300 строк
Обработано 3400 строк
Обработано 3500 строк
Обработано 3600 строк
Обработано 3700 строк
Обработано 3800 строк
Обработано 3900 строк
Обработано 4000 строк
Обработано 4100 строк
Обработано 4200 строк
Обработано 4300 строк
Обработано 4400 строк
Обработано 4500 строк


KeyboardInterrupt: 

In [4]:
%pip install python-dotenv

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Downloading python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.1
Note: you may need to restart the kernel to use updated packages.
