In [90]:
import pandas as pd
from pathlib import Path


raw_data_path = Path("../data/raw")
preprocessed_file = Path("../data/preprocessed/text_only.csv")


In [91]:
if not preprocessed_file.exists():
    main_df = pd.DataFrame(columns=["text", "blocked"])
else: 
    main_df = pd.read_csv(preprocessed_file)

In [92]:
def display_label_stats(df) -> None:
    display(df.loc[:, df.columns == "blocked"].value_counts().reset_index(name="count"))

# s-nlp/ru_paradetox_toxicity

In [93]:
from vk_mod.data.download import load_from_huggingface


load_from_huggingface("s-nlp/ru_paradetox_toxicity")
temp_df = pd.read_csv(Path(raw_data_path, "ru_paradetox_toxicity.csv"))
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,neutral,toxic
0,0,Вот и довели себя до сахарного диабета второго...,False
1,1,"Мойщик машину пеной залил, а хозяин виноват? П...",False
2,2,Какой совет может дать эта девушка?,False
3,3,Зачем брать топор и убивать то?,False
4,4,Такой же как и Дегтярев. Другими словами оба р...,False


In [94]:
temp_df = temp_df.rename(columns={"neutral": "text", "toxic": "blocked"})
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))
display_label_stats(main_df)

Unnamed: 0.1,text,blocked,Unnamed: 0
0,Вот и довели себя до сахарного диабета второго...,False,0.0
1,"Мойщик машину пеной залил, а хозяин виноват? П...",False,1.0
2,Какой совет может дать эта девушка?,False,2.0
3,Зачем брать топор и убивать то?,False,3.0
4,Такой же как и Дегтярев. Другими словами оба р...,False,4.0


Unnamed: 0,blocked,count
0,False,4848
1,True,1506


# marriamaslova/toxic_dvach

In [95]:
load_from_huggingface("marriamaslova/toxic_dvach")
temp_df = pd.read_csv(Path(raw_data_path, "toxic_dvach.csv"))
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,comment,toxic
0,0,"Верблюдов-то за что? Дебилы, бл...\n",1.0
1,1,"Хохлы, это отдушина затюканого россиянина, мол...",1.0
2,2,Собаке - собачья смерть\n,1.0
3,3,"Страницу обнови, дебил. Это тоже не оскорблени...",1.0
4,4,"тебя не убедил 6-страничный пдф в том, что Скр...",1.0


In [96]:
temp_df = temp_df.rename(columns={"comment": "text", "toxic": "blocked"})
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))
display_label_stats(main_df)

Unnamed: 0.1,text,blocked,Unnamed: 0
0,Вот и довели себя до сахарного диабета второго...,False,0.0
1,"Мойщик машину пеной залил, а хозяин виноват? П...",False,1.0
2,Какой совет может дать эта девушка?,False,2.0
3,Зачем брать топор и убивать то?,False,3.0
4,Такой же как и Дегтярев. Другими словами оба р...,False,4.0


Unnamed: 0,blocked,count
0,False,14434
1,True,6332


# textdetox/multilingual_toxicity_dataset

In [97]:
load_from_huggingface("textdetox/multilingual_toxicity_dataset", split="ru")
temp_df = pd.read_csv(Path(raw_data_path, "multilingual_toxicity_dataset.csv"))
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,text,toxic
0,0,я сегодня проезжала по рабочей и между домами ...,0
1,1,"может, я и ошиблась, но необычный окрас бросил...",0
2,2,"зачем придумывать очередной налог на воздух, е...",0
3,3,"ретро дежавю ... сложно понять чужое сердце , ...",0
4,4,2 августа поздно вечером нашли вот такую потер...,0


In [98]:
temp_df.rename(columns={"toxic": "blocked"})
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))
display_label_stats(main_df)

Unnamed: 0.1,text,blocked,Unnamed: 0,toxic
0,Вот и довели себя до сахарного диабета второго...,False,0.0,
1,"Мойщик машину пеной залил, а хозяин виноват? П...",False,1.0,
2,Какой совет может дать эта девушка?,False,2.0,
3,Зачем брать топор и убивать то?,False,3.0,
4,Такой же как и Дегтярев. Другими словами оба р...,False,4.0,


Unnamed: 0,blocked,count
0,False,14434
1,True,6332


# AlexSham/Toxic_Russian_Comments

## train split

In [99]:
load_from_huggingface("AlexSham/Toxic_Russian_Comments")
temp_df = pd.read_csv(Path(raw_data_path, "Toxic_Russian_Comments.csv"))
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,text,label
0,0,"видимо в разных регионах называют по разному ,...",0
1,1,"понятно что это нарушение правил, писать капсл...",1
2,2,"какие классные, жизненные стихи....",0
3,3,а и правда-когда его запретили?...,0
4,4,в соленой воде вирусы живут .ученые изучали со...,0


In [100]:
temp_df = temp_df.rename(columns={"label": "blocked"})
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))
display_label_stats(main_df)

Unnamed: 0.1,text,blocked,Unnamed: 0,toxic
0,Вот и довели себя до сахарного диабета второго...,False,0.0,
1,"Мойщик машину пеной залил, а хозяин виноват? П...",False,1.0,
2,Какой совет может дать эта девушка?,False,2.0,
3,Зачем брать топор и убивать то?,False,3.0,
4,Такой же как и Дегтярев. Другими словами оба р...,False,4.0,


Unnamed: 0,blocked,count
0,False,197750
1,True,46477


## test split

In [101]:
load_from_huggingface("AlexSham/Toxic_Russian_Comments", split="test")
temp_df = pd.read_csv(Path(raw_data_path, "Toxic_Russian_Comments.csv"))
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,text,label
0,0,хорошо пошло!,0
1,1,"посмотрела, как будто дома побывала. как река ...",0
2,2,"отдам котят 1,5 месяца в добрые руки.",0
3,3,"0,5литровая баночка 200р стоит в таганроге. та...",0
4,4,речь шла о радужных зонтиках над верандой.,0


In [102]:
temp_df = temp_df.rename(columns={"label": "blocked"})
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))
display_label_stats(main_df)

Unnamed: 0.1,text,blocked,Unnamed: 0,toxic
0,Вот и довели себя до сахарного диабета второго...,False,0.0,
1,"Мойщик машину пеной залил, а хозяин виноват? П...",False,1.0,
2,Какой совет может дать эта девушка?,False,2.0,
3,Зачем брать топор и убивать то?,False,3.0,
4,Такой же как и Дегтярев. Другими словами оба р...,False,4.0,


Unnamed: 0,blocked,count
0,False,218119
1,True,50937


# Final

## Clean

In [103]:
main_df = (main_df
           .drop("Unnamed: 0", axis=1, errors="ignore")
           .drop_duplicates()
           .dropna(subset=["text", "blocked"]))
main_df['blocked'] = main_df['blocked'].astype(int)

In [104]:
display_label_stats(main_df)
print(main_df.shape)

Unnamed: 0,blocked,count
0,0,218049
1,1,50914


(268963, 3)


## Save

In [105]:
preprocessed_file.parent.mkdir(exist_ok=True)
main_df.to_csv(preprocessed_file, index=False)