# Первичная настройка

## Настройка путей

In [1]:
import pandas as pd
from pathlib import Path


raw_dir = Path("../data/raw")
preprocessed_path = Path("../data/preprocessed/text_only.csv")

## Проверка существования 

In [2]:
if not preprocessed_path.exists():
    main_df = pd.DataFrame(columns=["text", "blocked"])
else: 
    main_df = pd.read_csv(preprocessed_path)

# Загрузка данных

## s-nlp/ru_paradetox_toxicity

### Скачивание датасета

In [3]:
from vk_mod.data import load_from_hugginface


max_rows = 10000
dataset_name = "s-nlp/ru_paradetox_toxicity"
dataset_path = Path(raw_dir, dataset_name.split('/')[-1]).with_suffix(".csv")


load_from_hugginface(dataset_name, dataset_path, max_rows=max_rows)
temp_df = pd.read_csv(dataset_path)
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,neutral,toxic
0,4518,Надоели уже попрашайки классов сколько же тут ...,False
1,789,"Мне не нравяться женщины, которые готовы прода...",False
2,1490,"Эти люди ничего не могут, верхушек нахватали, ...",False
3,2938,"Я то за свои слова отвечу, а вот ответишь ли т...",False
4,1422,Уничтожить их бы и всех остальных. Туда же и б...,True


### Приведение колонок у нужному виду

In [4]:
temp_df = temp_df.rename(columns={"neutral": "text", "toxic": "blocked"})
display(temp_df.sample(5))
display(temp_df.loc[:, temp_df.columns == "blocked"].value_counts().reset_index(name="count"))

Unnamed: 0.1,Unnamed: 0,text,blocked
1915,2117,Наказать всех этих плохих людей,False
4051,2394,да его надо садить что его отмаэывают адвокат...,False
5486,449,Зря что от сапогов отказалась,False
6023,2944,А он не обнаглел?,False
2801,473,"Если мы им не скажем нет, то так и будет",False


Unnamed: 0,blocked,count
0,False,4848
1,True,1506


### Обьединение с основным датасетом

In [5]:
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))

Unnamed: 0.1,text,blocked,Unnamed: 0
0,Надоели уже попрашайки классов сколько же тут ...,False,4518.0
1,"Мне не нравяться женщины, которые готовы прода...",False,789.0
2,"Эти люди ничего не могут, верхушек нахватали, ...",False,1490.0
3,"Я то за свои слова отвечу, а вот ответишь ли т...",False,2938.0
4,Уничтожить их бы и всех остальных. Туда же и б...,True,1422.0


## marriamaslova/toxic_dvach

### Скачивание датасета

In [6]:
from vk_mod.data import load_from_hugginface


max_rows = 10000
dataset_name = "marriamaslova/toxic_dvach"
dataset_path = Path(raw_dir, dataset_name.split('/')[-1]).with_suffix(".csv")


load_from_hugginface(dataset_name, dataset_path, max_rows=max_rows)
temp_df = pd.read_csv(dataset_path)
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,comment,toxic
0,13724,ну вот егор демонстрирует что женщина русского...,1.0
1,830,Хорошо. Но как-то... По-детски. Тебе сколько л...,0.0
2,5353,на сии философские вопросы я вряд ли смогу пол...,0.0
3,3551,Липецк. Не вижу смысла искать новых знакомых о...,0.0
4,4118,Я тоже работал на подобной машине. По 1500 мет...,0.0


### Приведение колонок у нужному виду

In [7]:
temp_df = temp_df.rename(columns={"comment": "text", "toxic": "blocked"})
display(temp_df.sample(5))
display(temp_df.loc[:, temp_df.columns == "blocked"].value_counts().reset_index(name="count"))

Unnamed: 0.1,Unnamed: 0,text,blocked
2437,13285,А вот с этого момента поподробнее.\n,0.0
4865,11939,"таки бесплатные,но не трудно переадресовать вы...",0.0
6175,5217,Не буду же я постоянно в регионы мотаться. Это...,0.0
2087,6005,"Мало тут чубатых околачивается, теперь еще и о...",1.0
8883,6723,Крысы валят с корабля. На бал.\n,1.0


Unnamed: 0,blocked,count
0,0.0,6674
1,1.0,3326


### Обьединение с основным датасетом

In [8]:
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))

Unnamed: 0.1,text,blocked,Unnamed: 0
0,Надоели уже попрашайки классов сколько же тут ...,False,4518.0
1,"Мне не нравяться женщины, которые готовы прода...",False,789.0
2,"Эти люди ничего не могут, верхушек нахватали, ...",False,1490.0
3,"Я то за свои слова отвечу, а вот ответишь ли т...",False,2938.0
4,Уничтожить их бы и всех остальных. Туда же и б...,True,1422.0


## textdetox/multilingual_toxicity_dataset

### Скачивание датасета

In [9]:
from vk_mod.data import load_from_hugginface


max_rows = 10000
dataset_name = "textdetox/multilingual_toxicity_dataset"
dataset_path = Path(raw_dir, dataset_name.split('/')[-1]).with_suffix(".csv")


load_from_hugginface(dataset_name, dataset_path, split="ru", max_rows=max_rows)
temp_df = pd.read_csv(dataset_path)
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,text,toxic
0,2995,а этот пидар себе богатого мужика походу нашел!!,1
1,1690,"как соблюдаете, хранить в сухом месте по - нов...",0
2,347,"одно воспоминание только осталось, хороший был...",0
3,3198,разве там советуют на жопу приматывать👎(sr),1
4,78,о боже мой... о боже мой... не могу сдержать с...,0


### Приведение колонок у нужному виду

In [10]:
temp_df = temp_df.rename(columns={"toxic": "blocked"})
display(temp_df.sample(5))
display(temp_df.loc[:, temp_df.columns == "blocked"].value_counts().reset_index(name="count"))

Unnamed: 0.1,Unnamed: 0,text,blocked
4292,2169,"дочки, сыночки, младшие сестрёнки и братишки.",0
2924,2991,вы суки жополизы вместе с горбачёвым и своей г...,1
314,4327,"через неделю разойдетесь, терпилы чей крым бля...",1
487,1573,это - унижает и оскорбляет достоинство тех сме...,0
2063,2263,все будет хорошо потому что плохо надоело уже ...,0


Unnamed: 0,blocked,count
0,0,2500
1,1,2500


### Обьединение с основным датасетом

In [11]:
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))

Unnamed: 0.1,text,blocked,Unnamed: 0
0,Надоели уже попрашайки классов сколько же тут ...,False,4518.0
1,"Мне не нравяться женщины, которые готовы прода...",False,789.0
2,"Эти люди ничего не могут, верхушек нахватали, ...",False,1490.0
3,"Я то за свои слова отвечу, а вот ответишь ли т...",False,2938.0
4,Уничтожить их бы и всех остальных. Туда же и б...,True,1422.0


## AlexSham/Toxic_Russian_Comments

### Скачивание датасета

In [12]:
from vk_mod.data import load_from_hugginface


max_rows = 10000
dataset_name = "AlexSham/Toxic_Russian_Comments"
dataset_path = Path(raw_dir, dataset_name.split('/')[-1]).with_suffix(".csv")


load_from_hugginface(dataset_name, dataset_path, max_rows=max_rows)
temp_df = pd.read_csv(dataset_path)
temp_df.head(5)

Unnamed: 0.1,Unnamed: 0,text,label
0,131643,не перевелись еще сыны земли русской ! низкий ...,0
1,70304,всего по чуть чуть... не поместились,0
2,47743,а ушки не болят у собачки после ныряния?,0
3,107870,что то есть там присылать,0
4,221262,устал позировать,0


### Приведение колонок у нужному виду

In [13]:
temp_df = temp_df.rename(columns={"label": "blocked"})
display(temp_df.sample(5))
display(temp_df.loc[:, temp_df.columns == "blocked"].value_counts().reset_index(name="count"))

Unnamed: 0.1,Unnamed: 0,text,blocked
5024,123496,а фото разве не прошлогоднее ?),0
4747,171601,я твой,0
2136,87950,дебил капец стыдно что такие люди есть в полиц...,1
5661,62822,что заскучвл?,0
554,222543,"ну когда у вас дом взорвется, вам тоже помогут...",0


Unnamed: 0,blocked,count
0,0,8193
1,1,1807


### Обьединение с основным датасетом

In [14]:
main_df = pd.concat([main_df, temp_df])
display(main_df.head(5))

Unnamed: 0.1,text,blocked,Unnamed: 0
0,Надоели уже попрашайки классов сколько же тут ...,False,4518.0
1,"Мне не нравяться женщины, которые готовы прода...",False,789.0
2,"Эти люди ничего не могут, верхушек нахватали, ...",False,1490.0
3,"Я то за свои слова отвечу, а вот ответишь ли т...",False,2938.0
4,Уничтожить их бы и всех остальных. Туда же и б...,True,1422.0


# Очитка

In [15]:
main_df = (main_df
           .drop("Unnamed: 0", axis=1, errors="ignore")
           .drop_duplicates()
           .dropna(subset=["text", "blocked"]))
main_df['blocked'] = main_df['blocked'].astype(int)

display(main_df.loc[:, main_df.columns == "blocked"].value_counts().reset_index(name="count"))
print(main_df.shape)

Unnamed: 0,blocked,count
0,0,22087
1,1,9071


(31158, 2)


# Сохранение

In [16]:
preprocessed_path.parent.mkdir(exist_ok=True)
main_df.to_csv(preprocessed_path, index=False)