In [8]:
import pandas as pd
from pathlib import Path


raw_data_path = Path("../data/raw")
preprocessed_file = Path("../data/preprocessed/text-and-image.csv")

In [9]:
if not preprocessed_file.exists():
    main_df = pd.DataFrame(columns=["text", "image_name", "blocked"])
else: 
    main_df = pd.read_csv(preprocessed_file)

In [10]:
def display_label_stats(df) -> None:
    display(df.loc[:, df.columns == "blocked"].value_counts().reset_index(name="count"))

# neuralcatcher/hateful_memes
Все изображения загружаются локально из-за ограничения rate limit

In [11]:
from vk_mod.data.download import load_from_huggingface
load_from_huggingface("neuralcatcher/hateful_memes")
temp_df = pd.read_csv(Path(raw_data_path, "hateful_memes.csv"))
temp_df.head(5)

Repo card metadata block was not found. Setting CardData to empty.


Unnamed: 0.1,Unnamed: 0,id,img,label,text
0,0,42953,img/42953.png,0,its their character not their color that matters
1,1,23058,img/23058.png,0,don't be afraid to love again everyone is not ...
2,2,13894,img/13894.png,0,putting bows on your pet
3,3,37408,img/37408.png,0,i love everything and everybody! except for sq...
4,4,82403,img/82403.png,0,"everybody loves chocolate chip cookies, even h..."


In [12]:
import argostranslate
import argostranslate.package

def install_translation_model():
    argostranslate.package.update_package_index()
    available_packages = argostranslate.package.get_available_packages()
    package_to_install = next(
        filter(
            lambda x: x.from_code == "en" and x.to_code == "ru",
            available_packages
        )
    )
    argostranslate.package.install_from_path(package_to_install.download())

install_translation_model()

In [13]:
import argostranslate.translate
import pandas as pd
from tqdm import tqdm


FROM_LANG = "en"
TO_LANG = "ru"

processed_data = []
for index, row in tqdm(temp_df.iterrows(), total=len(temp_df)):
    filename = row['img'].split('/')[-1]
    try:
        text_ru = argostranslate.translate.translate(
            row['text'], 
            FROM_LANG, 
            TO_LANG
        )
        processed_data.append({
            'text': text_ru,
            'image_name': filename,
            'blocked': row['label']
        })
    except Exception as e:
        print(f"Ошибка перевода для строки {index}: {e}")

temp_df = pd.DataFrame(processed_data)
display(temp_df.sample(5))
display_label_stats(temp_df)

100%|██████████| 8500/8500 [53:08<00:00,  2.67it/s]  


Unnamed: 0,text,image_name,blocked
4057,если он женится на мне тогда почему он трахает...,81409.png,0
6852,"Познакомься с Джоном Дикарем, играющим главную...",15964.png,1
7609,"Ничего не делать с глобальной бедностью, сидя ...",53810.png,0
7416,Новый дизайн ремней безопасности: на 45% меньш...,84069.png,1
1612,"Что делать, если правительство финансирует усы...",84209.png,0


Unnamed: 0,blocked,count
0,0,5481
1,1,3019


In [14]:
main_df = pd.concat([main_df, temp_df])
display(main_df)
display_label_stats(main_df)

Unnamed: 0,text,image_name,blocked
0,"Его характер, а не цвет имеет значение",42953.png,0
1,"Не бойтесь снова любить, все не такие, как ваш...",23058.png,0
2,Наносить луки на вашего питомца,13894.png,0
3,"Я люблю все и всех! За исключением белок, я не...",37408.png,0
4,"Все любят шоколадное печенье, даже Гитлер.",82403.png,0
...,...,...,...
8495,Никто не хочет меня повесить.,10423.png,1
8496,Когда Бог дарует вам ребенка после 20 лет брак...,98203.png,1
8497,Социальные сети: равенство! Позитивность тела!...,36947.png,1
8498,Плохой день? Ты можешь быть сиамским близнецом...,16492.png,1


Unnamed: 0,blocked,count
0,0,5481
1,1,3019


# Final

## Clean

In [15]:
main_df = (main_df
           .drop("Unnamed: 0", axis=1, errors="ignore")           
           .drop_duplicates()
           .dropna(subset=["text", "image_name", "blocked"]))
main_df['blocked'] = main_df['blocked'].astype(int)

In [16]:
display_label_stats(main_df)
print(main_df.shape)

Unnamed: 0,blocked,count
0,0,5481
1,1,3019


(8500, 3)


## Save

In [17]:
preprocessed_file.parent.mkdir(exist_ok=True)
main_df.to_csv(preprocessed_file, index=False)