In [17]:
import neattext as nt
import re
import pandas as pd

In [28]:
def preprocess_text(text):
    text = re.sub(r'[^\u0400-\u04FF\s.,;?!]', '', text)
    
    docx = nt.TextFrame(text)
    docx.remove_puncts()
    docx.remove_emojis()
    docx.remove_phone_numbers()
    docx.remove_numbers()
    docx.remove_emails()
    docx.remove_stopwords(lang='ru')
    docx.normalize(level='deep')

    text = docx.text.strip()

    return text

def preprocess_file(filepath):
    
    processed_lines = []
    
    with open(filepath, 'r', encoding='utf-8') as f:
        for line in f:
            processed_line = preprocess_text(line)
            if processed_line:  # Проверяем, не пустая ли строка
                processed_lines.append(processed_line)
                
    return processed_lines

In [29]:

filepath = './data/wiki/random_pages10.txt'

processed_lines = preprocess_file(filepath)
for line in processed_lines:
    print(line)


Торремолинос исп город муниципалитет Испании входит провинцию Малага составе автономного сообщества Андалусия Муниципалитет находится составе района комарки КостадельСольОксиденталь
Занимает площадь км Население тыс человек год
Расстояние административного центра провинции км
Пляжный курорт средиземноморском побережье Испании КостадельСоль
Рогатица босн серб Рогатица хорв город восточной части Республики Сербской составе Боснии Герцеговины Центр одноимённой общины регионе ИсточноСараево
Расположен километрах северовосток Сараево полпути дороге ГораджеСоколац
Численность населения города переписи года составляет человек общины человека
Этнический состав населения города Рогатица переписи года
Код объекта государственном водном реестре
Библиотека СенСюльпис историческое здание расположенное улице СенДени фр рус Монреале Квебеке Канада объявлено Историческим памятником Квебека году
Библиотека СенСюльпис спроектированная архитектором Эдженом Пайеттом фр рус считается лучших образцов архите

In [30]:
import os

directory_path = '.\data\wiki'

# Перебираем все файлы в директории
for filename in os.listdir(directory_path):
    filepath = os.path.join(directory_path, filename)

    # Проверяем, является ли объект по указанному пути файлом
    if os.path.isfile(filepath):
        print(filepath)



.\data\wiki\random_pages10.txt
.\data\wiki\random_pages11.txt
.\data\wiki\random_pages12.txt
.\data\wiki\random_pages13.txt
.\data\wiki\random_pages14.txt
.\data\wiki\random_pages15.txt
.\data\wiki\random_pages16.txt
.\data\wiki\random_pages17.txt


In [31]:
import os

directory_path = '.\data\wiki'

all_wiki_lines = []
for filename in os.listdir(directory_path):
    filepath = os.path.join(directory_path, filename)

    # Проверяем, является ли объект по указанному пути файлом
    if os.path.isfile(filepath):
        print(filepath)
        processed_lines = preprocess_file(filepath)
        all_wiki_lines += processed_lines


.\data\wiki\random_pages10.txt
.\data\wiki\random_pages11.txt
.\data\wiki\random_pages12.txt
.\data\wiki\random_pages13.txt
.\data\wiki\random_pages14.txt
.\data\wiki\random_pages15.txt
.\data\wiki\random_pages16.txt
.\data\wiki\random_pages17.txt


In [32]:
wiki_df = pd.DataFrame(all_wiki_lines, columns=['text'])

wiki_df['is_shitpost'] = False

wiki_df

Unnamed: 0,text,is_shitpost
0,Торремолинос исп город муниципалитет Испании в...,False
1,Занимает площадь км Население тыс человек год,False
2,Расстояние административного центра провинции км,False
3,Пляжный курорт средиземноморском побережье Исп...,False
4,Рогатица босн серб Рогатица хорв город восточн...,False
...,...,...
6427,Сибинович являлся членом Ассоциации литературн...,False
6428,сентября года знак протеста против нового Зако...,False
6429,Сибинович награждён Премией достижения области...,False
6430,шведская независимая звукозаписывающая компани...,False


In [33]:
wiki_df.to_csv('./data/wiki_df.csv', index=False)

In [34]:
filtered_df = wiki_df.loc[wiki_df['text'].str.len() >= 30]
filtered_df

Unnamed: 0,text,is_shitpost
0,Торремолинос исп город муниципалитет Испании в...,False
1,Занимает площадь км Население тыс человек год,False
2,Расстояние административного центра провинции км,False
3,Пляжный курорт средиземноморском побережье Исп...,False
4,Рогатица босн серб Рогатица хорв город восточн...,False
...,...,...
6427,Сибинович являлся членом Ассоциации литературн...,False
6428,сентября года знак протеста против нового Зако...,False
6429,Сибинович награждён Премией достижения области...,False
6430,шведская независимая звукозаписывающая компани...,False


In [35]:
filtered_df.to_csv('./data/filtered_wiki_df.csv', index=False)

In [36]:
filtered_df['text'].tail()

6427    Сибинович являлся членом Ассоциации литературн...
6428    сентября года знак протеста против нового Зако...
6429    Сибинович награждён Премией достижения области...
6430    шведская независимая звукозаписывающая компани...
6431    основан Бенгтом Рамом году Мальмё образцу нише...
Name: text, dtype: object