In [1]:
import os
import re
import random
import statistics
from collections import Counter

In [None]:
def read_text_units_single_line(filename):
    text_units = []
    current_unit_lines = []

    try:
        with open(filename, 'r', encoding='utf-8') as file:
            for line in file:
                stripped_line = line.strip()

                if stripped_line:
                    current_unit_lines.append(stripped_line)
                else:
                    if current_unit_lines:
                        unit_text = ' '.join(current_unit_lines)
                        text_units.append(unit_text)
                        current_unit_lines = []

            if current_unit_lines:
                unit_text = ' '.join(current_unit_lines)
                text_units.append(unit_text)

    except FileNotFoundError:
        print(f"Ошибка: Файл '{filename}' не найден.")
    except Exception as e:
        print(f"Произошла ошибка при чтении файла '{filename}': {e}")

    return text_units

anek_files = [
    'anek_cleaned.txt',
    'dataset.txt',
    'extract_anekdots.txt',
    'jokes.txt',
    'jokes_2.txt'
]

anek_dir = os.path.expanduser('~/main/maga/jokes/aneks/') 
all_aneks = []

print(f"Читаем файлы с анекдотами из директории: {anek_dir}")

for filename in anek_files:
    file_path = os.path.join(anek_dir, filename)
    print(f"Обрабатываем файл: {file_path}")
    aneks_from_file = read_text_units_single_line(file_path)
    all_aneks.extend(aneks_from_file)
    print(f"  Добавлено анекдотов: {len(aneks_from_file)}")

print(f"\nВсего прочитано анекдотов: {len(all_aneks)}")

output_anek_file = os.path.join(anek_dir, 'aneks.txt') 
print(f"Сохраняем все анекдоты в файл: {output_anek_file}")
try:
    with open(output_anek_file, 'w', encoding='utf-8') as f:
        for anek in all_aneks:
            f.write(anek + '\n')
    print("Файл aneks.txt успешно создан.")
except Exception as e:
    print(f"Ошибка при записи файла aneks.txt: {e}")

Читаем файлы с анекдотами из директории: /home/lanayawiz/main/maga/jokes/aneks/
Обрабатываем файл: /home/lanayawiz/main/maga/jokes/aneks/anek_cleaned.txt
  Добавлено анекдотов: 124155
Обрабатываем файл: /home/lanayawiz/main/maga/jokes/aneks/dataset.txt
  Добавлено анекдотов: 2
Обрабатываем файл: /home/lanayawiz/main/maga/jokes/aneks/extract_anekdots.txt
  Добавлено анекдотов: 87720
Обрабатываем файл: /home/lanayawiz/main/maga/jokes/aneks/jokes.txt
  Добавлено анекдотов: 2
Обрабатываем файл: /home/lanayawiz/main/maga/jokes/aneks/jokes_2.txt
  Добавлено анекдотов: 132570

Всего прочитано анекдотов: 344449
Сохраняем все анекдоты в файл: /home/lanayawiz/main/maga/jokes/aneks/aneks.txt
Файл aneks.txt успешно создан.

Анализ структуры анекдотов:


In [None]:
if all_aneks:
    word_counts = [len(anek.split()) for anek in all_aneks]
    char_counts = [len(anek) for anek in all_aneks]

    total_aneks = len(all_aneks)

    print("\n--- Анализ количества слов ---")
    print(f"Общее количество анекдотов: {total_aneks}")

    if total_aneks > 1: 
        avg_words = statistics.mean(word_counts)
        stdev_words = statistics.stdev(word_counts)
        min_words = 10
        max_words = 90

        print(f"Среднее количество слов: {avg_words:.2f}")
        print(f"Стандартное отклонение (сигма) слов: {stdev_words:.2f}")
        print(f"Минимальное количество слов: {min_words}")
        print(f"Максимальное количество слов: {max_words}")

        print("\nРаспределение количества слов по диапазонам:")
        word_bins = Counter()
        bin_size_words = 10 
        max_bin_limit_words = max_words + bin_size_words - (max_words % bin_size_words)

        for count in word_counts:
             bin_start = (count // bin_size_words) * bin_size_words
             bin_end = bin_start + bin_size_words - 1
             bin_key = f"{bin_start}-{bin_end}"
             word_bins[bin_key] += 1

        sorted_word_bins = sorted(word_bins.items(), key=lambda item: int(item[0].split('-')[0]))

        for bin_range, count in sorted_word_bins:
             print(f"  {bin_range}: {count}")

    elif total_aneks == 1:
         print(f"Количество слов: {word_counts[0]}")
         print("Стандартное отклонение не может быть рассчитано для одного элемента.")
    else:
        print("Нет данных для анализа количества слов.")


    print("\n--- Анализ количества символов ---")
    print(f"Общее количество анекдотов: {total_aneks}")

    if total_aneks > 1:
        avg_chars = statistics.mean(char_counts)
        stdev_chars = statistics.stdev(char_counts)
        min_chars = 50
        max_chars = 500

        print(f"Среднее количество символов: {avg_chars:.2f}")
        print(f"Стандартное отклонение (сигма) символов: {stdev_chars:.2f}")
        print(f"Минимальное количество символов: {min_chars}")
        print(f"Максимальное количество символов: {max_chars}")

        print("\nРаспределение количества символов по диапазонам:")
        char_bins = Counter()
        bin_size_chars = 50 
        max_bin_limit_chars = max_chars + bin_size_chars - (max_chars % bin_size_chars)ов

        for count in char_counts:
            
            bin_start = (count // bin_size_chars) * bin_size_chars
            bin_end = bin_start + bin_size_chars - 1
            bin_key = f"{bin_start}-{bin_end}"
            char_bins[bin_key] += 1


        sorted_char_bins = sorted(char_bins.items(), key=lambda item: int(item[0].split('-')[0]))

        for bin_range, count in sorted_char_bins:
             print(f"  {bin_range}: {count}")

    elif total_aneks == 1:
         print(f"Количество символов: {char_counts[0]}")
         print("Стандартное отклонение не может быть рассчитано для одного элемента.")
    else:
        print("Нет данных для анализа количества символов.")

else:
    print("Список анекдотов пуст. Невозможно провести анализ структуры.")



--- Анализ количества слов ---
Общее количество анекдотов: 344449
Среднее количество слов: 36.91
Стандартное отклонение (сигма) слов: 6184.01
Минимальное количество слов: 10
Максимальное количество слов: 90

Распределение количества слов по диапазонам:
  0-9: 61422
  10-19: 157434
  20-29: 72127
  30-39: 25616
  40-49: 10479
  50-59: 5395
  60-69: 3402
  70-79: 2375
  80-89: 1599
  90-99: 1097
  100-109: 918
  110-119: 680
  120-129: 496
  130-139: 389
  140-149: 256
  150-159: 219
  160-169: 147
  170-179: 84
  180-189: 49
  190-199: 49
  200-209: 35
  210-219: 27
  220-229: 21
  230-239: 22
  240-249: 15
  250-259: 15
  260-269: 5
  270-279: 6
  280-289: 7
  290-299: 7
  300-309: 4
  310-319: 3
  320-329: 3
  330-339: 2
  340-349: 7
  350-359: 4
  360-369: 5
  370-379: 3
  380-389: 1
  390-399: 1
  420-429: 1
  440-449: 3
  450-459: 3
  460-469: 1
  480-489: 1
  530-539: 1
  550-559: 2
  560-569: 3
  570-579: 1
  620-629: 1
  680-689: 1
  810-819: 1
  160430-160439: 1
  524450-52445

In [None]:
import os
import tempfile

input_filename = 'aneks.txt'
output_filename_tmp = input_filename + '.tmp'

char_limit = 1000000

lines_removed_count = 0
total_lines_count = 0

print(f"Обработка файла: {input_filename}")
print(f"Удаляем строки длиннее {char_limit} символов.")

try:
    with open(input_filename, 'r', encoding='utf-8') as infile, \
         open(output_filename_tmp, 'w', encoding='utf-8') as outfile:

        for line in infile:
            total_lines_count += 1
            if len(line) <= char_limit:
                outfile.write(line)
            else:
                lines_removed_count += 1

    os.replace(output_filename_tmp, input_filename)

    print("Обработка завершена.")
    print(f"Всего строк прочитано: {total_lines_count}")
    print(f"Строк удалено (длиннее {char_limit} символов): {lines_removed_count}")
    print(f"Строк оставлено: {total_lines_count - lines_removed_count}")

except FileNotFoundError:
    print(f"Ошибка: Файл '{input_filename}' не найден. Убедитесь, что он находится в той же папке, что и скрипт, или укажите полный путь.")
except Exception as e:
    print(f"Произошла ошибка в процессе обработки: {e}")
    if os.path.exists(output_filename_tmp):
        os.remove(output_filename_tmp)
        print(f"Временный файл '{output_filename_tmp}' удален из-за ошибки.")


Обработка файла: aneks.txt
Удаляем строки длиннее 1000000 символов.
Обработка завершена.
Всего строк прочитано: 344448
Строк удалено (длиннее 1000000 символов): 4
Строк оставлено: 344444


In [4]:
target_distribution_data = {
    10: 61422,
    20: 157434, 
    30: 72127,
    40: 25616,
    50: 10479,
    60: 5395, 
    70: 3402, 
    80: 2375, 
    90: 1599, 
    100: 1097,
    110: 918, 
    120: 680, 
    130: 496, 
    140: 389, 
    150: 256, 
    160: 219, 
    170: 147, 
    180: 84, 
    190: 49, 
    200: 49, 
    210: 35, 
    220: 27, 
    float('inf'): 0 
}

In [None]:
import os
import nltk
import random
from collections import defaultdict
import re
import math

try:
    nltk.data.find('tokenizers/punkt')
except nltk.downloader.DownloadError:
    nltk.download('punkt')
except LookupError:
    nltk.download('punkt')



bin_ranges = [(0, 10), (10, 20), (20, 30), (30, 40), (40, 50), (50, 60), (60, 70), (70, 80), (80, 90), (90, 100),
              (100, 110), (110, 120), (120, 130), (130, 140), (140, 150), (150, 160), (160, 170), (170, 180),
              (180, 190), (190, 200), (200, 210), (210, 220), (220, 230)] 


bin_ranges_with_inf = bin_ranges + [(230, float('inf'))]


total_target_count = sum(list(target_distribution_data.values())[:-1]) 
print(f"Целевое общее количество предложений: {total_target_count}")




source_folder = '/home/lanayawiz/main/concept-tree/prose' 
sentences_by_bin = defaultdict(list)
total_sentences_collected = 0


russian_char_pattern = re.compile(r'[а-яА-ЯЁё]')

print(f"Собираем РУССКИЕ предложения из папки: {source_folder}")

for filename in os.listdir(source_folder):
    if filename.endswith(".txt"):
        filepath = os.path.join(source_folder, filename)
        
        try:
            with open(filepath, 'r', encoding='utf-8') as f:
                text = f.read()
                
                text = text.replace('\n', ' ').replace('\r', '')
                text = re.sub(r'\s+', ' ', text).strip()

                if not text: 
                    continue

                
                sentences = nltk.sent_tokenize(text)

                for sentence in sentences:
                    
                    cleaned_sentence = sentence.strip()

                    if not cleaned_sentence: 
                        continue

                    
                    if not russian_char_pattern.search(cleaned_sentence):
                         continue 

                    
                    words = [word for word in cleaned_sentence.split() if word]
                    word_count = len(words)

                    if word_count == 0: 
                        continue

                    
                    assigned_bin = None
                    for lower, upper in bin_ranges_with_inf:
                         if lower <= word_count < upper:
                              assigned_bin = (lower, upper)
                              break

                    
                    if assigned_bin in bin_ranges:
                         sentences_by_bin[assigned_bin].append(cleaned_sentence)
                         total_sentences_collected += 1
                    
                    
                    
                    


        except UnicodeDecodeError:
            print(f"Ошибка кодировки файла: {filepath}. Пропускаем.")
        except Exception as e:
            print(f"Ошибка при обработке файла {filepath}: {e}. Пропускаем.")

print(f"Собрано всего ПОДХОДЯЩИХ (русских) предложений из исходных текстов: {total_sentences_collected}")

print("Количество собранных русских предложений по бинам:")
collected_counts = {}

for lower, upper in bin_ranges:
     count = len(sentences_by_bin[(lower, upper)])
     collected_counts[(lower, upper)] = count
     print(f"  {lower}-{upper-1} слов : {count}")






output_sentences = []

print("\nОтбираем предложения по целевому распределению aneks.txt...")


target_counts_for_sampling = {}

for key, count in target_distribution_data.items():
    if key != float('inf'): 
        lower_bound = key - 10 if key >= 20 else 0
        upper_bound = key
        target_counts_for_sampling[(lower_bound, upper_bound)] = count


for bin_range, target_count_in_bin in target_counts_for_sampling.items():
    available_sentences_in_bin = sentences_by_bin[bin_range]
    actual_count_to_sample = min(target_count_in_bin, len(available_sentences_in_bin))

    if actual_count_to_sample > 0:
        sampled_sentences = random.sample(available_sentences_in_bin, actual_count_to_sample)
        output_sentences.extend(sampled_sentences)
        print(f"  Из бина {bin_range[0]}-{bin_range[1]-1} отобрано {actual_count_to_sample}/{target_count_in_bin} (доступно {len(available_sentences_in_bin)})")
    else:
        print(f"  Из бина {bin_range[0]}-{bin_range[1]-1} отобрано 0/{target_count_in_bin} (доступно {len(available_sentences_in_bin)})")



random.shuffle(output_sentences)

print(f"\nВсего отобрано предложений для выходного файла: {len(output_sentences)}")



output_filename = 'not_aneks_3.txt' 

print(f"Записываем отобранные предложения в файл: {output_filename}")

try:
    with open(output_filename, 'w', encoding='utf-8') as f:
        for sentence in output_sentences:
            f.write(sentence + '\n')
    print("Файл успешно создан.")
except Exception as e:
    print(f"Ошибка при записи файла {output_filename}: {e}")


print("\nАнализ распределения в созданном файле (приблизительно):")
output_distribution = defaultdict(int)
for sentence in output_sentences:
    words = [word for word in sentence.split() if word] 
    word_count = len(words)
    assigned_bin = None
    for lower, upper in bin_ranges: 
        if lower <= word_count < upper:
            assigned_bin = (lower, upper)
            break
    if assigned_bin:
        output_distribution[assigned_bin] += 1
    
    



for lower, upper in bin_ranges:
     count = output_distribution.get((lower, upper), 0)
     print(f"  {lower}-{upper-1} слов: {count}")


print(f"\nЦелевое общее количество из aneks: {total_target_count}")
print(f"Фактически отобрано в файл: {len(output_sentences)}")

Целевое общее количество предложений: 344295
Собираем РУССКИЕ предложения из папки: /home/lanayawiz/main/concept-tree/prose
Собрано всего ПОДХОДЯЩИХ (русских) предложений из исходных текстов: 7117688
Количество собранных русских предложений по бинам:
  0-9 слов : 3690697
  10-19 слов : 2381179
  20-29 слов : 725591
  30-39 слов : 208594
  40-49 слов : 66657
  50-59 слов : 23986
  60-69 слов : 10002
  70-79 слов : 4684
  80-89 слов : 2537
  90-99 слов : 1348
  100-109 слов : 818
  110-119 слов : 491
  120-129 слов : 362
  130-139 слов : 221
  140-149 слов : 120
  150-159 слов : 131
  160-169 слов : 72
  170-179 слов : 69
  180-189 слов : 42
  190-199 слов : 28
  200-209 слов : 25
  210-219 слов : 15
  220-229 слов : 19

Отбираем предложения по целевому распределению aneks.txt...
  Из бина 0-9 отобрано 61422/61422 (доступно 3690697)
  Из бина 10-19 отобрано 157434/157434 (доступно 2381179)
  Из бина 20-29 отобрано 72127/72127 (доступно 725591)
  Из бина 30-39 отобрано 25616/25616 (доступ