In [1]:
!tree ../dataset/

[01;34m../dataset/[00m
├── [01;34men_espanol[00m
│   ├── docx2txt.py
│   ├── Второй_жанр_исходная.txt
│   └── Первый_жанр_исходная.txt
├── Второй_жанр_исходная.txt
├── Первый_жанр_исходная.txt
├── [01;34mСокращение по частям речи[00m
│   ├── 1.Первый жанр исходная выборка.txt
│   ├── 2.Первый жанр без клауз, включающих наречия.txt
│   ├── 3.Первый жанр без клауз, включающих глаголы.txt
│   ├── 4. Первый жанр без клауз, включающих глаголы и наречия.txt
│   ├── Без прилагательных второй жанр.txt
│   ├── Без прилагательных первый жанр.txt
│   └── Случайные выборки.txt
└── [01;34mсокращение по частотности[00m
    ├── 1а_ без сокращений.txt
    ├── 1б_Изъяты лексемы с частотой выше 100.txt
    ├── 1в_Изъяты лексемы с частотой выше 49.txt
    ├── 1г_Изъяты лексемы с частотой выше 29.txt
    ├── 1д_Изъяты лексемы с частотой выше 9.txt
    ├── 2а_ без сокращений.txt
    ├── 2б_Изъяты лексемы с частотой выше 100.txt
    ├── 2в_Изъяты лексемы с частотой выше 49.txt

In [2]:
import re
from collections import Counter
import os

# Función para leer el contenido de un archivo
def leer_archivo(ruta):
    with open(ruta, 'r', encoding='utf-8') as archivo:
        return archivo.read()

# Función para obtener palabras del texto
def obtener_palabras(texto):
    # Convertimos a minúsculas y usamos regex para separar palabras
    palabras = re.findall(r'\b\w+\b', texto.lower())
    return palabras

# Función para eliminar palabras con frecuencia mayor a un umbral
def eliminar_palabras_frecuentes(texto, umbral):
    palabras = obtener_palabras(texto)
    frecuencias = Counter(palabras)
    
    # Identificar palabras con frecuencia mayor al umbral
    palabras_a_eliminar = {palabra for palabra, freq in frecuencias.items() if freq > umbral}
    
    # Crear una expresión regular para reemplazar esas palabras
    patron = r'\b(' + '|'.join(map(re.escape, palabras_a_eliminar)) + r')\b'
    texto_modificado = re.sub(patron, '', texto, flags=re.IGNORECASE)
    
    # Limpiar espacios extra que puedan quedar
    texto_modificado = re.sub(r'\s+', ' ', texto_modificado).strip()
    return texto_modificado

# Función para procesar un archivo y generar las versiones modificadas
def procesar_archivo(ruta_entrada, carpeta_salida):
    # Leer el texto original
    
    nombre_archivo = os.path.basename(ruta_entrada)
    if "Первый" in nombre_archivo:
        nombre_base = "1"
    elif "Второй" in nombre_archivo:
        nombre_base = "2"
    else:
        # Por si el archivo tiene un nombre inesperado, usamos el nombre sin extensión
        nombre_base = os.path.splitext(nombre_archivo)[0]
        
    texto_original = leer_archivo(ruta_entrada)
    
    # Generar versiones modificadas
    texto_freq_5 = eliminar_palabras_frecuentes(texto_original, 5)
    texto_freq_3 = eliminar_palabras_frecuentes(texto_original, 3)
    
    # Crear nombres de archivos de salida
    ruta_salida_5 = os.path.join(carpeta_salida, f"{nombre_base}е_Изъяты лексемы с частотой выше 5.txt")
    ruta_salida_3 = os.path.join(carpeta_salida, f"{nombre_base}ё_Изъяты лексемы с частотой выше 3.txt")
    
    # Guardar los archivos modificados
    os.makedirs(carpeta_salida, exist_ok=True)
    with open(ruta_salida_5, 'w', encoding='utf-8') as archivo:
        archivo.write(texto_freq_5)
    with open(ruta_salida_3, 'w', encoding='utf-8') as archivo:
        archivo.write(texto_freq_3)
    
    print(f"Archivos generados: {ruta_salida_5}, {ruta_salida_3}")

# Ejemplo de uso
if __name__ == "__main__":
    # Rutas de los archivos de entrada (ajústalas según tus archivos)
    archivos = [
        "../dataset/Второй_жанр_исходная.txt",
        "../dataset/Первый_жанр_исходная.txt"
    ]
    
    # Carpeta donde se guardarán los resultados
    carpeta_salida = "../dataset/сокращение по частотности"
    
    # Procesar cada archivo
    for archivo in archivos:
        if os.path.exists(archivo):
            procesar_archivo(archivo, carpeta_salida)
        else:
            print(f"El archivo {archivo} no existe.")

Archivos generados: ../dataset/сокращение по частотности/2е_Изъяты лексемы с частотой выше 5.txt, ../dataset/сокращение по частотности/2ё_Изъяты лексемы с частотой выше 3.txt
Archivos generados: ../dataset/сокращение по частотности/1е_Изъяты лексемы с частотой выше 5.txt, ../dataset/сокращение по частотности/1ё_Изъяты лексемы с частотой выше 3.txt
