# WebScraping 
Se optó por hacer un web scraping de la página de la [El Clarín](https://www.clarin.com/ultimas-noticias/) para obtener información de las noticias que se encuentran en la página principal. Esto con el fin de generar un corpus de texto con jerga argentina.

In [None]:
pip install requests beautifulsoup4 --quiet
pip install selenium --quiet
pip install undetected-chromedriver --quiet

**Proceso de extracción de datos de sitios web**

In [None]:
import undetected_chromedriver as uc
from selenium.webdriver.common.by import By
import time

# Configuración del navegador
driver = uc.Chrome()

# Función para extraer el contenido de un artículo
def extract_article_content(url):
    try:
        driver.get(url)
        time.sleep(3)  # Espera para que se cargue la página

        # Intenta extraer el contenido principal del artículo
        paragraphs = driver.find_elements(By.TAG_NAME, "p")
        content = "\n".join([p.text for p in paragraphs if p.text.strip() != ""])
        
        # Escribir el contenido en el archivo corpus
        with open("corpus_argentina.txt", "a", encoding="utf-8") as file:
            file.write(content + "\n\n")
        print(f"Contenido extraído y guardado de: {url}")
    except Exception as e:
        print(f"Error al extraer contenido de {url}: {e}")

# Lista de enlaces de artículos
article_links = [
    "https://www.clarin.com/gourmet/agua-jamaica-receta-paso-paso-bebida-antienvejecimiento-diuretica-moda_0_0w8w9bhnfG.html",
    "https://www.clarin.com/astrologia/horoscopo-hoy-miercoles-13-noviembre-predicciones-salud-amor-dinero_0_bq9OtNU7lU.html",
    "https://www.clarin.com/politica/nueva-encuesta-sorpresamidieron-21-dirigentes-ganaron-milei-villarruel_0_3jzeTAnbUp.html",
    "https://www.clarin.com/informacion-general/dice-numerologia-vida-amorosa-conoce-deseos-secretos-profundos_0_pAzSryjbks.html",
    "https://www.clarin.com/loterias-y-quinielas/quiniela-santa-fe-resultado-sorteo-matutina-hoy-miercoles-13-noviembre_0_axfHxDywPq.html",
    "https://www.clarin.com/loterias-y-quinielas/quiniela-provincia-resultado-sorteo-matutina-hoy-miercoles-13-noviembre_0_mRPzk8MPrp.html",
    "https://www.clarin.com/mundo/primera-vez-gran-bretana-usa-drones-trasladar-muestras-sangre-hospitales_0_eBZv7M001G.html",
    "https://www.clarin.com/loterias-y-quinielas/quiniela-cordoba-resultado-sorteo-matutina-hoy-miercoles-13-noviembre_0_25qgBK6BDe.html",
    "https://www.clarin.com/deportes/argentina-vs-paraguay-eliminatorias-sudamericanas-hora-juegan-formaciones-ver-vivo_0_V9IlJG61fn.html",
    "https://www.clarin.com/sociedad/entregaran-repelente-gratis-mosquitos-ciudad-anotarse-mensaje-clave-gobierno_0_6mcwAoiSSA.html",
    "https://www.clarin.com/ciudades/procesaron-embargaron-personas-choque-trenes-palermo_0_G3gqj6Vk6f.html",
    "https://www.clarin.com/economia/aerolineas-finalmente-avanza-acuerdo-gremios-deben-someterlo-asamblea_0_RaAISZfq8y.html",
    "https://www.clarin.com/loterias-y-quinielas/quiniela-nacional-resultado-sorteo-matutina-hoy-miercoles-13-noviembre_0_0yR0f8piTE.html",
    "https://www.clarin.com/deportes/marcelo-gallardo-suena-super-equipo-mundial-clubes-river-mira-refuerzos-lujo-ir-buscar_0_FbcMbJKjls.html",
    "https://www.clarin.com/espectaculos/premios-latin-grammy-2024-ver-on-line-tv-vivo_0_GSVEtq5sJX.html",
    "https://www.clarin.com/politica/milei-adelanto-buscara-firmar-acuerdo-libre-comercio-estados-unidos_0_DYLnb439Sa.html",
    "https://www.clarin.com/politica/condena-cristina-kirchner-vivo-hora-conoce-fallo-casacion-anos-podria-recibir-ex-presidenta-causa-vialidad_0_asuJfIfNW2.html",
    "https://www.clarin.com/politica/javier-milei-medidas-vivo-senora-desesperada-critica-presidente-cristina-kirchner-previa-fallo-casacion_0_wZsJ7I9UCw.html",
    "https://www.clarin.com/politica/caso-vialidad-camara-federal-casacion-confirmo-condena-corrupcion-cristina-kirchner_0_oVSB82kyVX.html",
    "https://www.clarin.com/economia/dolar-hoy-dolar-blue-hoy-vivo-cotiza-precio-miercoles-13-noviembre-minuto-minuto_0_ABd1Bjr8M2.html", 
]

# Paso 2: Extraer el contenido de cada artículo
for link in article_links:
    extract_article_content(link)

# Cierra el navegador
driver.quit()

Contenido extraído y guardado de: https://www.cervantesvirtual.com/portales/biblioteca_nacional_argentina/obra-visor/el-arpa-perdida--0/html/ff3aa6d2-82b1-11df-acc7-002185ce6064_2.html#I_0_


# Datos Sinteticos

In [None]:
# Ejemplos de textos con jerga argentina
textos_argentinos = [
    """Che, ¿sabés qué pasó con el Juani? No apareció más por el grupo.
Sí, lo vi el otro día en el barrio. Está a full con laburo, parece que lo ascendieron.
Ah, mirá vos. Y bueno, se lo merecía el pibe, labura como un caballo.
Tal cual. Igual, pará, que me dijo que se hace una escapada el finde. Dice que ya se reservó una cabaña en la sierra.
¡Qué capo! Nosotros tendríamos que hacer algo así también. Nos vendría bárbaro un respiro.
Sí, ¿qué te parece? Yo llevo el asado, pero vos te encargás de las birras, ¿eh?""",

    """El sol pegaba fuerte y el estadio estaba a pleno, pero no importaba el calor ni la larga fila para entrar.
Era el clásico y la gente estaba ansiosa, con bombos y banderas listos para dejar la garganta en cada grito.
En la tribuna, cada gol se festejaba como si fuera el último, y cuando el árbitro pitó el final, el resultado estaba de nuestro lado.
Era la gloria. Al salir, la hinchada seguía cantando en las calles, y entre abrazos y carcajadas, el barrio entero se llenaba de alegría.
Ganar el clásico no es cualquier cosa, es tener el corazón latiendo a mil.""",

    """Los domingos en casa de los abuelos son sagrados. A eso de las doce, la mesa ya está puesta, y en la parrilla, el viejo siempre se luce con su asado.
Está el costillar, los chinchulines y la provoleta, y la sobremesa se extiende con charlas que mezclan recuerdos, cuentos del barrio y discusiones sobre el fútbol.
La abuela, mientras tanto, no para de decir que comamos más, “¡No se me queden con hambre, che!”.
Y siempre alguno se manda alguna anécdota que hace reír a todos, especialmente cuando el primo cuenta las locuras de la última salida.
Al final, siempre cerramos la tarde con unos buenos mates, la receta de la abuela para los bizcochitos y el ruido de los chicos correteando en el patio.""",

    """Subí al bondi medio apurado, apenas llegaba. Era una de esas líneas que pasan cuando quieren, y justo venía bastante lleno.
Me agarré como pude de un pasamanos mientras intentaba hacer equilibrio entre la mochila y el diario.
En un momento, una señora me miró y me dijo: “Pibe, si me podés correr un poco que me bajo en la próxima”.
Me hice a un costado, y cuando llegó mi parada, bajé casi de un salto.
Caminé hacia la esquina, esquivando gente, escuchando el murmullo de la ciudad, y pensando que a veces el bondi tiene su encanto, aunque no siempre.""",

    """Llegué a la oficina y ya estaba el café listo. Por suerte, porque hoy estoy hecho trapo.
Anoche me quedé viendo una peli hasta tarde y ahora pago el precio.
En la mañana, la cosa arranca tranquila, pero después de media hora ya empiezo a ver correos que explotan y el teléfono que no para de sonar.
“Otro día en la jungla”, pienso. Me digo que voy a salir temprano, pero en el fondo sé que va a ser otra tarde larga.
A veces me pregunto si todo esto vale la pena, pero bueno, hasta que no pegue la quiniela, es lo que hay.""", 

    """Che, ¿sabés qué pasó con el Juani? No apareció más por el grupo.
Sí, lo vi el otro día en el barrio. Está a full con laburo, parece que lo ascendieron.
Ah, mirá vos. Y bueno, se lo merecía el pibe, labura como un caballo.
Tal cual. Igual, pará, que me dijo que se hace una escapada el finde. Dice que ya se reservó una cabaña en la sierra.
¡Qué capo! Nosotros tendríamos que hacer algo así también. Nos vendría bárbaro un respiro.
Sí, ¿qué te parece? Yo llevo el asado, pero vos te encargás de las birras, ¿eh?""",

    """El sol pegaba fuerte y el estadio estaba a pleno, pero no importaba el calor ni la larga fila para entrar.
Era el clásico y la gente estaba ansiosa, con bombos y banderas listos para dejar la garganta en cada grito.
En la tribuna, cada gol se festejaba como si fuera el último, y cuando el árbitro pitó el final, el resultado estaba de nuestro lado.
Era la gloria. Al salir, la hinchada seguía cantando en las calles, y entre abrazos y carcajadas, el barrio entero se llenaba de alegría.
Ganar el clásico no es cualquier cosa, es tener el corazón latiendo a mil.""",

    """Los domingos en casa de los abuelos son sagrados. A eso de las doce, la mesa ya está puesta, y en la parrilla, el viejo siempre se luce con su asado.
Está el costillar, los chinchulines y la provoleta, y la sobremesa se extiende con charlas que mezclan recuerdos, cuentos del barrio y discusiones sobre el fútbol.
La abuela, mientras tanto, no para de decir que comamos más, “¡No se me queden con hambre, che!”.
Y siempre alguno se manda alguna anécdota que hace reír a todos, especialmente cuando el primo cuenta las locuras de la última salida.
Al final, siempre cerramos la tarde con unos buenos mates, la receta de la abuela para los bizcochitos y el ruido de los chicos correteando en el patio.""",

    """Subí al bondi medio apurado, apenas llegaba. Era una de esas líneas que pasan cuando quieren, y justo venía bastante lleno.
Me agarré como pude de un pasamanos mientras intentaba hacer equilibrio entre la mochila y el diario.
En un momento, una señora me miró y me dijo: “Pibe, si me podés correr un poco que me bajo en la próxima”.
Me hice a un costado, y cuando llegó mi parada, bajé casi de un salto.
Caminé hacia la esquina, esquivando gente, escuchando el murmullo de la ciudad, y pensando que a veces el bondi tiene su encanto, aunque no siempre.""",

    """Llegué a la oficina y ya estaba el café listo. Por suerte, porque hoy estoy hecho trapo.
Anoche me quedé viendo una peli hasta tarde y ahora pago el precio.
En la mañana, la cosa arranca tranquila, pero después de media hora ya empiezo a ver correos que explotan y el teléfono que no para de sonar.
“Otro día en la jungla”, pienso. Me digo que voy a salir temprano, pero en el fondo sé que va a ser otra tarde larga.
A veces me pregunto si todo esto vale la pena, pero bueno, hasta que no pegue la quiniela, es lo que hay.""", 
"""Ayer la selección nos hizo vivir una fiesta increíble. Todo el barrio se juntó para ver el partido.
Cuando Messi metió el gol, la calle explotó en gritos, bocinazos y abrazos. La alegría nos duraba hasta la madrugada.
Es que cuando juega la selección, somos una gran familia alentando por el mismo sueño.""",

    """El Diego es eterno, pero hoy tenemos al Messi, que nos hace soñar con cada gambeta.
Cada vez que el pibe toca la pelota, todos nos quedamos en silencio, esperando esa magia que solo él sabe hacer.
No hay con qué darle, en Argentina llevamos el fútbol en la sangre, y cada partido es como una nueva final del mundo.""",

    """Ayer en el kiosco todos estaban hablando de la Scaloneta y de cómo nos estamos preparando para el próximo mundial.
El tano, que siempre fue medio escéptico, dijo: "Este equipo tiene garra y se nota que juega con el corazón".
Y es verdad, cada partido es una muestra de lo que significa jugar para la celeste y blanca.""",

    """Cuando vimos el partido de la selección en el bar, fue una fiesta total. Apenas terminó, la gente salió a la calle a festejar.
Las banderas, las caras pintadas, los abrazos entre desconocidos... No hay nada como ver a Argentina ganar.
La pasión por la selección es algo que no se puede explicar, solo se siente.""",

    """La última vez que jugó Argentina, armamos un asado en casa y todos vinieron con sus camisetas de la selección.
Cada gol era un grito ensordecedor, y en el entretiempo empezaron las discusiones de siempre: quién debería jugar, quién está de más.
Pero al final, cuando ganamos, todos nos abrazamos como hermanos. Así es el fútbol acá.""",

    """La selección está jugando cada vez mejor, y ya sentimos que tenemos equipo para pelear arriba en el próximo torneo.
El Lío está inspirado, y los pibes como Julián y Lautaro meten ganas en cada jugada. Es lindo ver a la Scaloneta jugar así, dejando todo en la cancha.
Cada partido de Argentina es como una fiesta nacional, y lo vivimos con el corazón.""",

    """Anoche en el obelisco no cabía un alfiler después del triunfo de la selección.
La gente se juntó a celebrar, y hasta los autos que pasaban por la avenida se sumaban a la fiesta.
Es que en Argentina el fútbol no es solo un deporte, es parte de nuestra identidad y algo que nos une en los buenos y malos momentos.""",

    """En el último partido, Argentina la rompió en la cancha, y la hinchada se hizo sentir.
Era un mar de banderas y cantos que no paraban. Cuando terminó el partido, todos nos fuimos contentos a casa, con la esperanza de ver al equipo campeón.
La selección nos da tantas alegrías, y verlos jugar con garra y corazón es un orgullo que no se puede comparar.""", 
]

# Guardar los textos en el archivo corpus_argentina.txt
with open("corpus_argentina.txt", "a", encoding="utf-8") as file:
    for texto in textos_argentinos:
        file.write(texto + "\n\n")  # Separar cada texto con dos líneas nuevas

# Leer y mostrar el contenido agregado para confirmar
with open("corpus_argentina.txt", "r", encoding="utf-8") as file:
    contenido = file.read()
    print("Contenido actual del corpus:\n", contenido[-1000:])  # Muestra los últimos 1000 caracteres

Contenido actual del corpus:
  jugando cada vez mejor, y ya sentimos que tenemos equipo para pelear arriba en el próximo torneo.
El Lío está inspirado, y los pibes como Julián y Lautaro meten ganas en cada jugada. Es lindo ver a la Scaloneta jugar así, dejando todo en la cancha.
Cada partido de Argentina es como una fiesta nacional, y lo vivimos con el corazón.

Anoche en el obelisco no cabía un alfiler después del triunfo de la selección.
La gente se juntó a celebrar, y hasta los autos que pasaban por la avenida se sumaban a la fiesta.
Es que en Argentina el fútbol no es solo un deporte, es parte de nuestra identidad y algo que nos une en los buenos y malos momentos.

En el último partido, Argentina la rompió en la cancha, y la hinchada se hizo sentir.
Era un mar de banderas y cantos que no paraban. Cuando terminó el partido, todos nos fuimos contentos a casa, con la esperanza de ver al equipo campeón.
La selección nos da tantas alegrías, y verlos jugar con garra y corazón es un orgul

In [1]:
# Más ejemplos de textos con jerga argentina para ampliar el corpus
textos_argentinos_extensos = [
    """Hace unos años, cuando todavía usábamos el Nokia ladrillo, nadie se imaginaba que íbamos a estar tan pegados al celular. Hoy no podés ni desayunar sin revisar el WhatsApp o las redes.
    Y encima, cada dos por tres te aparece una notificación de que te quedaste sin espacio o que la actualización pesa una tonelada. Lo bueno es que con las videollamadas podés estar cerca de la familia, aunque estén del otro lado del mundo.""",

    """Salir a correr por Palermo un domingo a la mañana es como ir a una fiesta de disfraces. Tenés al que corre con toda la facha, re lookeado, como si fuera a competir en los Juegos Olímpicos, y después está el que va con las zapatillas hechas bolsa pero corre igual, ¿viste?
    Al final, lo importante es estar en movimiento, aunque después termines destruido en el sillón viendo Netflix.""",

    """El otro día el bondi venía tan lleno que apenas entrábamos. Yo estaba ahí, apretado contra la puerta, pensando en lo loco que es el transporte en esta ciudad. Y no es solo que los colectivos vienen llenos, sino que tenés al chofer que maneja como si estuviera en una carrera.
    Entre empujones y frenadas, me terminé haciendo amigo de un señor que también estaba tratando de no caerse. Y ahí entre charla y queja, el viaje se hizo un poco más llevadero.""",

    """En la oficina siempre hay personajes, ¿no? Está el que llega tarde todos los días y se las ingenia para que nadie se dé cuenta, y el que siempre está organizando la colecta para el cumple de alguien.
    Después está la que siempre lleva tuppers con ensalada, como si fuera una santa, y vos ahí con tu sandwich de milanesa. Al final, cada día en el trabajo es una novela diferente.""",

    """Los domingos en casa de los viejos son un ritual. Llegás, saludás a todos y ya sentís el olor al asado que está en la parrilla. En la mesa no falta la ensalada rusa, las papas al horno, y, obvio, el vino.
    Ahí, entre bocado y bocado, se habla de todo un poco: política, fútbol, alguna noticia rara que escuchaste en la semana. Y al final, después de la sobremesa, siempre terminamos jugando al truco o peleándonos por quién lavará los platos.""",

    """El verano en Buenos Aires es un horno. Salís a la calle y ya sentís que te pegaste al pavimento. Lo único que podés pensar es en encontrar una sombra o algún lugar con aire acondicionado.
    Pero cuando llegás a casa y abrís la heladera, te das cuenta de que te olvidaste de comprar el hielo. A bancarse el calor hasta la noche, y si sos de los que no tienen ventilador, ni te cuento.""",

    """¿Viste esos días en los que todo te sale al revés? Primero, te quedás dormido, después el colectivo no pasa y cuando finalmente llega, está hasta las manos. 
    Encima, cuando llegás a la oficina, te das cuenta de que te olvidaste el almuerzo. Esos días, solo querés que termine la jornada y llegar a tu casa a tirar las patas en el sillón.""",

    """Con los amigos siempre hablamos de armar un viajecito al sur, alquilar una cabaña, prender una buena fogata y tomar unos mates mirando las montañas. Pero nunca lo hacemos, entre que cada uno tiene sus cosas y nunca nos ponemos de acuerdo.
    Igual, cuando nos juntamos, siempre fantaseamos con la idea y planeamos como si fuéramos a salir al otro día. Soñar no cuesta nada, ¿no?""",

    """La feria de libros de la plaza es genial. Vas, caminás entre los puestos y encontrás de todo. Desde esos libros viejos que te llevan a otra época hasta las últimas novedades.
    A veces te cruzás con algún autor que da una charla, y es increíble porque te cuenta cómo nació la idea de ese libro que tenés en las manos. Es como un paseo cultural en medio de la ciudad.""",

    """Ayer fuimos a la costanera y estaba lleno de familias con sus reposeras y sus heladeritas. Los chicos jugando a la pelota, las parejas tomando mate y algún que otro valiente que se animaba a meterse al agua.
    Es un clásico porteño, ir a la costanera los días de calor. La gente se relaja, se ríe y parece que se olvida un rato de las preocupaciones.""",

    """Cuando vas a un restaurante argentino, es casi imposible no pedir una buena provoleta o unas empanadas para arrancar. Después viene la parrillada, con todo el combo: chorizo, morcilla, vacío, entraña. Y al final, aunque ya no te entre nada más, te pedís un flan con dulce de leche.
    Es que la comida nuestra tiene esa magia, siempre un poquito más, porque el buen comer es parte de nuestra cultura.""",

    """En el laburo estamos todos como locos porque se acerca fin de año y hay que cerrar todo. Entre los informes, las reuniones, y las planillas de Excel, ya estamos todos contando los días para las vacaciones.
    Algunos ya tienen pasajes a la costa, otros se quedan en Buenos Aires pero igual van a descansar. Pero todos, absolutamente todos, sueñan con desconectar aunque sea unos días.""",

    """Si algo caracteriza a los argentinos, es la charla de café. Nos encanta sentarnos en un bar y hablar de la vida, de fútbol, de política, de lo que sea. El café puede durar horas, porque la conversación nunca se acaba.
    Además, cada uno tiene su ritual: el que toma con medialunas, el que prefiere una torta, y el que siempre pide una botellita de soda al lado.""",

    """El subte en hora pico es una experiencia de vida. Te subís y ya estás apretado contra desconocidos, aguantando la respiración. Pero ahí, entre el barullo, ves a gente de todos lados, cada uno en su mundo.
    A veces escuchás alguna conversación divertida, o algún músico que se sube y toca una canción. Es un caos organizado, una experiencia única que solo en Buenos Aires se vive así.""",

    """La tecnología nos cambió la vida, pero también nos tiene un poco atrapados. Ahora estamos todos pendientes del último modelo de celular, del smartwatch, de la tablet.
    Pero a veces es bueno desconectar un poco, apagar el teléfono y salir a caminar. Porque al final, la mejor conexión es la que tenemos con las personas que están cerca.""",

    """Salir a tomar algo con amigos es un clásico, y más si es después de una semana de laburo intenso. Cada uno cuenta sus anécdotas, sus quilombos, y entre risas y tragos, la noche se pasa volando.
    Buenos Aires tiene esa magia, siempre hay un bar abierto, una mesa dispuesta y un mozo que te atiende con una sonrisa.""",

    """El cine argentino tiene su encanto. Hay películas que te hacen reír a carcajadas y otras que te dejan pensando. A veces son historias simples, pero cuentan algo que todos vivimos alguna vez.
    Es lindo ver cómo nuestra cultura se refleja en la pantalla, con los modismos, las calles, los personajes que podríamos encontrar en cualquier barrio.""",

    """¿A quién no le gusta un buen mate en compañía? En la plaza, en el trabajo, o en casa, el mate siempre está presente. Es un ritual, una pausa en medio del día para charlar y compartir.
    Y aunque cada uno tiene su manera de cebar, lo importante es la compañía y ese momento de conexión.""",

    """Cuando el clima está lindo, no hay nada mejor que dar una vuelta por el parque. Ver a la gente caminando, los chicos jugando, y el sonido de los pájaros te hace olvidar un poco del ruido de la ciudad.
    Esos momentos son impagables, como una bocanada de aire fresco en medio del cemento.""",

    """Una de las cosas más lindas de Argentina es su gente. Podés estar en la fila del supermercado y de repente alguien te empieza a hablar, a contar su vida.
    Somos así, nos gusta charlar, compartir, y siempre estamos dispuestos a dar una mano. Esa calidez es lo que nos distingue y lo que hace que cualquier lugar se sienta un poco como casa."""
]

# Guardar los textos en el archivo corpus_argentina.txt
with open("corpus_argentina.txt", "a", encoding="utf-8") as file:
    for texto in textos_argentinos_extensos:
        file.write(texto + "\n\n")  # Agregar dos líneas nuevas entre cada texto para mejor separación

print("Textos adicionales agregados exitosamente al corpus.")

Textos adicionales agregados exitosamente al corpus.


# Limpieza de datos

In [3]:
import re

def limpiar_texto(texto):
    # Paso 1: Convertir a minúsculas
    texto = texto.lower()

    # Paso 2: Eliminar secciones de copyright y notas editoriales
    texto = re.sub(r'editor responsable.*clarín.com.*derechos reservados\.', '', texto, flags=re.DOTALL)
    texto = re.sub(r'newsletter clarín.*especializados', '', texto, flags=re.DOTALL)

    # Paso 3: Eliminar palabras clave no deseadas
    palabras_clave = [
        "dólar blue", "javier milei", "condena a cristina kirchner", "causa vialidad", 
        "encuestas", "aerolíneas", "marcelo gallardo", "dengue", "latin grammy 2024", 
        "argentina vs paraguay", "horóscopo", "clarín", "editor responsable"
    ]
    for palabra in palabras_clave:
        texto = re.sub(r'\b' + re.escape(palabra) + r'\b', '', texto)

    # Paso 4: Eliminar caracteres especiales
    texto = re.sub(r'[^\w\s.,]', '', texto)  # Eliminar todo excepto letras, números, espacios, puntos y comas

    # Paso 5: Reemplazar múltiples espacios por uno solo
    texto = re.sub(r'\s+', ' ', texto)

    # Paso 6: Eliminar líneas vacías
    texto = "\n".join([line for line in texto.splitlines() if line.strip()])

    return texto.strip()

# Cargar el archivo de corpus y procesarlo
with open("corpus_argentina.txt", "r", encoding="utf-8") as file:
    texto = file.read()

texto_limpio = limpiar_texto(texto)

# Guardar el corpus limpio en un nuevo archivo
with open("corpus_argentina_limpio.txt", "w", encoding="utf-8") as file:
    file.write(texto_limpio)