# Preprocesamiento

**Importación de librerías**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as pltp
import spacy
import nltk
from unidecode import unidecode
import string
from wordcloud import WordCloud
from collections import Counter
from collections import defaultdict


# Cargar el modelo para español
nlp = spacy.load("es_core_news_sm")  # Modelo pequeño en español


In [7]:
dataset = pd.read_csv('recursos/dataset_prueba.csv')

### **b) Pre procesamiento**

#### Clase Preprocesa

In [None]:
class Preprocesa:
    def __init__(self):
        self.text=''

    import string

    def remove_punctuation(self, text):
        # Definir todos los signos de puntuación y caracteres especiales
        forbidden = {
            "?", "¿", "¡", "!", "'", '"', "‘", "’", "“", "”", "<", ">", "(", ")", 
            ".", ",", ":", ";", "-", "&", "@", "/", "N/A", "#", "$", "´", "`", "“", "”",
            "“", "”", "‘", "’","” ","“", "«", "»", "—", "–", "…", "•"
        }
        
        # Combinar los signos de puntuación de Python con los caracteres prohibidos
        all_punctuation = set(string.punctuation).union(forbidden)
        
        # Eliminar todos los signos de puntuación y caracteres especiales
        punctuationfree = "".join([char for char in text if char not in all_punctuation])
        
        # Reemplazar múltiples espacios en blanco por un solo espacio
        punctuationfree = " ".join(punctuationfree.split())
        
        return punctuationfree.strip()
        
            
    def lower_words(self,text):
        words_lower = text.lower()
        return words_lower
    


    def quitarAcentos(self,s):
        replacements = (
            ("á", "a"),
            ("é", "e"),
            ("í", "i"),
            ("ó", "o"),
            ("ú", "u"),
            )
        for a, b in replacements:
            s = s.replace(a, b).replace(a.upper(), b.upper())
        return s
    
    def remove_stopwords(self,text):
        stop_words = ["y", "en", "de", "para", "con", "el", "la", "los", "las", "un", "una", "unos", "unas", 
        "por", "que", "a", "o", "e","su","sus",
            "a", "actualmente", "adelante", "además", "afirmó", "agregó", "ahora", "ahí", "al", "algo",
        "alguna", "algunas", "alguno", "algunos", "algún", "alrededor", "ambos", "ampleamos", "ante",
        "anterior", "antes", "apenas", "aproximadamente", "aquel", "aquellas", "aquellos", "aqui",
        "aquí", "arriba", "aseguró", "así", "atras", "aunque", "ayer", "añadió", "aún", "bajo",
        "bastante", "bien", "buen", "buena", "buenas", "bueno", "buenos", "cada", "casi", "cerca",
        "cierta", "ciertas", "cierto", "ciertos", "cinco", "comentó", "como", "con", "conocer",
        "conseguimos", "conseguir", "considera", "consideró", "consigo", "consigue", "consiguen",
        "consigues", "contra", "cosas", "creo", "cual", "cuales", "cualquier", "cuando", "cuanto",
        "cuatro", "cuenta", "cómo", "da", "dado", "dan", "dar", "de", "debe", "deben", "debido",
        "decir", "dejó", "del", "demás", "dentro", "desde", "después", "dice", "dicen", "dicho",
        "dieron", "diferente", "diferentes", "dijeron", "dijo", "dio", "donde", "dos", "durante",
        "e", "ejemplo", "el", "ella", "ellas", "ello", "ellos", "embargo", "empleais", "emplean",
        "emplear", "empleas", "empleo", "en", "encima", "encuentra", "entonces", "entre", "era",
        "erais", "eramos", "eran", "eras", "eres", "es", "esa", "esas", "ese", "eso", "esos", "esta",
        "estaba", "estabais", "estaban", "estabas", "estad", "estada", "estadas", "estado", "estados",
        "estais", "estamos", "estan", "estando", "estar", "estaremos", "estará", "estarán", "estarás",
        "estaré", "estaréis", "estaría", "estaríais", "estaríamos", "estarían", "estarías", "estas",
        "este", "estemos", "esto", "estos", "estoy", "estuve", "estuviera", "estuvierais", "estuvieran",
        "estuvieras", "estuvieron", "estuviese", "estuvieseis", "estuviesen", "estuvieses", "estuvimos",
        "estuviste", "estuvisteis", "estuviéramos", "estuviésemos", "estuvo", "está", "estábamos",
        "estáis", "están", "estás", "esté", "estéis", "estén", "estés", "ex", "existe", "existen",
        "explicó", "expresó", "fin", "fue", "fuera", "fuerais", "fueran", "fueras", "fueron", "fuese",
        "fueseis", "fuesen", "fueses", "fui", "fuimos", "fuiste", "fuisteis", "fuéramos", "fuésemos",
        "gran", "grandes", "gueno", "ha", "haber", "habida", "habidas", "habido", "habidos", "habiendo",
        "habremos", "habrá", "habrán", "habrás", "habré", "habréis", "habría", "habríais", "habríamos",
        "habrían", "habrías", "habéis", "había", "habíais", "habíamos", "habían", "habías", "hace",
        "haceis", "hacemos", "hacen", "hacer", "hacerlo", "haces", "hacia", "haciendo", "hago", "han",
        "has", "hasta", "hay", "haya", "hayamos", "hayan", "hayas", "hayáis", "he", "hecho", "hemos",
        "hicieron", "hizo", "hoy", "hube", "hubiera", "hubierais", "hubieran", "hubieras", "hubieron",
        "hubiese", "hubieseis", "hubiesen", "hubieses", "hubimos", "hubiste", "hubisteis", "hubiéramos",
        "hubiésemos", "hubo", "igual", "incluso", "indicó", "informó", "intenta", "intentais", "intentamos",
        "intentan", "intentar", "intentas", "intento", "ir", "junto", "la", "lado", "largo", "las", "le",
        "les", "llegó", "lleva", "llevar", "lo", "los", "luego", "lugar", "manera", "manifestó", "mayor",
        "me", "mediante", "mejor", "mencionó", "menos", "mi", "mientras", "mio", "mis", "misma", "mismas",
        "mismo", "mismos", "modo", "momento", "mucha", "muchas", "mucho", "muchos", "muy", "más", "mí",
        "mía", "mías", "mío", "míos", "nada", "nadie", "ni", "ninguna", "ningunas", "ninguno", "ningunos",
        "ningún", "no", "nos", "nosotras", "nosotros", "nuestra", "nuestras", "nuestro", "nuestros", "nueva",
        "nuevas", "nuevo", "nuevos", "nunca", "o", "ocho", "os", "otra", "otras", "otro", "otros", "para",
        "parece", "parte", "partir", "pasada", "pasado", "pero", "pesar", "poca", "pocas", "poco", "pocos",
        "podeis", "podemos", "poder", "podria", "podriais", "podriamos", "podrian", "podrias", "podrá",
        "podrán", "podría", "podrían", "poner", "por", "por qué", "porque", "posible", "primer", "primera",
        "primero", "primeros", "principalmente", "propia", "propias", "propio", "propios", "próximo", "próximos",
        "pudo", "pueda", "puede", "pueden", "puedo", "pues", "que", "quedó", "queremos", "quien", "quienes",
        "quiere", "quién", "qué", "realizado", "realizar", "realizó", "respecto", "sabe", "sabeis", "sabemos",
        "saben", "saber", "sabes", "se", "sea", "seamos", "sean", "seas", "segunda", "segundo", "según", "seis",
        "ser", "seremos", "será", "serán", "serás", "seré", "seréis", "sería", "seríais", "seríamos", "serían",
        "serías", "seáis", "señaló", "si", "sido", "siempre", "siendo", "siete", "sigue", "siguiente", "sin",
        "sino", "sobre", "sois", "sola", "solamente", "solas", "solo", "solos", "somos", "son", "soy", "su",
        "sus", "suya", "suyas", "suyo", "suyos", "sí", "sólo", "tal", "también", "tampoco", "tan", "tanto",
        "te", "tendremos", "tendrá", "tendrán", "tendrás", "tendré", "tendréis", "tendría", "tendríais",
        "tendríamos", "tendrían", "tendrías", "tened", "teneis", "tenemos", "tener", "tenga", "tengamos",
        "tengan", "tengas", "tengo", "tengáis", "tenida", "tenidas", "tenido", "tenidos", "teniendo",
        "tenéis", "tenía", "teníais", "teníamos", "tenían", "tenías", "tercera", "ti", "tiempo", "tiene",
        "tienen", "tienes", "toda", "todas", "todavía", "todo", "todos", "total", "trabaja", "trabajais",
        "trabajamos", "trabajan", "trabajar", "trabajas", "trabajo", "tras", "trata", "través", "tres",
        "tu", "tus", "tuve", "tuviera", "tuvierais", "tuvieran", "tuvieras", "tuvieron", "tuviese", "tuvieseis",
        "tuviesen", "tuvieses", "tuvimos", "tuviste", "tuvisteis", "tuviéramos", "tuviésemos", "tuvo", "tuya",
        "tuyas", "tuyo", "tuyos", "tú", "ultimo", "un", "una", "unas", "uno", "unos", "usa", "usais", "usamos",
        "usan", "usar", "usas", "uso", "usted", "va", "vais", "valor", "vamos", "van", "varias", "varios",
        "vaya", "veces", "ver", "verdad", "verdadera", "verdadero", "vez", "vosotras", "vosotros", "voy",
        "vuestra", "vuestras", "vuestro", "vuestros", "y", "ya", "yo", "él", "éramos", "ésta", "éstas",
        "éste", "éstos", "última", "últimas", "último", "últimos"]
        text = str(text)
        palabras = text.split()
        stop_words_free = [p for p in palabras if p.lower() not in stop_words]
        return " ".join(stop_words_free)


    def remove_numbers(self, text):
        # Eliminar todos los caracteres numéricos
        text_without_numbers = ''.join([char for char in text if not char.isdigit()])
        
        # Reemplazar múltiples espacios en blanco por un solo espacio
        text_without_numbers = " ".join(text_without_numbers.split())
        
        return text_without_numbers.strip()

#### Aplicar métodos de la clase y guardar cambios

In [14]:
preprocesador = Preprocesa()

dataset["news_limpio"] = dataset["noticia"].astype(str).apply(preprocesador.remove_stopwords).apply(preprocesador.remove_punctuation).apply(preprocesador.lower_words).apply(preprocesador.remove_numbers).apply(preprocesador.quitarAcentos)

# Guardar el dataset procesado 
dataset.to_csv("recursos/dataset_prueba_limpio.csv", index=False)



#### Lematizar con SpaCy

In [15]:
# Cargar el diccionario de palabras en español desde el archivo
with open("recursos/diccionario_limpio.txt", "r", encoding="utf-8") as f:
    valid_words = set(word.strip().lower() for word in f.readlines())

lemmas_por_documento = []
for text in dataset["news_limpio"]:
    doc = nlp(text)
    # Guardar solo los lemas que estén en el diccionario y no sean puntuación o espacios
    lemmas = [
        token.lemma_ for token in doc 
        if not token.is_punct and not token.is_space and token.lemma_.lower() in valid_words
    ]
    lemmas_por_documento.append(lemmas)


# Guardar el dataset procesado 
dataset.to_csv("recursos/dataset_prueba_limpio.csv", index=False)

#### Tokenizar y Lematizar

In [5]:

lemmas_por_documento = []
for text in dataset["news_limpio"]:
    doc = nlp(text)
    lemmas = [token.lemma_ for token in doc if not token.is_punct and not token.is_space]  
    lemmas_por_documento.append(lemmas)  

#### Guardar lemas en un archivo para su visualización

In [9]:
with open("archivos/lemas_por_documento.txt", "w", encoding="utf-8") as f:
    for doc in lemmas_por_documento:
        f.write(f"{doc}\n")

print("Archivo 'lemas_por_documento.txt' guardado exitosamente.")

Archivo 'lemas_por_documento.txt' guardado exitosamente.


#### Separar los documentos por clase


In [10]:
with open('archivos/lemas_por_documento.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()
lemas_por_documento = [eval(line.strip()) for line in lines]  # Lista de listas de lemas


etiquetas = dataset["Type"].values  # Vector de clases (mismo orden que lemas_por_documento)

# Crear diccionario para agrupar lemas por clase
lemas_por_clase = {}

for lema_doc, clase in zip(lemas_por_documento, etiquetas):
    if clase not in lemas_por_clase:
        lemas_por_clase[clase] = []
    lemas_por_clase[clase].append(lema_doc)




#### Guardar cada clase en un archivo TXT

In [13]:

for clase, documentos in lemas_por_clase.items():
    nombre_archivo = f"archivos/lemas_{clase.lower()}.txt"
    with open(nombre_archivo, 'w', encoding='utf-8') as f:
        for doc in documentos:
            f.write(f"{doc}\n")
            #f.write(" ".join(doc) + "\n")  # Cada documento en una línea