# Instalacion de librerias

In [2]:
!pip install spacy




In [3]:
!pip install xgboost==2.1.4



In [4]:
import pandas as pd
import numpy as np
import re
import joblib
import unidecode
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import spacy
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, confusion_matrix
import matplotlib.pyplot as plt
from xgboost import XGBClassifier

In [5]:
try:
    nlp = spacy.load("es_core_news_sm")
except:
    # Si no está instalado, instalarlo
    print("Instalando modelo de spaCy para español...")
    !python -m spacy download es_core_news_sm
    nlp = spacy.load("es_core_news_sm")

# Creacion de transformer personalizados

Para automatizar todo el preprocesamiento de datos realizado en la etapa 1 del proyecto, utilizamos las clases BaseEstimator y TransformerMixin que nos permiten incorporar nuestro preprocesamiento manual como un paso dentro del pipeline. Esta estructura nos ofrece la ventaja de que, al exportar el pipeline y usar el método fit, cada función transformer se aplica automáticamente a los datos en secuencia.
Además, incorporamos un transformer no personalizado para la vectorización: TfidfVectorizer. Este componente simplemente se importa y se integra en el pipeline, sin necesidad de programarlo desde cero. Esta combinación de transformers personalizados y predefinidos nos permite crear un flujo de trabajo eficiente que procesa los datos.

## Transformer para tokenizar

In [6]:
class TextTokenizer(BaseEstimator, TransformerMixin):

    def __init__(self, text_col='Descripcion'):
        self.text_col = text_col
        try:
            word_tokenize("Prueba")
        except:
            import nltk
            nltk.download('punkt')
    
    def fit(self, X, y=None):
        return self
    
    def transform(self, X):
        df_copy = X.copy()
        
        df_copy['words'] = df_copy[self.text_col].apply(self._tokenize_text)
        
        return df_copy
    
    def _tokenize_text(self, text):
        if not isinstance(text, str):
            return []
        
        # Tokenizar el texto
        tokens = word_tokenize(text)
        return tokens

Al inicializarse, intenta tokenizar una palabra de prueba ("Prueba") y descarga el tokenizador 'punkt' de NLTK si es necesario.

El transformador toma un DataFrame, crea una copia, y aplica una función de tokenización a la columna de texto especificada (por defecto 'Descripcion'). Esta función divide el texto en palabras individuales (tokens) utilizando word_tokenize de NLTK y devuelve el DataFrame con una nueva columna 'words' que contiene las listas de tokens para cada texto.ReintentarClaude puede cometer errores. Verifique las respuestas.
Es basicamente la misma tokenizacion realizada en la etapa 1

## Transformer para preprocesar el texto

Este transformer convierte todo a minusculas, elimina los signos de puntuacion, elimina los caracteres no ascii y elimina las stopwords todo tal cual como en la etapa 1 pero lo hace en esta clase para poder usarlo en el pipeline.

In [7]:
class TokenPreprocessor(BaseEstimator, TransformerMixin):
    def __init__(self):
        try:
            self.stopwords = set(stopwords.words('spanish'))
        except:
            import nltk
            nltk.download('stopwords')
            self.stopwords = set(stopwords.words('spanish'))
    
    def fit(self, X, y=None):
        return self
    
    def transform(self, X):
        df_copy = X.copy()
        
        # Aplicar el preprocesamiento a la columna 'words'
        df_copy['words'] = df_copy['words'].apply(self._preprocess_tokens)
        
        return df_copy
    
    def _preprocess_tokens(self, tokens):
        """Preprocesa una lista de tokens"""
        if not isinstance(tokens, list):
            return []
        
        # Convertir a minúsculas
        tokens = self._to_lowercase(tokens)
        
        # Eliminar puntuación
        tokens = self._remove_punctuation(tokens)
        
        # Eliminar caracteres no ASCII
        tokens = self._remove_non_ascii(tokens)
        
        # Eliminar stopwords
        tokens = self._remove_stopwords(tokens)
        
        return tokens
    
    def _to_lowercase(self, words):
        """Convertir a minúsculas"""
        return [word.lower() for word in words if word is not None]
    
    def _remove_punctuation(self, words):
        """Eliminar puntuación"""
        new_words = []
        for word in words:
            if word is not None:
                new_word = re.sub(r'[^\w\s]', '', word)
                if new_word != '':
                    new_words.append(new_word)
        return new_words
    
    def _remove_non_ascii(self, words):
        """Eliminar caracteres no ASCII"""
        new_words = []
        for word in words:
            if word is not None:
                new_word = unidecode.unidecode(word)
                new_words.append(new_word)
        return new_words
    
    def _remove_stopwords(self, words):
        """Eliminar stopwords"""
        new_words = []
        for word in words:
            if word not in self.stopwords:
                new_words.append(word)
        return new_words

Al inicializarse, carga las palabras vacías (stopwords) en español, descargándolas si es necesario. Cuando se ejecuta su transformación, toma los tokens previamente generados y les aplica una serie de operaciones de limpieza: convierte todo a minúsculas, elimina los signos de puntuación, remueve caracteres especiales no ASCII (convirtiéndolos a su equivalente sin acentos o caracteres especiales), y finalmente filtra las palabras vacías que no aportan significado al análisis. El resultado es una lista de tokens limpios y estandarizados que facilitan el análisis 

## Transformer para hacer lematizacion

Al igual que en la etapa 1 se hace la misma lematizacion que lleva las palabras a su forma raiz para mejorar el modelo y que no cuente palabras conjugadas como si fueran otras palabras sino que sean todas la misma palabra raiz.

In [9]:
class Lemmatizer(BaseEstimator, TransformerMixin):
    def __init__(self):
        # Asegurarnos de que el modelo de spaCy está cargado
        try:
            self.nlp = spacy.load("es_core_news_sm")
        except:
            import sys
            !python -m spacy download es_core_news_sm
            self.nlp = spacy.load("es_core_news_sm")
    
    def fit(self, X, y=None):
        return self
    
    def transform(self, X):
        # Crear copia del DataFrame
        df_copy = X.copy()
        
        # Aplicar lematización a la columna 'words'
        df_copy['words'] = df_copy['words'].apply(self._lemmatize_tokens)
        
        return df_copy
    
    def _lemmatize_tokens(self, tokens):
        """Lematiza una lista de tokens"""
        if not isinstance(tokens, list):
            return []
        
        # Unir los tokens en una cadena 
        text = " ".join(tokens)
        
        # Procesar el texto con spaCy
        doc = self.nlp(text)
        
        # Lematizar, enfocándose en los verbos
        lemmatized_tokens = [token.lemma_ if token.pos_ == "VERB" else token.text 
                            for token in doc]
        
        return lemmatized_tokens

Al inicializarse, carga el modelo de lenguaje español de spaCy ("es_core_news_sm"), descargándolo si no está disponible. Durante la transformación, toma las listas de tokens previamente procesados, los une en un texto, procesa este texto con el modelo de spaCy y extrae los lemas (formas base) de los verbos, mientras mantiene el resto de las palabras sin cambios.

## Transformer para unir los tokens   

Une los tokens para poder hacer vectoriazacion prosteriormente

In [10]:
class JoinTokens(BaseEstimator, TransformerMixin):
    def __init__(self, words_col='words'):
        self.words_col = words_col
        
    def fit(self, X, y=None):
        return self
    
    def transform(self, X):
        # Obtenemos solo la columna de tokens
        if isinstance(X, pd.DataFrame):
            # Si es un DataFrame, extraemos solo la columna de tokens
            tokens_lists = X[self.words_col]
        else:
            # Si ya es una serie o lista
            tokens_lists = X
            
        # Unimos los tokens en cadenas de texto
        return [' '.join(tokens) if isinstance(tokens, list) else '' for tokens in tokens_lists]

Esta clase JoinTokens se encarga de convertir las listas de tokens nuevamente en cadenas de texto. Al transformar los datos, toma el DataFrame de entrada y verifica si es efectivamente un DataFrame para extraer solo la columna de tokens, o si ya es una serie o lista para procesarla directamente. Luego une cada lista de tokens en una sola cadena de texto utilizando espacios como separadores. El resultado es una lista de textos procesados donde cada elemento corresponde a un documento original, pero ahora con sus palabras unidas después de haber pasado por todo el proceso de limpieza y normalización. Este paso es esencial para devolver los tokens a un formato de texto que pueda ser utilizado por el vectorizador

# Creacion del pipeline

Creamos el pipeline y en sus pasos agregamos de forma ordenada los transformers definidos previamente, por ultimo el modelo XGBoost que fue el mejor modelo de nuestra etapa 1

In [None]:
def create_text_classification_pipeline():
    pipeline = Pipeline([
        # 1. Tokenizar texto
        ('tokenizer', TextTokenizer(text_col='Descripcion')),
        
        # 2. Preprocesar tokens
        ('token_preprocessor', TokenPreprocessor()),
        
        # 3. Lematizar tokens
        ('lemmatizer', Lemmatizer()),
        
        # 4. Unir tokens para vectorización
        ('join_tokens', JoinTokens()),
        
        # 5. Vectorizar texto
        ('vectorizer', TfidfVectorizer()),
        
        # 6. Clasificar
        ('classifier', XGBClassifier(eval_metric='mlogloss',
                                   n_estimators=100,
                                   max_depth=5,
                                   learning_rate=0.1,
                                   random_state=42))
    ])
    
    return pipeline

Esta función crea un pipeline completo para la clasificación de textos. El pipeline comienza con el proceso de tokenización, luego limpia y preprocesa esos tokens, aplica lematización a los verbos, y une los tokens procesados en cadenas de texto que luego son vectorizadas mediante TF-IDF.
Finalmente, utiliza XGBoost como clasificador con parámetros cuidadosamente seleccionados: 'eval_metric' está configurado como 'mlogloss' (pérdida logarítmica multiclase) para evaluar el rendimiento en problemas de clasificación múltiple; 'n_estimators=100' determina la cantidad de árboles en el bosque, equilibrando precisión y tiempo de entrenamiento; 'max_depth=5' limita la profundidad de los árboles para evitar sobreajuste; 'learning_rate=0.1' controla cuánto se ajusta el modelo con cada árbol, ofreciendo un buen balance entre velocidad de convergencia y precisión; y 'random_state=42' garantiza resultados reproducibles en cada ejecución.ReintentarClaude puede cometer errores. Verifique las respuestas.

# Entrenar, evaluar y exportar el modelo con su pipeline

In [12]:
def train_and_evaluate(df, text_col='Descripcion', target_col='Label', test_size=0.2, random_state=42):
    # Eliminar duplicados y conflictos a nivel de dataframe
    print(f"Filas originales: {len(df)}")
    
    # Detectar duplicados 
    duplicated_descriptions = df[df[text_col].duplicated(keep=False)]
    
    # Identificar duplicados conflictivos (mismo texto, diferente etiqueta)
    conflict_groups = duplicated_descriptions.groupby(text_col)[target_col].nunique() > 1
    conflict_texts = conflict_groups[conflict_groups].index
    
    # Eliminar filas con conflictos
    conflict_rows = df[df[text_col].isin(conflict_texts)].index
    df_clean = df.drop(index=conflict_rows)
    print(f"Filas eliminadas por conflictos: {len(conflict_rows)}")
    
    # Eliminar duplicados restantes
    df_clean = df_clean.drop_duplicates(subset=[text_col], keep='first')
    print(f"Filas después de eliminar duplicados y conflictos: {len(df_clean)}")
    
    # Dividir en entrenamiento y prueba
    df_train, df_test = train_test_split(
        df_clean, test_size=test_size, random_state=random_state, stratify=df_clean[target_col]
    )
    
    # Preparar X e y para entrenamiento
    X_train = df_train[[text_col]].copy()
    y_train = df_train[target_col]
    
    # Preparar X e y para prueba
    X_test = df_test[[text_col]].copy()
    y_test = df_test[target_col]
    
    # Crear y entrenar el pipeline
    pipeline = create_text_classification_pipeline()
    pipeline.fit(X_train, y_train)
    
    # Evaluar el modelo
    y_pred = pipeline.predict(X_test)
    
    # Métricas
    accuracy = accuracy_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred, average='weighted')
    report = classification_report(y_test, y_pred)
    
    print(f"Accuracy: {accuracy:.4f}")
    print(f"F1 Score (weighted): {f1:.4f}")
    print("\nClassification Report:")
    print(report)
    
    return pipeline

Esta función se encarga de preparar los datos, entrenar el modelo y evaluar su rendimiento. Comienza con una preparación de los datos, para luego dividirlos en conjuntos de entrenamiento y prueba utilizando un tamaño de test especificado (por defecto 20%) y asegurando que la distribución de clases se mantenga proporcionalmente igual en ambos conjuntos mediante el parámetro 'stratify'.
A continuación, prepara las variables predictoras (X) y objetivo (y) tanto para el entrenamiento como para la prueba. Crea el pipeline completo de clasificación de texto llamando a la función vista anteriormente y lo entrena con los datos preparados.
Finalmente, evalúa el rendimiento del modelo generando predicciones sobre el conjunto de prueba y calculando varias métricas: precisión (accuracy), puntuación F1 ponderada y un informe de clasificación detallado que incluye precisión, recall y F1 para cada clase. La función retorna el pipeline entrenado, que puede ser utilizado posteriormente para hacer predicciones con nuevos datos o ser exportado para su uso en producción.

In [13]:
def export_model(pipeline, file_path="modelo_clasificacion_texto.joblib"):
    joblib.dump(pipeline, file_path)
    print(f"Modelo exportado exitosamente a: {file_path}")
    return file_path

Esta función se encarga de guardar el modelo de clasificación de texto entrenado para su uso posterior. Toma como entrada el pipeline completo que contiene todas las etapas de procesamiento y el modelo, y lo serializa utilizando la biblioteca joblib, guardándolo en un archivo en la ruta especificada (por defecto, "modelo_clasificacion_texto.joblib"). La serialización permite conservar todo el flujo de preprocesamiento y el modelo en un único archivo, facilitando su implementación en entornos de producción sin necesidad de reentrenar. La función confirma que el modelo ha sido exportado correctamente y devuelve la ruta del archivo donde se guardó.

In [None]:
df = pd.read_csv("fake_news_spanish.csv", sep=";", encoding="utf-8")

Leemos el df de los datos originales y lo convertimos en df

In [15]:
df.head()

Unnamed: 0,ID,Label,Titulo,Descripcion,Fecha
0,ID,1,'The Guardian' va con Sánchez: 'Europa necesit...,El diario británico publicó este pasado jueves...,02/06/2023
1,ID,0,REVELAN QUE EL GOBIERNO NEGOCIO LA LIBERACIÓN ...,REVELAN QUE EL GOBIERNO NEGOCIO LA LIBERACIÓN ...,01/10/2023
2,ID,1,El 'Ahora o nunca' de Joan Fuster sobre el est...,El valencianismo convoca en Castelló su fiesta...,25/04/2022
3,ID,1,"Iglesias alienta a Yolanda Díaz, ERC y EH Bild...","En política, igual que hay que negociar con lo...",03/01/2022
4,ID,0,Puigdemont: 'No sería ninguna tragedia una rep...,"En una entrevista en El Punt Avui, el líder de...",09/03/2018


In [16]:
# Ejecutar el pipeline de entrenamiento y evaluación
pipeline = train_and_evaluate(df, text_col='Descripcion', target_col='Label')

Filas originales: 57063
Filas eliminadas por conflictos: 13880
Filas después de eliminar duplicados y conflictos: 42787
Accuracy: 0.8675
F1 Score (weighted): 0.8617

Classification Report:
              precision    recall  f1-score   support

           0       0.98      0.68      0.80      3386
           1       0.83      0.99      0.90      5172

    accuracy                           0.87      8558
   macro avg       0.90      0.84      0.85      8558
weighted avg       0.89      0.87      0.86      8558



Ejecutamos el pipeline entrenandolo y evaluandolo, las metricas son similares a las obtenidas en la etapa1, casi iguales.

In [35]:
model_path = export_model(pipeline, "../model/modelo_clasificacion_texto.joblib")

Modelo exportado exitosamente a: ../model/modelo_clasificacion_texto.joblib


Por ultimo  exportamos el pipeline en la carpeta de la app para ser utilizado