In [65]:
import pandas as pd
dataset = pd.read_json("../Datasets/dataset_humor_train.json", lines=True)
#conteo de clases
print("Total de ejemplos de entrenamiento")
print(dataset.klass.value_counts())
# Extracción de los textos en arreglos de numpy
X_train = dataset['text'].to_numpy()
# Extracción de las etiquetas o clases de entrenamiento
Y_train = dataset['klass'].to_numpy()

Total de ejemplos de entrenamiento
klass
0    6588
1    3812
Name: count, dtype: int64


In [66]:
import pandas as pd
dataset = pd.read_json("../Datasets/dataset_humor_test.json", lines=True)
#conteo de clases
print("Total de ejemplos de prueba")
print(dataset.klass.value_counts())
# Extracción de los textos en arreglos de numpy
X_test = dataset['text'].to_numpy()
# Extracción de las etiquetas o clases de entrenamiento
Y_test = dataset['klass'].to_numpy()

Total de ejemplos de prueba
klass
-1    5600
Name: count, dtype: int64


In [67]:
from sklearn.model_selection import train_test_split

# Divide el conjunto de entrenamiento en:  entrenamiento (90%) y validación (10%)
X_train, X_val, Y_train, Y_val =  train_test_split(X_train, Y_train, test_size=0.1, stratify=Y_train, random_state=42)

In [68]:
import re

def eliminar_emojis(texto):
    # Expresión regular que cubre la mayoría de emojis y pictogramas
    emoji_pattern = re.compile(
        "["
        "\U0001F600-\U0001F64F"  # emoticonos
        "\U0001F300-\U0001F5FF"  # símbolos y pictogramas
        "\U0001F680-\U0001F6FF"  # transporte y mapas
        "\U0001F1E0-\U0001F1FF"  # banderas
        "\U00002702-\U000027B0"  # otros símbolos
        "\U000024C2-\U0001F251"
        "]+",
        flags=re.UNICODE
    )
    return emoji_pattern.sub(r'', texto)

In [69]:
import unicodedata
import re
from nltk.corpus import stopwords
from nltk import word_tokenize
from nltk.stem import SnowballStemmer

_STOPWORDS = stopwords.words("english")  # agregar más palabras a esta lista si es necesario
stemmer = SnowballStemmer("english")
PUNCTUACTION = ";:,.\\-\"'/"
SYMBOLS = "()[]¿?¡!{}~<>|"
NUMBERS= "0123456789"
SKIP_SYMBOLS = set(PUNCTUACTION + SYMBOLS)
SKIP_SYMBOLS_AND_SPACES = set(PUNCTUACTION + SYMBOLS + '\t\n\r ')

def normaliza_texto(input_str,
                    punct=False,
                    accents=False,
                    num=False,
                    max_dup=2):
    """
        punct=False (elimina la puntuación, True deja intacta la puntuación)
        accents=False (elimina los acentos, True deja intactos los acentos)
        num= False (elimina los números, True deja intactos los acentos)
        max_dup=2 (número máximo de símbolos duplicados de forma consecutiva, rrrrr => rr)
    """
    
    nfkd_f = unicodedata.normalize('NFKD', input_str)
    n_str = []
    c_prev = ''
    cc_prev = 0
    for c in nfkd_f:
        if not num:
            if c in NUMBERS:
                continue
        if not punct:
            if c in SKIP_SYMBOLS:
                continue
        if not accents and unicodedata.combining(c):
            continue
        if c_prev == c:
            cc_prev += 1
            if cc_prev >= max_dup:
                continue
        else:
            cc_prev = 0
        n_str.append(c)
        c_prev = c
    texto = unicodedata.normalize('NFKD', "".join(n_str))
    texto = re.sub(r'(\s)+', r' ', texto.strip(), flags=re.IGNORECASE)
    return texto

def mi_preprocesamiento_factory(modo):
    """
    Devuelve una función de preprocesamiento y tokenización según el modo:
    - 'normalizacion'
    - 'normalizacion_stopwords'
    - 'normalizacion_stopwords_stem'
    """

    def preprocesamiento(texto):
        texto = texto.lower()
        #texto = eliminar_emojis(texto)
        texto = re.sub(r"http\S+|www\S+|https\S+", "", texto)
        texto = re.sub(r"@\w+", "", texto)
        texto = normaliza_texto(texto, punct=True)
        return texto

    def tokenizador(texto):
        tokens = word_tokenize(texto)
        if modo in ['normalizacion_stopwords', 'normalizacion_stopwords_stem']:
            tokens = [t for t in tokens if t not in _STOPWORDS and len(t) > 2]
        if modo == 'normalizacion_stopwords_stem':
            tokens = [stemmer.stem(t) for t in tokens]
        return tokens

    return preprocesamiento, tokenizador

In [70]:
from sklearn.feature_extraction.text import TfidfVectorizer

class Vec_TFID:
    def __init__(self, modo_preproc='normalizacion'):
        self.vec_tfidf = None
        self.modo_preproc = modo_preproc

    def create_matriz_TFID(self, X_train, ngram_config, max_config):
        preproc, token = mi_preprocesamiento_factory(self.modo_preproc)
        self.vec_tfidf = TfidfVectorizer(
            analyzer="word",
            preprocessor=preproc,
            tokenizer=token,
            ngram_range=ngram_config,
            max_features=max_config
        )
        X_tfidf = self.vec_tfidf.fit_transform(X_train)
        return X_tfidf.toarray()

    def tranform_matriz_TFID(self, X_test):
        X_tfid = self.vec_tfidf.transform(X_test)
        return X_tfid.toarray()

In [71]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
class Vec_Count:
    def __init__(self, modo_preproc='normalizacion'):
        self.vec = None
        self.modo_preproc = modo_preproc

    def create_matriz_Count(self, X_train, ngram_config, max_config):
        preproc, token = mi_preprocesamiento_factory(self.modo_preproc)
        self.vec = CountVectorizer(
            analyzer="word",
            preprocessor=preproc,
            tokenizer=token,
            ngram_range=ngram_config,
            max_features=max_config
        )
        X_vec = self.vec.fit_transform(X_train)
        return X_vec.toarray().astype(np.float32)

    def transform_matriz_Count(self, X_test):
        X_vec = self.vec.transform(X_test)
        return X_vec.toarray().astype(np.float32)


In [98]:
import torch
USE_TFIDF = True      # True: TF-IDF, False: Count
NGRAM_RANGE = (1, 2)
MAX_FEATURES = 30000  # features for vectorizer (then apply SVD)
SVD_COMPONENTS = 512  # reduce to this dimensionality (choose <= MAX_FEATURES)
BATCH_SIZE = 64
EPOCHS = 50
LEARNING_RATE = 1e-3
PATIENCE = 20          # early stopping patience (val loss)
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
preproc = "normalizacion" 
#preproc = "normalizacion_stopwords" 
#preproc = "normalizacion_stopwords_stem"

In [99]:
if USE_TFIDF:
    vectorizer = Vec_TFID(modo_preproc=preproc)

    X_tr = vectorizer.create_matriz_TFID(X_train, 
                                            ngram_config=NGRAM_RANGE, 
                                            max_config=MAX_FEATURES)
    
    X_val_vectorized = vectorizer.tranform_matriz_TFID(X_val)
    X_t = vectorizer.tranform_matriz_TFID(X_test) 
else:
    vectorizer = Vec_Count(modo_preproc=preproc)
    X_tr = vectorizer.create_matriz_Count(X_train, 
                                            ngram_config=NGRAM_RANGE, 
                                            max_config=MAX_FEATURES)
    
    X_val_vectorized = vectorizer.transform_matriz_Count(X_val)
    X_t = vectorizer.transform_matriz_Count(X_test)



In [41]:
# import torch
# import torch.nn as nn
# NUM_CLASSES = 2
# Y_train_one_hot = nn.functional.one_hot(torch.from_numpy(Y_train), num_classes=NUM_CLASSES).float()
# Y_val_one_hot = nn.functional.one_hot(torch.from_numpy(Y_val), num_classes=NUM_CLASSES).float()


In [74]:
from torch.utils.data import DataLoader, TensorDataset
def create_minibatches(X, Y, batch_size):
    # Recibe los documentos en X y las etiquetas en Y
    dataset = TensorDataset(X, Y) # Cargar los datos en un dataset de tensores
    loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
    # loader = DataLoader(dataset, batch_size=batch_size)
    return loader

In [43]:
X_train.shape, Y_train.shape

((9360,), (9360,))

In [44]:
# Y_train_one_hot.shape,  Y_val_one_hot.shape

In [100]:
import torch.optim as optim
import torch.nn as nn
class MLP(nn.Module):
    def __init__(self, input_size, output_size):
        super().__init__()
        # Definición de capas, funciones de activación e inicialización de pesos
        input_size_h1 = 512
        input_size_h2 = 128
        input_size_h3 = 32
        self.fc1 = nn.Linear(input_size, input_size_h1)
        self.bn1 = nn.BatchNorm1d(input_size_h1)
        # PReLU tiene parámetros aprendibles: Se recomienda una función de activación independiente por capa
        self.act1= nn.LeakyReLU()
        self.drop1 = nn.Dropout(p=0.5)

        self.fc2 = nn.Linear(input_size_h1, input_size_h2)
        self.bn2 = nn.BatchNorm1d(input_size_h2)
        # PReLU tiene parámetros aprendibles: Se recomienda una función de activación independiente por capa
        self.act2= nn.LeakyReLU()
        self.drop2 = nn.Dropout(p=0.4)

        self.fc3 = nn.Linear(input_size_h2, input_size_h3)
        self.bn3 = nn.BatchNorm1d(input_size_h3)
        self.act3 = nn.LeakyReLU()
        self.drop3 = nn.Dropout(p=0.2)

        self.output = nn.Linear(input_size_h3, output_size)
        
        self._init_weights()

    def _init_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)
       
    def forward(self, X):
        # Definición del orden de conexión de las capas y aplición de las funciones de activación
        x = self.fc1(X)
        x = self.bn1(x)
        x = self.act1(x)
        x = self.drop1(x)


        x = self.fc2(x)
        x = self.bn2(x)
        x = self.act2(x)
        x = self.drop2(x)

        
        x = self.fc3(x)
        x = self.bn3(x)
        x = self.act3(x)
        x = self.drop3(x)

        x = self.output(x)
        # Nota la última capa de salida 'output' no se activa debido a que CrossEntropyLoss usa LogSoftmax internamente. 
        return x

In [101]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
from sklearn.utils.class_weight import compute_class_weight

# --- 1. CONFIGURACIÓN DEL DISPOSITIVO (GPU vs CPU) ---
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando dispositivo: {device}")

# Parámetros de la red
input_size = X_tr.shape[1]
output_size = 2   # 2 clases


# Conversión de datos a Tensores (Se quedan en CPU por ahora para no saturar VRAM)
X_train_t = torch.from_numpy(X_tr).to(torch.float32)
Y_train_t = torch.from_numpy(Y_train).long() # Asegúrate que Y_train sean índices (0, 1, 2...)

X_val_t = torch.from_numpy(X_val_vectorized).to(torch.float32)
# Y_val se queda como numpy para usarlo en sklearn al final

# --- 2. CREAR LA RED Y MOVERLA A GPU ---
model = MLP(input_size, output_size)
model.to(device) # <--- IMPORTANTE: Mueve el modelo a la GPU

# Calcular pesos de clases para el desbalance
classes = np.unique(Y_train)
weights_calc = compute_class_weight('balanced', classes=classes, y=Y_train)
weights_calc[1] = weights_calc[1] * 1.3
weights = torch.tensor(weights_calc).float()

# --- 3. MOVER LOS PESOS DE LA LOSS A GPU ---
weights = weights.to(device) # <--- IMPORTANTE: Los pesos deben estar en el mismo lugar que el modelo

criterion = nn.CrossEntropyLoss(weight=weights) 
optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE, weight_decay=1e-4)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.5, patience=3)

print("Iniciando entrenamiento en PyTorch...")

for epoch in range(EPOCHS):
    model.train()  
    lossTotal = 0
    
    # Asumo que create_minibatches devuelve iteradores de tensores
    dataloader = create_minibatches(X_train_t, Y_train_t, batch_size=BATCH_SIZE)
    
    for X_tra, y_tr in dataloader:
        # --- 4. MOVER EL BATCH ACTUAL A GPU ---
        X_tra = X_tra.to(device)
        y_tr = y_tr.to(device)
        
        optimizer.zero_grad()
        
        # Propagación hacia adelante
        y_pred = model(X_tra)
        
        loss = criterion(y_pred, y_tr)
        lossTotal += loss.item()
        
        loss.backward()
        optimizer.step()
        
        if np.random.random() < 0.01: # Reduje la frecuencia de print para no ensuciar la consola
            print(f"Batch Error : {loss.item():.4f}")

    print(f"Época {epoch+1}/{EPOCHS}, Pérdida promedio: {lossTotal/len(dataloader):.4f}")
    
    # --- VALIDACIÓN ---
    model.eval()
    with torch.no_grad():
        # Mover datos de validación a GPU
        X_val_gpu = X_val_t.to(device)
        
        Y_val_tensor = torch.from_numpy(Y_val).long().to(device)
        y_pred_logits = model(X_val_gpu)
        
        val_loss = criterion(y_pred_logits, Y_val_tensor)
        # Softmax y Argmax
        y_pred_prob = torch.softmax(y_pred_logits, dim=1)
        y_pred_class = torch.argmax(y_pred_prob, dim=1)
        
        # --- 5. DEVOLVER A CPU PARA SKLEARN ---
        # sklearn no funciona con tensores en GPU. 
        # Usamos .cpu() para bajarlo y .numpy() para convertirlo
        y_pred_numpy = y_pred_class.cpu().numpy()
        
        print(f"--- Resultados Val Época {epoch+1} ---")
        # Usamos 'binary' si solo hay 2 clases y el humor es la clase positiva (1)
        # Usamos 'macro' si te importa el promedio de ambas
        print("P =", precision_score(Y_val, y_pred_numpy, average='macro'))
        print("R =", recall_score(Y_val, y_pred_numpy, average='macro'))
        print("F1=", f1_score(Y_val, y_pred_numpy, average='macro'))
        print("Acc=", accuracy_score(Y_val, y_pred_numpy))
        print("--------------------------------------")
    scheduler.step(val_loss)

Usando dispositivo: cuda
Iniciando entrenamiento en PyTorch...
Batch Error : 1.8663
Época 1/50, Pérdida promedio: 1.4515
--- Resultados Val Época 1 ---
P = 0.6975329566854991
R = 0.7088784804782559
F1= 0.6745288757186543
Acc= 0.6759615384615385
--------------------------------------
Época 2/50, Pérdida promedio: 0.7796
--- Resultados Val Época 2 ---
P = 0.7397688395746649
R = 0.758195627670972
F1= 0.7340463538552373
Acc= 0.7384615384615385
--------------------------------------
Época 3/50, Pérdida promedio: 0.4599
--- Resultados Val Época 3 ---
P = 0.77035616417588
R = 0.7840958423444414
F1= 0.7745257452574525
Acc= 0.7846153846153846
--------------------------------------
Batch Error : 0.1890
Batch Error : 0.1401
Época 4/50, Pérdida promedio: 0.2964
--- Resultados Val Época 4 ---
P = 0.7793979070574815
R = 0.7916830957587054
F1= 0.7836492660639642
Acc= 0.7942307692307692
--------------------------------------
Época 5/50, Pérdida promedio: 0.1882
--- Resultados Val Época 5 ---
P = 0.780

In [102]:
X_val_t = torch.from_numpy(X_val_vectorized).to(torch.float32)

# --- CRÍTICO: Mover los datos al mismo dispositivo que el modelo (GPU) ---
# Si definiste 'device' anteriormente, úsalo aquí.
device = next(model.parameters()).device # Truco para detectar dónde está el modelo automáticamente
X_val_t = X_val_t.to(device)

# 2. INFERENCIA
model.eval() # Modo evaluación (apaga Dropout y Batch Norm)

with torch.no_grad(): # Ahorra memoria y cálculo
    # Predicción (Logits)
    y_pred_logits = model(X_val_t)
    
    # Obtener la clase con mayor probabilidad (Argmax)
    y_pred_class_tensor = torch.argmax(y_pred_logits, dim=1)

# 3. POST-PROCESAMIENTO
# --- CRÍTICO: Mover de GPU a CPU y convertir a Numpy para Scikit-Learn ---
y_pred_val_numpy = y_pred_class_tensor.cpu().numpy()

print(y_pred_val_numpy)
# Y_val ya debería ser numpy (según tu código anterior), si es tensor, conviértelo también:
# Y_val_numpy = Y_val.cpu().numpy() if torch.is_tensor(Y_val) else Y_val

[1 0 0 ... 1 0 1]


In [111]:
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

print("--- Matriz de Confusión ---")
cm = confusion_matrix(Y_val, y_pred_val_numpy)
print(cm)

print("\n--- Reporte de Clasificación ---")
# target_names ayuda a leer mejor el reporte
print(classification_report(Y_val, y_pred_val_numpy, digits=4, zero_division='warn', target_names=['No Humor', 'Humor']))


--- Matriz de Confusión ---
[[562  97]
 [ 93 288]]

--- Reporte de Clasificación ---
              precision    recall  f1-score   support

    No Humor     0.8580    0.8528    0.8554       659
       Humor     0.7481    0.7559    0.7520       381

    accuracy                         0.8173      1040
   macro avg     0.8030    0.8044    0.8037      1040
weighted avg     0.8177    0.8173    0.8175      1040



In [109]:
# 1. PREPARAR DATOS
# Convertir a tensor float
X_testing = torch.from_numpy(X_t).to(torch.float32)

# --- CRÍTICO: Detectar dispositivo y mover datos ---
# Esto asegura que si el modelo está en GPU, los datos también vayan allá
device = next(model.parameters()).device 
X_testing = X_testing.to(device)

# 2. INFERENCIA
model.eval() # Apaga Dropout y Batch Norm

with torch.no_grad(): 
    # Predicción de logits
    y_pred_test_logits = model(X_testing)

# 3. PROCESAR RESULTADOS
# Obtener la clase (0 o 1) usando argmax
y_pred_test_indices = torch.argmax(y_pred_test_logits, dim=1)

# --- CRÍTICO: Mover de vuelta a CPU y convertir a Numpy ---
# Esto limpia la salida para que sea un array normal [0, 1, 0, 0...]
y_pred_final = y_pred_test_indices.cpu().numpy()

print("Predicciones generadas:")
print(y_pred_final)

# OPCIONAL: Verificar distribución de predicciones
unique, counts = np.unique(y_pred_final, return_counts=True)
print("\nConteo de clases predichas:")
print(dict(zip(unique, counts)))

Predicciones generadas:
[1 0 0 ... 0 0 1]

Conteo de clases predichas:
{np.int64(0): np.int64(3536), np.int64(1): np.int64(2064)}


In [108]:
def guardar_resultados(datos, archivo):

    df = pd.DataFrame(datos, columns=['klass'])

    df['id'] = df.index + 1

    df = df[['id', 'klass']]

    df.to_csv(archivo, index=False)

    print(f" {datos} guardado exitosamente!")

In [110]:
guardar_resultados(y_pred_final, f" neuronas{512}, {128}, {32}, {LEARNING_RATE}, {NGRAM_RANGE}, TFIDF {USE_TFIDF}, {BATCH_SIZE}, preprocesador {preproc}.csv")

 [1 0 0 ... 0 0 1] guardado exitosamente!
