<br>
<br>

# **Estrategias de clasificación**

## **Aprendizaje supervisado en clasificación de texto**

### **Clasificación mediante regresión logística**

La regresión logística es un método estadístico utilizado para modelar la relación entre una variable dependiente binaria y una o más variables independientes. 

1. **Modelo**:
   - La regresión logística modela la probabilidad $P(Y=1)$ de que la variable dependiente $Y$ sea 1 (generalmente representando la "clase positiva" en clasificación).
   - Se utiliza la función logística (o función sigmoide) $ \sigma(z) = \frac{1}{1 + e^{-z}} $ para transformar cualquier valor en el rango (0, 1), siendo $z$ la combinación lineal de variables independientes, es decir, $ z = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots $.

2. **Estimación de parámetros**:
   - Los coeficientes $\beta$ se estiman utilizando el método de máxima verosimilitud. La idea es encontrar los valores de $\beta$ que maximizan la probabilidad (verosimilitud) de observar la muestra dada. Esto se puede hacer usando algoritmos de optimización como el método del gradiente, el método de Newton-Raphson, entre otros.

3. **Predicción**:
   - Una vez entrenado el modelo y estimados los coeficientes, se puede predecir la probabilidad $P(Y=1)$ para nuevos datos.
   - Para tomar una decisión de clasificación, se establece un umbral (comúnmente 0.5). Si $P(Y=1)$ es mayor que el umbral, se clasifica como 1, de lo contrario, se clasifica como 0.

In [174]:
# Dataset de ejemplo
documents = [
    "La película fue emocionante y llena de acción.",
    "Ese libro tiene una trama intrigante.",
    "Los actores hicieron un trabajo excelente.",
    "El autor describe paisajes con gran detalle.",
    "El cine de autor siempre me ha fascinado.",
    "La novela estaba llena de giros inesperados.",
    "El guion de esa película fue escrito por un famoso novelista.",
    "Los personajes del libro eran muy realistas.",
    "Esa película está basada en un libro aclamado.",
    "El libro estaba basado en emocionantes paisajes.",
    "El guion fue aclamado por su trama intrigante.",
    "El cine muestra películas emocionantes de acción."
]

labels = [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0]  # 1: Positivo, 0: Negativo


Vamos a realizar la tokenización y conteo de palabras para construir la representación vectorial de los documentos. Para ello, vamos a utilizar la clase `CountVectorizer` de `scikit-learn`. Además, nos permite realizar el filtrado de palabras vacías (stop words).

In [175]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

vectorizer = CountVectorizer(stop_words=stopwords.words('spanish'))
X = vectorizer.fit_transform(documents)

La matriz que almacena las frecuencias de aparición de las palabras contiene muchos ceros, debido a que la mayoría de las palabras no aparecen en un documento dado. Por lo tanto, la matriz es muy dispersa. Para reducir la cantidad de ceros, scikit-learn utiliza una matriz dispersa para almacenar la matriz de frecuencia de términos. Una matriz dispersa es una matriz que tiene muy pocos valores distintos de cero. Básicamente, lo que hace es almacenar solo los valores distintos de cero. Esto reduce el uso de memoria y acelera los cálculos.

Si quisiéramos ver la matriz podríamos hacer:

In [176]:
print(X.toarray())

[[1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1]
 [0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0]
 [0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0]]


Si quisiéramos ver el vocabulario que se ha generado, podemos hacerlo así:

In [177]:
print(vectorizer.get_feature_names_out())

['acción' 'aclamado' 'actores' 'autor' 'basada' 'basado' 'cine' 'describe'
 'detalle' 'emocionante' 'emocionantes' 'escrito' 'excelente' 'famoso'
 'fascinado' 'giros' 'gran' 'guion' 'hicieron' 'inesperados' 'intrigante'
 'libro' 'llena' 'muestra' 'novela' 'novelista' 'paisajes' 'película'
 'películas' 'personajes' 'realistas' 'siempre' 'trabajo' 'trama']


Y si quisiéramos verlo todo:

In [178]:
from tabulate import tabulate

vocabulario = vectorizer.get_feature_names_out()

table = []

for i in range(X.shape[0]):
    fila = X.getrow(i)
    palabras_indices = fila.indices
    frecuencias = fila.data

    for idx, freq in zip(palabras_indices, frecuencias):
        table.append([i, vocabulario[idx], freq])

print(tabulate(table, headers=['Documento', 'Palabra', 'Frecuencia']))

  Documento  Palabra         Frecuencia
-----------  ------------  ------------
          0  película                 1
          0  emocionante              1
          0  llena                    1
          0  acción                   1
          1  libro                    1
          1  trama                    1
          1  intrigante               1
          2  actores                  1
          2  hicieron                 1
          2  trabajo                  1
          2  excelente                1
          3  autor                    1
          3  describe                 1
          3  paisajes                 1
          3  gran                     1
          3  detalle                  1
          4  autor                    1
          4  cine                     1
          4  siempre                  1
          4  fascinado                1
          5  llena                    1
          5  novela                   1
          5  giros                    1


In [179]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

Entrenamos del modelo de regresión logística con los datos de entrenamiento.

In [180]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression()
clf.fit(X_train, y_train)

Comprobamos la exactitud del modelo con el conjunto de test.

In [191]:
from sklearn.metrics import accuracy_score

predicciones = clf.predict(X_test)

print(f"Predicciones: {predicciones}")
print(f"Etiquetas reales: {y_test}")

exactitud = accuracy_score(y_test, predicciones)
print(f"Exactitud del modelo: {exactitud * 100:.2f}%")

Predicciones: [0 1 0]
Etiquetas reales: [0, 1, 0]
Exactitud del modelo: 100.00%


## **Regresión lineal en Pytorch**

In [182]:
import torch
import torch.nn as nn
import torch.optim as optim

# Definición del modelo
class LogisticRegression(nn.Module):
    def __init__(self, input_dim):
        super(LogisticRegression, self).__init__()
        self.linear = nn.Linear(input_dim, 1)
    
    def forward(self, x):
        return torch.sigmoid(self.linear(x))


In [188]:
# Suponiendo X_train y y_train son tus datos de entrenamiento
X_train_tensor = torch.tensor(X_train.toarray(), dtype=torch.float32)
y_train_tensor = torch.tensor(y_train, dtype=torch.float32)

# Parámetros
input_dim = X_train.toarray().shape[1]
learning_rate = 1
epochs = 10000

# Modelo, función de pérdida y optimizador
model = LogisticRegression(input_dim)
# criterion = nn.BCELoss()  # Binary Cross Entropy Loss
criterion = nn.MSELoss()  # Mean Squared Error Loss
optimizer = optim.SGD(model.parameters(), lr=learning_rate)

# Entrenamiento
for epoch in range(epochs):
    # Forward pass
    outputs = model(X_train_tensor)
    loss = criterion(outputs, y_train_tensor.unsqueeze(1))
    
    # Backward pass and optimization
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    # Imprimir la pérdida cada 10 épocas
    if (epoch+1) % 1000 == 0:
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}')


Epoch [1000/10000], Loss: 0.0007
Epoch [2000/10000], Loss: 0.0003
Epoch [3000/10000], Loss: 0.0002
Epoch [4000/10000], Loss: 0.0002
Epoch [5000/10000], Loss: 0.0001
Epoch [6000/10000], Loss: 0.0001
Epoch [7000/10000], Loss: 0.0001
Epoch [8000/10000], Loss: 0.0001
Epoch [9000/10000], Loss: 0.0001
Epoch [10000/10000], Loss: 0.0001


In [190]:
# Suponiendo X_test y y_test son tus datos de prueba
X_test_tensor = torch.tensor(X_test.toarray(), dtype=torch.float32)
y_test_tensor = torch.tensor(y_test, dtype=torch.float32)

print(y_test_tensor)
# Evaluar el modelo
with torch.no_grad():
    test_outputs = model(X_test_tensor)
    print(test_outputs)
    predicted = test_outputs.round()  # Clasifica como 1 si la salida > 0.5, de lo contrario 0
    accuracy = (predicted.squeeze() == y_test_tensor).sum().item() / y_test_tensor.size(0)
    print(f'Accuracy: {accuracy * 100:.2f}%')


tensor([0., 1., 0.])
tensor([[0.7085],
        [0.8811],
        [0.1093]])
Accuracy: 66.67%
