# ENTRENAMIENTO MODELO IA / ¿SPAM o NO SPAM?

>En esta ocasión, estaremos entrenando un modelo de IA capaz de detectar cuando un correo es o no es SPAM, usaremos temporalmente un dataset en formato CSV pequeño para ver su comportamiento y utilizando por primera vez tecnologías como:
>Jupyter
>Pandas
>Matplot
>Sklearn
>Pytorch


---

## Paso 1 – Cargar los datos

En esta sección vamos a cargar el CSV con pandas para inspeccionar el dataset.

---

In [4]:
import pandas as pd

#Cargar el CSV con el dataset
df = pd.read_csv("spam_dataset.csv")

#Mostrar las primeras filas
df.head()

Unnamed: 0,text,label
0,Free money now!!!,spam
1,"Hi, how are you?",ham
2,Win a brand new car,spam
3,Are we still on for lunch?,ham
4,Call now to claim your prize,spam


---

## Paso 2 - Convertir 'spam' y 'ham' en 1's y 0's respectivamente
Lo haremos para el entrenamiento del modelo y para ayudarnos para vectorizar nuestro dataset

---

In [5]:
#Convertir etiquetas a números
df['label'] = df['label'].map({'ham' : 0, 'spam' : 1})

#Verificamos que se haya conseguido correctamente
df.head()

Unnamed: 0,text,label
0,Free money now!!!,1
1,"Hi, how are you?",0
2,Win a brand new car,1
3,Are we still on for lunch?,0
4,Call now to claim your prize,1


---

## Paso 3 - Separamos los nombres de las etiquetas
Tendremos mayor orden y control sobre los datos

---

In [7]:
X = df['text'] #Los mensajes
y = df['label'] #Etiquetas (0,1)

---

## Paso 4 - Dividiremos el dataset en training set (80%) y testing set (20%) 
Esto para probar que el modelo tenga ejemplos para referenciarse y luego probar la detección con otros ejemplos que no haya visto nunca. En caso que utilicemos datos de más y el modelo solo esté memorizando. Obtendremos un problema comúnmente conocido como **Overfitting**.

Para poder dividir el dataset utilizaremos ```train_test_split```

---

In [11]:
from sklearn.model_selection import train_test_split

#Dividimos el dataset en las proporciones mencionadas
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=42)

**Nota**: El ```random_state=42``` significa: “Usá esta semilla aleatoria fija para que la división entre train y test sea siempre igual cada vez que ejecuto el código.”

Esto es así puesto que si no lo colocamos, cada vez que se corra el código, los datos se **dividen distinto**, porque el proceso es aleatorio.
Eso hace que los resultados cambien y sean difíciles de reproducir.

---

## Paso 5 - Vectorizar los mensajes
**Pytorch** por defecto no entiende textos, solo **Tensores**, una estructura matemática que hace todo posible en la Inteligencia Artifical. Asi que utilizaremos Scikit Learn para poder vectorizar la información y prepararla para poder llevarla a Tensores

---

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

#Creando el vectorizador
vectorizer = CountVectorizer()

#Aprender a partir de texto y pasarlo a vectores
X_train_vect = vectorizer.fit_transform(X_train)
X_test_vect = vectorizer.transform(X_test)

### ¿Qué hace esto?

Crea una "bolsa de palabras": cada palabra es una columna.

Cada mensaje se transforma en un vector que cuenta cuántas veces aparece cada palabra.

El resultado es una matriz dispersa (sparse matrix) como esta:

```[0 1 0 0 3 0 0 2 ...]```

Cada número representa la **frecuencia** de una palabra en ese mensaje.

---

## Paso 6 - Conversión Tensorial y preparar el dataLoader
Una vez vectorizado el dataset, podemos pasarlos a tensores para trabajar con pytorch sin problemas, además de agregar el **dataLoader**, cuyo funcionamiento es cargar automáticamente los datos a Pytorch, sin necesidad de ir uno por uno.

- Este proceso consiste en dividir en lotes (batchs) equitativos de datos:


  Ejemplo: Si tenemos un dataset de 800 elementos, y el lote es de 16 datos cada uno, tendremos 50 lotes, 16x50 = 800.

  
- Permite hacer **shuffle**, es decir, mezclar los datos para que no sea siempre lo mismo.

- Y también nos facilita el trabajo con datasets grandes, para no saturar la memoria, podemos ir pasando por lotes.

---

In [14]:
import torch
from torch.utils.data import TensorDataset, DataLoader

#Convertimos todos los vectores en Tensores y los pasamos como flotantes
X_train_tensor = torch.tensor(X_train_vect.toarray()).float()
X_test_tensor = torch.tensor(X_test_vect.toarray()).float()
y_train_tensor = torch.tensor(y_train.values).float()
y_test_tensor = torch.tensor(y_test.values).float()

# Dataset y DataLoader
BATCH_SIZE = 16
train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)

**Nota:**

```.toarray()``` convierte la matriz dispersa en una común para que PyTorch pueda leerla

```float()``` es porque vamos a usar redes neuronales que trabajan con números reales

```TensorDataset``` empaqueta entradas y etiquetas

```DataLoader``` reparte los datos en mini-lotes (batches) y los mezcla (shuffle)

---

## Paso 7 - Crear el Modelo con Pytorch
Crearemos en esta ocasión una red neuronal de Clasificación Binaria simple, ideal para nuestro caso

---

In [18]:
import torch.nn as nn
import torch.nn.functional as F

#Definimos arquitectura del modelo mediante clases
class SpamClassifier(nn.Module):
    def __init__(self,input_dim):
        super(SpamClassifier, self).__init__()
        self.fc1 = nn.Linear(input_dim,16) #Capa oculta conectada con 16 neuronas
        self.fc2 = nn.Linear(16,1) #Capa de Salida con 1 neurona, define probabilidad final
    def forward(self,x):
        x = F.relu(self.fc1(x)) #Activación ReLU
        x = torch.sigmoid(self.fc2(x)) #Activación sigmoide para conversión a valor entre 0 y 1
        return x
    

## Arquitectura del modelo
Definimos una clase **SpamClassifier** que hereda de nn.Module, lo que le dice a PyTorch que es un modelo entrenable.

Dentro de esa clase:

### __init__:

Es el constructor, y ahí definimos las capas del modelo.

Es como declarar: **“quiero una capa de entrada con tantas neuronas (input_dim), una oculta con 16, y una de salida con 1”.**

self.fc1 y self.fc2 son esas capas **(fully connected)**.

Con super, podemos llamar al constructor de la clase padre **nn.module** para que pueda manejar las capas correctamente

### forward:

Define cómo viajan los datos a través de la red.

Pasa primero por la capa fc1, le aplica una **ReLU** - Rectified Linear Unit o Unidad Lineal Rectificada (para que aprenda no linealidades), toma el valor absoluto de la información, haciendo siempre positivo o 0 el resultado

Luego pasa por la capa fc2, y se le aplica una **sigmoide** (para que la salida sea entre 0 y 1, útil para clasificación binaria).


### Instanciando el Modelo

In [20]:
input_dim = X_train_tensor.shape[1] #Definimos el tamaño de la capa de Entrada
model = SpamClassifier(input_dim) #Instanciamos el modelo con la arquitectura "SpamClassifier" y el tamaño

AttributeError: 'Series' object has no attribute 'tensor'

---

## Paso 8 - Definir función de perdida y optimizador

En este paso nos aseguramos que el modelo realmente vaya aprendiendo a medida que pasen las epochs o ciclos de aprendizaje, una vez que haya hecho la primer epoch, tenemos que fijarnos en la funcion de perdida (error) y ver cuanto tenemos que ajustar estos hiperparámetros para que el modelo mejore a medida que vayan pasando los ciclos de fit.

Para la función de perdida (**LOSS**) utilizaremos **BCELoss o Binary Cross Entropy**:

Compara la predicción (probabilidad entre 0 y 1) con la etiqueta real (0 o 1) y mide qué tan mal estamos.

Para el optimizador utilizaremos **Adam**, un Algoritmo de optimización ideal para nuestro caso, para el ajuste de pesos de la red neuronal

---

In [19]:
import torch.optim as optim

#Función de pérdida o LOSS
criterion = nn.BCELoss()

#Optimizador
optimizer = optim.Adam(model.parameters(), lr=0.001)

NameError: name 'model' is not defined