## Clasificación de Mensajes de Texto con Naive Bayes

Este notebook utiliza el dataset **SMS Spam Collection**, que contiene mensajes de texto clasificados como **Spam** o **Ham** (No Spam). Aplicaremos el algoritmo Naive Bayes para entrenar un modelo que pueda predecir si un mensaje es Spam o No Spam.


### Paso 1: Cargar el Dataset

El dataset se puede descargar desde el [repositorio UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/sms+spam+collection). Lo cargaremos y exploraremos sus primeras filas.


In [27]:
import pandas as pd

# Cargar el dataset desde un archivo local (ajustar la ruta si es necesario)
dataset_path = '../../../Dataset/SMSSpamCollection/SMSSpamCollection'
df = pd.read_csv(dataset_path, sep='\t', header=None, names=['Label', 'Message'])

# Explorar las primeras filas
df.head()

Unnamed: 0,Label,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


### Paso 2: Exploración y Análisis del Dataset

Revisaremos información básica sobre el dataset, como:
- Número de mensajes de Spam y Ham.
- Distribución de las clases.


In [37]:
# Información básica del dataset
df.info()

print("----")
# Distribución de las clases
df['Label'].value_counts()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Label    5572 non-null   object
 1   Message  5572 non-null   object
dtypes: object(2)
memory usage: 87.2+ KB
----


Label
ham     4825
spam     747
Name: count, dtype: int64

### Paso 3: Preprocesamiento

Convertiremos las etiquetas de texto en valores binarios y realizaremos la división en conjuntos de entrenamiento y prueba.


In [43]:
from sklearn.model_selection import train_test_split

# Convertir etiquetas en valores binarios
df['Label'] = df['Label'].map({'ham': 0, 'spam': 1})

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(df['Message'], df['Label'], test_size=0.2, random_state=42)

X_train.shape, X_test.shape


((4457,), (1115,))

Ahora veremos que la columna **Label** contiene datos numéricos = {0=NoSpam,1=Spam}

In [49]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Label    5572 non-null   int64 
 1   Message  5572 non-null   object
dtypes: int64(1), object(1)
memory usage: 87.2+ KB


In [51]:
df.head()

Unnamed: 0,Label,Message
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."


### Paso 4: Entrenar el Modelo Naive Bayes

Usaremos un modelo **Multinomial Naive Bayes** para entrenar en el conjunto de entrenamiento.


In [56]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# Convertir los textos a representaciones de conteo
vectorizer = CountVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

# Entrenar el modelo
model = MultinomialNB()
model.fit(X_train_vectorized, y_train)


### Paso 5: Evaluar el Modelo

Evaluaremos el modelo utilizando métricas como precisión, recall y F1-score.


In [66]:
from sklearn.metrics import classification_report

# Predicciones en el conjunto de prueba
y_pred = model.predict(X_test_vectorized)

# Informe de clasificación
print(classification_report(y_test, y_pred, target_names=['Ham', 'Spam']))


              precision    recall  f1-score   support

         Ham       0.99      1.00      1.00       966
        Spam       1.00      0.94      0.97       149

    accuracy                           0.99      1115
   macro avg       1.00      0.97      0.98      1115
weighted avg       0.99      0.99      0.99      1115



## Conclusión

En este notebook, utilizamos Naive Bayes para clasificar mensajes de texto como Spam o Ham. Vimos cómo preparar los datos, entrenar el modelo y evaluar su rendimiento. Este enfoque es eficiente y útil para problemas de clasificación de texto.


In [68]:
y_test

3245    0
944     0
1044    0
2484    0
812     0
       ..
4264    0
2439    0
5556    0
4205    0
4293    0
Name: Label, Length: 1115, dtype: int64

In [70]:
y_pred

array([0, 0, 0, ..., 0, 0, 0])