Detectar correo electrónico spam
Clasificación de Emails: ¿Spam o No Spam?

Contexto: Tienes un conjunto de datos que contiene información sobre emails. Cada email tiene un conjunto de características, como la longitud del mensaje, la frecuencia de ciertas palabras clave, la cantidad de enlaces, y otros aspectos relevantes. El objetivo es construir un modelo de clasificación para predecir si un email es Spam o No Spam.

Objetivo: Tu tarea es implementar un modelo de clasificación que, dada la información de un email (características como la longitud del mensaje y la frecuencia de palabras clave), sea capaz de predecir si el email es Spam (1) o No Spam (0).

Funciones a Implementar:

Generar datos de emails:

Función: generar_datos_emails(num_muestras)

Esta función debe generar un conjunto de datos ficticios con num_muestras emails.

Cada email tendrá las siguientes características:

longitud_mensaje: Un número aleatorio que representa la longitud del email en caracteres (entre 50 y 500).

frecuencia_palabra_clave: Un número aleatorio que representa la frecuencia de una palabra clave relacionada con spam (entre 0 y 1).

cantidad_enlaces: Un número aleatorio que representa la cantidad de enlaces en el email (entre 0 y 10).

Cada email será etiquetado como Spam (1) o No Spam (0).

Entrenar el modelo SVM:

Función: entrenar_modelo_svm(datos, etiquetas)

Esta función debe tomar un conjunto de datos con características de emails y sus etiquetas, y entrenar un modelo de clasificación.

La salida debe ser el modelo entrenado.

Realizar predicciones:

Función: predecir_email(modelo, longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces)

Esta función debe tomar un modelo entrenado y las características de un nuevo email, y devolver si el email es Spam o No Spam.

La salida debe ser una cadena de texto que indique si el email es Spam o No Spam.

Instrucciones:

Generar Datos: Para empezar, debes generar un conjunto de datos con emails etiquetados (Spam o No Spam).

Entrenar el Modelo: Entrenar el modelo de clasificación basado en las características del email.

Predicciones: Utiliza el modelo entrenado para predecir si un email es Spam o No Spam según sus características.

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Función 1: Generar datos de emails
def generar_datos_emails(num_muestras):
    """
    Genera datos sintéticos con características de emails y su etiqueta de Spam (1) o No Spam (0).
    """
    X = []
    y = []

    for _ in range(num_muestras):
        longitud_mensaje = np.random.randint(50, 501)  # entre 50 y 500 caracteres
        frecuencia_palabra_clave = np.random.rand()     # entre 0 y 1
        cantidad_enlaces = np.random.randint(0, 11)     # entre 0 y 10 enlaces

        # Regla para asignar etiqueta de spam:
        # Si la frecuencia de palabra clave es mayor a 0.5 o hay más de 3 enlaces o el mensaje es muy corto
        if frecuencia_palabra_clave > 0.5 or cantidad_enlaces > 3 or longitud_mensaje < 100:
            etiqueta = 1  # Spam
        else:
            etiqueta = 0  # No Spam

        X.append([longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces])
        y.append(etiqueta)

    return np.array(X), np.array(y)

# Función 2: Entrenar el modelo SVM
def entrenar_modelo_svm(X, y):
    """
    Entrena un modelo SVM con los datos y etiquetas proporcionados.
    """
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    modelo = SVC()  # Puedes probar también con kernel='linear'
    modelo.fit(X_train, y_train)

    # Evaluar
    y_pred = modelo.predict(X_test)
    precision = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo: {precision:.2f}")

    return modelo

# Función 3: Predecir si un email es spam
def predecir_email(modelo, longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces):
    """
    Usa el modelo entrenado para predecir si un email es Spam o No Spam.
    Devuelve una cadena de texto como resultado.
    """
    datos_email = [[longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces]]
    prediccion = modelo.predict(datos_email)

    if prediccion[0] == 1:
        return "El email es Spam."
    else:
        return "El email no es Spam."
# Paso 1: Generar los datos
X, y = generar_datos_emails(200)

# Paso 2: Entrenar el modelo
modelo = entrenar_modelo_svm(X, y)

# Paso 3: Probar con un nuevo email
resultado = predecir_email(modelo, 120, 0.4, 2)
print(resultado)

# Otro ejemplo más claro de spam
resultado2 = predecir_email(modelo, 80, 0.8, 5)
print(resultado2)


Precisión del modelo: 0.82
El email es Spam.
El email es Spam.
