<a href="https://colab.research.google.com/github/luismiguelcasadodiaz/IBM_SkillsBuild_IA_325/blob/main/IA_325_py_cod_ex_50_s.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Detectar correo electrónico spam


## Clasificación de Emails: ¿Spam o No Spam?

**Contexto**: Tienes un conjunto de datos que contiene información sobre emails. Cada email tiene un conjunto de características, como la longitud del mensaje, la frecuencia de ciertas palabras clave, la cantidad de enlaces, y otros aspectos relevantes. El objetivo es construir un modelo de clasificación para predecir si un email es **Spam** o **No Spam**.

**Objetivo**: Tu tarea es implementar un modelo de clasificación que, dada la información de un email (características como la longitud del mensaje y la frecuencia de palabras clave), sea capaz de predecir si el email es Spam (1) o No Spam (0).

+ Funciones a Implementar:

  + 1.- Generar datos de emails:

    Función: generar_datos_emails(num_muestras)

      + Esta función debe generar un conjunto de datos ficticios con **num_muestras** emails.

      + Cada email tendrá las siguientes características:

        + **longitud_mensaje**: Un número aleatorio que representa la longitud del email en caracteres (entre 50 y 500).

        + **frecuencia_palabra_clave**: Un número aleatorio que representa la frecuencia de una palabra clave relacionada con spam (entre 0 y 1).

        + **cantidad_enlaces**: Un número aleatorio que representa la cantidad de enlaces en el email (entre 0 y 10).

      + Cada email será etiquetado como **Spam (1)** o **No Spam (0)**.

  + 2.- Entrenar el modelo SVM:

    Función: `entrenar_modelo_svm(datos, etiquetas)`

      + Esta función debe tomar un conjunto de datos con características de emails y sus etiquetas, y entrenar un modelo de clasificación.

      + La salida debe ser el modelo entrenado.

  + 3.- Realizar predicciones:

    Función: `predecir_email(modelo, longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces)`

      + Esta función debe tomar un modelo entrenado y las características de un nuevo email, y devolver si el email es **Spam** o **No Spam**.

      + La salida debe ser una cadena de texto que indique si el email es **Spam** o **No Spam**.
<br>
+ Instrucciones:

  + 1.- **Generar Datos**: Para empezar, debes generar un conjunto de datos con emails etiquetados (Spam o No Spam).

  + 2.- **Entrenar el Modelo**: Entrenar el modelo de clasificación basado en las características del email.

  + 3.- **Predicciones**: Utiliza el modelo entrenado para predecir si un email es Spam o No Spam según sus características.

## Importación de librerías

In [28]:
import numpy as np
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

## Definición de la función generar_datos_emails

In [33]:
def generar_datos_emails(num_muestras):
    """
    Genera un conjunto de datos ficticios para la clasificación de emails (Spam o No Spam).

    Args:
        num_muestras (int): El número de emails a generar.

    Returns:
        tuple: Una tupla que contiene dos elementos:
            - datos (np.ndarray): Un array NumPy con las características de los emails.
              Cada fila representa un email y las columnas son:
              [longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces].
            - etiquetas (np.ndarray): Un array NumPy con las etiquetas de los emails
              (1 para Spam, 0 para No Spam).
    """
    longitud_mensaje = np.random.randint(50, 501, num_muestras)
    frecuencia_palabra_clave = np.random.uniform(0, 1, num_muestras)
    cantidad_enlaces = np.random.randint(0, 11, num_muestras)

    # Asigna etiquetas a los emails (1 para Spam, 0 para No Spam)
    # Un email se considera Spam si cumple alguna de las siguientes condiciones:
    # - La longitud del mensaje es mayor a 200 caracteres.
    # - La frecuencia de la palabra clave es mayor a 0.5.
    # - La cantidad de enlaces es mayor a 5.
    etiquetas = ((longitud_mensaje > 200) | (frecuencia_palabra_clave > 0.5) | (cantidad_enlaces > 5)).astype(int)

    datos = np.column_stack((longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces))
    return datos, etiquetas

## Definición de la función entrenar_modelo_svm

In [30]:
def entrenar_modelo_svm(datos, etiquetas):
    """
    Entrena un modelo de clasificación SVM con los datos proporcionados.

    Args:
        datos (np.ndarray): Un array NumPy con las características de los emails.
        etiquetas (np.ndarray): Un array NumPy con las etiquetas de los emails (0 o 1).

    Returns:
        sklearn.svm.SVC: El modelo SVM entrenado.
    """
    X_train, X_test, y_train, y_test = train_test_split(datos, etiquetas, test_size=0.2, random_state=42)
    modelo = SVC(kernel='linear')
    modelo.fit(X_train, y_train)
    return modelo

## Definición de la función predecir_email

In [31]:
def predecir_email(modelo, longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces):
    prediccion = modelo.predict([[longitud_mensaje, frecuencia_palabra_clave, cantidad_enlaces]])
    if prediccion[0] == 1:
        return "el email es Spam"
    else:
        return "El email es No Spam"


In [32]:
datos, etiquetas = generar_datos_emails(1000)
modelo = entrenar_modelo_svm(datos, etiquetas)
y_pred = predecir_email(modelo, 600, 0.8, 5)
print(y_pred)

el email es Spam
