# Procesamiento de datos

Durante el procesamiento de datos se generarán dos nuevos conjuntos. En el primero, se codificarán las variables categóricas como 1 para "ham" y 0 para "spam". Este conjunto se guardará como "datos_sin_procesar.csv". En el segundo conjunto, además de codificar las etiquetas, se convertirá el texto a minúsculas, se eliminarán los signos de puntuación y los "stopwords", y se lematizarán los textos. Este segundo dataframe se guardará como "datos_procesados.csv".

In [3]:
import numpy as np
import pandas as pd

from matplotlib import pyplot as plt
from sklearn.preprocessing import LabelEncoder

Se leen los datos

In [4]:
df = pd.read_csv("datos/SPAM text message 20170820 - Data.csv")
df.head()

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


Codificación de las etiquetas

In [5]:
label_encoder = LabelEncoder()
df["Category"] = label_encoder.fit_transform(df["Category"])
df.head()

Unnamed: 0,Category,Message
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."


In [6]:
# Mostrar la correspondencia entre las etiquetas originales y las codificadas
print("Correspondencia entre etiquetas originales y codificadas:")
for label, code in zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)):
    print(f"{label} -> {code}")

Correspondencia entre etiquetas originales y codificadas:
ham -> 0
spam -> 1


Se crea una función que automatiza el procesamiento del texto.

In [7]:
def preprocesamiento_texto(text):
    """
    Esta función realiza el preprocesamiento de texto, incluyendo:
    - Conversión a minúsculas.
    - Eliminación de signos de puntuación.
    - Tokenización del texto.
    - Eliminación de stopwords.
    - Lematización de las palabras.

    Parámetros:
    text (str): El texto que se va a preprocesar.

    Retorna:
    str: El texto preprocesado.
    """
    import nltk
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize
    from nltk.stem import WordNetLemmatizer
    import string

    # Descargar los recursos necesarios de NLTK si no están disponibles
    nltk.download("punkt")
    nltk.download("stopwords")
    nltk.download("wordnet")

    # Inicializar el lematizador y la lista de stopwords
    lemmatizer = WordNetLemmatizer()
    stop_words = set(stopwords.words("english"))

    # Convertir a minúsculas
    text = text.lower()

    # Eliminar signos de puntuación
    text = text.translate(str.maketrans("", "", string.punctuation))

    # Tokenizar el texto
    tokens = word_tokenize(text)

    # Eliminar stopwords y lematizar
    tokens = [lemmatizer.lemmatize(word) for word in tokens if word not in stop_words]

    # Unir las palabras de nuevo en una frase
    preprocessed_text = " ".join(tokens)

    return preprocessed_text

Se crean los dos dataframe

In [8]:
df_sin_procesar = df.copy()
df_procesado = df.copy()


Procesamiento del dataframe "df_procesado"

In [9]:
df_procesado["Message"] = df_procesado["Message"].apply(preprocesamiento_texto)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mmmm\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mmmm\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\mmmm\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mmmm\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mmmm\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\mmmm\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mmmm

Se procede a guardar los dos dataframe como archivos .csv

In [10]:
df_sin_procesar.to_csv("datos/datos_sin_procesar.csv", sep=";", index=False)
df_procesado.to_csv("datos/datos_procesados.csv", sep=";", index=False)