Importación de librerías para el manejo de datos y para utilizar las expresiones regulares en la limpieza de datos

In [2]:
import pandas as pd
import re


cargando el archivo para leerlo

In [4]:
ruta = "Buzón de Quejas, Sugerencias y Felicitaciones (respuestas) (2).xlsx"
df = pd.read_excel(ruta)


In [5]:
df.head()
df.columns
df.shape


(388, 8)

conservar únicamente las columnas relevantes

In [20]:
df = df[
    [
        "Tipo de registro",
        "Detalles de la queja, sugerencia o felicitación"
    ]
]


cambio del nombre de esas columnas a "etiqueta" y "comentario"

In [21]:
df = df.rename(columns={
    "Tipo de registro": "etiqueta",
    "Detalles de la queja, sugerencia o felicitación": "comentario"
})


In [22]:
df.columns

Index(['etiqueta', 'comentario'], dtype='object')

las etiquetas a minúsculas y se eliminan espacios en blanco innecesarios

In [23]:
df["etiqueta"] = (
    df["etiqueta"]
    .str.strip()      # quita espacios
    .str.lower()      # minúsculas
)


In [24]:
df = df.dropna(subset=["comentario"])


se tiene la funcion limpiar_texto que ayudará a normalizar

In [25]:
def limpiar_texto(texto):
    texto = texto.lower()                      # minúsculas
    texto = re.sub(r"\n", " ", texto)          # saltos de línea
    texto = re.sub(r"\s+", " ", texto)         # espacios múltiples
    texto = re.sub(r"[^\wáéíóúñü\s]", "", texto)  # quitar signos raros
    texto = texto.strip()                      # espacios extremos
    return texto


In [26]:
df["comentario"] = df["comentario"].astype(str).apply(limpiar_texto)

eliminar comentarios que tengan menos de 3 palabras, ya  que suelen no aportar suficiente para una buena clasificación

In [27]:
df = df[df["comentario"].str.split().str.len() >= 3]


In [28]:
df.head()
df["etiqueta"].value_counts()
df.shape


(194, 2)

se guarda el nuevo dataset

In [29]:
df.to_csv("buzon_limpio.csv", index=False, encoding="utf-8")
