In [3]:
# =======================================
# 1) Importación de librerías necesarias
# =======================================
import pandas as pd  # Importamos la librería pandas para trabajar con DataFrames

# =======================================
# 2) Creación de un DataFrame con datos simulados
# =======================================
# Creamos un diccionario que contiene comentarios simulados
data = {
    'texto_comentario': [
        'El equipo funciona de maravilla, no hemos tenido fallas en semanas',
        'Esta máquina hace demasiado ruido, es muy molesto',
        'El rendimiento es aceptable, aunque podría mejorar en velocidad',
        'Buen soporte técnico, pero a veces tarda en responder',
        'La línea de producción se detuvo inesperadamente ayer, fue un caos',
        'Excelente funcionamiento, los operadores están muy satisfechos'
    ]
}

# Convertimos el diccionario en un DataFrame
df = pd.DataFrame(data)

# Mostramos el contenido del DataFrame
df


Unnamed: 0,texto_comentario
0,"El equipo funciona de maravilla, no hemos teni..."
1,"Esta máquina hace demasiado ruido, es muy molesto"
2,"El rendimiento es aceptable, aunque podría mej..."
3,"Buen soporte técnico, pero a veces tarda en re..."
4,La línea de producción se detuvo inesperadamen...
5,"Excelente funcionamiento, los operadores están..."


In [5]:
# =======================================
# 3) Limpieza básica del texto
# =======================================
import re  # Importamos la librería 're' para trabajar con expresiones regulares

# Definimos una función para limpiar cada comentario
def limpiar_texto(texto):
    """
    Función que realiza limpieza básica de texto:
    - Convierte todo el texto a minúsculas.
    - Elimina signos de puntuación.
    - Elimina caracteres especiales.
    - Remueve espacios en blanco innecesarios.
    """
    texto = texto.lower()  # Convertimos el texto a minúsculas
    texto = re.sub(r'[^\w\s]', '', texto)  # Eliminamos signos de puntuación y caracteres especiales
    texto = texto.strip()  # Eliminamos espacios en blanco al inicio y al final
    return texto  # Retornamos el texto limpio

# Aplicamos la función de limpieza a la columna 'texto_comentario'
df['texto_limpio'] = df['texto_comentario'].apply(limpiar_texto)

# Mostramos el DataFrame actualizado con la columna 'texto_limpio'
df


Unnamed: 0,texto_comentario,texto_limpio
0,"El equipo funciona de maravilla, no hemos teni...",el equipo funciona de maravilla no hemos tenid...
1,"Esta máquina hace demasiado ruido, es muy molesto",esta máquina hace demasiado ruido es muy molesto
2,"El rendimiento es aceptable, aunque podría mej...",el rendimiento es aceptable aunque podría mejo...
3,"Buen soporte técnico, pero a veces tarda en re...",buen soporte técnico pero a veces tarda en res...
4,La línea de producción se detuvo inesperadamen...,la línea de producción se detuvo inesperadamen...
5,"Excelente funcionamiento, los operadores están...",excelente funcionamiento los operadores están ...
