# Limpieza de comentarios.

In [1]:
# Este codigo tiene la funcion de leer un archivo .txt con los comentarios extraidos de forma manual desde el link de cada producto. posteriri a esto los limpia dejando unicamente los comentarios como informacion relevante.

### Obtener comentarios limpios (solo comentarios)

In [None]:
import re

# Ruta del archivo de comentarios (ajusta la ruta si es necesario)
input_file = "../Datos/Comentarios_tot_raw.txt"  # Cambia por el nombre real de tu archivo
output_file = "../Datos/Comentarios_Limpios.txt"

# Palabras clave a eliminar
ignore_keywords = ["Es útil", "Reportar", "Calificación", "Resumen de opiniones generado por IA", "comentarios","Opiniones destacadas"]

# Expresión regular para detectar fechas en formatos como "16 may. 2024" o "25 feb. 2021"
fecha_regex = r"\b\d{1,2} (ene|feb|mar|abr|may|jun|jul|ago|sep|oct|nov|dic)\.? \d{4}\b"

# Lista para almacenar comentarios filtrados
cleaned_comments = []

# Leer el archivo y limpiar
with open(input_file, "r", encoding="utf-8") as file:
    lines = file.readlines()

    for line in lines:
        line = line.strip()  # Eliminar espacios extra
        # Filtrar líneas irrelevantes
        if not any(keyword in line for keyword in ignore_keywords) and len(line) > 5:
            # Eliminar fechas del comentario
            line = re.sub(fecha_regex, "", line).strip()
            if line:  # Si después de eliminar la fecha sigue habiendo texto, agregarlo
                cleaned_comments.append(line)

# Guardar comentarios limpios en un nuevo archivo
with open(output_file, "w", encoding="utf-8") as file:
    for comment in cleaned_comments:
        file.write(comment + "\n")

print(f"Limpieza completada. Comentarios guardados en: {output_file}")


Limpieza completada. Comentarios guardados en: ../Datos/Comentarios_Limpios_Mar6.txt


### Obtener Fecha, comentarios y calificacion (Datos estructurados)

In [1]:
import re
import pandas as pd

# === CONFIGURACIÓN ===
input_file = "../Datos/Comentarios_tot_raw_abril_17.txt"  
output_file_csv = "../Datos/Comentarios_Estructurados_p2.csv"
output_file_excel = "../Datos/Comentarios_Estructurados_p2.xlsx"

# === EXPRESIONES REGULARES ===
fecha_regex = r"\b\d{1,2} (ene|feb|mar|abr|may|jun|jul|ago|sep|oct|nov|dic)\.? \d{4}\b"
calificacion_regex = r"Calificación\s+(\d+)\s+de\s+5"

# === PROCESAMIENTO ===
with open(input_file, "r", encoding="utf-8") as file:
    lines = file.readlines()

data = []
i = 0

while i < len(lines):
    line = lines[i].strip()

    # Detectar calificación
    calif_match = re.match(calificacion_regex, line)
    if calif_match:
        calificacion = int(calif_match.group(1))

        # Línea siguiente debería ser la fecha
        i += 1
        fecha = None
        if i < len(lines):
            fecha_match = re.match(fecha_regex, lines[i].strip())
            if fecha_match:
                fecha = fecha_match.group()

        # Línea siguiente debería ser el comentario
        i += 1
        comentario = None
        if i < len(lines):
            comentario = lines[i].strip()

        if fecha and calificacion and comentario:
            data.append((fecha, calificacion, comentario))

    i += 1

# === GUARDAR RESULTADOS ===
df = pd.DataFrame(data, columns=["fecha", "calificacion", "comentario"])
df.to_csv(output_file_csv, index=False, encoding='utf-8')
df.to_excel(output_file_excel, index=False)

print(f"Archivos exportados exitosamente:\n- {output_file_csv}\n- {output_file_excel}")

Archivos exportados exitosamente:
- ../Datos/Comentarios_Estructurados_p2.csv
- ../Datos/Comentarios_Estructurados_p2.xlsx
