In [1]:
import pandas as pd
import re
import unicodedata

In [5]:
# Cargar el archivo CSV
def load_data(file_path):
    """Carga el archivo CSV en un DataFrame."""
    return pd.read_csv(file_path)

# Función para limpiar texto y conservar caracteres válidos eliminando solo las tildes
def remove_accents(text):
    """Elimina tildes y normaliza el texto."""
    if isinstance(text, str):
        # Normalizar texto a forma 'NFD' y eliminar solo los acentos
        text = unicodedata.normalize('NFD', text)
        text = ''.join(c for c in text if unicodedata.category(c) != 'Mn')
        # Convertir a minúsculas y eliminar caracteres no deseados
        text = re.sub(r'[^\w\s.,?!]', '', text).strip().lower()
        return text
    return ""

# Eliminar columnas no deseadas
def drop_columns(data, columns):
    """Elimina las columnas especificadas del DataFrame."""
    return data.drop(columns=columns, errors='ignore')

# Aplicar limpieza al texto
def clean_text_column(data, column_name):
    """Crea una nueva columna con el texto limpio."""
    data[f'{column_name}_cleaned'] = data[column_name].apply(remove_accents)
    return data

# Guardar el dataset limpio
def save_cleaned_data(data, output_path):
    """Guarda el DataFrame limpio en un archivo CSV."""
    data.to_csv(output_path, index=False)


In [6]:
# Pipeline ETL
def etl_pipeline(input_file, output_file):
    """Ejecuta el proceso ETL completo."""
    # Extracción
    data = load_data(input_file)
    
    # Transformación
    data = drop_columns(data, ['index', 'Date'])
    data = clean_text_column(data, 'Text')
    
    # Carga
    save_cleaned_data(data, output_file)
    print(f"El dataset limpio ha sido guardado en: {output_file}")


In [7]:
# Rutas del archivo de entrada y salida
input_file = 'C:\Tesis\data\dataset_spanish (1).csv'
output_file = 'C:\Tesis\dataset_spanish.csv'

# Ejecutar el pipeline ETL
etl_pipeline(input_file, output_file)

El dataset limpio ha sido guardado en: C:\Tesis\dataset_spanish.csv
