In [1]:
import pandas as pd
import os

def load_data(filepath):
    """Carga el dataset desde un archivo CSV y lo devuelve como un DataFrame."""
    if not os.path.exists(filepath):
        raise FileNotFoundError(f"El archivo {filepath} no se encontró.")
    
    return pd.read_csv(filepath)

def clean_data(df):
    """Limpia el dataset eliminando valores nulos y duplicados."""
    df = df.drop_duplicates()
    df = df.dropna()
    return df

def preprocess_text(df, column):
    """Preprocesa la columna de texto eliminando caracteres especiales y convirtiendo a minúsculas."""
    df[column] = df[column].str.lower().str.replace(r'[^a-zA-Z0-9\s]', '', regex=True)
    return df

def save_clean_data(df, output_filepath):
    """Guarda el dataset limpio en un nuevo archivo CSV."""
    df.to_csv(output_filepath, index=False)
    print(f"Dataset limpio guardado en {output_filepath}")

In [6]:
if __name__ == "__main__":
    input_filepath = "../data/social_media_data.csv"
    output_filepath = "../data/cleaned_social_media_data.csv"
    data = load_data(input_filepath)
    data = clean_data(data)
    data = preprocess_text(data, 'Post Content')  
    save_clean_data(data, output_filepath)

Dataset limpio guardado en ../data/cleaned_social_media_data.csv
