In [40]:
# Importar librerías necesarias
import pandas as pd
import re
import os

In [41]:
# 📌 Definir ruta del archivo a limpiar
processed_folder = "../../data/processed/"
final_folder ="../../data/final/"
input_file = os.path.join(processed_folder, "sri_autos_2017_2024.csv")
output_file = os.path.join(final_folder, "sri_autos_final.csv")


In [42]:
# 📌 Cargar el dataset
df = pd.read_csv(input_file, delimiter=';', encoding="latin-1", low_memory=False)



In [43]:
# 📌 Seleccionar solo las columnas necesarias
columnas_necesarias = ['marca', 'modelo', 'pais', 'year_modelo', 'clase', 'sub_clase',
                        'avaluo', 'cilindraje', 'tipo_combustible']

In [44]:
# 📌 Filtrar las columnas que existen en el dataset
columnas_existentes = [col for col in columnas_necesarias if col in df.columns]
df = df[columnas_existentes].copy()

In [45]:
# 📌 Verificar si la columna "avaluo" existe
if "avaluo" in df.columns:
    # 📌 Convertir "avaluo" a número (por si tiene valores erróneos)
    df["avaluo"] = pd.to_numeric(df["avaluo"], errors='coerce')

    # 📌 Filtrar autos con "avaluo" <= 100000
    df = df[df["avaluo"] <= 100000]

    clases_permitidas = ["AUTOMOVIL", "JEEP", "CAMIONETA"]
    df_filtrado = df[df["clase"].isin(clases_permitidas)]

            

    # 📌 Guardar el dataset limpio
    df_filtrado.to_csv(output_file, index=False, sep=';')

    # 📌 Mostrar mensaje de éxito y vista previa
    print(f"✅ Datos limpios guardados en: {output_file}")
else:
    print("⚠️ La columna 'avaluo' no se encontró en el dataset.")

✅ Datos limpios guardados en: ../../data/final/sri_autos_final.csv


In [46]:
df.head()

Unnamed: 0,marca,modelo,pais,year_modelo,clase,sub_clase,avaluo,cilindraje,tipo_combustible
0,CHEVROLET,D-MAX CRDI 3.0 CD 4X2 TM DIESEL,ECUADOR,2018,CAMIONETA,DOBLE CABINA,29990.0,2999,DIESEL
1,SUZUKI,SCROSS AC 1.6 5P 4X2 TM,HUNGRIA,2018,AUTOMOVIL,STATION WAGON,25990.0,1586,GASOLINA
2,CHEVROLET,D-MAX TD 2.5 CS 4X2 TM DIESEL,ECUADOR,2018,CAMIONETA,CABINA SIMPLE,27470.0,2499,DIESEL
3,CHEVROLET,SAIL LS AC 1.5 4P 4X2 TM,ECUADOR,2018,AUTOMOVIL,SEDAN,19490.0,1485,GASOLINA
4,SUZUKI,GRAND VITARA SZ AC 2.0 5P 4X2 TM,ECUADOR,2018,JEEP,JEEP,27990.0,1995,GASOLINA
