In [1]:
# Importar librerías necesarias
import pandas as pd
import re
import os

In [2]:
# 📌 Definir la ruta del archivo 2017
data_folder = "../data/raw/"  # Carpeta donde están los CSV
file_2017 = "SRI_Vehiculos_Nuevos_2017.csv"
file_path_2017 = os.path.join(data_folder, file_2017)


In [3]:
# 📌 Intentar leer el archivo con diferentes codificaciones
try:
    df_2017 = pd.read_csv(file_path_2017, delimiter=';', encoding="latin-1", on_bad_lines='skip', low_memory=False)
except UnicodeDecodeError:
    df_2017 = pd.read_csv(file_path_2017, delimiter=';', encoding="ISO-8859-1", on_bad_lines='skip', low_memory=False)



In [4]:
column_mappings = {
    "país": "pais",
    "año_modelo": "year_modelo",
    "avalúo": "avaluo",
    "color_1": "color",
    "codigo_color_1": "color",
    "cantón": "canton",
    "codigo_canton": "canton",
}


In [5]:
# 📌 Mostrar las columnas disponibles en el dataset de 2017
print("📌 Columnas en el dataset de 2017:")
print(df_2017.columns)

📌 Columnas en el dataset de 2017:
Index(['Código Vehículo 1', 'Sub Categoria 1', 'Marca', 'Modelo', 'País',
       'Año Modelo', 'Tipo', 'Clase', 'Sub Clase', 'Cilindraje',
       'Tipo Combustible', 'Tipo Servicio', 'Codigo Color 1', 'Codigo Color 2',
       'Forma de Adquisición', 'Mes Adquisición', 'Codigo Canton',
       'Descripcion Cantón', 'Mes  registro venta', 'Valor Avaluo'],
      dtype='object')


In [6]:
# 📌 Renombrar columnas para que coincidan con el formato de 2024
column_mappings_2017 = {
    "Marca": "marca",
    "Modelo": "modelo",
    "País": "pais",
    "Año Modelo": "year_modelo",
    "Clase": "clase",
    "Sub Clase": "sub_clase",
    "Tipo": "tipo",
    "Valor Avaluo": "avaluo",
    "Cilindraje": "cilindraje",
    "Tipo Combustible": "tipo_combustible",
    "Codigo Color 1": "color",
}

df_2017.rename(columns=column_mappings_2017, inplace=True)

In [7]:
# 📌 Seleccionar solo las columnas necesarias
columnas_necesarias = ['marca', 'modelo', 'pais', 'year_modelo', 'clase', 'sub_clase', 
                        'tipo', 'avaluo', 'cilindraje', 'tipo_combustible', 'color']


In [8]:
# 📌 Filtrar las columnas que existen en el dataset
columnas_existentes = [col for col in columnas_necesarias if col in df_2017.columns]
df_2017 = df_2017[columnas_existentes].copy()

In [9]:
# 📌 Eliminar duplicados basados en "modelo", "year", "avaluo", "cilindraje"
df_2017.drop_duplicates(subset=["modelo", "year_modelo", "avaluo", "cilindraje"], keep="first", inplace=True)


In [10]:
# 📌 Guardar el dataset limpio
output_path = "../data/processed/SRI_Vehiculos_Nuevos_2017_Limpio.csv"
os.makedirs("../data/processed/", exist_ok=True)
df_2017.to_csv(output_path, index=False, sep=';')

In [11]:
# 📌 Mostrar vista previa de los datos limpios
df_2017.head()

Unnamed: 0,marca,modelo,pais,year_modelo,clase,sub_clase,tipo,avaluo,cilindraje,tipo_combustible,color
0,CHEVROLET,D-MAX CRDI 3.0 CD 4X2 TM DIESEL,ECUADOR,2018,CAMIONETA,DOBLE CABINA,LIVIANO,29990,2999,DIESEL,BLA
1,SUZUKI,SCROSS AC 1.6 5P 4X2 TM,HUNGRIA,2018,AUTOMOVIL,STATION WAGON,LIVIANO,25990,1586,GASOLINA,ROJ
2,CHEVROLET,D-MAX TD 2.5 CS 4X2 TM DIESEL,ECUADOR,2018,CAMIONETA,CABINA SIMPLE,LIVIANO,27470,2499,DIESEL,PLO
3,CHEVROLET,SAIL LS AC 1.5 4P 4X2 TM,ECUADOR,2018,AUTOMOVIL,SEDAN,LIVIANO,19490,1485,GASOLINA,ROJ
4,SUZUKI,GRAND VITARA SZ AC 2.0 5P 4X2 TM,ECUADOR,2018,JEEP,JEEP,LIVIANO,27990,1995,GASOLINA,PLO
