In [1]:
# Importar librerías necesarias
import pandas as pd
import re
import os

In [2]:
# 📌 Definir la ruta del archivo 2017
data_folder = "../data/raw/"  # Carpeta donde están los CSV
file_ = "SRI_Vehiculos_Nuevos_2019.csv"
file_path = os.path.join(data_folder, file_)


In [3]:
# 📌 Intentar leer el archivo con diferentes codificaciones
try:
    df_ = pd.read_csv(file_path, delimiter=';', encoding="latin-1", on_bad_lines='skip', low_memory=False)
except UnicodeDecodeError:
    df_ = pd.read_csv(file_path, delimiter=';', encoding="ISO-8859-1", on_bad_lines='skip', low_memory=False)



In [4]:
# 📌 Mostrar las columnas disponibles en el dataset de 2017
print("📌 Columnas en el dataset de 2017:")
print(df_.columns)

📌 Columnas en el dataset de 2017:
Index(['CATEGORÍA', 'CÓDIGO DE VEHÍCULO', 'TIPO TRANSACCIÓN', 'MARCA',
       'MODELO', 'PAIS', 'AÑO MODELO', 'CLASE', 'SUB CLASE', 'TIPO', 'AVALÚO',
       'FECHA PROCESO (MM/DD/AA)', 'TIPO SERVICIO', 'CILINDRAJE',
       'TIPO COMBUSTIBLE', 'FECHA COMPRA (MM/DD/AA)', 'CANTON', 'COLOR 1',
       'COLOR 2'],
      dtype='object')


In [5]:
# 📌 Renombrar columnas para que coincidan con el formato de 2024
column_mappings_ = {
    "MARCA": "marca",
    "MODELO": "modelo",
    "PAIS": "pais",
    "AÑO MODELO": "year_modelo",
    "CLASE": "clase",
    "SUB CLASE": "sub_clase",
    "TIPO": "tipo",
    "AVALÚO": "avaluo",
    "CILINDRAJE": "cilindraje",
    "TIPO COMBUSTIBLE": "tipo_combustible",
    "COLOR 1": "color",
}

df_.rename(columns=column_mappings_, inplace=True)

In [6]:
# 📌 Seleccionar solo las columnas necesarias
columnas_necesarias = ['marca', 'modelo', 'pais', 'year_modelo', 'clase', 'sub_clase', 
                        'tipo', 'avaluo', 'cilindraje', 'tipo_combustible', 'color']


In [7]:
# 📌 Filtrar las columnas que existen en el dataset
columnas_existentes = [col for col in columnas_necesarias if col in df_.columns]
df_ = df_[columnas_existentes].copy()

In [8]:
# 📌 Eliminar duplicados basados en "modelo", "year", "avaluo", "cilindraje"
df_.drop_duplicates(subset=["modelo", "year_modelo", "avaluo", "cilindraje"], keep="first", inplace=True)


In [9]:
# 📌 Guardar el dataset limpio
output_path = "../data/processed/SRI_Vehiculos_Nuevos_2019_Limpio.csv"
os.makedirs("../data/processed/", exist_ok=True)
df_.to_csv(output_path, index=False, sep=';')

In [11]:
# 📌 Mostrar vista previa de los datos limpios
df_.head()

Unnamed: 0,marca,modelo,pais,year_modelo,clase,sub_clase,tipo,avaluo,cilindraje,tipo_combustible,color
0,GREAT WALL,HAVAL M4 AC 1.5 5P 4X2 TM,ECUADOR,2019,JEEP,JEEP,LIVIANO,17990.0,1497,GASOLINA,PLO
1,ZOTYE,Z100 AC 1.0 4P 4X2 TM,CHINA POPULAR,2019,AUTOMOVIL,STATION WAGON,LIVIANO,10990.0,997,GASOLINA,AZU
3,CHEVROLET,BEAT PREMIER AC 1.2 4P 4X2 TM,COLOMBIA,2019,AUTOMOVIL,SEDAN,LIVIANO,15990.0,1206,GASOLINA,PLO
4,SUZUKI,GRAND VITARA SZ AC 2.0 5P 4X2 TM,ECUADOR,2019,JEEP,JEEP,LIVIANO,27990.0,1995,GASOLINA,PLO
6,CHEVROLET,D-MAX CRDI 3.0 CD 4X2 TM DIESEL,ECUADOR,2019,CAMIONETA,DOBLE CABINA,LIVIANO,29990.0,2999,DIESEL,BLA
