In [1]:
# Importar librerías necesarias
import pandas as pd
import re
import os

In [2]:
# 📌 Definir la ruta del archivo 2017
data_folder = "../data/raw/"  # Carpeta donde están los CSV
file_ = "SRI_Vehiculos_Nuevos_2023.csv"
file_path = os.path.join(data_folder, file_)


In [3]:
# 📌 Intentar leer el archivo con diferentes codificaciones
try:
    df_ = pd.read_csv(file_path, delimiter=';', encoding="latin-1", on_bad_lines='skip', low_memory=False)
except UnicodeDecodeError:
    df_ = pd.read_csv(file_path, delimiter=';', encoding="ISO-8859-1", on_bad_lines='skip', low_memory=False)



In [4]:
# 📌 Mostrar las columnas disponibles en el dataset de 2017
print("📌 Columnas en el dataset de 2020:")
print(df_.columns)

📌 Columnas en el dataset de 2020:
Index(['CATEGORÍA', 'CÓDIGO DE VEHÍCULO', 'TIPO TRANSACCIÓN', 'MARCA',
       'MODELO', 'PAÍS', 'AÑO MODELO', 'CLASE', 'SUB CLASE', 'TIPO', 'AVALÚO',
       'FECHA PROCESO (DD/MM/AA)', 'TIPO SERVICIO', 'CILINDRAJE',
       'TIPO COMBUSTIBLE', 'FECHA COMPRA (DD/MM/AA)', 'CANTÓN', 'COLOR 1',
       'COLOR 2', 'PERSONA NATURAL - JURÍDICA', 'Unnamed: 20'],
      dtype='object')


In [5]:
# 📌 Renombrar columnas para que coincidan con el formato de 2024
column_mappings_ = {
    "MARCA": "marca",
    "MODELO": "modelo",
    "PAIS": "pais",
    "AÑO MODELO": "year_modelo",
    "CLASE": "clase",
    "SUB CLASE": "sub_clase",
    "TIPO": "tipo",
    "AVALÚO": "avaluo",
    "CILINDRAJE": "cilindraje",
    "TIPO COMBUSTIBLE": "tipo_combustible",
    "COLOR 1": "color",
}

df_.rename(columns=column_mappings_, inplace=True)

In [6]:
# 📌 Seleccionar solo las columnas necesarias
columnas_necesarias = ['marca', 'modelo', 'pais', 'year_modelo', 'clase', 'sub_clase', 
                        'tipo', 'avaluo', 'cilindraje', 'tipo_combustible', 'color']


In [7]:
# 📌 Filtrar las columnas que existen en el dataset
columnas_existentes = [col for col in columnas_necesarias if col in df_.columns]
df_ = df_[columnas_existentes].copy()

In [8]:
# 📌 Eliminar duplicados basados en "modelo", "year", "avaluo", "cilindraje"
df_.drop_duplicates(subset=["modelo", "year_modelo", "avaluo", "cilindraje"], keep="first", inplace=True)


In [9]:
# 📌 Guardar el dataset limpio
output_path = "../data/processed/SRI_Vehiculos_Nuevos_2023_Limpio.csv"
os.makedirs("../data/processed/", exist_ok=True)
df_.to_csv(output_path, index=False, sep=';')

In [10]:
# 📌 Mostrar vista previa de los datos limpios
df_.head()

Unnamed: 0,marca,modelo,year_modelo,clase,sub_clase,tipo,avaluo,cilindraje,tipo_combustible,color
0,JAC,HFC1050KN 3.9 2P 4X2 TM DIESEL,2024,CAMION,FURGON-C,PESADO,26290,3900,DIESEL,BLA
1,RANGER,250GY-50,2024,MOTOCICLETA,PASEO,LIVIANO,143083,250,GASOLINA,AZU
8,JAC,HFC1160KR1T AC 6.7 2P 4X2 TM DIESEL RECOLECTOR,2024,ESPECIAL,RECOLECTOR,PESADO,62390,6700,DIESEL,BLA
10,QINGLING,NKR M100 QL1049A5HAY AC 3.0 2P 4X2 TM DIESEL,2024,CAMION,FURGON-C,PESADO,26790,2999,DIESEL,BLA
11,HINO,AK8JRSA 7.7 4X2 TM DIESEL,2024,OMNIBUS,BUS,PESADO,173490,7684,DIESEL,BLA
