In [1]:
# Importar librerías necesarias
import pandas as pd
import re
import os

In [2]:
# 📌 Definir la ruta del archivo 2017
data_folder = "../data/raw/"  # Carpeta donde están los CSV
file_ = "SRI_Vehiculos_Nuevos_2024.csv"
file_path = os.path.join(data_folder, file_)


In [3]:
# 📌 Intentar leer el archivo con diferentes codificaciones
try:
    df_ = pd.read_csv(file_path, delimiter=';', encoding="latin-1", on_bad_lines='skip', low_memory=False)
except UnicodeDecodeError:
    df_ = pd.read_csv(file_path, delimiter=';', encoding="ISO-8859-1", on_bad_lines='skip', low_memory=False)



In [4]:
# 📌 Mostrar las columnas disponibles en el dataset de 2017
print("📌 Columnas en el dataset de 2020:")
print(df_.columns)

📌 Columnas en el dataset de 2020:
Index(['MARCA', 'MODELO', 'PAIS', 'YEAR MODELO', 'CLASE', 'SUB CLASE', 'TIPO',
       'AVALUO', 'CILINDRAJE', 'TIPO COMBUSTIBLE', 'COLOR '],
      dtype='object')


In [5]:
# 📌 Renombrar columnas para que coincidan con el formato de 2024
column_mappings_ = {
    "MARCA": "marca",
    "MODELO": "modelo",
    "PAIS": "pais",
    "YEAR MODELO": "year_modelo",
    "CLASE": "clase",
    "SUB CLASE": "sub_clase",
    "TIPO": "tipo",
    "AVALUO": "avaluo",
    "CILINDRAJE": "cilindraje",
    "TIPO COMBUSTIBLE": "tipo_combustible",
    "COLOR ": "color",
}

df_.rename(columns=column_mappings_, inplace=True)

In [6]:
# 📌 Seleccionar solo las columnas necesarias
columnas_necesarias = ['marca', 'modelo', 'pais', 'year_modelo', 'clase', 'sub_clase', 
                        'tipo', 'avaluo', 'cilindraje', 'tipo_combustible', 'color']


In [7]:
# 📌 Filtrar las columnas que existen en el dataset
columnas_existentes = [col for col in columnas_necesarias if col in df_.columns]
df_ = df_[columnas_existentes].copy()

In [8]:
# 📌 Eliminar duplicados basados en "modelo", "year", "avaluo", "cilindraje"
df_.drop_duplicates(subset=["modelo", "year_modelo", "avaluo", "cilindraje"], keep="first", inplace=True)


In [9]:
# 📌 Guardar el dataset limpio
output_path = "../data/processed/SRI_Vehiculos_Nuevos_2024_Limpio.csv"
os.makedirs("../data/processed/", exist_ok=True)
df_.to_csv(output_path, index=False, sep=';')

In [10]:
# 📌 Mostrar vista previa de los datos limpios
df_.head()

Unnamed: 0,marca,modelo,pais,year_modelo,clase,sub_clase,tipo,avaluo,cilindraje,tipo_combustible,color
0,SDAC WEICHAI,K1-3300 AC 2.3 2P 4X2 TM DIESEL,CHINA POPULAR,2025,CAMION,PLATAFORMA-C,PESADO,28015,2290,DIESEL,BLA
1,TUKO,TK CR5 GT 4V,CHINA POPULAR,2025,MOTOCICLETA,PASEO,LIVIANO,2750,250,GASOLINA,ROJ
2,HINO,XZU730L-WKFRL3 AC 4.0 2P 4X2 TM DIESEL,COLOMBIA,2025,CAMION,CAJON-C,PESADO,45490,4009,DIESEL,BLA
3,HINO,XZU710L-WKFQL3 BLINDADO AC 4.0 2P 4X2 TM DIESEL,COLOMBIA,2025,ESPECIAL,BLINDADO,PESADO,8924525,4009,DIESEL,BLA
4,HYUNDAI,HD78 BARE MICROBUS AC 3.9 2P 4X2 TM DIESEL,ECUADOR,2025,OMNIBUS,BUS,PESADO,45990,3907,DIESEL,PLA
