In [1]:
# Importar librerías necesarias
import pandas as pd
import re
import os

In [4]:
# 📌 Definir la ruta del archivo 2017
data_folder = "../data/raw/"  # Carpeta donde están los CSV
file_ = "SRI_Vehiculos_Nuevos_2020.csv"
file_path = os.path.join(data_folder, file_)


In [5]:
# 📌 Intentar leer el archivo con diferentes codificaciones
try:
    df_ = pd.read_csv(file_path, delimiter=';', encoding="latin-1", on_bad_lines='skip', low_memory=False)
except UnicodeDecodeError:
    df_ = pd.read_csv(file_path, delimiter=';', encoding="ISO-8859-1", on_bad_lines='skip', low_memory=False)



In [13]:
# 📌 Mostrar las columnas disponibles en el dataset de 2017
print("📌 Columnas en el dataset de 2020:")
print(df_.columns)

📌 Columnas en el dataset de 2020:
Index(['marca', 'modelo', 'pais', 'year_modelo', 'clase', 'sub_clase', 'tipo',
       'avaluo', 'cilindraje', 'tipo_combustible', 'color'],
      dtype='object')


In [7]:
# 📌 Renombrar columnas para que coincidan con el formato de 2024
column_mappings_ = {
    "MARCA": "marca",
    "MODELO": "modelo",
    "PAIS": "pais",
    "AÑO MODELO": "year_modelo",
    "CLASE": "clase",
    "SUB CLASE": "sub_clase",
    "TIPO": "tipo",
    "AVALÚO": "avaluo",
    "CILINDRAJE": "cilindraje",
    "TIPO COMBUSTIBLE": "tipo_combustible",
    "COLOR 1": "color",
}

df_.rename(columns=column_mappings_, inplace=True)

In [8]:
# 📌 Seleccionar solo las columnas necesarias
columnas_necesarias = ['marca', 'modelo', 'pais', 'year_modelo', 'clase', 'sub_clase', 
                        'tipo', 'avaluo', 'cilindraje', 'tipo_combustible', 'color']


In [9]:
# 📌 Filtrar las columnas que existen en el dataset
columnas_existentes = [col for col in columnas_necesarias if col in df_.columns]
df_ = df_[columnas_existentes].copy()

In [10]:
# 📌 Eliminar duplicados basados en "modelo", "year", "avaluo", "cilindraje"
df_.drop_duplicates(subset=["modelo", "year_modelo", "avaluo", "cilindraje"], keep="first", inplace=True)


In [11]:
# 📌 Guardar el dataset limpio
output_path = "../data/processed/SRI_Vehiculos_Nuevos_2020_Limpio.csv"
os.makedirs("../data/processed/", exist_ok=True)
df_.to_csv(output_path, index=False, sep=';')

In [12]:
# 📌 Mostrar vista previa de los datos limpios
df_.head()

Unnamed: 0,marca,modelo,pais,year_modelo,clase,sub_clase,tipo,avaluo,cilindraje,tipo_combustible,color
0,MERCEDES BENZ,OF 1723 6.4 2P 4X2 TM DIESEL,BRASIL,2020,OMNIBUS,BUS,PESADO,154900,6374,DIESEL,NEG
1,SINOTRUK,SITRAK C7H ZZ1256V524ME1 AC 10.5 2P 6X4 TM DIESEL,CHINA POPULAR,2021,CAMION,CAJON-C,PESADO,100990,10518,DIESEL,BLA
3,AUDI,Q3 SPORTBACK FULL TFSI F3NA6Y AC 2.0 5P 4X4 TA,ALEMANIA,2021,JEEP,JEEP,LIVIANO,66000,2000,GASOLINA,BLA
4,HYUNDAI,HD45 AC 2.6 2P 4X2 TM DIESEL,ECUADOR,2021,CAMION,FURGON-C,PESADO,26110,2607,DIESEL,BLA
7,HIGER,KLQ6138Y AC 10.8 1P 4X2 TM DIESEL,CHINA POPULAR,2020,OMNIBUS,BUS,PESADO,165000,10800,DIESEL,VRD
