In [None]:
import pandas as pd
import numpy as np

dev = pd.read_csv('data/raw/pf_suvs_i302_1s2025.csv')
#drop la primera columna (INDEX)
dev = dev.drop(columns=['Unnamed: 0'])

#guardar el DataFrame en un archivo CSV
dev.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

: 

In [None]:
#contar cantidad de valores diferentes por columna
print("Cantidad de valores diferentes por columna:")
print(dev.nunique())

In [None]:
#cantidad de valores nulos por columna
print("\nCantidad de valores nulos por columna:")
print(dev.isnull().sum())

In [None]:
#borrar columna 'Tipo de carrocería' (TODAS TIENEN EL MISMO VALOR)
dev = dev.drop(columns=['Tipo de carrocería'])

#guardar el DataFrame actualizado en un nuevo archivo CSV
dev.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

## Limpieza de Marcas


In [None]:
#cantidad de vehiculos por marca
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
print("Cantidad de vehículos por marca:")
print(cleaned['Marca'].value_counts())


In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
from preprocessing import corregir_marcas
cleaned = corregir_marcas(cleaned)


cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

print(cleaned['Marca'].value_counts())


## Limpieza de modelo

In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
pd.set_option('display.max_rows', 140) 
#ordenados en orden alfabetico
print("Cantidad de vehículos por marca ordenados alfabéticamente:")
print(cleaned['Modelo'].value_counts().sort_index())
#cantidad de modelos diferentes
print("Cantidad de modelos diferentes:")
print(cleaned['Modelo'].nunique())

In [None]:
from preprocessing import corregir_modelo

cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

cleaned = corregir_modelo(cleaned)

print(cleaned['Modelo'].value_counts())

#cantidad de modelos diferentes
print("Cantidad de modelos diferentes después de la limpieza:")
print(cleaned['Modelo'].nunique())

## Limpieza de Versión y extracción de nuevas features

In [None]:
from preprocessing import extraer_hp, extraer_transmision, extraer_traccion
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
cleaned = extraer_hp(cleaned)

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

#cantidad de valores nulos en la columna 'HP'
print("Cantidad de valores nulos en la columna 'HP':")
print(cleaned['HP'].isnull().sum())

In [None]:
cleaned =  pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
cleaned = extraer_transmision(cleaned)


cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

#cantidad de valores nulos en la columna 'Transmision'
print("Cantidad de valores nulos en la columna 'Transmisión':")
print(cleaned['Transmisión'].isnull().sum())

print(cleaned['Transmisión'].value_counts())



In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

cleaned = extraer_traccion(cleaned)

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)
#cantidad de valores nulos en la columna 'Traccion'
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
print("Cantidad de valores nulos en la columna 'Traccion':")
print(cleaned['Tracción'].isnull().sum())
print(cleaned['Tracción'].value_counts())


In [None]:
from preprocessing import limpiar_version

#cantidad de versiones diferentes

print("Cantidad de versiones diferentes antes de limpieza:")
print(cleaned['Versión'].nunique())

cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
cleaned = limpiar_version(cleaned)

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

print("Cantidad de versiones diferentes despues de limpieza:")
print(cleaned['Versión'].nunique())


## Limpieza de Motor

### Buscaría reemplazar esta columna por cilindrada del motor solamente. Hay muchas cosas como naftero, turbo, etc que no son tan relevntes como la cilindrada. Muchas cosas que tienen que ver con el tipo de combustible (que ya hay una columna para eso)




In [None]:
from preprocessing import limpiar_motor
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

cleaned = limpiar_motor(cleaned)

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

#cantidad de valores nulos en la columna 'Motor'
print("Cantidad de valores nulos en la columna 'Motor':")
print(cleaned['Motor'].isnull().sum())


### habria que ver si seguir refinando la funcion o si se reemplazan esos faltantes por una media o si se borran.


## Limpieza de Tipo de combustible

In [None]:
from preprocessing import revisar_tipos_combustible
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

#valores diferentes en la columna 'Tipo de combustible'
print("Valores diferentes en la columna 'Tipo de combustible':")
print(cleaned['Tipo de combustible'].value_counts())

cleaned = revisar_tipos_combustible(cleaned)

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)
print(cleaned['Tipo de combustible'].value_counts())

## Limpieza de precio

### en la pagina de mercado libre figura que 15.000.000 pesos son 12.000 dolares, asi que usamos ese valor para la conversión.



In [None]:

from preprocessing import convertir_pesos_a_dolares
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

#valores diferentes en la columna moneda
print("Valores diferentes en la columna 'Moneda':")
print(cleaned['Moneda'].unique())

cleaned = convertir_pesos_a_dolares(cleaned)


#elimino la columna 'Moneda' ya que no es necesaria
cleaned = cleaned.drop(columns=['Moneda'])


cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)



In [None]:
#valores diferentes en cada columna
print("Valores diferentes en cada columna:")
print(cleaned.nunique())


#cantidad de valores nulos en cada columna
print("\nCantidad de valores nulos en cada columna:")
print(cleaned.isnull().sum())

## Limpieza de Puertas


In [None]:

#cantidad de vehiculos con cada cantidad de puertas
print("Cantidad de vehículos con cada cantidad de puertas:")
print(dev['Puertas'].value_counts())

In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
#reemplzar los valores 60252 en puertas por 5
cleaned['Puertas'] = cleaned['Puertas'].replace(60252, 5)

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
dev[dev['Puertas'] == 7]

cleaned['Puertas'] = cleaned['Puertas'].replace(7, 5)
cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)



In [None]:

dev[dev['Puertas'] == 6]




In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
cleaned['Puertas'] = cleaned['Puertas'].replace(6, 5)
cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

cleaned[cleaned['Puertas'] == 2]

In [None]:
# en la fila 7240, 8093 y 11246, reemplazamos el 2 en Puertas por 5 (FIGURAN COMO COUPE PERO LA IMAGEN MARCA QUE SON DE 5 PUERTAS)
#mostrar las filas 7240, 8093 y 11246

print("Filas 7240, 8093 y 11246:")
print(cleaned.iloc[[7240, 8093, 11246]])

#en estas filas reemplazamos el 2 por 5
cleaned.loc[[7240, 8093, 11246], 'Puertas'] = 5
#guardar el DataFrame actualizado en un nuevo archivo CSV
cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

cleaned[cleaned['Puertas'] == 2]

In [None]:
#reemplazar los valores 2 en puertas por 3
cleaned['Puertas'] = cleaned['Puertas'].replace(2, 3)
#guardar el DataFrame actualizado en un nuevo archivo CSV
cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)


In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

#mostrar cantidad de elementos por cada valor de la columna 'Puertas'
print("Cantidad de vehículos con cada cantidad de puertas:")
print(cleaned['Puertas'].value_counts())

In [None]:
# busco valores de 4 puertas
print("Cantidad de vehículos con 4 puertas:")
print(cleaned[cleaned['Puertas'] == 4].shape[0])

#imprimo random 5 vehiculos con 4 puertas
print("5 vehículos con 4 puertas:")
print(cleaned[cleaned['Puertas'] == 4].sample(3))

# No existen vehículos con 4 puertas, por lo que hay un error en los datos. Pareciera que los vehículos con 4 puertas son en realidad vehículos con 5 puertas pero no podemos estar seguros.
# Primero voy a buscar si existe otra publicacion de la misma marca y modelo con con 5 puertas
#voy por cada vehiculo con 4 puertas y busco si existe otro igual con 5 puertas si existe cambio el valor de 4 por 5, hay algunos casos que no consideran la caja como puerta. nosotros si lo hacemos
# CASOS RAROS: PORSCHE PANAMERA, JEEP WRANGLER (si dice UNLIMITED tiene 5 puertas si no dice 3 puertas), TODAS LAS OROCH tienen 5 puertas
i = 0
i2 = 0
for index, row in cleaned[cleaned['Puertas'] == 4].iterrows():
    marca = row['Marca']
    modelo = row['Modelo']
    version = row['Versión']
    
    if marca == 'Porsche' and modelo =='Panamera':
        i+= 1
        cleaned.at[index, 'Puertas'] = 5
        continue
    if marca == 'Jeep' and modelo == 'Wrangler':
        if 'Unlimited' in version:
            i += 1
            cleaned.at[index, 'Puertas'] = 5
            continue
        else:
            i2 += 1
            cleaned.at[index, 'Puertas'] = 3
            continue
    if marca == 'Renault' and modelo == 'Duster Oroch':
        i += 1
        cleaned.at[index, 'Puertas'] = 5
        continue
    #busco si existe otro vehiculo con la misma marca, modelo y version pero con 5 puertas
    if cleaned[(cleaned['Marca'] == marca) & (cleaned['Modelo'] == modelo) & (cleaned['Versión'] == version) & (cleaned['Puertas'] == 5)].shape[0] > 0:
        i += 1
        # print(f"Vehículo con 4 puertas encontrado: {marca} {modelo} {version} en el índice {index}. Cambiando a 5 puertas.")
        cleaned.at[index, 'Puertas'] = 5

    #hago lo mismo pero con 3 puertas
    elif cleaned[(cleaned['Marca'] == marca) & (cleaned['Modelo'] == modelo) & (cleaned['Versión'] == version) & (cleaned['Puertas'] == 3)].shape[0] > 0:
        i2 += 1
        # print(f"Vehículo con 4 puertas encontrado: {marca} {modelo} {version} en el índice {index}. Cambiando a 5 puertas.")
        print(f"Vehículo con 4 puertas encontrado: {marca} {modelo} {version} en el índice {index}. Cambiando a 3 puertas.")
        cleaned.at[index, 'Puertas'] = 3


print("Cantidad de vehículos con 4 puertas:")
print(cleaned[cleaned['Puertas'] == 4].shape[0])
print(f"Total de vehículos con 4 puertas cambiados a 5: {i}")
print(f"Total de vehículos con 4 puertas cambiados a 3: {i2}")





In [None]:
### sigo analizando casos raros de 4 puertas
# marcas restantes con 4 puertas
print("Marcas restantes con 4 puertas: con sus respectivos modelos")


# de los restantes, Los Volkswagen tienen 5 puertas, duster 5, jeep 5, ford 5, mercedes 5, honda 5, hiunday 5, hyunday 5, chevrolet 5, fiat 5, peugeot 5, bmw 5, citroen 5, kia 5, 
marcas_5p = ['Volkswagen', 'Jeep', 'Ford', 'Mercedes-Benz', 'Honda', 'Hiunday','Hyundai', 'Chevrolet', 'Fiat', 'Peugeot', 'BMW', 'Citroën', 'Kia', 'Renault', 'Toyota', 'Jetur', 'Alfa Romeo', 'Nissan', 'Audi', 'D.S.', 'Porsche', 'BAIC', "Chery"]
for index, row in cleaned[cleaned['Puertas'] == 4].iterrows():
    marca = row['Marca']
    modelo = row['Modelo']
    version = row['Versión']
    
    if marca in marcas_5p: 
        cleaned.at[index, 'Puertas'] = 5

        
print(cleaned[cleaned['Puertas'] == 4][['Marca', 'Modelo']].drop_duplicates())
print("Total de casos por analizar:", cleaned[cleaned['Puertas'] == 4][['Marca', 'Modelo']].drop_duplicates().shape[0])

# guardo el DataFrame actualizado en un nuevo archivo CSV
cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

print("Cantidad de vehiculos por puertas:")
print(cleaned['Puertas'].value_counts())


## despues hay que seguir viendo tema autos de 4 puertas lo hago despues

In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
print("Cantidad de valores diferentes por columna:")
print(cleaned.nunique())


In [None]:
cleaned['Año'].value_counts()

In [None]:
#reemplazar 436694.0 por 2017
cleaned['Año'] = cleaned['Año'].replace(436694.0, 2017)
cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)


In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')

pd.set_option('display.max_rows', 70) 
print(cleaned['Color'].value_counts())

print("Cantidad de colores diferentes:")
print(cleaned['Color'].nunique())


In [None]:
#reemplazar GRAY, GRIS TITANE, GRIS LAQUE, GRIS PLATINO, GRIS SILVERSTONE, GRIS INDY, GRIS ESTRELLA, GRIS PLATA, GRIS SELENIUM,Gris oscuro por Gris
cleaned['Color'] = cleaned['Color'].replace(['GRAY','GRIS ARTENSE', 'GRIS TITANE','GRIS LAQUE', 'GRIS PLATINO', 'GRIS SILVERSTONE', 
                                              'GRIS INDY', 'GRANITE CRYSTAL BC', 'GRIS ESTRELLA', 'GRIS PLATA', 'GRIS SELENIUM', 'Gris oscuro'], 'Gris')


#reemplazar blue, steel_blue, Azul claro, Celeste por Azul
cleaned['Color'] = cleaned['Color'].replace(['blue', 'steel_blue', 'Azul claro', 'Celeste'], 'Azul')

#reemplazar, BLACK MEET KETTLE, NOIR PERLA NERA, NEGRA, CARBON BLACK, Negra, por Negro
cleaned['Color'] = cleaned['Color'].replace(['BLACK MEET KETTLE', 'NOIR PERLA NERA', 'NEGRA', 'CARBON BLACK', 'Negra'], 'Negro')

#reemplazar Blanco Glaciar, BLANCO BANCHISA BICOLOR NEGRO, BLANCO BANQUISE, BLANCO GLACIAR, SUMMIT WHITE, blanca, BLANCO NACRE TRICAPA, BLANCA, Blanca, por Blanco
cleaned['Color'] = cleaned['Color']. replace(['Blanco Glaciar', 'BLANCO BANCHISA BICOLOR NEGRO', 'BLANCO BANQUISE', 'BLANCO GLACIAR', 'SUMMIT WHITE','blanca', 'BLANCO NACRE TRICAPA',
                                                'BLANCA', 'Blanca'], 'Blanco' )

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
pd.set_option('display.max_rows', 70) 
print(cleaned['Color'].value_counts())

#cantidad de colores
print("Cantidad de colores diferentes:")
print(cleaned['Color'].nunique())

## hay que seguir con esta parte de color. Quizas hacer clustering?


In [None]:
precio_dolar_ml = round(10000000/8300, 2)   
print(precio_dolar_ml)

In [None]:
#unifico precios

cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
mask_pesos = cleaned['Moneda'] == '$'
cleaned.loc[mask_pesos, 'Precio'] = round(
    cleaned.loc[mask_pesos, 'Precio'] / precio_dolar_ml
)

#drop columna de Moneda

cleaned = cleaned.drop(columns=['Moneda'])

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)




In [None]:
cleaned = pd.read_csv("pf_suvs_i302_1s2025_cleaned.csv")

#mostrar todos los tipos de combustible y cantidades
print("Tipos de combustible y cantidades:")
print(cleaned['Tipo de combustible'].value_counts())

In [None]:
# 1. Asegurarse que todo es string
cleaned['Kilómetros'] = cleaned['Kilómetros'].astype(str)

# 2. Eliminar 'km', espacios y puntos (como separador de miles)
cleaned['Kilómetros'] = cleaned['Kilómetros'].str.replace('km', '', regex=False)
cleaned['Kilómetros'] = cleaned['Kilómetros'].str.replace('.', '', regex=False)
cleaned['Kilómetros'] = cleaned['Kilómetros'].str.strip()

# 3. Convertir a numérico (float o int)
cleaned['Kilómetros'] = pd.to_numeric(cleaned['Kilómetros'], errors='coerce')

cleaned.to_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv', index=False)

In [None]:
cleaned = pd.read_csv('data/processed/pf_suvs_i302_1s2025_cleaned.csv')
cajas = cleaned['Transmisión'].value_counts()
print("Tipos de caja y cantidades:")
print(cajas)