# Predicci√≥n del precio de autom√≥viles
Base de datos de [Rehan Liaqat en Kaggle](https://www.kaggle.com/datasets/rehan497/car-price-prediction-dataset)

An√°lisis por Luis Gerardo Ramirez Archundia | üá≤üáΩ

---

# Sobre la base de datos
(Extra√≠do del repositorio original)
 
Este conjunto de datos contiene registros estructurados y orientados al consumidor de autom√≥viles individuales que figuran en el mercado. Cada fila corresponde a un solo veh√≠culo e incluye especificaciones t√©cnicas, indicadores de uso y un precio de mercado. La colecci√≥n est√° dise√±ada para ser clara, estar bien etiquetada y ser inmediatamente √∫til para el an√°lisis exploratorio de datos, la ingenier√≠a de caracter√≠sticas y el aprendizaje supervisado.Este conjunto de datos proporciona informaci√≥n detallada sobre varios modelos de autom√≥viles y sus precios de mercado. Incluye caracter√≠sticas como la marca, el modelo, las especificaciones del motor, el tipo de combustible, el kilometraje y el tipo de transmisi√≥n, lo que lo hace ideal para la predicci√≥n de precios de autom√≥viles, el an√°lisis exploratorio de datos (EDA) y los proyectos de aprendizaje autom√°tico.

## Utilidad de esta base de datos
- Directamente accionable ‚Äî las caracter√≠sticas son variables del mundo real com√∫nmente utilizadas en modelos de precios y valoraci√≥n.

- Compacto y enfocado ‚Äî conjunto de caracter√≠sticas corto y de alta relevancia que reduce la carga de preprocesamiento.

- Vers√°til ‚Äî admite tareas que van desde el an√°lisis descriptivo y la visualizaci√≥n hasta la regresi√≥n (predicci√≥n de precios) y la clasificaci√≥n (condici√≥n, tipo de combustible).

- Ideal para demostraciones y ense√±anza ‚Äî lo suficientemente peque√±o para realizar iteraciones r√°pidas, pero lo bastante rico para permitir comparaciones significativas entre modelos.

## Atributos
- `Car ID`: Identificador √∫nico para cada veh√≠culo.  
- `Brand`: Fabricante (por ejemplo, Tesla, BMW, Toyota).  
- `Model`: Nombre espec√≠fico del modelo.  
- `Year`: A√±o de fabricaci√≥n o modelo.  
- `Engine Size`: Cilindrada del motor (en litros o cc).  
- `Fuel Type`: Tipo de combustible ‚Äî Gasolina, Di√©sel, El√©ctrico, H√≠brido, etc.  
- `Transmission`: Tipo de transmisi√≥n ‚Äî Manual o Autom√°tica.  
- `Mileage`: Distancia total recorrida (en km o millas).  
- `Condition`: Estado categ√≥rico ‚Äî Nuevo, Usado, Excelente, Regular.  
- `Price`: Precio de venta o de mercado listado (variable objetivo).  

---

# Librer√≠as
En esta secci√≥n se importar√°n las librer√≠as necesarias paraeste proyecto.

In [1]:
# librer√≠as b√°sicas
import pandas as pd
import numpy as np
import os
import sys


# visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# versiones utilizadas
print(f'Versi√≥n de Python {sys.version}')
print(f'Versi√≥n de Pandas {pd.__version__}')
print(f'Versi√≥n de Numpy {np.__version__}')

Versi√≥n de Python 3.10.13 | packaged by Anaconda, Inc. | (main, Sep 11 2023, 13:15:57) [MSC v.1916 64 bit (AMD64)]
Versi√≥n de Pandas 2.3.2
Versi√≥n de Numpy 1.26.4


# Datos

In [2]:
df=pd.read_csv('data/car_price_prediction_.csv')
print('Los datos fueron importados correctamente!')
# motramos parte de los datos
df.head(5)

Los datos fueron importados correctamente!


Unnamed: 0,Car ID,Brand,Year,Engine Size,Fuel Type,Transmission,Mileage,Condition,Price,Model
0,1,Tesla,2016,2.3,Petrol,Manual,114832,New,26613.92,Model X
1,2,BMW,2018,4.4,Electric,Manual,143190,Used,14679.61,5 Series
2,3,Audi,2013,4.5,Electric,Manual,181601,New,44402.61,A4
3,4,Tesla,2011,4.1,Diesel,Automatic,68682,New,86374.33,Model Y
4,5,Ford,2009,2.6,Diesel,Manual,223009,Like New,73577.1,Mustang


In [3]:
# infomraci√≥n general de los datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Car ID        2500 non-null   int64  
 1   Brand         2500 non-null   object 
 2   Year          2500 non-null   int64  
 3   Engine Size   2500 non-null   float64
 4   Fuel Type     2500 non-null   object 
 5   Transmission  2500 non-null   object 
 6   Mileage       2500 non-null   int64  
 7   Condition     2500 non-null   object 
 8   Price         2500 non-null   float64
 9   Model         2500 non-null   object 
dtypes: float64(2), int64(3), object(5)
memory usage: 195.4+ KB


In [4]:
# verificamos la existencia de datos nulos
print('Existencia de datos tipo NULL\n')
null_data=df.isnull().sum()
print(null_data)
if null_data.sum()==0:
    print('-----\nNo existen datos tipo NULL')
else:
    print('Se ecnontraron datos tipo NULL')

Existencia de datos tipo NULL

Car ID          0
Brand           0
Year            0
Engine Size     0
Fuel Type       0
Transmission    0
Mileage         0
Condition       0
Price           0
Model           0
dtype: int64
-----
No existen datos tipo NULL


# Preparaci√≥n de los datos

In [5]:
'''
    Para este estudio no es necesaria la columna que contiene el ID
    de cada veh√≠culo, por lo que es la omitiremos.
'''
df=df.drop(columns=['Car ID'])

'''
    Algunos de los nombres de las columnas contienen espacios y 
    letras may√∫sculas, para evitar complicaciones en el tratamiento
    uniremos las palabras por guiones bajos y todo en min√∫sculas.
'''
df.columns=df.columns.str.replace(' ', '_')
df.columns=df.columns.str.lower()

print(df.columns)

Index(['brand', 'year', 'engine_size', 'fuel_type', 'transmission', 'mileage',
       'condition', 'price', 'model'],
      dtype='object')


In [6]:
# obtenemos las columnas que contienen datos tipo object
object_columns=[]
for i in df.columns:
    if df[i].dtypes=='O':
        object_columns.append(i)
print(object_columns)

['brand', 'fuel_type', 'transmission', 'condition', 'model']


In [7]:
# mostramos la cardinalidad de cada predcitor ipo objeto
for i in df[object_columns]:
    print(f':::::::::::::::::::\nCardinaliad de {i} es {len(df[i].value_counts())}\n')
    print(df[i].value_counts())

:::::::::::::::::::
Cardinaliad de brand es 7

brand
Toyota      374
Audi        368
BMW         358
Mercedes    353
Honda       352
Tesla       348
Ford        347
Name: count, dtype: int64
:::::::::::::::::::
Cardinaliad de fuel_type es 4

fuel_type
Diesel      655
Petrol      630
Electric    614
Hybrid      601
Name: count, dtype: int64
:::::::::::::::::::
Cardinaliad de transmission es 2

transmission
Manual       1308
Automatic    1192
Name: count, dtype: int64
:::::::::::::::::::
Cardinaliad de condition es 3

condition
Used        855
Like New    836
New         809
Name: count, dtype: int64
:::::::::::::::::::
Cardinaliad de model es 28

model
Fiesta      103
Corolla     103
A3           98
A4           96
CR-V         95
Q7           95
5 Series     93
Model X      93
Prius        93
3 Series     93
X3           92
GLA          92
C-Class      92
Camry        90
E-Class      89
Model Y      89
Fit          89
RAV4         88
Accord       88
Model 3      87
Explorer     86
Focu

In [8]:
'''
    Para implementar un modelo de redes neuronales es
    conveniente codificar las columnas categ√≥ricas usando one-hot encoding
'''
object_encoding=pd.get_dummies(df[object_columns], dtype=int)

# removemos las columnas de la base de datos codificada
df_encoded=df.drop(columns=object_columns)
# agregamos las columnas codificadas
df_encoded=pd.concat([df_encoded, object_encoding], axis=1)

df_encoded.head(5)

Unnamed: 0,year,engine_size,mileage,price,brand_Audi,brand_BMW,brand_Ford,brand_Honda,brand_Mercedes,brand_Tesla,...,model_Model S,model_Model X,model_Model Y,model_Mustang,model_Prius,model_Q5,model_Q7,model_RAV4,model_X3,model_X5
0,2016,2.3,114832,26613.92,0,0,0,0,0,1,...,0,1,0,0,0,0,0,0,0,0
1,2018,4.4,143190,14679.61,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,2013,4.5,181601,44402.61,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,2011,4.1,68682,86374.33,0,0,0,0,0,1,...,0,0,1,0,0,0,0,0,0,0
4,2009,2.6,223009,73577.1,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,0,0


En este punto hemos codificado la base de datos original y la hemos llamado `df_encoded`. Estos datos est√°n listos para implementarse en un modelo de redes neuronales. 

# An√°lisis exploratorio

In [9]:
'''
    Extraemos las frecuencias de cada predictor tipo objeto
    y las transformamos en un dataframe, los cuales se 
    almacenar√°n en un diccionario.
'''
categoric_df={}
for i in object_columns:
    x=df[i].value_counts().reset_index()
    categoric_df[i]=x

# mostramos con plotly los gr√°ficos de barras
for i, j in zip(categoric_df.values(), categoric_df.keys()):
    fig=px.bar(
        i,
        x=i.columns[0],
        y=i.columns[1],
        text_auto=True,
        title=f'Frecuencia de {j}'
    )
    fig.update_layout(yaxis_title=None, xaxis_title=None)
    fig.show()
    

In [10]:
year_freq=df['year'].value_counts().reset_index()
px.bar(year_freq, x=year_freq['year'], y=year_freq['count'], title='Frecuencia por a√±os')

In [11]:
df[df['brand']=='Tesla']['year'].mode()

0    2002
Name: year, dtype: int64