# üöó An√°lisis Exploratorio de Datos de Veh√≠culos

En este notebook realizaremos un an√°lisis exploratorio b√°sico de un conjunto de datos de anuncios de venta de coches.  
El objetivo es limpiar los datos, revisar estad√≠sticas descriptivas y crear visualizaciones interactivas usando Plotly.

In [26]:
# üì¶ Librer√≠as necesarias
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go




## üìÇ Carga del dataset

Leemos el archivo CSV con los datos de veh√≠culos.  
Aseg√∫rate de que el archivo `vehicles_us.csv` est√© en la ruta correcta.

In [27]:
df = pd.read_csv('../vehicles_us.csv')

df.head()

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28


# üîç Informaci√≥n general y estad√≠sticas descriptivas

- `info()`: muestra tipos de datos y n√∫mero de valores no nulos.  
- `describe()`: muestra estad√≠sticas b√°sicas (m√≠nimo, m√°ximo, media, percentiles).

In [32]:
print("Informaci√≥n general del dataset:")
print(df.info())

print("\nEstad√≠sticas descriptivas:")
print(df.describe(include='all'))

Informaci√≥n general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    51525 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     51525 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      51525 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   51525 non-null  object 
 10  is_4wd        51525 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB
None

Estad√≠sticas descriptivas:
                price    model_year       model  condition     cylinders  \
count    51525.000000  51525.000000     

## üßπ Limpieza de datos

En esta secci√≥n manejamos los valores nulos:

- Columnas num√©ricas: rellenamos con la **mediana**.  
- Columnas categ√≥ricas: rellenamos con **"Desconocido"**.  

Esto nos asegura que los gr√°ficos y an√°lisis posteriores funcionen correctamente.

In [33]:
df.isnull().sum()

price           0
model_year      0
model           0
condition       0
cylinders       0
fuel            0
odometer        0
transmission    0
type            0
paint_color     0
is_4wd          0
date_posted     0
days_listed     0
dtype: int64

In [34]:
# Columnas num√©ricas
num_cols = df.select_dtypes(include='number').columns
for col in num_cols:
    df[col] = df[col].fillna(df[col].median())

# Columnas categ√≥ricas
cat_cols = df.select_dtypes(include='object').columns
for col in cat_cols:
    df[col] = df[col].fillna('Desconocido')

# Verificaci√≥n de datos nulos
df.isnull().sum()

price           0
model_year      0
model           0
condition       0
cylinders       0
fuel            0
odometer        0
transmission    0
type            0
paint_color     0
is_4wd          0
date_posted     0
days_listed     0
dtype: int64

## üìä Visualizaciones

A continuaci√≥n, creamos gr√°ficos interactivos para explorar las distribuciones y relaciones en los datos.

### Histograma de Precios

Visualizamos la distribuci√≥n de precios de los veh√≠culos.  
Esto ayuda a identificar rangos m√°s comunes y posibles valores at√≠picos.

In [35]:
fig_price = px.histogram(df, x='price', nbins=50, title='Distribuci√≥n de Precios')
fig_price.show()

### Histograma de Od√≥metro

Muestra la distribuci√≥n de los valores de kilometraje (odometer) de los veh√≠culos.  
Se utiliza `plotly.graph_objects` como ejemplo alternativo.

In [36]:
fig_odometer = go.Figure(data=[go.Histogram(x=df['odometer'])])
fig_odometer.update_layout(title_text='Distribuci√≥n del Od√≥metro')
fig_odometer.show()

### Scatter Plot: Precio vs A√±o

Visualizamos la relaci√≥n entre el **a√±o del modelo** y el **precio**, coloreado por modelo.  
Esto permite detectar tendencias y valores at√≠picos seg√∫n la marca o tipo de veh√≠culo.

In [37]:
fig_scatter = px.scatter(df, x='model_year', y='price', color='model',
                         title='Precio vs A√±o por Marca', opacity=0.7)
fig_scatter.show()

# ‚úÖ Conclusiones preliminares

- Se detectaron y limpiaron valores nulos para asegurar integridad de los datos.  
- La distribuci√≥n de precios muestra un rango amplio, con algunos valores at√≠picos.  
- La relaci√≥n entre a√±o del veh√≠culo y precio indica que, en general, los autos m√°s nuevos tienden a tener precios m√°s altos.  
- Estos gr√°ficos servir√°n como base para construir el **dashboard interactivo en Streamlit**.