# Análisis exploratorio de datos

## Cargamos librerías y datos

In [None]:
import pandas as pd
import plotly.express as px

# Cargamos los datos a un df
car_data = pd.read_csv("./vehicles_us.csv")

In [39]:
# Les damos un vistazo
car_data.info()
car_data.head(20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
5,14990,2014.0,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,1.0,2018-06-20,15
6,12990,2015.0,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,,2018-12-27,73
7,15990,2013.0,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,1.0,2019-01-07,68
8,11500,2012.0,kia sorento,excellent,4.0,gas,104174.0,automatic,SUV,,1.0,2018-07-16,19
9,9200,2008.0,honda pilot,excellent,,gas,147191.0,automatic,SUV,blue,1.0,2019-02-15,17


In [40]:
# Revisamos valores nulos
car_data.isnull().sum()

price               0
model_year       3619
model               0
condition           0
cylinders        5260
fuel                0
odometer         7892
transmission        0
type                0
paint_color      9267
is_4wd          25953
date_posted         0
days_listed         0
dtype: int64

## Llenamos valores ausentes y verificamos tipo de dato

In [41]:
# Llenamos los valores ausentes de "is_4wd" por 0, que significa que no es de doble tracción.
car_data["is_4wd"] = car_data["is_4wd"].fillna(0)

# Cambiamos el tipo de dato a numérico entero
car_data["is_4wd"] = car_data["is_4wd"].astype(int)

In [42]:
# Eliminamos las filas con los valores ausentes de model_year, ya que son pocas
car_data.dropna(subset=['model_year'], inplace=True)

# Cambiamos el tipo de dato a numérico entero
car_data["model_year"] = car_data["model_year"].astype(int)


In [43]:
# Llenamos los valores ausentes de "cylinders" por el promedio de los demás
car_data["cylinders"] = car_data["cylinders"].fillna(car_data["cylinders"].mode()[0])

# Cambiamos el tipo de dato a numérico entero
car_data["cylinders"] = car_data["cylinders"].astype(int)

In [44]:
# Llenamos los valores ausentes de "paint_color" con no_data
car_data["paint_color"] = car_data["paint_color"].fillna("no_data")

In [45]:
# Cambiamos el tipo de dato a fecha (el formato ya es YYYY/MM/DD por defecto)
car_data['date_posted'] = pd.to_datetime(car_data['date_posted'])

In [46]:
#Verificamos cambios
print(car_data.isnull().sum())
print()
print(car_data.info())

price              0
model_year         0
model              0
condition          0
cylinders          0
fuel               0
odometer        7343
transmission       0
type               0
paint_color        0
is_4wd             0
date_posted        0
days_listed        0
dtype: int64

<class 'pandas.core.frame.DataFrame'>
Index: 47906 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   price         47906 non-null  int64         
 1   model_year    47906 non-null  int64         
 2   model         47906 non-null  object        
 3   condition     47906 non-null  object        
 4   cylinders     47906 non-null  int64         
 5   fuel          47906 non-null  object        
 6   odometer      40563 non-null  float64       
 7   transmission  47906 non-null  object        
 8   type          47906 non-null  object        
 9   paint_color   47906 non-null  object        
 10  is_4


- La columna "odometer" la dejaré sin cambios por ahora. Esto debido a que sus valores ausentes representan el 15% del total de su columna, y tanto eliminarlos como sustituirlos afectaría innecesariamente lo graficado con plotly.express. Reconsideraré eliminarlos posteriormente.


## Creamos los graficos

In [47]:
# Histograma de Condición por año
fig = px.histogram(car_data, x="model_year", color="condition", hover_data=car_data.columns)
fig.show()

In [48]:
# Gráfico de dispersión de precio por año de modelo
fig = px.scatter(car_data, x='model_year', y='price', title="Precio vs Año de modelo")
fig.show()

In [49]:
# Gráfico de dispersión de kilometraje vs precio
fig = px.scatter(car_data, x='odometer', y='price', title="Precio vs Kilometraje")
fig.show()

In [50]:
# Promedio de precios por tipo de combustible
fuel_avg_price = car_data.groupby('fuel')['price'].mean().reset_index()
fig = px.bar(fuel_avg_price, x='fuel', y='price', title="Precio Promedio por Tipo de Combustible")
fig.show()

In [51]:
# Precio promedio vs días listado
fig = px.histogram(car_data, x='days_listed', y='price', title="Precio vs Días listado")
fig.show()

In [52]:
# Exportamos el dataframe limpio
car_data.to_csv('vehicles_us_clean.csv', index=False)