# Exploración: Precios de Vehículos

En este proyecto realizaremos un análisis exploratorio de una base de datos que contiene información sobre vehículos usados listados para la venta.

In [9]:
import pandas as pd
import plotly.express as px
import plotly.io as pio

In [None]:
pio.renderers.default = 'browser'  # abrir gráfico en el navegador

car_data = pd.read_csv('vehicles_us.csv')  # leer los datos

In [12]:
# Imprimir primeras filas para garantizar que la importación se hizo de forma adecuada
car_data.head()

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28


In [13]:
# Imprimir información general de la base
car_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


# Gráficas de análisis

Las siguientes gráficas permiten ver el comportamiento general de cada una de las variables de la base de carros, así mismo, se puede analizar la relación entre variables como:

In [14]:
fig = px.histogram(car_data, x="odometer")  # crear histograma
fig.show()  # mostrar gráfico

In [None]:
fig2 = px.scatter(car_data, x="odometer", y="price") # crear un gráfico de dispersión
fig2.show() # crear gráfico de dispersión

In [None]:
# Boxplot por años
fig = px.box(car_data, x="model_year", y="price")
fig.show()

In [18]:
# Define el orden deseado (de peor a mejor)
condition_order = ['salvage', 'fair', 'good', 'like new', 'excellent', 'new']

# Modelos recientes
car_data_filtered = car_data[car_data['model_year']>=2010]

# Convertir la columna condition a tipo categórico con ese orden
car_data_filtered['condition'] = pd.Categorical(
    car_data_filtered['condition'],
    categories=condition_order,
    ordered=True
)

# Boxplot por categorías
fig = px.box(car_data_filtered, x="model_year", y="price", color="condition",
             category_orders={"condition": condition_order})
fig.show()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

