In [1]:
import pandas as pd


# Cargar el dataset
df = pd.read_csv('vehicles_us.csv')
df.head()

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28


In [2]:
# Convierte las columnas a minúsculas y snake_case
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_').str.replace('-', '_')
df.columns


Index(['price', 'model_year', 'model', 'condition', 'cylinders', 'fuel',
       'odometer', 'transmission', 'type', 'paint_color', 'is_4wd',
       'date_posted', 'days_listed'],
      dtype='object')

In [3]:
# Revisión de valores ausentes
df.isna().sum().sort_values(ascending=False)


is_4wd          25953
paint_color      9267
odometer         7892
cylinders        5260
model_year       3619
condition           0
model               0
price               0
fuel                0
type                0
transmission        0
date_posted         0
days_listed         0
dtype: int64

In [4]:
#En este caso la fila is_4wd tiene un claro lenguaje binomial donde 1 representaba la presencia, 
# y 0 la ausencia. Con el afan de darle valor a la ausencia, lo remplazaremos con el numero 2
# el cual representara la ausencia

df['is_4wd'] = df['is_4wd'].fillna(2)

In [5]:
# los datos de motor, modelo, y color son de caracter vital para nuestra investigacion,
# Si los datos estan ausentes, lo ideal sera descartar estos datos para evitar inconsistencias.
df = df.dropna()


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 29916 entries, 2 to 51523
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         29916 non-null  int64  
 1   model_year    29916 non-null  float64
 2   model         29916 non-null  object 
 3   condition     29916 non-null  object 
 4   cylinders     29916 non-null  float64
 5   fuel          29916 non-null  object 
 6   odometer      29916 non-null  float64
 7   transmission  29916 non-null  object 
 8   type          29916 non-null  object 
 9   paint_color   29916 non-null  object 
 10  is_4wd        29916 non-null  float64
 11  date_posted   29916 non-null  object 
 12  days_listed   29916 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 3.2+ MB


In [7]:
print(f"Duplicados antes de limpiar: {df.duplicated().sum()}")

Duplicados antes de limpiar: 0


In [8]:
import plotly.express as px
px.histogram(df, x='price', nbins=50, title= 'Distribución de precios')

In [9]:
# Relación entre año y precio
px.scatter(df, x='model_year', y='price', color='condition', title='Precio vs Año del Modelo')


In [10]:
# Boxplot por tipo de transmisión
px.box(df, x='transmission', y='price', title='Precio por tipo de transmisión')


In [11]:
# Crear un DataFrame con los conteos de la columna 'fuel'
fuel_counts = df['fuel'].value_counts().reset_index()
fuel_counts.columns = ['fuel_type', 'count']

# Graficar
px.bar(fuel_counts, x='fuel_type', y='count', title='Conteo por tipo de combustible')


In [12]:
fig = px.histogram(df, x="odometer") # crear un histograma
fig.show()