# Lista de Vehiculos

## Inicialización

In [4]:
# Cargamos todas las librerias a usar
import pandas as pd
import plotly.express as px

## Carga de datos

In [5]:
# importamos los datos desde el archivo csv a un dataframe
df_vehicles = pd.read_csv('vehicles_us.csv')

In [6]:
# Revisamos la información general del dataframe resultante.
df_vehicles.info()
display(df_vehicles.head(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28


### Preparación del dataframe

In [7]:
# Eliminamos duplicados explicitos si existen.
df_vehicles = df_vehicles.drop_duplicates()

#### Model Year

Tenemos problemas asociados con los datos en model year
1. el tipo de datos debe ser int
2. tenemos valores nulos. 

Primero exploraremos que tipo de datos asociados a estos valores tenemos.

In [13]:
# eliminamos los valores nulos de ['model_year'] y convertimos a int. 
df_vehicles = df_vehicles.dropna(subset=['model_year'])
df_vehicles['model_year'] = df_vehicles['model_year'].astype(int)

### Cylinders

Se presentan varias filas con valores nulos, en este caso son aproximadamente 4000 mil datos, para el tamaño del dataframe no es del todo significativo, los podemos eliminar. 

In [None]:
# Eliminamos los valores nulos de ['cylinders'] y convertimos a int
df_vehicles = df_vehicles.dropna(subset=['cylinders'])
df_vehicles['cylinders'] = df_vehicles['cylinders'].astype(int)

### odometer 

Debemos analizar mas a fondo los valores presentes en odometer, en este caso, son cerca de 6,500 valores nulos los cuales con una inspección más a detalle es posible completarlos. 

De revisar más a detalle el df encontramos que los valores nulos se presentan tanto en vehiculos calificados en condición como fair o like new, de aqui se puede rescatar que los valores nulos representan tanto kilometrajes cercanos a 0 como posiblemente superiores al maximo de 990,000.

Por el momento no realizaremos ajustes a esta columna. 

In [22]:
# Obtenemos los valores maximos yt minímos de ['odometer']
print('El valor máximo de odometer es:', max(df_vehicles['odometer']))
print('El valor mínimo de odometer es:', min(df_vehicles['odometer']))
print('El valor promedio de odometer es:', df_vehicles['odometer'].mean())
print('La mediana de odometer es:', df_vehicles['odometer'].median())

El valor máximo de odometer es: 990000.0
El valor mínimo de odometer es: 0.0
El valor promedio de odometer es: 115323.63274664324
La mediana de odometer es: 113000.0


In [23]:
# Regresamos un df con los valores nulos en ['odometer']
df_odometer_nan = df_vehicles[df_vehicles['odometer'].isna()]


### is_4wd

Para retirar los valores nulos seran cambiados por 0s, en este caso la tracción 4x4 se representa como 1, por lo que su contraparte, la ausencia de tracción 4x4 se debe representar por 0. 

In [24]:
# Cambiamos los valores nulos por 0s
df_vehicles['is_4wd'] = df_vehicles['is_4wd'].fillna(0)

In [25]:
# revisamos nuevamente la información general del dataframe
df_vehicles.info()

<class 'pandas.core.frame.DataFrame'>
Index: 43009 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         43009 non-null  int64  
 1   model_year    43009 non-null  int64  
 2   model         43009 non-null  object 
 3   condition     43009 non-null  object 
 4   cylinders     43009 non-null  int64  
 5   fuel          43009 non-null  object 
 6   odometer      36419 non-null  float64
 7   transmission  43009 non-null  object 
 8   type          43009 non-null  object 
 9   paint_color   35293 non-null  object 
 10  is_4wd        43009 non-null  float64
 11  date_posted   43009 non-null  object 
 12  days_listed   43009 non-null  int64  
dtypes: float64(2), int64(4), object(7)
memory usage: 4.6+ MB


## Analisis de los datos

### Distribución de kilometraje

In [26]:
fig = px.histogram(df_vehicles, x="odometer") # crear un histograma
fig.show() # crear gráfico de dispersión

### Relación entre kilometraje y precio

In [27]:
fig = px.scatter(df_vehicles, x="odometer", y="price") # crear un gráfico de dispersión
fig.show() # crear gráfico de dispersión