# ¿Qué vende un coche?

Eres un analista en Crankshaft List. Cientos de anuncios gratuitos de vehículos se publican en tu sitio web cada día. Necesitas estudiar los datos recopilados durante los últimos años y determinar qué factores influyen en el precio de un vehículo.

[Te proporcionamos algunos comentarios para guiar tu pensamiento mientras que completas este proyecto. Sin embargo, asegúrate de eliminar todos los comentarios entre corchetes antes de entregar tu proyecto.]

[Antes de sumergirte en el análisis de tus datos, explica los propósitos del proyecto y las acciones que planeas tomar.]

[Ten en cuenta que estudiar, modificar y analizar datos es un proceso iterativo. Es normal volver a los pasos anteriores y corregirlos/ampliarlos para hacer posibles nuevos pasos.]

# Análisis del precio de los coches

# Contenido
* [Introducción](#intro)
* [Objetivos](#objetivos)
* [Etapas](#etapas)
* [Descripción de los datos](#descripcion)


## Introducción <a id='intro'></a>
En este proyecto, nuestro trabajo será analizar los datos recopilados durante los últimos sobre anuncios de vehículos para determinar qué factores influyen en el precio de un vehículo. La(s) hipótesis específica(s) será(n) presentada(s) en el cuadro siguiente, y para el desarrollo del análisis se requerirá aplicar las diversas técnicas de preprocesamiento de datos y análisis exploratorio de los datos. Cada espacio de código incluye sus respectivos comentarios y documentación en caso fuera necesario para el adecuado entendimiento de la lógica de desarrollo del proyecto.

## Objetivos
Nuestro objetivo general es probar la siguiente hipótesis:
* Determinar qué factor (factores) impactan más sobre el precio de un vehículo


## Etapas
Debido a que no contamos con información sobre la calidad de los datos ni manera de obtener esa información, parte del tratamiento previo de datos y el EDA será realizado mediante el uso de las suposiciones más razonables y coherentes desde el punto de vista del analista. Para lograr eso, seguiremos el siguiente esquema general de análisis para este proyecto:

1. Descripción de los datos
2. Preprocesamiento de los datos
3. Análisis exploratorio de los datos
4. Prueba de la hipótesis

## Descripción de los datos <a id='descripcion'></a>

[Carga las librerías que crees que son necesarias para el proyecto. Es posible que te des cuenta de que necesitas librerías adicionales a medida que avanzas, lo cual es totalmente normal, solo asegúrate de actualizar esta sección cuando lo hagas.]

In [6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# Cargando las librerías pandas y matplotlib

### Cargar datos

[Carga los datos del proyecto y mira la información general.]

In [7]:
try:
    cars = pd.read_csv('vehicles_us.csv')
except:
    cars = pd.read_csv('/datasets/vehicles_us.csv')

# Cargando el archivo en el DataFrame "cars"

### Explorar datos iniciales

**Descripción de los datos**
El dataset contiene los siguientes campos:
- `price`
- `model_year`
- `model`
- `condition`
- `cylinders`
- `fuel` — gasolina, diesel, etc.
- `odometer` — el millaje del vehículo cuando el anuncio fue publicado
- `transmission`
- `paint_color`
- `is_4wd` — si el vehículo tiene tracción a las 4 ruedas (tipo Booleano)
- `date_posted` — la fecha en la que el anuncio fue publicado
- `days_listed` — desde la publicación hasta que se elimina

La documentación respectiva nos deja esta descripción de las columnas. Continuamos con el la parte exploratoria inicial observando la información y una muestra de nuestros datos:
[Al comprender los campos, explóralos para familiarizarte con los datos.]

In [8]:
print(cars.describe())
print()
cars.info()
# imprime la información general/resumida sobre el DataFrame

               price    model_year     cylinders       odometer   is_4wd  \
count   51525.000000  47906.000000  46265.000000   43633.000000  25572.0   
mean    12132.464920   2009.750470      6.125235  115553.461738      1.0   
std     10040.803015      6.282065      1.660360   65094.611341      0.0   
min         1.000000   1908.000000      3.000000       0.000000      1.0   
25%      5000.000000   2006.000000      4.000000   70000.000000      1.0   
50%      9000.000000   2011.000000      6.000000  113000.000000      1.0   
75%     16839.000000   2014.000000      8.000000  155000.000000      1.0   
max    375000.000000   2019.000000     12.000000  990000.000000      1.0   

       days_listed  
count  51525.00000  
mean      39.55476  
std       28.20427  
min        0.00000  
25%       19.00000  
50%       33.00000  
75%       53.00000  
max      271.00000  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column     

In [9]:
cars.head(10)
# imprimir una muestra de datos

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
5,14990,2014.0,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,1.0,2018-06-20,15
6,12990,2015.0,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,,2018-12-27,73
7,15990,2013.0,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,1.0,2019-01-07,68
8,11500,2012.0,kia sorento,excellent,4.0,gas,104174.0,automatic,SUV,,1.0,2018-07-16,19
9,9200,2008.0,honda pilot,excellent,,gas,147191.0,automatic,SUV,blue,1.0,2019-02-15,17


Del primer cuadro, podemos resaltar lo siguiente: 
* `price` tiene un valor mínimo de "1", su media y mediana están algo alejados. Posiblemente tengamos valores atípicos en esta columna.
* `model_year` está registrado como tipo flotante y su recuento varía respecto al total de filas. En este caso, tenemos valores ausentes.
* `model` no parece presentar problemas explícitos.
* `condition` no parece presentar problemas.
* `cylinders` es de tipo flotante y también tiene valores ausentes.
* `fuel` no parece presentar problemas.
* `odometer` es de tipo flotante, lo cual podría tener sentido al principio, pero luego notamos en la muestra que los datos no precisan de tener decimales. Esta cuestión será abordada pronto. También presenta valores ausentes.
* `transmission` no parece tener problemas.
* `type` no parece tener problemas más allá del uso de mayúsculas en algunos casos.
* `paint_color` tiene valores ausentes.
* `is_4wd` está registrado como valores flotantes, lo cual no es adecuado. Asimismo, tiene muchos valores ausentes y en su descripción parece solo existir el valor "1". En la muestra notamos que probablemente los valores "0" hayan sido registrados incorrectamente como valores ausentes.
* `date_posted` está registrado como tipo objeto, cuando en realidad es necesario que sea de tipo fecha para facilitar posibles análisis posteriores.
* `days_listed` no parece tener problemas. 

Por ahora, parece que nuestros valores ausentes tienen una ocurrencia aleatoria. De todas formas tomaremos cartas en el asunto: analizaremos estos problemas un poco más a detalle.  

[Describe lo que observas en la información general y la muestra de datos impresos. ¿Existe algún problema que pueda necesitar investigación y cambios adicionales?]

Dividiremos a nuestros datos para analizarlos por categoría: datos cuantitativos y datos categóricos.
Ya que en la primera parte del análisis ya obtuvimos algunas observaciones sobre los datos cuantitativos y sus distribuciones, analizaremos en este caso los datos categóricos, que son `model`, `condition`, `cylinders`, `fuel`, `transmission`, `type`, `paint_color` y `is_4wd`.

Al ser datos categóricos, una manera de analizar si sus valores están bien es obtener sus valores únicos. Automatizaremos este proceso:

[¿Hay columnas con tipos de datos inapropiados?]

In [12]:
cars_categorical = cars[['model', 'condition', 'cylinders', 'fuel', 'transmission', 'type', 'paint_color', 'is_4wd']] # separamos las columnas categóricas
for column in cars_categorical:
    try: 
        print(f"Valores únicos en la columna '{column}':")   # muestra el nombre de cada columna
        print(cars_categorical[column].unique())        # muestra los valores únicos de cada columna
        print()
    except:
        print("Error al mostrar valores únicos columnas categóricas")

Valores únicos en la columna 'model':
['bmw x5' 'ford f-150' 'hyundai sonata' 'chrysler 200' 'chrysler 300'
 'toyota camry' 'honda pilot' 'kia sorento' 'chevrolet silverado 1500'
 'honda accord' 'ram 1500' 'gmc yukon' 'jeep cherokee'
 'chevrolet traverse' 'hyundai elantra' 'chevrolet tahoe' 'toyota rav4'
 'chevrolet silverado' 'jeep wrangler' 'chevrolet malibu' 'ford fusion se'
 'chevrolet impala' 'chevrolet corvette' 'jeep liberty' 'toyota camry le'
 'nissan altima' 'subaru outback' 'toyota highlander' 'dodge charger'
 'toyota tacoma' 'chevrolet equinox' 'nissan rogue'
 'mercedes-benz benze sprinter 2500' 'honda cr-v' 'jeep grand cherokee'
 'toyota 4runner' 'ford focus' 'honda civic' 'kia soul'
 'chevrolet colorado' 'ford f150 supercrew cab xlt'
 'chevrolet camaro lt coupe 2d' 'chevrolet cruze' 'ford mustang'
 'chevrolet silverado 3500hd' 'nissan frontier crew cab sv'
 'subaru impreza' 'jeep grand cherokee laredo' 'nissan versa'
 'ford f-250 sd' 'chevrolet silverado 1500 crew' 'ford f

Parece que nuestras columnas categóricas no presentan problemas en sus valores, solo el uso de 'SUV' en la columna "type", que luego procederemos a solucionar. Ahora necesitamos saber la distribución de los valores para cada columna, haciendo énfasis en las columnas con valores ausentes. También lo haremos usando un bucle:

In [13]:
for column in cars_categorical:
    try: 
        print(f"Distribución de valores de la columna '{column}':") 
        print(cars_categorical[column].value_counts(dropna=False, normalize=True))  # contando valores normalizados y con valores ausentes
        print()
    except:
        print("Error al mostrar la distribución de columnas categóricas")

Distribución de valores de la columna 'model':
ford f-150                           0.054265
chevrolet silverado 1500             0.042135
ram 1500                             0.033964
chevrolet silverado                  0.024668
jeep wrangler                        0.021718
                                       ...   
ford f-250 super duty                0.004677
acura tl                             0.004580
kia sorento                          0.004580
nissan murano                        0.004561
mercedes-benz benze sprinter 2500    0.000796
Name: model, Length: 100, dtype: float64

Distribución de valores de la columna 'condition':
excellent    0.480796
good         0.390975
like new     0.092033
fair         0.031189
new          0.002775
salvage      0.002232
Name: condition, dtype: float64

Distribución de valores de la columna 'cylinders':
8.0     0.307501
6.0     0.304706
4.0     0.269073
NaN     0.102086
10.0    0.010655
5.0     0.005279
3.0     0.000660
12.0    0.000039
Na

Todas parecen distribuciones razonables. Tenemos tres columnas con valores ausentes:
* `cylinders`, en el cual, alrededor del 10 % de sus valores son ausentes. Estos valores ausentes podrían estar relacionados principalmente con el modelo del vehículo (`model`), así que tendremos que enfatizar el análisis con esta columna.
* `paint_color` tiene casi 18 % de valores ausentes, siendo casi tan frecuente como el color más frecuente de la columna ("White"). Sin duda, es una proporción muy alta de valores ausentes, así que este es un caso de especial atención. Estos valores ausentes podrían también estar relacionados con el modelo del vehículo (`model`).
* `is_4wd` tiene más del 50 % de sus datos ausentes, pero el sentido común (y tal como habíamos anticipado) nos obliga a deducir que estos valores ausentes en realidad se deben a un error bajo el cual al valor "0" se le procesó como "NaN". 

Para saber la proporción de valores ausentes en las columnas cuantitativas, que son `price`, `model_year`, `odometer` y `days_listed`, contaremos sus valores ausentes y obtendremos su respectiva proporción:

In [25]:
cars_cuantitative = cars[['price', 'model_year', 'odometer', 'days_listed']]    # dataset de columnas cuantitativas
for column in cars_cuantitative:
    try:
        print(f"Porcentaje de valores ausentes de la columna '{column}':")
        print(round(cars_cuantitative[column].isna().sum() / len(cars_cuantitative[column]), 4))  # obteniendo la suma de valores ausentes y dividiendo entre la longitud, redondeado con 4 decimales
        print() 
    except:
        print("Error al mostrar valores ausentes en columnas cuantitativas")

Porcentaje de valores ausentes de la columna 'price':
0.0

Porcentaje de valores ausentes de la columna 'model_year':
0.0702

Porcentaje de valores ausentes de la columna 'odometer':
0.1532

Porcentaje de valores ausentes de la columna 'days_listed':
0.0



`price` y `days_listed` no tienen datos ausentes. Mientras que `model_year` tiene un 7 % de valores ausentes y `odometer`, alrededor del 15 %. Continuamos.

Ahora tenemos que analizar la influencia de los valores ausentes, es decir, si están distribuidos aleatoriamente o se pueden relacionar con alguna otra columna. Primero, no tendremos en cuenta a la columna `is_4wd`, porque ya conocemos la naturaleza de sus valores ausentes y eliminar más de la mitad de los valores puede distorsionar nuestros resultados: 

In [29]:
cars_without_4wd = cars.drop(['is_4wd'], axis=1)
cars_without_4wd.columns

Index(['price', 'model_year', 'model', 'condition', 'cylinders', 'fuel',
       'odometer', 'transmission', 'type', 'paint_color', 'date_posted',
       'days_listed'],
      dtype='object')

Una vez obtenido este nuevo dataset, procedemos a analizar la distribución de las columnas del dataset con y sin valores ausentes de la siguiente manera:

*Datos originales*

In [32]:
for column in cars:
    print(f"Distribución de valores de '{column}':")
    print(cars[column].value_counts(dropna=False, normalize=True)) 
    print()

Distribución de valores de 'price':
1        0.015488
6995     0.013954
5995     0.012712
4995     0.012111
3500     0.012033
           ...   
58500    0.000019
3993     0.000019
32987    0.000019
3744     0.000019
7455     0.000019
Name: price, Length: 3443, dtype: float64

Distribución de valores de 'model_year':
NaN       0.070238
2013.0    0.068879
2012.0    0.067307
2014.0    0.066919
2011.0    0.065502
            ...   
1948.0    0.000019
1961.0    0.000019
1936.0    0.000019
1949.0    0.000019
1929.0    0.000019
Name: model_year, Length: 69, dtype: float64

Distribución de valores de 'model':
ford f-150                           0.054265
chevrolet silverado 1500             0.042135
ram 1500                             0.033964
chevrolet silverado                  0.024668
jeep wrangler                        0.021718
                                       ...   
ford f-250 super duty                0.004677
acura tl                             0.004580
kia sorento            

*Datos sin valores ausentes*

In [35]:
for column in cars_without_4wd:
    print(f"Distribución de valores de '{column}':")
    print(cars_without_4wd.dropna()[column].value_counts(dropna=False, normalize=True)) # eliminando los valores ausentes del dataset filtrado y obteniendo su distribución
    print()

Distribución de valores de 'price':
1        0.015544
6995     0.014173
5995     0.013571
3500     0.012201
4500     0.012101
           ...   
42970    0.000033
39608    0.000033
23976    0.000033
18958    0.000033
7455     0.000033
Name: price, Length: 2704, dtype: float64

Distribución de valores de 'model_year':
2013.0    0.072637
2012.0    0.072269
2011.0    0.071366
2014.0    0.071333
2015.0    0.068793
            ...   
1948.0    0.000033
1908.0    0.000033
1961.0    0.000033
1936.0    0.000033
1958.0    0.000033
Name: model_year, Length: 65, dtype: float64

Distribución de valores de 'model':
ford f-150                  0.055322
chevrolet silverado 1500    0.042018
ram 1500                    0.033828
chevrolet silverado         0.024903
jeep wrangler               0.020992
                              ...   
kia sorento                 0.004713
chrysler 200                0.004613
ford f-250 super duty       0.004312
acura tl                    0.004279
nissan murano        

Después de una revisión, no notamos diferencias notables en la distribución de las variables al considerar los valores ausentes. Es decir que muy probablemente nuestros valores ausentes tengan una distribución aleatoria y no se relacionen con los valores de las columnas.

[¿Hay valores ausentes en todas las columnas o solo en algunas? ¿Qué columnas contienen la mayor cantidad de valores ausentes? Describe brevemente lo que ves en 1 o 2 oraciones.]

### Conclusiones y siguientes pasos

[Formula tus conclusiones sobre los datos iniciales. ¿Qué crees que se ve normal y qué no?]

[Explica tus próximos pasos y cómo se correlacionan con las conclusiones que has hecho hasta ahora. Específicamente, debe quedar claro qué parte de los datos deben tratarse para que sean más adecuados para el análisis requerido.]

# Preprocesamiento de los datos

## Tratar los valores ausentes (si hay)

[Estudia los valores ausentes para cada columna en más detalle y decide qué hacer con ellos basándote en hipótesis significativas.]

## Corregir los tipos de datos

[Ya que los datos están más o menos completos ahora, corrige los tipos de datos si es necesario.]

## Enriquecer datos

[Agrega factores adicionales a los datos para facilitar el análisis.]

In [None]:
# Agrega valores de fecha y hora para cuando se colocó el anuncio



In [None]:
# Agrega los años del vehículo cuando el anuncio se colocó



In [None]:
# Agrega el millaje promedio del vehículo por año



In [None]:
# Podría ser útil reemplazar los valores de condición con algo que se pueda manipular más fácilmente




## Comprobar datos limpios

[Dado que los datos están listos para el análisis, échales otro vistazo rápido. Es útil ver qué es exactamente lo que vas a utilizar para el análisis.]

In [None]:
# imprime la información general/resumida sobre el DataFrame



In [None]:
# imprimir una muestra de datos



# EDA

## Estudiar parámetros principales

[Elige un enfoque apropiado para estudiar los parámetros enumerados a continuación, presta especial atención a cómo los valores atípicos afectan la forma y la legibilidad de los histogramas.]

Los parámetros son:
- Precio
- Los años del vehículo cuando el anuncio se colocó
- Millaje
- Número de cilindros
- Estado

[Si te das cuenta que necesitas repetir los mismos trabajos varias veces, piensa qué instrumento de programación podría ser útil para evitar duplicar tu código.]

In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



In [None]:
#



## Estudiar y tratar valores atípicos

[Con los resultados anteriores, determina qué columnas pueden contener valores atípicos y crea un DataFrame sin esos valores atípicos. Pista: los valores atípicos se pueden identificar tras definir el límite inferior/superior para el rango normal de valores.]

In [None]:
# Determina los límites inferiores para valores atípicos



In [None]:
# Determinar los límites superiores para valores atípicos



In [None]:
# Almacena los datos sin valores atípicos en un DataFrame separado



## Estudiar parámetros principales sin valores atípicos

[Utiliza los datos filtrados para crear nuevos histogramas. Compáralos con los histogramas anteriores (aquellos con los valores atípicos incluidos). Saca conclusiones de cada histograma.]

## Periodo de colocación de los anuncios

[Estudia cuántos días los anuncios fueron mostrados (`days_listed`). Calcula la media y la mediana. Describe el periodo de colocación habitual de un anuncio. Determina cuándo se eliminaron rápidamente los anuncios y cuándo son publicados por un tiempo anormalmente largo.]

## Precio promedio por cada tipo de vehículo

[Analiza el número de anuncios y el precio promedio para cada tipo de vehículo. Traza un gráfico mostrando la dependencia de la cantidad de anuncios en cada tipo de vehículo. Selecciona los dos tipos con un mayor número de anuncios.]

## Factores de precio

[¿Qué factores impactan más sobre el precio? Toma cada uno de los tipos más populares que has detectado en la fase anterior y estudia si el precio depende de la edad, millaje, condición, tipo de transmisión y color. Para las variables categóricas (tipo de transmisión y color) traza gráficos de caja y bigotes y crea gráficos de dispersión para el resto. Cuando analices variables categóricas, observa que las categorías deben tener al menos 50 anuncios; si no, sus parámetros no serán válidos para el análisis.]

[Utiliza matriz de correlación y diagramas de correlación]

## Conclusión general

[Enumera tus conclusiones importantes en esta sección final, asegúrate de que incluyan aquellas que te llevaron a la forma en que procesaste y analizaste los datos. Habla de los valores ausentes, duplicados, valores atípicos y las posibles razones y soluciones para los artefactos problemáticos que tuviste que abordar. No olvides eliminar todos los comentarios entre corchetes antes de entregar tu proyecto.]