# ¿Qué vende un coche?

Eres un analista en Crankshaft List. Cientos de anuncios gratuitos de vehículos se publican en tu sitio web cada día. Necesitas estudiar los datos recopilados durante los últimos años y determinar qué factores influyen en el precio de un vehículo.

[Te proporcionamos algunos comentarios para guiar tu pensamiento mientras que completas este proyecto. Sin embargo, asegúrate de eliminar todos los comentarios entre corchetes antes de entregar tu proyecto.]

[Antes de sumergirte en el análisis de tus datos, explica los propósitos del proyecto y las acciones que planeas tomar.]

[Ten en cuenta que estudiar, modificar y analizar datos es un proceso iterativo. Es normal volver a los pasos anteriores y corregirlos/ampliarlos para hacer posibles nuevos pasos.]

# Análisis del precio de los coches

# Contenido
* [Introducción](#intro)
* [Objetivos](#objetivos)
* [Etapas](#etapas)
* [Descripción de los datos](#descripcion)


## Introducción <a id='intro'></a>
En este proyecto, nuestro trabajo será analizar los datos recopilados durante los últimos sobre anuncios de vehículos para determinar qué factores influyen en el precio de un vehículo. Las hipótesis específicas serán presentadas en el cuadro siguiente, y para el desarrollo del análisis se requerirá aplicar las diversas técnicas de preprocesamiento de datos y análisis exploratorio de los datos para poder demostrarlas. Cada espacio de código incluye sus respectivos comentarios y documentación en caso fuera necesario para el adecuado entendimiento de la lógica de desarrollo del proyecto.

## Objetivos
Nuestro objetivo general es probar la siguiente hipótesis:
* Determinar qué factor (factores) impactan más sobre el precio de un vehículo


## Etapas
Debido a que no contamos con información sobre la calidad de los datos ni manera de obtener esa información, parte del tratamiento previo de datos y el EDA será realizado mediante el uso de las suposiciones más razonables y coherentes desde el punto de vista del autor. Para lograr eso, seguiremos el siguiente esquema general de análisis para este proyecto:

1. Descripción de los datos
2. Preprocesamiento de los datos
3. Análisis exploratorio de los datos
4. Prueba de la hipótesis

## Descripción de los datos <a id='descripcion'></a>

[Carga las librerías que crees que son necesarias para el proyecto. Es posible que te des cuenta de que necesitas librerías adicionales a medida que avanzas, lo cual es totalmente normal, solo asegúrate de actualizar esta sección cuando lo hagas.]

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
# Cargando las librerías pandas y matplotlib

### Cargar datos

[Carga los datos del proyecto y mira la información general.]

In [3]:
try:
    cars = pd.read_csv('vehicles_us.csv')
except:
    cars = pd.read_csv('/datasets/vehicles_us.csv')

# Cargando el archivo en el DataFrame "cars"

### Explorar datos iniciales

**Descripción de los datos**
El dataset contiene los siguientes campos:
- `price`
- `model_year`
- `model`
- `condition`
- `cylinders`
- `fuel` — gasolina, diesel, etc.
- `odometer` — el millaje del vehículo cuando el anuncio fue publicado
- `transmission`
- `paint_color`
- `is_4wd` — si el vehículo tiene tracción a las 4 ruedas (tipo Booleano)
- `date_posted` — la fecha en la que el anuncio fue publicado
- `days_listed` — desde la publicación hasta que se elimina

La documentación respectiva nos deja esta descripción de las columnas. Continuamos con el la parte exploratoria inicial observando la información y una muestra de nuestros datos:
[Al comprender los campos, explóralos para familiarizarte con los datos.]

In [9]:
print(cars.describe())
print()
cars.info()
# imprime la información general/resumida sobre el DataFrame

               price    model_year     cylinders       odometer   is_4wd  \
count   51525.000000  47906.000000  46265.000000   43633.000000  25572.0   
mean    12132.464920   2009.750470      6.125235  115553.461738      1.0   
std     10040.803015      6.282065      1.660360   65094.611341      0.0   
min         1.000000   1908.000000      3.000000       0.000000      1.0   
25%      5000.000000   2006.000000      4.000000   70000.000000      1.0   
50%      9000.000000   2011.000000      6.000000  113000.000000      1.0   
75%     16839.000000   2014.000000      8.000000  155000.000000      1.0   
max    375000.000000   2019.000000     12.000000  990000.000000      1.0   

       days_listed  
count  51525.00000  
mean      39.55476  
std       28.20427  
min        0.00000  
25%       19.00000  
50%       33.00000  
75%       53.00000  
max      271.00000  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column     

In [18]:
# imprimir una muestra de datos



[Describe lo que observas en la información general y la muestra de datos impresos. ¿Existe algún problema que pueda necesitar investigación y cambios adicionales?]

[¿Hay columnas con tipos de datos inapropiados?]

[¿Hay valores ausentes en todas las columnas o solo en algunas? ¿Qué columnas contienen la mayor cantidad de valores ausentes? Describe brevemente lo que ves en 1 o 2 oraciones.]

### Conclusiones y siguientes pasos

[Formula tus conclusiones sobre los datos iniciales. ¿Qué crees que se ve normal y qué no?]

[Explica tus próximos pasos y cómo se correlacionan con las conclusiones que has hecho hasta ahora. Específicamente, debe quedar claro qué parte de los datos deben tratarse para que sean más adecuados para el análisis requerido.]

# Preprocesamiento de los datos

## Tratar los valores ausentes (si hay)

[Estudia los valores ausentes para cada columna en más detalle y decide qué hacer con ellos basándote en hipótesis significativas.]

## Corregir los tipos de datos

[Ya que los datos están más o menos completos ahora, corrige los tipos de datos si es necesario.]

## Enriquecer datos

[Agrega factores adicionales a los datos para facilitar el análisis.]

In [24]:
# Agrega valores de fecha y hora para cuando se colocó el anuncio



In [25]:
# Agrega los años del vehículo cuando el anuncio se colocó



In [26]:
# Agrega el millaje promedio del vehículo por año



In [27]:
# Podría ser útil reemplazar los valores de condición con algo que se pueda manipular más fácilmente




## Comprobar datos limpios

[Dado que los datos están listos para el análisis, échales otro vistazo rápido. Es útil ver qué es exactamente lo que vas a utilizar para el análisis.]

In [58]:
# imprime la información general/resumida sobre el DataFrame



In [59]:
# imprimir una muestra de datos



# EDA

## Estudiar parámetros principales

[Elige un enfoque apropiado para estudiar los parámetros enumerados a continuación, presta especial atención a cómo los valores atípicos afectan la forma y la legibilidad de los histogramas.]

Los parámetros son:
- Precio
- Los años del vehículo cuando el anuncio se colocó
- Millaje
- Número de cilindros
- Estado

[Si te das cuenta que necesitas repetir los mismos trabajos varias veces, piensa qué instrumento de programación podría ser útil para evitar duplicar tu código.]

In [48]:
#



In [31]:
#



In [49]:
#



In [50]:
#



In [34]:
#



In [51]:
#



## Estudiar y tratar valores atípicos

[Con los resultados anteriores, determina qué columnas pueden contener valores atípicos y crea un DataFrame sin esos valores atípicos. Pista: los valores atípicos se pueden identificar tras definir el límite inferior/superior para el rango normal de valores.]

In [60]:
# Determina los límites inferiores para valores atípicos



In [43]:
# Determinar los límites superiores para valores atípicos



In [44]:
# Almacena los datos sin valores atípicos en un DataFrame separado



## Estudiar parámetros principales sin valores atípicos

[Utiliza los datos filtrados para crear nuevos histogramas. Compáralos con los histogramas anteriores (aquellos con los valores atípicos incluidos). Saca conclusiones de cada histograma.]

## Periodo de colocación de los anuncios

[Estudia cuántos días los anuncios fueron mostrados (`days_listed`). Calcula la media y la mediana. Describe el periodo de colocación habitual de un anuncio. Determina cuándo se eliminaron rápidamente los anuncios y cuándo son publicados por un tiempo anormalmente largo.]

## Precio promedio por cada tipo de vehículo

[Analiza el número de anuncios y el precio promedio para cada tipo de vehículo. Traza un gráfico mostrando la dependencia de la cantidad de anuncios en cada tipo de vehículo. Selecciona los dos tipos con un mayor número de anuncios.]

## Factores de precio

[¿Qué factores impactan más sobre el precio? Toma cada uno de los tipos más populares que has detectado en la fase anterior y estudia si el precio depende de la edad, millaje, condición, tipo de transmisión y color. Para las variables categóricas (tipo de transmisión y color) traza gráficos de caja y bigotes y crea gráficos de dispersión para el resto. Cuando analices variables categóricas, observa que las categorías deben tener al menos 50 anuncios; si no, sus parámetros no serán válidos para el análisis.]

[Utiliza matriz de correlación y diagramas de correlación]

## Conclusión general

[Enumera tus conclusiones importantes en esta sección final, asegúrate de que incluyan aquellas que te llevaron a la forma en que procesaste y analizaste los datos. Habla de los valores ausentes, duplicados, valores atípicos y las posibles razones y soluciones para los artefactos problemáticos que tuviste que abordar. No olvides eliminar todos los comentarios entre corchetes antes de entregar tu proyecto.]