# Predección del precio de los autos
Predecirás el precio de un automóvil en el mercado basándote en sus atributos siguiendo el proceso CRISP-DM. Trabajarás con un dataset que contiene la información de varios automóviles. Para cada automóvil tienes información sobre los aspectos técnicos del vehículo, como el desplazamiento del motor, el peso del automóvil, las millas por galón, qué tan rápido acelera el automóvil y más.

## Entendimiento del negocio
El proceso CRISP-DM comienza con la comprensión del problema. Imagina, por ejemplo, un vendedor de autos usados que necesita estimaciones de cuál podría ser el precio de un auto usado. El concesionario de automóviles podría estar interesado en predecir el precio de un automóvil en función de sus atributos. 
En este proyecto tratamos de dar respuesta a las siguientes 3 preguntas empresariales:
* ¿El precio de un automóvil está relacionado con la potencia del motor?
* ¿El precio de un automóvil está relacionado con la longitud del automóvil?
* ¿Se puede predecir el precio de un automóvil en función de sus atributos con una precisión razonable?


## Entendimiento de los datos

Los datos se obtienen del repositorio de UCI y se pueden descargar de  <a href = "https://archive.ics.uci.edu/ml/datasets/automobile"> aquí </a>. 

Echa un vistazo a los datos

In [1]:
import pandas as pd
import numpy as np

In [5]:
data = pd.read_csv('./Predicting-Car-Prices-master/data/imports-85.data')

In [6]:
data.head()

Unnamed: 0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.60,...,130,mpfi,3.47,2.68,9.00,111,5000,21,27,13495
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
3,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
4,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250


Puedes darte cuenta de que los datos se almacenan en formato csv sin los nombres de las columnas (el primer registro se usa como nombres de columna, lo que por supuesto es incorrecto). El nombre de las columnas se puede encontrar usando el mismo enlace que arriba. Los almacenamos aquí en una lista de python y cargamos los datos nuevamente:

In [8]:
cols = ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 
        'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 
        'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-rate', 'horsepower',
        'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

data = pd.read_csv('./Predicting-Car-Prices-master/data/imports-85.data', names=cols)

In [6]:
data.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-rate,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Ahora los datos contienen los nombres de columna correctos. Puedes encontrar una descripción detallada del conjunto de datos <a href ="https://archive.ics.uci.edu/ml/datasets/automobile"> aquí </a>. Por ejemplo, la documentación del conjunto de datos contiene la información si un atributo es continuo. 

De momento vamos a restringirs nuestro análisis a los atributos continuos, aunque sería posible extender el análisis a los no continuos. 

La documentación nos dice que los siguientes atributos son continuos:

In [9]:
continuous_values_cols = ['normalized-losses', 'wheel-base', 'length', 'width', 'height',
                          'curb-weight', 'bore', 'stroke', 'compression-rate', 'horsepower',
                          'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

data = data[continuous_values_cols]
data.head()

Unnamed: 0,normalized-losses,wheel-base,length,width,height,curb-weight,bore,stroke,compression-rate,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,?,88.6,168.8,64.1,48.8,2548,3.47,2.68,9.0,111,5000,21,27,13495
1,?,88.6,168.8,64.1,48.8,2548,3.47,2.68,9.0,111,5000,21,27,16500
2,?,94.5,171.2,65.5,52.4,2823,2.68,3.47,9.0,154,5000,19,26,16500
3,164,99.8,176.6,66.2,54.3,2337,3.19,3.4,10.0,102,5500,24,30,13950
4,164,99.4,176.6,66.4,54.3,2824,3.19,3.4,8.0,115,5500,18,22,17450


Now the data contains only the continous variables. Our aim is to predict the 'price' attribute.