## Índice<a name="indice"></a>
* [1 Prepocesado de datos](#1)
    * [1.1 Importación de librerías](#1_1)
    * [1.2 Carga del Dataset](#1_2)
* [2 Análisis Exploratorio de datos](#2)
    * [2.1 Estadísitcas descriptivas](#2_1)
    * [2.2 Detección de Outliers](#2_2)
    * [2.3 Detección de correlaciones](#2_3)
* [3 Diseño de características](#3)
    * [3.1 Tratamiento de datos nulos](#3_1)
    * [3.2 Transformación de características](#3_2)
    * [3.3 Selección de características relevante](#3_3)
    * [3.4 Tratamiento de outliers](#3_4)
    * [3.5 Tratamiento de correlación](#3_5)
    * [3.6 Normalización](#3_6)


# 1 Prepocesado de datos<a name="1"></a>
[Índice](#indice)

Fuente: https://archive.ics.uci.edu/ml/datasets/automobile
### Describir columnas 
1. symboling: -3, -2, -1, 0, 1, 2, 3.
2. normalized-losses: continuous from 65 to 256.
3. make: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz,  mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo
4. fuel-type: diesel, gas.
5. aspiration: std, turbo.
6. num-of-doors: four, two.
7. body-style: hardtop, wagon, sedan, hatchback, convertible.
8. drive-wheels: 4wd, fwd, rwd.
9. engine-location: front, rear.
10. wheel-base: continuous from 86.6 120.9.
11. length: continuous from 141.1 to 208.1.
12. width: continuous from 60.3 to 72.3.
13. height: continuous from 47.8 to 59.8.
14. curb-weight: continuous from 1488 to 4066.
15. engine-type: dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. num-of-cylinders: eight, five, four, six, three, twelve, two.
17. engine-size: continuous from 61 to 326.
18. fuel-system: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. bore: continuous from 2.54 to 3.94.
20. stroke: continuous from 2.07 to 4.17.
21. compression-ratio: continuous from 7 to 23.
22. horsepower: continuous from 48 to 288.
23. peak-rpm: continuous from 4150 to 6600.
24. city-mpg: continuous from 13 to 49.
25. highway-mpg: continuous from 16 to 54.
26. price: continuous from 5118 to 45400.

## 1.1 Importación de librerías<a name="1_1"></a>
[Índice](#indice)

In [1]:
import pandas as pd
import seaborn as sns

## 1.2 Carga del dataset<a name="1_2"></a>
[Índice](#indice)

In [5]:
# Descargar ficheros
# Cargar el csv
df = pd.read_csv('02_autos/imports-85.data')

In [11]:
# Mostrar el dataframe
df

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.40,10.0,102,5500,24,30,13950
3,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.40,8.0,115,5500,18,22,17450
4,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.40,8.5,110,5500,19,25,15250
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
200,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
201,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
202,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.40,23.0,106,4800,26,27,22470


In [None]:
# ¿Observas algo raro?
# Dos cosas:
# 1.- Que aparecen ? en los datos que faltan. Los pondremos como nulos cuando hagamos el 
#     diseño de características
# 2.- Que no tenemos los encabezados de columnas

In [7]:
# Incorpora lo que falta
nombres = ['symboling','normalized-losses','make','fuel-type','aspiration','num-of-doors','body-style',
'drive-wheels','engine-location','wheel-base','length','width','height','curb-weight','engine-type',
'num-of-cylinders','engine-size','fuel-system','bore','stroke','compression-ratio','horsepower',
'peak-rpm','city-mpg','highway-mpg','price']
# Para cargar las columnas al cargar el dataframe
#df =  pd.read_csv('02_autos/imports-85.data', names=nombres)
#df

# Otra forma de cargar las columnas con el df ya cargado
df.columns = nombres
df

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
1,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
2,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.40,10.0,102,5500,24,30,13950
3,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.40,8.0,115,5500,18,22,17450
4,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.40,8.5,110,5500,19,25,15250
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
200,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
201,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
202,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.40,23.0,106,4800,26,27,22470


# 2 Análisis Exploratorio de datos<a name="2"></a>
[Índice](#indice)

In [8]:
# ¿Cuántas filas y cuántas columnas tiene df?
df.shape

(204, 26)

In [9]:
# Guarda en dos variables los datos anteriores
filas=df.shape[0]
cols= df.shape[1]
print(f"Filas:{filas}\tColumnas:{cols}")

Filas:204	Columnas:26


In [12]:
# ¿De qué tipos de datos son las columnas del df?
#df.dtypes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 204 entries, 0 to 203
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          204 non-null    int64  
 1   normalized-losses  204 non-null    object 
 2   make               204 non-null    object 
 3   fuel-type          204 non-null    object 
 4   aspiration         204 non-null    object 
 5   num-of-doors       204 non-null    object 
 6   body-style         204 non-null    object 
 7   drive-wheels       204 non-null    object 
 8   engine-location    204 non-null    object 
 9   wheel-base         204 non-null    float64
 10  length             204 non-null    float64
 11  width              204 non-null    float64
 12  height             204 non-null    float64
 13  curb-weight        204 non-null    int64  
 14  engine-type        204 non-null    object 
 15  num-of-cylinders   204 non-null    object 
 16  engine-size        204 non

In [14]:
# Muestras los 10 primeros registros de df, pero solamente las columnas numéricas 
df.select_dtypes(exclude=object).head(10)

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
0,3,88.6,168.8,64.1,48.8,2548,130,9.0,21,27
1,1,94.5,171.2,65.5,52.4,2823,152,9.0,19,26
2,2,99.8,176.6,66.2,54.3,2337,109,10.0,24,30
3,2,99.4,176.6,66.4,54.3,2824,136,8.0,18,22
4,2,99.8,177.3,66.3,53.1,2507,136,8.5,19,25
5,1,105.8,192.7,71.4,55.7,2844,136,8.5,19,25
6,1,105.8,192.7,71.4,55.7,2954,136,8.5,19,25
7,1,105.8,192.7,71.4,55.9,3086,131,8.3,17,20
8,0,99.5,178.2,67.9,52.0,3053,131,7.0,16,22
9,2,101.2,176.8,64.8,54.3,2395,108,8.8,23,29


In [15]:
# Muestras los 10 primeros registros de df, pero solamente las columnas no numéricas 
df.select_dtypes(include=object).tail(10)

Unnamed: 0,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system,bore,stroke,horsepower,peak-rpm,price
194,74,volvo,gas,std,four,wagon,rwd,front,ohc,four,mpfi,3.78,3.15,114,5400,13415
195,103,volvo,gas,std,four,sedan,rwd,front,ohc,four,mpfi,3.78,3.15,114,5400,15985
196,74,volvo,gas,std,four,wagon,rwd,front,ohc,four,mpfi,3.78,3.15,114,5400,16515
197,103,volvo,gas,turbo,four,sedan,rwd,front,ohc,four,mpfi,3.62,3.15,162,5100,18420
198,74,volvo,gas,turbo,four,wagon,rwd,front,ohc,four,mpfi,3.62,3.15,162,5100,18950
199,95,volvo,gas,std,four,sedan,rwd,front,ohc,four,mpfi,3.78,3.15,114,5400,16845
200,95,volvo,gas,turbo,four,sedan,rwd,front,ohc,four,mpfi,3.78,3.15,160,5300,19045
201,95,volvo,gas,std,four,sedan,rwd,front,ohcv,six,mpfi,3.58,2.87,134,5500,21485
202,95,volvo,diesel,turbo,four,sedan,rwd,front,ohc,six,idi,3.01,3.4,106,4800,22470
203,95,volvo,gas,turbo,four,sedan,rwd,front,ohc,four,mpfi,3.78,3.15,114,5400,22625


## 2.1Estadísticas descriptivas<a name="2_1"></a>
[Índice](#indice)

In [1]:
# Averigua el valor mínimo, el máximo, la media, la desviación típica, Q1, Q2 y Q3 de la variable curb-weight
# Muéstralo en un mensaje usando funciones para cada dato anterior
# Muestra las estadísitcas descriptivas de todas las variables numéricas. ¿Crees que el tipo de datos de algunas de ellas es incorrecto?
# ¿Cuántos valores distintos hay para la variable num-of-doors?
# ¿cuál es el más moda de esta variable? la moda
# ¿Cuántos registros tiene como num-of-doors la moda?
# Muestra las estadísitcas descriptivas de todas las variables no numéricas. ¿Crees que el tipo de datos de algunas de ellas es incorrecto?
# ¿Cuáles son los posibles valores de la variable make?
# ¿Cuál es la marca de la que más vehículos hay?
# ¿Qué % de vehículos hay de cada tipo de combustible?
# Crea un diagrama de barras para mostrar el nº de vehículos por marca. Hazlo con pandas. Debes poner un título a la gráfica
# ¿Cuáles son los posibles valores de la variable body-style?
# Crea un diagrama de barras para mostrar el nº de vehículos según su número de puertas, distinguiendo por estilo (body-style). Hazlo con seaborn. Debes poner un título a la gráfica. ¿Hay coches de tipo convertible de 4 puertas?
# Analiza las estadísticas de la variable tamaño del motor según el tipo de combustible
# Idem pero agrupando también por la variable aspiration
# Muestra en un diagrama de barras la media de consumo por ciudad según el tipo de combustible
# ¿Qué conclusión obtienes de esta gráfica?
# Idem al anterior pero agrupando además por aspiration
# ¿Qué conclusión obtienes de esta gráfica?
# Muestra cuántos vehículos hay de los que se consideran de más riesgo (symboling=3)
# Muestra los modelos de los vehículos que se consideran de más riesgo (symboling=3)
# ¿Qué % representan estos vehículos frente al total de vehiculos?
# Muestra en una unica figura el gráfico de densidad de las variables consumo en ciudad y carretera y valora si siguen una distribución normal
# Representa con seaborn los diagramas de cajas y bigotes de de las variables consumo en ciudad y carretera. ¿Qué conclusiones obtines de esta gráfica?

## 2.2. Detección de outliers<a name="2_2"></a>
[Índice](#indice)

In [None]:
# Representa los outliers de la variable compression-ratio usando una gráfica de dispersión de seaborn. Dibuja las líneas de máximum y mínimum
# Idem pero que se distinga por tipo de combustible
# Representa los outliers de la variable de compression-ratio usando una gráfico de cajas. Dibuja las líneas de máximum y mínimum
# Idem pero que se distinga por tipo de combustible

## 2.3 Detección de correlaciones<a name="2_3"></a>
[Índice](#indice)

In [None]:
# Estudiando la matriz de dispersión con seaborn, cuáles son las correlaciones que detectas?
# Representa una mapa de calor de la matriz de correlación, ¿qué correlaciones hay?

# 3 Diseño de características<a name="3"></a>
[Índice](#indice)

## 3.1 Tratamiento de datos nulos<a name="3_1"></a>
[Índice](#indice)

## 3.2 Transformación de características<a name="3_2"></a>
[Índice](#indice)

## 3.3 Selección de características relevante<a name="3_3"></a>
[Índice](#indice)

## 3.4 Tratamiento de outliers<a name="3_4"></a>
[Índice](#indice)

## 3.5 Tratamiento de correlación<a name="3_5"></a>
[Índice](#indice)

## 3.6 Normalización<a name="3_6"></a>
[Índice](#indice)