# Laboratorio 3.3: Cuaderno del estudiante

## Información general

Este laboratorio no continúa la situación del proveedor de atención médica. En cambio, trabajará con datos de un [conjunto de datos de automóviles](https://archive.ics.uci.edu/ml/datasets/Automobile).

En este laboratorio, realizará lo siguiente:

- Codificar datos categóricos ordinales
- Codificar datos categóricos no ordinales

## Acerca de este conjunto de datos

Este conjunto de datos consta de tres tipos de entidades: 

1. La especificación de un automóvil en términos de diversas características
2. Su clasificación de riesgo de seguro asignada
3. Sus pérdidas normalizadas en el uso comparadas con otros automóviles

La segunda clasificación corresponde al grado en que el automóvil es más riesgoso que lo que indica su precio. Se asigna un símbolo de factor de riesgo a los automóviles asociado con su precio. Luego, si es más riesgoso (o menos riesgoso), este símbolo se ajusta moviendo hacia arriba (o hacia abajo) la escala. Los actuarios de seguros le llaman a este proceso *symboling* (simbolización). Un valor de *+3* indica que el automóvil es riesgoso. Un valor de *-3* indica que el automóvil es probablemente seguro.

El tercer factor es el pago de siniestro promedio relativo por año del vehículo asegurado. Este valor es normalizado para todos los automóviles en una clasificación de tamaño específica (pequeños de dos puertas, camionetas, deportivos o especiales y otros). Representa los siniestros promedio por automóvil por año.

**Nota:** Se podrían usar varios atributos en la base de datos como atributo de *clase*.

## Información de atributos

Atributo: rango de atributos

1. symboling: -3, -2, -1, 0, 1, 2, 3.
1. normalized-losses: continuo de 65 a 256.
1. fuel-type: diésel, gas.
1. aspiration: estándar, turbocompresor.
1. num-of-doors: cuatro, dos.
1. body-style: techo rígido, camioneta, sedán, furgoneta, descapotable.
1. drive-wheels: 4wd, fwd, rwd.
1. engine-location: delantero, trasero.
1. wheel-base: continua desde 86,6 120,9.
1. length: continuo de 141,1 a 208,1.
1. width: continuo de 60,3 a 72,3.
1. height: continua de 47,8 a 59,8.
1. curb-weight: continuo de 1488 a 4066.
1. engine-type: dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
1. num-of-cylinders: eight, five, four, six, three, twelve, two.
1. engine-size: continuo de 61 a 326.
1. fuel-system: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
1. width: continuo de 2,54 a 3,94.
1. stroke: continuo de 2,07 a 4,17.
1. compression-ratio: continuo de 7 a 23.
1. horsepower: continuo de 48 a 288.
1. peak-rpm: continuo de 4150 a 6600.
1. city-mpg: continuo de 13 a 49.
1. city-mpg: continuo de 16 a 54.
1. width: continuo de 5118 a 45 400.

## Atribuciones del conjunto de datos

Este conjunto de datos se obtuvo de:
Dua, D. y Graff, C. (2019). Repositorio de Machine Learning de UCI (http://archive.ics.uci.edu/ml). Irvine, CA: Universidad de California, School of Information and Computer Science.

# Paso 1: Importación y exploración de datos

Comenzará por examinar los datos del conjunto de datos.

Para aprovechar al máximo este laboratorio, lea las instrucciones y el código antes de ejecutar las celdas. Tómese su tiempo para experimentar.


Empiece por importar el paquete de pandas y configurar algunas opciones de visualización predeterminadas.

In [1]:
import pandas as pd

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

A continuación, cargue el conjunto de datos en un DataFrame de pandas.

Los datos no contienen un encabezado, por lo que definirá esos nombres de columna en una variable con el nombre `col_name` para los atributos enumerados en la descripción del conjunto de datos.



In [4]:
url = "../AWS/csvs/coches.csv"
col_names=['symboling','normalized-losses','fuel-type','aspiration','num-of-doors','body-style','drive-wheels','engine-location','wheel-base',
                                    'length','width','height','curb-weight','engine-type','num-of-cylinders','engine-size',
                                    'fuel-system','bore','stroke','compression-ratio','horsepower','peak-rpm','city-mpg','highway-mpg','price']

df_car = pd.read_csv(url,sep=',',names = col_names ,na_values="?",  header=None)

En primer lugar, para ver la cantidad de filas (instancias) y columnas (funciones), usará `shape`.

In [5]:
df_car.shape

(205, 25)

A continuación, examinará los datos mediante el método `head`.


In [6]:
df_car.head(5)

Unnamed: 0,symboling,normalized-losses,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


Hay 25 columnas. Algunas de las columnas tienen valores numéricos, pero muchas de ellas contienen texto.

Para mostrar información sobre las columnas, use el método `info`.


In [7]:
df_car.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 25 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    float64
 2   fuel-type          205 non-null    object 
 3   aspiration         205 non-null    object 
 4   num-of-doors       203 non-null    object 
 5   body-style         205 non-null    object 
 6   drive-wheels       205 non-null    object 
 7   engine-location    205 non-null    object 
 8   wheel-base         205 non-null    float64
 9   length             205 non-null    float64
 10  width              205 non-null    float64
 11  height             205 non-null    float64
 12  curb-weight        205 non-null    int64  
 13  engine-type        205 non-null    object 
 14  num-of-cylinders   205 non-null    object 
 15  engine-size        205 non-null    int64  
 16  fuel-system        205 non

Para facilitar la visualización del conjunto de datos cuando comience a codificar, descarte las columnas que no usará.


In [8]:
df_car.columns

Index(['symboling', 'normalized-losses', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price'], dtype='object')

In [9]:
df_car = df_car[[ 'aspiration', 'num-of-doors',  'drive-wheels',  'num-of-cylinders']].copy()

Ahora tiene cuatro columnas. Todas estas columnas contienen valores de texto. 


In [10]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders
0,std,two,rwd,four
1,std,two,rwd,four
2,std,two,rwd,six
3,std,four,fwd,four
4,std,four,4wd,five


La mayoría de los algoritmos de machine learning requieren entradas que son valores numéricos. 

- Las funciones **num-of-cylinders** y **num-of-doors** tienen un valor ordinal. Podría convertir los valores de estas funciones en sus equivalentes numéricos.
- Sin embargo, **aspiration** y **drive-wheels** no tienen un valor ordinal. Estas funciones deben convertirse de una manera distinta.

Explorará las funciones ordinales primero.


# Paso 2: Codificación de funciones ordinales

En este paso, usará una función de mapeador para convertir las funciones ordinales en valores numéricos ordenados.

Empiece por obtener los nuevos tipos de columna del DataFrame:


In [11]:
df_car.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   aspiration        205 non-null    object
 1   num-of-doors      203 non-null    object
 2   drive-wheels      205 non-null    object
 3   num-of-cylinders  205 non-null    object
dtypes: object(4)
memory usage: 6.5+ KB


Primero, determine cuáles valores contendrán las columnas ordinales. 

Empiece por la función **num-of-doors**, puede usar `value_counts` para descubrir los valores.

In [12]:
df_car['num-of-doors'].value_counts()

num-of-doors
four    114
two      89
Name: count, dtype: int64

Esta función solo tiene dos valores: *four* (cuatro) y *two* (dos). Puede crear un mapeador simple que contenga un diccionario:

In [13]:
door_mapper = {"two": 2,
              "four": 4}

Puede usar el método `replace` de pandas para generar una nueva columna numérica basada en la columna **num-of-doors**.

In [14]:
df_car['doors'] = df_car["num-of-doors"].replace(door_mapper)

  df_car['doors'] = df_car["num-of-doors"].replace(door_mapper)


Cuando visualice el DataFrame, debe ver la nueva columna a la derecha. Contiene una representación numérica de la cantidad de puertas.


In [15]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders,doors
0,std,two,rwd,four,2.0
1,std,two,rwd,four,2.0
2,std,two,rwd,six,2.0
3,std,four,fwd,four,4.0
4,std,four,4wd,five,4.0


Repita el proceso con la columna **num-of-cylinders**.

Primero, obtenga los valores.

In [16]:
df_car['num-of-cylinders'].value_counts()

num-of-cylinders
four      159
six        24
five       11
eight       5
two         4
twelve      1
three       1
Name: count, dtype: int64

Luego, cree el mapeador.

In [17]:
cylinder_mapper = {"two":2,
                  "three":3,
                  "four":4,
                  "five":5,
                  "six":6,
                  "eight":8,
                  "twelve":12}

Aplique el mapeador con el método `replace`.


In [18]:
df_car['cylinders'] = df_car['num-of-cylinders'].replace(cylinder_mapper)

  df_car['cylinders'] = df_car['num-of-cylinders'].replace(cylinder_mapper)


In [19]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders,doors,cylinders
0,std,two,rwd,four,2.0,4
1,std,two,rwd,four,2.0,4
2,std,two,rwd,six,2.0,6
3,std,four,fwd,four,4.0,4
4,std,four,4wd,five,4.0,5


Para obtener más información sobre el método `replace`, consulte [pandas.DataFrame.replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) en la documentación de pandas.

# Paso 3: codificación de datos categóricos no ordinales

En este paso, codificará datos no ordinales con el método `get_dummies` de pandas.

Las dos funciones restantes no son ordinales. 

De acuerdo con la descripción de los atributos, los siguientes valores son posibles:

- aspiration: std, turbo. 
- drive-wheels: 4wd, fwd, rwd. 

Podría pensar que la estrategia correcta es convertir estos valores en valores numéricos. Por ejemplo, considere la función **drive-wheels**. Podría usar *4wd = 1*, *fwd = 2*, y *rwd = 3*. Sin embargo, *fwd* no es menos que *rwd*. Estos valores no tienen un orden, pero les acaba de incorporar un orden asignándoles estos valores numéricos.

La estrategia correcta es convertir estos valores en *funciones binarias* para cada valor en la función original. Este proceso suele llamarse *codificación one-hot* en machine learning o *creación de variables ficticias* en estadística.

Pandas proporciona un método `get_dummies`, que convierte los datos en funciones binarias. Para obtener más información, consulte [pandas.get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) en la documentación de pandas.



De acuerdo con la descripción del atributo, **drive-wheels** tiene tres valores posibles.

In [20]:
df_car['drive-wheels'].value_counts()

drive-wheels
fwd    120
rwd     76
4wd      9
Name: count, dtype: int64

Use el método `get_dummies` para agregar nuevas funciones binarias al DataFrame.


In [21]:
df_car = pd.get_dummies(df_car,columns=['drive-wheels'])

In [22]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,num-of-cylinders,doors,cylinders,drive-wheels_4wd,drive-wheels_fwd,drive-wheels_rwd
0,std,two,four,2.0,4,False,False,True
1,std,two,four,2.0,4,False,False,True
2,std,two,six,2.0,6,False,False,True
3,std,four,four,4.0,4,False,True,False
4,std,four,five,4.0,5,True,False,False


Cuando examine el conjunto de datos, debe ver tres nuevas columnas a la derecha. 

- **drive-wheels_4wd**
- **drive-wheels_fwd**
- **drive-wheels_rwd**

La codificación fue sencilla. Si el valor en la columna **drive-wheels** es *4wd*, luego, *1* es el valor en la columna **drive-wheels_4wd**. Un *0* es el valor de las demás columnas que se generaron. Si el valor en la columna **drive-wheels** es *fwd*, luego, *1* es el valor en la columna **drive-wheels_fwd**.

Estas funciones binarias permiten expresar la información de una manera numérica, sin implicar ningún tipo de orden.


Examine la columna final que codificará.

Los datos en la columna **aspiration** solo tienen dos valores: *std* (estándar) y *turbo* (turbocompresor). Podría codificar esta columna en dos funciones binarias. Sin embargo, podría ignorar el valor *std* y registrar si es *turbo* o no. Para ello, igualmente usaría el método `get_dummies`, pero especificaría `drop_first` como *True*.


In [23]:
df_car['aspiration'].value_counts()

aspiration
std      168
turbo     37
Name: count, dtype: int64

In [24]:
df_car = pd.get_dummies(df_car,columns=['aspiration'], drop_first=True)

In [25]:
df_car.head()

Unnamed: 0,num-of-doors,num-of-cylinders,doors,cylinders,drive-wheels_4wd,drive-wheels_fwd,drive-wheels_rwd,aspiration_turbo
0,two,four,2.0,4,False,False,True,False
1,two,four,2.0,4,False,False,True,False
2,two,six,2.0,6,False,False,True,False
3,four,four,4.0,4,False,True,False,False
4,four,five,4.0,5,True,False,False,False


**Tarea de desafío:** vuelva al principio de este laboratorio y agregue otras columnas al conjunto de datos. ¿Cómo codificaría los valores de cada columna? Actualice el código para incluir algunas de las demás funciones.

# ¡Felicitaciones!

Completó este laboratorio y ahora puede finalizarlo siguiendo las instrucciones en la guía del laboratorio.