# Laboratorio 3.3: Bloc de notas del estudiante

## Información general

Este laboratorio no continúa con el escenario del proveedor de atención médica. En su lugar, trabajará con datos de un [conjunto de datos de automóviles] (https://archive.ics.uci.edu/ml/datasets/Automobile).

En este laboratorio, realizará lo siguiente:

- Codificar datos categóricos ordinales
- Codificar datos categóricos no ordinales

## Acerca de este conjunto de datos

Este conjunto de datos consta de tres tipos de entidades: 

1. La especificación de un automóvil en términos de diversas características
2. Su calificación de riesgo de seguro asignada
3. Sus pérdidas normalizadas en el uso en comparación con otros coches

La segunda calificación corresponde al grado en que el automóvil es más riesgoso de lo que indica su precio. Inicialmente se asigna a los automóviles un símbolo de factor de riesgo asociado con su precio. Luego, si es más riesgoso (o menos riesgoso), este símbolo se ajusta moviéndolo hacia arriba (o hacia abajo) en la escala. Los actuarios llaman a este proceso *simbolización*. Un valor *+3* indica que el coche es riesgoso. Un valor *-3* indica que probablemente el coche es seguro.

El tercer factor es el pago por pérdidas promedio relativo por año del vehículo asegurado. Este valor está normalizado para todos los coches dentro de una clasificación de tamaño particular (pequeño de dos puertas, camionetas, deportivos o especializado y otros). Representa la pérdida media por coche por año.

**Nota:** Se podrían usar varios atributos de la base de datos como un atributo *clase*.

## Información de atributos

Atributo: rango de atributos

1. simbolización: -3, -2, -1, 0, 1, 2, 3.
1. pérdidas-normalizadas: continuas de 65 a 256.
1. tipo-de-combustible: diésel, gas.
1. aspiración: est, turbo.
1. núm-de-puertas: cuatro, dos.
1. estilo-de-carrocería: techo sólido, camioneta, sedán, con puerta trasera, convertible.
1. ruedas-de-tracción: 4x4, del, tras.
1. ubicación-del-motor: delantera, trasera.
1. distancia-entre-ejes: continua de 86,6 a 120,9
1. longitud: continua de 141,1 a 208,1.
1. ancho: continuo de 60,3 a 72,3.
1. altura: continua de 47,8 a 59,8
1. peso-en-vacío: continuo de 1488 a 4066.
1. tipo-de-motor: dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
1. núm-de-cilindros: ocho, cinco, cuatro, seis, tres, doce, dos.
1. tamaño-del-motor: continuo de 61 a 326.
1. sistema-de-combustible: 1 bbl, 2 bbl, 4 bbl, idi, mfi, mpfi, spdi, spfi.
1. diámetro: continuo de 2,54 a 3,94.
1. carrera: continua de 2,07 a 4,17.
1. relación-de-compresión: continua de 7 a 23.
1. caballos-de-fuerza: continuo de 48 a 288.
1. pico-de-rpm: continuo de 4150 a 6600.
1. mpg-en-ciudad: continuo de 13 a 49.
1. mpg-en-carretera: continuo de 16 a 54.
1. precio: continuo de 5118 a 45400.

## Atribuciones del conjunto de datos

Este conjunto de datos se obtuvo de:
Dua, D. y Graff, C. (2019). Repositorio de aprendizaje automático de la UCI (http://archive.ics.uci.edu/ml). Irvine, CA: Universidad de California, Escuela de Ciencias de la Información e Informática.

# Paso 1: Importar y explorar los datos

Comenzará examinando los datos del conjunto de datos.

Para sacar el máximo provecho de este laboratorio, lea las instrucciones y el código antes de ejecutar las celdas. ¡Tómese el tiempo para experimentar!


Comience importando el paquete de pandas y ajustando algunas opciones de visualización predeterminadas.

In [1]:
import pandas as pd

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

A continuación, cargue el conjunto de datos en un DataFrame de pandas.

Los datos no contienen encabezado, por lo que deberá definir los nombres de esas columnas en una variable denominada `col_names` para los atributos enumerados en la descripción del conjunto de datos.



In [2]:
url = "imports-85.csv"
col_names=['symboling','normalized-losses','fuel-type','aspiration','num-of-doors','body-style','drive-wheels','engine-location','wheel-base',
                                    'length','width','height','curb-weight','engine-type','num-of-cylinders','engine-size',
                                    'fuel-system','bore','stroke','compression-ratio','horsepower','peak-rpm','city-mpg','highway-mpg','price']

df_car = pd.read_csv(url,',',names = col_names ,na_values="?",  header=None)

  df_car = pd.read_csv(url,',',names = col_names ,na_values="?",  header=None)


Primero, para ver el número de filas (instancias) y columnas (características), usará `shape`.

In [3]:
df_car.shape

(205, 25)

A continuación, examine los datos utilizando el método `head`.


In [4]:
df_car.head(5)

Unnamed: 0,symboling,normalized-losses,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


Hay 25 columnas. Algunas de las columnas tienen valores numéricos, pero muchas de ellas contienen texto.

Para mostrar información sobre las columnas, utilice el método `info`.


In [5]:
df_car.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 25 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    float64
 2   fuel-type          205 non-null    object 
 3   aspiration         205 non-null    object 
 4   num-of-doors       203 non-null    object 
 5   body-style         205 non-null    object 
 6   drive-wheels       205 non-null    object 
 7   engine-location    205 non-null    object 
 8   wheel-base         205 non-null    float64
 9   length             205 non-null    float64
 10  width              205 non-null    float64
 11  height             205 non-null    float64
 12  curb-weight        205 non-null    int64  
 13  engine-type        205 non-null    object 
 14  num-of-cylinders   205 non-null    object 
 15  engine-size        205 non-null    int64  
 16  fuel-system        205 non

Para que sea más fácil ver el conjunto de datos cuando comience a codificar, elimine las columnas que no usará.


In [6]:
df_car.columns

Index(['symboling', 'normalized-losses', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price'], dtype='object')

In [7]:
df_car = df_car[[ 'aspiration', 'num-of-doors',  'drive-wheels',  'num-of-cylinders']].copy()

Ahora tiene cuatro columnas. Todas estas columnas contienen valores de texto. 


In [8]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders
0,std,two,rwd,four
1,std,two,rwd,four
2,std,two,rwd,six
3,std,four,fwd,four
4,std,four,4wd,five


La mayoría de los algoritmos de aprendizaje automático requieren entradas que son valores numéricos. 

- Las características **núm-de-cilindros** y **núm-de-puertas** tienen un valor ordinal. Puede convertir los valores de estas características en sus contrapartes numéricas.
- Sin embargo, **aspiración** y **ruedas-de-tracción** no tienen un valor ordinal. Estas características se deben convertir de forma diferente.

Primero explorará las características ordinales.


# Paso 2: Codificar las características ordinales

En este paso, utilizará una función de mapeador para convertir las características ordinales en valores numéricos ordenados.

Comience por obtener los nuevos tipos de columna del DataFrame:


In [9]:
df_car.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   aspiration        205 non-null    object
 1   num-of-doors      203 non-null    object
 2   drive-wheels      205 non-null    object
 3   num-of-cylinders  205 non-null    object
dtypes: object(4)
memory usage: 6.5+ KB


Primero, determine qué valores contienen las columnas ordinales. 

A partir de la característica **núm-de-puertas**, puede utilizar `value_counts` para descubrir los valores.

In [10]:
df_car['num-of-doors'].value_counts()

four    114
two      89
Name: num-of-doors, dtype: int64

Esta característica solo tiene dos valores: *cuatro* y *dos*. Puede crear un mapeador simple que contenga un diccionario:

In [11]:
door_mapper = {"two": 2,
              "four": 4}

A continuación, puede usar el método `replace` de pandas para generar una nueva columna numérica basada en la columna **núm-de-puertas**.

In [12]:
df_car['doors'] = df_car["num-of-doors"].replace(door_mapper)

Cuando muestre DataFrame, debería ver la nueva columna a la derecha. Contiene una representación numérica del número de puertas.


In [13]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders,doors
0,std,two,rwd,four,2.0
1,std,two,rwd,four,2.0
2,std,two,rwd,six,2.0
3,std,four,fwd,four,4.0
4,std,four,4wd,five,4.0


Repita el proceso con la columna **núm-de-cilindros**.

Primero, obtenga los valores.

In [14]:
df_car['num-of-cylinders'].value_counts()

four      159
six        24
five       11
eight       5
two         4
three       1
twelve      1
Name: num-of-cylinders, dtype: int64

Luego, cree el mapeador.

In [15]:
cylinder_mapper = {"two":2,
                  "three":3,
                  "four":4,
                  "five":5,
                  "six":6,
                  "eight":8,
                  "twelve":12}

Aplique el mapeador mediante el método `replace`.


In [16]:
df_car['cylinders'] = df_car['num-of-cylinders'].replace(cylinder_mapper)

In [17]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders,doors,cylinders
0,std,two,rwd,four,2.0,4
1,std,two,rwd,four,2.0,4
2,std,two,rwd,six,2.0,6
3,std,four,fwd,four,4.0,4
4,std,four,4wd,five,4.0,5


Para obtener más información acerca del método `replace`, consulte [pandas.DataFrame.replace] (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) en la documentación de pandas.

# Paso 3: Codificar datos categóricos no ordinales

En este paso, codificará datos no ordinales mediante el uso del método `get_dummies` de pandas.

Las dos características restantes no son ordinales. 

De acuerdo con la descripción del atributo, son posibles los siguientes valores:

- aspiración: est, turbo. 
- ruedas-de-tracción: 4x4, del, tras. 

Podría pensar que la estrategia correcta es convertir estos valores en valores numéricos. Por ejemplo, considere la característica **ruedas-de-tracción**. Podría usar *4x4 = 1*, *del = 2* y *tras = 3*. Sin embargo, *del* no es menor que *tras*. Estos valores no tienen un orden, pero usted acaba de introducir un orden asignando estos valores numéricos.

La estrategia correcta es convertir estos valores en *características binarias* para cada valor de la característica original. Este proceso a menudo se denomina *codificación en caliente* en el aprendizaje automático o *codificación ficticia* en estadísticas.

pandas proporciona un método `get_dummies`, que convierte los datos en características binarias. Para obtener más información, consulte [pandas.get_dummies] (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) en la documentación de pandas.



Según la descripción del atributo, **ruedas-de-tracción** tiene tres valores posibles.

In [18]:
df_car['drive-wheels'].value_counts()

fwd    120
rwd     76
4wd      9
Name: drive-wheels, dtype: int64

Utilice el método `get_dummies` para agregar nuevas características binarias al DataFrame.


In [19]:
df_car = pd.get_dummies(df_car,columns=['drive-wheels'])

In [20]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,num-of-cylinders,doors,cylinders,drive-wheels_4wd,drive-wheels_fwd,drive-wheels_rwd
0,std,two,four,2.0,4,0,0,1
1,std,two,four,2.0,4,0,0,1
2,std,two,six,2.0,6,0,0,1
3,std,four,four,4.0,4,0,1,0
4,std,four,five,4.0,5,1,0,0


Cuando examine el conjunto de datos, debe ver tres columnas nuevas a la derecha: 

- **ruedas-de-tracción_4x4**
- **ruedas-de-tracción_del**
- **ruedas-de-tracción_tras**

La codificación fue sencilla. Si el valor de la columna **ruedas-de-tracción** es *4x4*, entonces un *1* es el valor de la columna **ruedas-de-tracción_4x4**. Un *0* es el valor de las otras columnas que se generaron. Si el valor de la columna **ruedas-de-tracción** es *del*, entonces un *1* es el valor de la columna **ruedas-de-tracción_del**, y así sucesivamente.

Estas características binarias le permiten expresar la información de forma numérica, sin implicar ningún orden.


Examine la última columna que va a codificar.

Los datos de la columna **aspiración** solo tienen dos valores: *est* y *turbo*. Podría codificar esta columna en dos características binarias. Sin embargo, también puede ignorar el valor *est* y registrar si es *turbo* o no. Para hacer esto, aún debería usar el método `get_dummies`, pero especificaría `drop_first` como *Verdadero*.


In [21]:
df_car['aspiration'].value_counts()

std      168
turbo     37
Name: aspiration, dtype: int64

In [22]:
df_car = pd.get_dummies(df_car,columns=['aspiration'], drop_first=True)

In [23]:
df_car.head()

Unnamed: 0,num-of-doors,num-of-cylinders,doors,cylinders,drive-wheels_4wd,drive-wheels_fwd,drive-wheels_rwd,aspiration_turbo
0,two,four,2.0,4,0,0,1,0
1,two,four,2.0,4,0,0,1,0
2,two,six,2.0,6,0,0,1,0
3,four,four,4.0,4,0,1,0,0
4,four,five,4.0,5,1,0,0,0


**Tarea de desafío:** Vuelva al principio de este laboratorio y agregue otras columnas al conjunto de datos. ¿Cómo codificaría los valores de cada columna? Actualice el código para incluir algunas de las otras características.

# ¡Felicitaciones!

Ha completado este laboratorio y ahora puede terminarlo siguiendo las instrucciones de la guía del laboratorio.