# Data Wrangling

Tiempo estimado: **30** minutos

## Objectivos

Después de completar este laboratorio será capas de:

*   Manipular valores faltantes
*   Corregir el formato de los datos
*   Estandarizar y normalizar los datos

## Tabla de contenidos

*   [Identificar y manipular valores faltantes](#identificar-y-manipular-valores-faltantes)
    * [Identificar valores faltantes](#identificar-valores-faltantes)
    * [Manipular valores faltantes](#manipular-valores-faltantes)
    * [Corregir el formato de los datos](#corregir-el-formato-de-los-datos)
* [Estandarización de los datos](#estandarización-de-los-datos)
* [Normalización de los datos](#normalización-de-los-datos)
* [Agrupar](#agrupar)
* [Variable indicadora](#variable-indicadora)
--- 

## ¿Cuál es el proposito del data wrangling?


Data wrangling es el proceso de convertir datos desde su formato original a un formato que presenta mejores características para su análisis.


### ¿Cuál es la tasa de consumo de combustible en L/100Km para el automóvil diesel?


### Adquisición de datos

Para este laboratorio se va a trabajar con un conjunto de datos automovilístico que se encuentra disponible en línea, el cual, está con un formato CSV (del inglés, comma separated value). Se usará este conjunto de datos como ejemplo para practicar la lectura de datos.

- Fuente de datos: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
- Tipo de datos: csv

In [None]:
# importa las bibliotecas pandas, numpy
import pandas as pd
import numpy as np

## Leer datos


Primero se le asigna a la variable `nombrearchivo` la ruta relativa de donde se encuentra almacenado el archivo de entrada.


This dataset was hosted on IBM Cloud object. Click <a href="https://cocl.us/corsera_da0101en_notebook_bottom?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork20235326-2021-01-01">HERE</a> for free storage.


In [None]:
nombrearchivo = "./datos/auto.csv"

Luego se crea una lista *Python* `encabezado` que contiene el encabezado para cada columna del archivo de entrada.


In [None]:
encabezado = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]

Utilizar el método de **Pandas** `read_csv()` para cargar los datos desde el archivo de entrada. Se debe setear el parametro `names` con la lista de **Python** `encabezado`.


In [None]:
df = pd.read_csv(nombrearchivo, names=encabezado)


Utilizar el método `head()` para mostrar las primeras 5 filas del **dataframe**.


In [None]:
# Para ver como se ven los datos, se utiliza em método head().
df.head()

Como se puede observar, aparecen varios signos de interrogación en el **dataframe**; esos son valores que faltan los cuales pueden entorpecer el futuro análisis a reaizar.

Así, ¿Cómo se puede identificar todos los valores que faltan y manipularlos?

¿Cómo trabajar con datos que faltan?

Los pasos para lidiar con datos que no están son los siguientes:

* Identificar valores faltantes.
* Manipular valores faltantes.
* Corregir el formato de los datos.

## Identificar y manipular valores faltantes

### Identificar valores faltantes
#### Convertir "?" a NaN</h4>
En el conjunto de datos de los autos, los datos que no están presentes o faltan están marcados con un signo de interrogación **?**. El objetivo ahora es reemplazar los **?** con **NaN** (Not a Number). Este es al valor por defectos que tiene *Python* para marcar los valores que faltan por razones de velocidad computacional y conveniencia. Para realizar esto hay que utilizar la función: `.replace(A, B, inplace = True)` para reemplazar A por B.

In [None]:
import numpy as np

# reemplace "?" a NaN
df.replace("?", np.nan, inplace = True)
df.head(5)

#### Evaluar los datos faltantes

Los valores que faltan se convierten a un valor predeterminado. Para identificarlos se puede usar alguna de las siguientes dos funciones:

1. .isnull()
2. .notnull()

La salida es un valor de verdad que indica si el valor que se le pasa como parámetro es o no un dato faltante.


In [None]:
datos_faltantes = df.isnull()
datos_faltantes.head(10)

**True** significa que ese valor falta o no estpa presente y el valor **False** significa que ese valor está presente.

#### Contando valores faltantes en cada columna

Usando un ciclo `for` en *Python*, se puede rápidamente la cantidad de elementos que faltan en cada columna. Como se mencionó anteriormente,**True**" representa un valor que falta y **False** significa que el valor está presente en el conjunto de datos. En el bloque del ciclo `for` el método `.value_counts()` cuenta el número de valores **True**. 

In [None]:
for columna in datos_faltantes.columns.values.tolist():
    print('columna:',columna)
    print (datos_faltantes[columna].value_counts())
    print("")    

Basado en el resumen anterior, cada columna tiene 205 filas de datos y siete columnas tienen datos faltantes.

1. "normalized-losses": 41 datos faltantes
2. "num-of-doors": 2 datos faltantes
3. "bore": 4 datos faltantes
4. "stroke" : 4 datos faltantes
5. "horsepower": 2 datos faltantes
6. "peak-rpm": 2 datos faltantes
7. "price": 4 datos faltantes

### Manipular valores faltantes
**¿Cómo tratar los datos faltantes?**

1. Descartar datos
    - Descartar la fila completa
    - Descartar la columna completa
2. Reemplazar datos
    - Remmplazarlo por el promedio
    - Remmplazarlo por su frecuencia
    - Reemplazarlo basado en otra función

La columna completa se puede descarta si la mayoría de los datos presentes en ella están vacíos. En el caso del conjunto de datos que se está utilizando, ninguna columna está lo suficientemente vacía para descartar la columna por completo.
En general, se tiene la libertad en elegir cuál método su utilizará para reemplazar los datos; sin embargo, algunos métodos se pueden ver como más razonables que otros. Aquí se aplicará cada método a diferentes columnas.

**Reemplazar por el promedio**

* "normalized-losses": 41 datos faltantes, reemplácelos con el promedio
* "stroke": 4 datos faltantes, reemplácelos con el promedio
* "bore": 4 datos faltantes, reemplácelos con el promedio
* "horsepower": 2 datos faltantes, reemplácelos con el promedio
* "peak-rpm": 2 datos faltantes, reemplácelos con el promedio


**Reemplazar por la frecuencia**

* "num-of-doors": 2 datos faltantes, reemplácelos con *cuatro*. 
    * Razón: el 84% de los sedans tienen cuatro puertas. Cómo cuatro puertas es más frecuente, es más probables que ocurra

**Descarte la fila completa**

* "price": 4 datos faltantes, simplemente, elimine la fila completa
    Razón: el precio es justamente lo que se quiere predecir. Cualquier dato de entrada sin el precio no puede ser usado para predicción; por lo tanto cualquier fila que no tenga precio no es útil

#### Calcular el valor promedio de la columna "normalized-losses" 

In [None]:
norm_loss_pro = df["normalized-losses"].astype("float").mean(axis=0)
print("Promedio de normalized-losses:", norm_loss_pro)

#### Reemplazar "NaN" con el valor promedio en la columna "normalized-losses"

In [None]:
df["normalized-losses"].replace(np.nan, norm_loss_pro, inplace=True)

#### Calcular el valor promedio de la columna "bore"

In [None]:
bore_pro=df['bore'].astype('float').mean(axis=0)
print("Promedio de bore:", bore_pro)

#### Reemplazar "NaN" con el valor promedio en la columna "bore"

In [None]:
df["bore"].replace(np.nan, bore_pro, inplace=True)

#### **Pregunta 1**

Basado en el ejemplo anterior, reemplace los NaN en la columna "stroke" con el valor promedio de la misma columna.

In [None]:
# Escriba su código a continuación y presione Shift+Enter para ejecutarlo


Doble click **aquí** para ver la solución

<!--python

# Calcula el promedio de la columna "stroke"

stroke_pro = df["stroke"].astype("float").mean(axis = 0)
print("Promedio de stroke:", stroke_pro)


# Reemplace NaN por el valor promedio en la columna "stroke"

df["stroke"].replace(np.nan, stroke_pro, inplace = True)

-->

#### Calcular el valor promedio de la columna "horsepower"


In [None]:
horsepower_pro = df['horsepower'].astype('float').mean(axis=0)
print("Promedio de horsepower:", horsepower_pro)

#### Reemplazar "NaN" con el valor promedio en la columna "horsepower"


In [None]:
df['horsepower'].replace(np.nan, horsepower_pro, inplace=True)

#### Calcular el valor promedio de la columna "peak-rpm"


In [None]:
peakrpm_pro=df['peak-rpm'].astype('float').mean(axis=0)
print("Promedio de peak-rpm:", peakrpm_pro)

#### Reemplazar "NaN" con el valor promedio en la columna "peak-rpm"


In [None]:
df['peak-rpm'].replace(np.nan, peakrpm_pro, inplace=True)

Para ver que valores hay en una columna en particular se puede usar el método `.value_counts().`


In [None]:
df['num-of-doors'].value_counts()

También, se puede ver cuál es el tipo que más se repite en una columna. Por ejemplo, se puede observar que los autos con cuatro puertas son los más comunes. Para hacer esto se debe utilizar el método `.idxmax()` que calcula el tipo más común de forma automática.


In [None]:
df['num-of-doors'].value_counts().idxmax()

El procedimiento de reemplazo es muy similar a lo que ya se ha visto previamente.

In [None]:
# Reemplace los valores faltantes de la columna 'num-of-doors' por el valor que más se repite 
df["num-of-doors"].replace(np.nan, "four", inplace=True)

Finalmente, se descartarán todas las filas que no tienen precio.


In [None]:
# Simplemente eliminar todas las filas con NaN en la columna "price"
df.dropna(subset=["price"], axis=0, inplace=True)

# Reinicie los indices ya que se han eliminado cuatro filas
df.reset_index(drop=True, inplace=True)

In [None]:
df.head()

**Excelente!**, ahora se toene un conjunto de datos sin valeres faltantes.

### Corregir el formato de los datos

El último de los tres pasos para la limpieza de los datos en revisar y estar seguro de que todos los datos estan en el correcto formato (int, float, texto o algún otro).

En Pandas podemos usar:

- `.dtype()` para revisar el tipo de datos
- `.astype()` para cambiar el tipo de datos

#### Listar el tipo de datos de cada columna


In [None]:
df.dtypes

Como se puede observar de la lista generada, algunas columnas no están con el tipo de datos correcto para trabajarlos.

Las variables que son numéricas debieran de ser del tipo `float` o `int`, y las variables que contienen strings tal como `categories` debieran de ser del tipo `object`. Por ejemplo, las variables `bore` y `stroke` son valores numéricos que describen al motor, por lo tanto se esperaría que seand del tipo `float` o `int`; sin embargo, se muestra que ellas son del tipo `object`. 

Por este motivo, se debe de convertir su tipo de datos a un formato que represente de mejor manera los datos que están almacenados en esas columnas usando el método `astype()`.


#### Convertir tipos de datos a su correspondiente formato

In [None]:
df[["bore", "stroke"]] = df[["bore", "stroke"]].astype("float")
df[["normalized-losses"]] = df[["normalized-losses"]].astype("int")
df[["price"]] = df[["price"]].astype("float")
df[["peak-rpm"]] = df[["peak-rpm"]].astype("float")


Revisar el tipo de datos de las columnas después de la conversión


In [None]:
df.dtypes

**¡Excelente!**

Hasta el momento ya se tiene un conjunto de datos que no contiene datos faltantes y que todas las columnas que contienen números estén formateados con su correspondiente tipo de dato

## Estandarización de los datos

Los datos, generalmente, son recopilados de diferentes fuentes y en diferentes formatos. La estandarización de datos es un término que también se usa para una determinada normalización de tipo de datos dónde se le resta el promedio y se divide por la desviación estándar.

**¿Qué es estandarización?**

Estandarización es el proceso de transformación de los datos a un formato en común, permitiendo así a los investigadores realizar comparaciones significativas.

**Ejemplo**

Transformar **mpg** a **Km/L**:

En el conjunto de datos el consumo de combustible de las columnas `city-mpg` y `highway-mpg` están dados en la únidad de millas por galón o **mpg**. Si se está desarrollando una aplicación en un país que trabaja el consumo de combustible con el estándar de kilómetros por litros **Km/L**, estos valores se deben cambiar.

Por este motivo se necesita aplicar una **transformación de datos** para convertir de **mpg** a **Km/L**.

La fórmula de unidad de conversión es:

1 mpg(US) = 0.425144 Km/L

**Pandas** permite hacer directamente operaciones matemáticas sobre los **dataframes**.

In [None]:
df.head()

In [None]:
# Transformar de mpg a Km/L a traves de la operación matemática de multiplicar mpg por 0.425144
df['city-km/l'] = df["city-mpg"]*0.425144

# Verifica la transformación de los datos 
df.head()

En este caso se crea una nueva columna al final del **dataframe**.

Si se quiere crear en una posición específica se tiene que utilizar los métodos `.columns.get_loc()` y `.insert()`.

Para probar esta forma primero se debe eliminar la columna recién creada con el método `.pop()`.

In [None]:
# Elimina la columna "city-km/l"

df.pop('city-km/l')
df.head()

In [None]:
# Busca la posición de la columna donde se quiere insertar la nueva columna y la inserta.

pos=df.columns.get_loc('city-mpg')
df.insert(pos+1, "city-km/l", df["city-mpg"]*0.425144)
df.head()

Si posteriormente se desea eliminar la columna "city-mpg" se puede realizar con el método `.pop()`

#### **Pregunta 2**

Tomando en cuenta el ejemplo anterior. Transforme de **mpg** a **Km/L** en la columna `highway-mpg` y cambie el nombre de la columna a `highway-Km/L`.

In [None]:
# Escriba su código a continuación y presione Shift+Enter para ejecutarlo 



Doble click **aquí** para ver la solución

<!--

# Transformar de mpg a Km/L a traves de la operación matemática de multiplicar mpg por 0.425144

df["highway-mpg"] = df["highway-mpg"] * 0.425144


# Renombrar el nombre de la columna de "highway-mpg" a "highway-Km/L"

df.rename(columns={'highway-mpg':'highway-Km/L'}, inplace=True)


# Verifica la transformación de los datos
df.head()

-->

## Normalización de los datos

**¿Porqué normalizar?**

La normalización es el proceso de transformar los valores de varias variables a un rango similar. Las normalizaciones típicas incluyen escalar la variable para que el promedio de la variable sea 0, escalar la variable para que la varianza sea 1 o escalar la variable para que los valores de la variable oscilen de 0 a 1.

**Ejemplo**

Para mostrar como funciona la normalización se podrían escalar las columnas `length`, `width` y `height`.

**Objetivo**: normalizar las variables antes mencionadas tal que sus rangos de valores estén entre 0 y 1

**Estrategia**: reemplazar el valor original por (valor original)/(valor máximo)

In [None]:
# reemplace (valor original) por (valor original)/(valor máximo)
df['length'] = df['length']/df['length'].max()
df['width'] = df['width']/df['width'].max()

#### **Pregunta 3**

Tomando como referencia los ejemplos antes desarrollados, normalice la columna `height`.


In [None]:
# Escriba su código a continuación y presione Shift+Enter para ejecutarlo 


Doble click **aquí** para ver la solución

<!--

df['height'] = df['height']/df['height'].max() 


# muestra las columnas escaladas o normalizadas

df[["length","width","height"]].head()

-->

Aquí se puede observar normalizadas las columnas `length`, `width` y `height` en el rango de \[0,1].


## Agrupar

**¿Por qué agrupar o separar en intervalos?**

Agrupar o binning es un proceso transformar variables numéricas continuas en contenedores o interbalos categóricos discretos para el análisis de grupos.


**Ejemplo:**

En el conjunto de datos, `horsepower` es una variable con valores reales en el rango desde 48 a 288 y contiene 59 valores distintos. ¿Qué tal si solo nos interesa la diferencia de precio entre autos con horsepower alto, horsepower mediano, horsepower bajo (3 tipos)? ¿Se Podrá reorganizar sus valores en tres grupos para simplificar el análisis? 

Para llevar a cabo esto se usará el método de **pandas** `cut` para segmentar la columna `horsepower` en 3 grupos o contenedores.


### Ejemplo de agrupamiento de datos en Pandas


Convertir datos a su formato correcto.


In [None]:
df["horsepower"]=df["horsepower"].astype(int, copy=True)


Graficar un histograma de `horsepower` para ver la forma de la distribución de los valores en la columna `horsepower`.


In [None]:
%matplotlib inline
import matplotlib as plt
#from matplotlib import pyplot

plt.pyplot.hist(df["horsepower"])

# setear las etiquetas para los ejes x e y más un título
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("cantidad")
plt.pyplot.title("Contenedores horsepower")

Se desea tener 3 contenedores o grupos con una distribución similar. Para ello se utilizará la función de **numpy** `linspace(valor_inicial, valor_final, numero_divisiones)`.

Para contener el valor mínimo de `horsepower`, el primer parámetro se setea como `valor_inicial = min(df["horsepower"])`.

Para contener el valor máximo de `horsepower`, el segundo parámetro se setea como `valor_final = max(df["horsepower"])`.

Para generar los 3 grupos, rangos o intervalos de igual longitud, se necesitan 4 divisiones, así `numero_divisiones = 4`.

Se construye un arreglo de contenedores desde un valor mínimo a un valor máximo utilizando las divisiones calculadas anteriormente. Estos valores determinan cuando termina un contenedor y empieza el otro.


In [None]:
contenedores = np.linspace(min(df["horsepower"]), max(df["horsepower"]), 4)
contenedores

Se crea la lista `nombres_de_grupos`:


In [None]:
nombres_de_grupo = ['Bajo', 'Mediano', 'Alto']

Se aplica la función `cut` para definir que valores de `df['horsepower']` pertenecen a cada grupo.


In [None]:
df['horsepower-binned'] = pd.cut(df['horsepower'], contenedores, labels=nombres_de_grupo, include_lowest=True )
df[['horsepower','horsepower-binned']].head(20)

Para ver el número de autos que hay en cada contenedor se utiliza el método `.values_counts()`.


In [None]:
df["horsepower-binned"].value_counts()

Ahora se grafica la distribución de cada contenedor.


In [None]:
plt.pyplot.bar(nombres_de_grupo, df["horsepower-binned"].value_counts())

# setear las etiquetas para los ejes x e y más un título
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("cantidad")
plt.pyplot.title("Contenedores horsepower")

Observar cuidadosamente el último conjunto de datos generado. Se puede encontrar que la última columna entrega los contenedores para `horsepower` basado en 3 categorias ("Bajo", "Medino" y "Alto"). 

Así, se ha reducido el intervalo de valores posibles de 59 a 3.

In [None]:
df.head()

### Visualización de los contenedores

Normalmente, un histograma es usado para visualizar la distribución de contenedores creados anteriormente. 

In [None]:
# graficar historgrama del atributo "horsepower" con 3 contenedores

plt.pyplot.hist(df["horsepower"], bins = 3)

# setear las etiquetas para los ejes x e y más un título
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("cantidad")
plt.pyplot.title("Contenedores horsepower")

El gráfico de arriba muestra el resultado de los contenedores para el atributo `horsepower`.


## Varible indicadora

**¿Qué es una variable indicadora?**

Una variable indicadora o variable dummy o variable ficticia es una variable numérica usada para etiquetar categorías. Estas son llamadas **dummies** porque los números en sí mismo no tienen un significado propio. 


**¿Por qué usar variables indicadoras?

Se utilizan las variables indicadoras porque con ellas se puede trabajar con variables de categorías que se utilizan en modelos de análisis de regresión.

**Ejemplo**

Se puede observar que la columna `fuel-type` tiene solo dos valores que se repiten: `gas` o `diesel`. Los modelos de regresión no entienden palabras, solo números. Para poder usar el atributo del tipo de combustible que utilizan los autos en un análisis de regresión, se debe convertir `fuel-type` en una variable indicadora.

En Pandas se va a utilizar el método `get_dummies` para asignarle valores numéricos a diferentes categorías de tipos de combustibles. 


In [None]:
df.columns

Generar las variables indicadoras y asignarlas a un nuevo dataframe  `variable_dummy\_1`


In [None]:
variable_dummy_1 = pd.get_dummies(df["fuel-type"])
variable_dummy_1.head()

Cambiar el nombre de las columnas generadas para una mayor claridad de que representa cada una.


In [None]:
variable_dummy_1.rename(columns={'gas':'fuel-type-gas', 'diesel':'fuel-type-diesel'}, inplace=True)
variable_dummy_1.head()

En el dataframe, la columna `fuel-type` tiene ahora valores para `gas` y `diesel` con 0s y 1s.


In [None]:
# combinar los dataframes "df" y "variable_dummy_1" 
df = pd.concat([df, variable_dummy_1], axis=1)

# Elimina la columna original "fuel-type" del dataframe "df"
df.drop("fuel-type", axis = 1, inplace=True)

In [None]:
df.head()

Las dos últimas columnas ahora contienen a las variables indicadoras que representan los dos posibles tipos de combustibles. Las dos columnas tienen 0s y 1s indicando si vehículo en particular utiliza o no ese respectivo tipo de combustible.

#### **Pregunta 4**

Al igual que antes, crear una variable indicadora para la columna `aspiration`.


In [None]:
# Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

# Generar las variables indicadoras de "aspiration" y asignelos al dataframe "variable_dummy_2"
variable_dummy_2 = pd.get_dummies(df['aspiration'])

# Cambiar el nombre de las columnas para una mayor claridad
variable_dummy_2.rename(columns={'std':'aspiration-std', 'turbo': 'aspiration-turbo'}, inplace=True)

# Mostrar las 5 primeras filas del dataframe "variable_dummy_2"
variable_dummy_2.head()

-->

#### **Pregunta 5**

Combine el nuevo dataframe al original y después elimine la columna `aspiration`.

In [None]:
# Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

# Combinar el nuevo dataframe al dataframe original
df = pd.concat([df, variable_dummy_2], axis=1)

# Eliminar la columna original"aspiration" del dataframe "df"
df.drop('aspiration', axis = 1, inplace=True)

# Mostrar las 5 primeras filas del dataframe "df"
df.head()

-->

Guardar el dataframe en un nuevo archivo csv:


In [None]:
df.to_csv('datos/df_procesado.csv')