# Data Wrangling

## Objetivos

- Manejar valores faltantes
- Corregir el formato de la información
- Estandarizar y normalizar la información

# Tabla de contenidos

- Identificar y manejar valores faltantes(missing values).
    - Identificar valores faltantes(missing values).
    - Manejo de valores faltantes(missing values).
    - Corregir el formato de la información.
- Estandarización de la información.
- Normalización de la información (centrar/escalado).
- Binning
- Variable Indicadora ( indicator variable)

### Cual es el propósito del Data Wrangling

Data wrangling es el proceso de convertir información del formato inicial a un formato que se ajuste mejor al análisis.

### ¿Cual es la tasa de consumo de combustible (L/100k) para el automóvil diesel?

### Importar la información

Puedes encontrar el"Automobile Dataset" en el siguiente link: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data. Estaremos usando esta dataset a lo largo del curso.

### Importamos pandas

In [2]:
import pandas as pd
import matplotlib.pylab as plt

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


## Leyendo el dataset desde la URL y agregando los encabezados correspondientes.

Primero asignamos la URL del dataset a un "nombre de archivo".

In [3]:
filename = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-SkillsNetwork/labs/Data%20files/auto.csv"

Luego, creamos una lista en Python llamada headers.

In [4]:
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]

Necesitaras descargar el archivo si lo estas corriendo de manera local. descomenta la siguiente linea para descargarlo.

In [5]:
# import urllib.request

# urllib.request.urlretrieve(filename,"auto.csv")
# print("Descarga completa!")

Usa el método `read_csv()` de *pandas* para cargar la información desde la pagina web. Ajusta el parámetro "names" igual a la lista "headers" de Python.

In [6]:
df = pd.read_csv(filename, names=headers)

Usa el método .head() mostrar las primeras cinco filas del dataframe.

In [7]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Como podemos ver, varios signos de pregunta aparecen en el dataframe; Esos son valores faltantes (missing values), los cuales pueden obstaculizar nuestro análisis futuro.

asi que, Como identificamos todos esos valores faltantes y trabajamos con ellos.
**Como trabajar los valores faltantes.**

Pasos para trabajar con los valores faltantes:
> 1. Identificar los valores faltantes.
> 2. Trabajar los valores faltantes.
> 3. Corregir el formato de la información.

## Identificar y manejar los valores faltantes

### Identificar valores faltantes

**Convertir "?" a NaN**
En el dataset car, viene con un signo de pregunta "?". Reemplazamos "?" con NaN (Not a Number), marcador por defecto de Python para los valores faltantes. Aquí usamos la función:

    .replace(A,B inplace=True)
Para reemplazar A y B.

In [8]:
import numpy as np

# Reemplazamos "?" a NaN
df.replace("?",np.nan, inplace=True)
df.head(5)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


### Evaluando la presencia de datos faltantes.

Los valores faltantes son convertidos por defecto. Usamos la siguiente función para identificar los valores faltantes. Hay dos métodos para detector valores faltantes:
> 1. **.isnull()**
> 2. **.notnull()**

La salida es un valor booleano indicando si el valor que le pasamos en el argumento es de hecho un valor faltante.

In [9]:
missing_data = df.isnull()
missing_data.head(5)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


"True" significa que el valor es un valor faltante mientras que "False" significa que el valor no es un valor faltante.

### Contando valores faltantes en cada columna.

Usando un ciclo `for` en Python, Podemos rápidamente saber el numero de valores faltantes en cada columna. Como mencionamos arriba, `"True"` representa un valor faltante y `"False"` significa que el valor esta presente en el dataset. En el cuerpo del loop el método `".value_counts()"` cuenta el numero de valores `"True"`

In [10]:
for column in missing_data.columns.values.tolist():
    print(column)
    print(missing_data[column].value_counts())
    print("")

symboling
symboling
False    205
Name: count, dtype: int64

normalized-losses
normalized-losses
False    164
True      41
Name: count, dtype: int64

make
make
False    205
Name: count, dtype: int64

fuel-type
fuel-type
False    205
Name: count, dtype: int64

aspiration
aspiration
False    205
Name: count, dtype: int64

num-of-doors
num-of-doors
False    203
True       2
Name: count, dtype: int64

body-style
body-style
False    205
Name: count, dtype: int64

drive-wheels
drive-wheels
False    205
Name: count, dtype: int64

engine-location
engine-location
False    205
Name: count, dtype: int64

wheel-base
wheel-base
False    205
Name: count, dtype: int64

length
length
False    205
Name: count, dtype: int64

width
width
False    205
Name: count, dtype: int64

height
height
False    205
Name: count, dtype: int64

curb-weight
curb-weight
False    205
Name: count, dtype: int64

engine-type
engine-type
False    205
Name: count, dtype: int64

num-of-cylinders
num-of-cylinders
False    205
Nam

Basado en el sumario de arriba, cada columna tiene 205 filas de información y siete columnas contienen valores faltantes.

> 1. "normalized-losses": 41 missing data
> 2. "num-of-doors": 2 missing data
> 3. "bore": 4 missing data
> 4. "stroke": 4 missing data
> 5. "horsepower": 2 missing data
> 6. "peak-rpm": 2 missing data
> 7. "price": 4 missing data

### Tratar con los valores faltantes

**Como trabajar con los valores faltantes**

1. Eliminar información
    - a. Eliminar la fila completa
    - b. Eliminar la columna completa

2. Reemplazar la información
    - a. Reemplazarlo por el valor promedio
    - b. Reemplazarlo por la frecuencia
    - c. Reemplazarlo en base a otras funciones



La columna completa debe ser eliminada solo si la mayoría de las entradas de la columna están vacías. En nuestro dataset ninguna de las columnas están lo suficientemente vacías. Tenemos algo de libertad en escoger cual método usar para reemplazar la información:

**Reemplazar por la media**
- "normalized-losses": 41 valores faltantes, los reemplazaremos con mean
- "stroke": 4 valores faltantes, los reemplazaremos con mean
- "horsepower" : 2 valores faltantes, los reemplazaremos con mean
- "peak-rpm": 2  valores faltantes, los reemplazaremos con mean

**Reemplazar por frecuencia**
- "num-of-doors": 2 valores faltantes, los reemplazaremos con "four"
 - Razón: 84% de los sedan son cuatro puertas. Dado que cuatro puertas es más frecuente, es mas probable que ocurra.

**Eliminar la fila completa**
- "price": 4 valores faltantes, simplemente elimina la fila completa
 - Razón: precio es lo que queremos predecir. Cualquier entrada de información sin el precio no puede ser ocupada para la predicción; es por eso que cualquier fila sin la información del precio no es util para nosotros.

### Calcula el valor promedio para la columna "normalized-losses"

In [11]:
avg_norm_loss = df["normalized-losses"].astype("float").mean(axis=0)
print("El promedio de normalized-losses es:", avg_norm_loss)

El promedio de normalized-losses es: 122.0


### Reemplaza los valores NaN por el valor promedio para la columna "normalized-losses"

In [12]:
df["normalized-losses"].replace(np.nan,avg_norm_loss, inplace=True)

### Calcula el valor promedio para la columna "bore"

In [13]:
avg_bore = df["bore"].astype("float").mean(axis=0)
print("El promedio de bore es:", avg_bore)

El promedio de bore es: 3.3297512437810943


### Reemplaza NaN por el valor promedio de la columna "bore"

In [14]:
df["bore"].replace(np.nan, avg_bore, inplace=True)

## Pregunta #1:

**Basado en el ejemplo de arriba, reemplaza NaN en la columna `"stroke"` por el valor promedio**

In [16]:
# Escribe tu código abajo
# Calculamos primero el valor promedio de la columna stroke
avg_stroke = df["stroke"].astype("float").mean(axis=0)
print("El valor promedio de stroke es:", avg_stroke)

# Reemplazamos los valores NaN por el valor promedio de la columna
df["stroke"].replace(np.nan, avg_stroke,inplace=True)

El valor promedio de stroke es: 3.2554228855721394


### Calcula el valor promedio para la columna "peak-rpm"

In [17]:
avg_peak_rpm = df["peak-rpm"].astype("float").mean(axis=0)
print("El valor promedio  de la columna peak-rpm es:", avg_peak_rpm)

El valor promedio  de la columna peak-rpm es: 5125.369458128079


### Reemplaza los valores NaN por el valor promedio de la columna "peak-rpm"

In [18]:
df["peak-rpm"].replace(np.nan,avg_peak_rpm,inplace=True)

Para ver que valores están presentes en una columna en particular, podemos usar el método value_counts():

In [19]:
df["num-of-doors"].value_counts()

num-of-doors
four    114
two      89
Name: count, dtype: int64

Podemos ver que cuatro puertas son las mas comunes. También podemos usar el método `.idxmax()` para calcular el tipo mas común automáticamente 

In [20]:
df["num-of-doors"].value_counts().idxmax()

'four'

El procedimiento de reemplazo es similar a lo que hemos visto previamente.

In [21]:
df["num-of-doors"].replace(np.nan,"four",inplace=True)

Finalmente. Vamos a eliminar todas las filas que no poseen precios.

In [23]:
# Simplemente elimina todas las filas que contengan el valor NaN en la columna "price"

df.dropna(subset=["price"],axis=0, inplace=True)

# restablece el indice, por que eliminamos dos filas.
df.reset_index(drop=True,inplace=True)

df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,122.0,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
