# Variables Categóricas / *Dummy Variables*

Las variables categóricas son aquellas que pueden tomar valores de un número finito de categorías (Sexo: hombre o mujer; Pago: Sí o No; Equipo: equipo de fútbol americano al que apoya...). Cuando las variables categóricas no tienen un orden lógico reciben el nombre de __nominales__ y cuando sí lo siguen reciben el nombre de __ordinales__.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
data = {'Nombre': ['Sergio', 'Guadalupe', 'Roldi'],
       'Sexo': ['Hombre', 'Mujer', 'Hombre'],
       'Compañía': ['Movistar', 'Telcel', 'Telcel'],
       'Salario': [3000,10000, 0],
       'Recargas': [10,8,3],
       'Opinión del Servicio': ['Excelente','Malo', 'Bueno']}

df = pd.DataFrame(data)
df

Dado que los algoritmos de *machine learning* no trabajan con strings sino con números, estas variables deben ser transformadas antes de ser implementadas en los modelos de predicción.

## Tratamiento de Variables Ordinales

Supongamos que el siguiente *DataFrame* corresponde a una columna de una base de datos con la que estamos trabajando:

In [None]:
data = {'servicio': ['Muy Satisfecho', 'Satisfecho',
                    'Muy Insatisfecho', 'Satisfecho', 'Insatisfecho']}
customers = pd.DataFrame(data)
customers

En este caso vamos a asignar el menor valor 0 a la variable categórica Muy Insatisfecho, 1 a Insatisfecho, 2 a Satisfecho y 3 a Muy Satisfecho:

In [None]:
nominal = {"Muy Insatisfecho": 0, "Insatisfecho": 1, "Satisfecho": 2, "Muy Satisfecho": 3}
nominal

In [None]:
customers.replace(nominal)

In [None]:
customers.replace(nominal, inplace = True)

In [None]:
customers

## Tratamiento de Variables Nominales

Supongamos que el siguiente DataFrame corresponde a una columna de una base de datos con la que estamos trabajando:

In [None]:
data = {'country': ['Belgium', 'France', 'France', 'Netherlands', 'Belgium']}
countries = pd.DataFrame(data)
countries

In [None]:
pd.get_dummies(countries)

## Multicolinealidad

La **multicolinealidad** es una situación en la que se presenta una _fuerte correlación entre variables explicativas de un modelo predictivo de regresión lineal múltiple_.

$ y = \beta_{0} + \beta_{1}x_{1} +  \beta_{2}x_{2} + ... + \beta_{m}x_{m}$

Un caso extremo de variables correlacionadas puede generar multicolinealidad, que consiste en tener redundancias entre tus variables predictoras. La multicolinealidad perfecta o casi perfecta ocurre si una variable predictiva puede ser expresada como o casi como combinación lineal de otra u otras variables lo que lleva a que valores $\beta$ obtenidos presenten problemas de precisión y estabilidad.

A resumidas cuentas: **la multicolinealidad afecta la capacidad del modelo para hacer predicciones acertadas**.

Si utilizamos un algoritmo de regresión con variables colineales el *performance* del modelo se verá afectado, por lo que debemos remover dichas variables. **En el caso de árboles, clustering o vecinos-cercanos no es necesario tener en cuenta la multicolinealidad**.

Más información [acá](http://www.hrc.es/bioest/Reglin_15.html).

In [None]:
data = {'Nombre': ['Sergio', 'Guadalupe', 'Roldi'],
        'Compañía': ['Movistar', 'Telcel', 'Telcel'],
        'Recargas por semana': [10,8,3],
        'Salario': [10000, 5000, 0],
        'Recargas cada siete días': [10, 8, 3]}
       
df = pd.DataFrame(data)

La multicolinealidad ocurre cuando:

+ Una variable A se incluye múltiples veces por error

In [None]:
df

+ Una variable está perfectamente correlacionadas con otra variable.

In [None]:
data = {'Nombre': ['Sergio', 'Guadalupe', 'Roldi'],
        'Compañía': ['Movistar', 'Telcel', 'Telcel'],
        'Número de Recargas de 100 pesos': [3,5,1],
       'Dinero gastado en Recargas de 100 pesos': [300,500,100]}
       
pd.DataFrame(data)

+ P dummies, en lugar de P - 1 dummies.

In [None]:
pd.get_dummies(countries)

Para solucionar esto hay que deshacernos de alguna de estas columnas con la opción **drop_first** de la función get_dummies:

In [None]:
pd.get_dummies(countries, drop_first = True)

# Ejercicio

* Usar la función get_dummies para tratar el siguiente DataFrame con variables categóricas.

In [None]:
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

---

In [None]:
pd.get_dummies(countries, drop_first=1)

# Ejercicio:
* Cargar el dataset de titanic 
* Hacer OneHotEncoding y asegurarse de que no haya multicolinealidad

## Otros parámetros del método get_dummies:

In [None]:
cine = {'spoken_languages': ['English, German, Asgardian', 'Spanish, English', 
                             'French, Portuguese', 'Italian, French', 'Spanish']}
cine = pd.DataFrame(cine)  
cine

In [None]:
cine.values

In [None]:
pd.get_dummies(cine)

In [None]:
cine['spoken_languages'].str.get_dummies(sep = ', ')

In [None]:
casa = {'Cerca': [np.NAN, 'MnPrv', 'GdWo', 'GdPrv', 'MnWw']}
casa = pd.DataFrame(casa)
casa

In [None]:
pd.get_dummies(casa, dummy_na = True)

--------
# Visualización de Datos y Detección de *Outliers*

<img src="Imagenes/housew.jpg">

El *dataset* se extrajo de [__*Kaggle*__](https://www.kaggle.com/) y almacena todas las características de casas vendidas en Iowa.

In [None]:
train = pd.read_csv('Datos/train.csv')
train.head()

In [None]:
train.columns

## Descripción de algunas variables: 

* SalePrice: precio al que se vendió la casa
* OverallQual: condición de la casa (del 1 al 10)
* GrLvArea: área de zonas verdes y sala
* GarageCars: número de coches que caben en el garage
* GarageArea: área total del garage
* 1stFlrSF: área total del primer piso
* FullBath: número de baños completos
* TotRmsAbvGrd: número de cuartos
* YearBuilt: año de construcción

## Análisis Estadístico de la Variable SalePrice

In [None]:
plt.figure(figsize = (10,6))
(train.SalePrice/1000).hist(bins = 100)
plt.title('Sale Price Histogram', fontsize = 15)
plt.xlabel('Sale Price in thousands of dollars', fontsize = 15)
plt.ylabel('Number of Houses', fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12)
plt.xlim(0 , (train.SalePrice/1000).quantile(0.99));

In [None]:
(train.SalePrice/1000).describe()

## Análisis Exploratorio de las Variables Independientes

### Living Area

Opción 1: 

Usar **MatplotLib** como hasta ahora.

In [None]:
plt.figure(figsize=(9,7))
plt.scatter(train.GrLivArea, train.SalePrice/1000, alpha = 0.2)
plt.xlabel('Living Area', fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars', fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12);

Opción 2:

* Usar **seaborn**.

In [None]:
import seaborn as sbn

In [None]:
sbn.jointplot(train.GrLivArea, (train.SalePrice/1000), kind = 'reg', 
              color = 'g', height = 7, 
              scatter_kws=dict(alpha=0.3))
plt.xlabel('Living Area', fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars', fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12);

A medida que *Living Area* aumenta obviamente sube el precio de la casa. En la gráfica vemos 2 *outliers* en los que en un living area de más de 4000 unidades cuadradas tienen un precio demasiado bajo. Vamos a remover estos dos puntos:

In [None]:
# train[(train['GrLivArea']> 4000) & (train['SalePrice'] < 300000)].index

In [None]:
train[(train['GrLivArea']> train.GrLivArea.quantile(0.999)) 
           & (train['SalePrice'] < train.SalePrice.quantile(0.93))].index

In [None]:
train.drop(train[(train['GrLivArea']> train.GrLivArea.quantile(0.999)) 
           & (train['SalePrice'] < train.SalePrice.quantile(0.93))].index).reset_index(drop = True).iloc[520:530,:]

In [None]:
train = train.drop(train[(train['GrLivArea']> train.GrLivArea.quantile(0.999)) 
           & (train['SalePrice'] < train.SalePrice.quantile(0.93))].index).reset_index(drop = True)

In [None]:
sbn.jointplot(train.GrLivArea, (train.SalePrice/1000), kind = 'reg', color = 'g', height = 7,
             scatter_kws=dict(alpha=0.3))
plt.xlabel('Living Area', fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars', fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12);

### OverallQual

In [None]:
plt.figure(figsize = (10,5))
sbn.boxplot(train.OverallQual,(train.SalePrice/1000))
plt.title('SalePrice vs OverallQual', fontsize = 15)
plt.xlabel('OverallQual',fontsize = 15)
plt.ylabel('Sale Price  in Thousands of Dollars',fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12);

A medida que la calidad de la casa aumenta, también lo hace su precio. Nada más que decir.

### ¿Saben lo que son los boxplots?

----------------------------

## Boxplots

Un boxplot es una _forma estandarizada de desplegar la distribución de datos_ basados en el resumen de cinco números, a saber:

* "Mínimo"
* Primer Cuartil ($Q_1$)
* Mediana
* Tercer Cuartil ($Q_3$)
* "Máximo"

A partir de ellos se pueden discernir *outliers*, si los datos son simétricos, si están sesgados (cargados a la derecha o a la izquierda) y también si están fuertemente concentrados en alguna zona.

Para algunos *datasets*, se requiere más información de la proporcionada por las medias de tendencia central (mediana, promedio y moda).

<img src = "Imagenes/dataviz1.png" width = 400>

Si se busca información sobre la variabilidad o la dispersión de los datos, un boxplot puede ser la solución pues proporciona un buen indicador que tan dispersos están los datos. Aunque los los boxplot parezcan primitivos en comparación con un histograma o un *kernel density plot*, tienen la ventaja de usar menos espacio lo que resulta útil cuando se comparan las distribuciones entre muchos grupos o datos.

<img src= "Imagenes/dataviz2.png">

* Mediana ($Q_2$): el valor central de los datos. 
* Primer Cuartil ($Q_1$): ubicado entre el valor más pequeño de los datos (no el "mínimo") y la mediana de los datos.
* Tercer Cuartil ($Q_3$): ubicado entre el valor más grande de los datos (no el "máximo") y la mediana de los datos.
* Región Intercuantil (IQR): Región del percentil 25 al 50.
* Bigotes: pintados de azul en el gráfico.
* “Máximo”: Q3 + 1.5*IQR
* “Mínimo”: Q1 -1.5*IQR
* *Outliers*: todo lo que quede más allá del máximo o antes del mínimo (mostrados como círculos verdes en el gráfico).

A continuación una compración entre un histograma y un boxplot:

<img src = "Imagenes/dataviz3.png">

¿Cómo se ve el sesgo en los boxplots?

<img src="Imagenes/dataviz4.png" width = 700> 

<img src="Imagenes/dataviz5.png" width = 700>

## Test de Tukey para valores atípicos

Una forma muy sencilla de eliminar outliers de manera analítica es a través del test de Tukey. Éste dice que **se considera como valor atípico a todo aquel que esté fuera del rango**:

* Valor atípico: $Q_1 - 1.5*IQR > x > Q_3 + 1.5*IQR$
* Valor atípico extremo: $Q_1 - 3*IQR > x > Q_3 + 3*IQR$

**Si la distribución es normal**, entonces queda de la siguiente forma:

* Valor atípico: $-\sigma > x > \sigma $
* Valor atípico extremo: $-2\sigma > x > 2\sigma $

Sabiendo lo anterior, definimos la función del **test de Tukey** de la siguiente manera:

def tukey_outliers(df,column,extreme=False):
  """df: dataframe, column: str nombre de la columna, extreme [True, False]"""
  q1, q3 = np.percentile(df[column],[25,75])
  iqr = q3 - q1
  constant = 1.5 if not extreme else 3
  return df[~((df[column]>(q3+constant*iqr)) | (df[column]<(q1-constant*iqr)))]

Esta función nos devuelve un DataFrame libre de outliers. 

La forma general para eliminar los outliers de la columna _column_name_ del DataFrame _df_ a partir de la función del test de Tukey que acabamos de definir es:

-------------------

Pero por ahora, volvamos a la clase: 

### Total Rooms Above Grade

In [None]:
plt.figure(figsize = (10,5))
sbn.boxplot(train.TotRmsAbvGrd, (train.SalePrice/1000))
plt.title('Sale Price vs Total Rooms Above Grade', fontsize = 15)
plt.xlabel('Total Rooms Above Grade',fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars',fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12)
plt.grid(axis = 'y');

Parece que tenemos una casa con 14 cuartos que es ridículamente barata. Quitemos este outlier:

In [None]:
train = train.drop(train[train['TotRmsAbvGrd'] == 14].index).reset_index(drop=True)

In [None]:
plt.figure(figsize = (10,5))
sbn.boxplot(train.TotRmsAbvGrd, (train.SalePrice/1000))
plt.title('Sale Price vs Total Rooms Above Grade', fontsize = 15)
plt.xlabel('Total Rooms Above Grade',fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars',fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12)
plt.grid(axis = 'y');

El problema ha sido arreglado.

### Garage Cars


#### Ejemplo

* Hacer un boxplot de la variable GarageCars vs SalePrice, identificar outliers, eliminarlos y graficar de nuevo.

In [None]:
plt.figure(figsize = (10,5))
sbn.boxplot(train.GarageCars, (train.SalePrice/1000))
plt.title('Sale Price vs GarageCars', fontsize = 15)
plt.xlabel('GarageCars',fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars',fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12)
plt.grid(axis = 'y');

In [None]:
train = train.drop(train[train['GarageCars'] == 4].index).reset_index(drop=True)

In [None]:
plt.figure(figsize = (10,5))
sbn.boxplot(train.GarageCars, (train.SalePrice/1000))
plt.title('Sale Price vs GarageCars', fontsize = 15)
plt.xlabel('GarageCars',fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars',fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12)
plt.grid(axis = 'y');

### Garage Area

# Ejercicio

* Hacer una gráfica de dispersión de la variable GarageArea vs SalePrice, identificar outliers, eliminarlos y graficar de nuevo.


----

In [None]:
sbn.jointplot(train.GarageArea, (train.SalePrice/1000), kind = 'reg', color = 'g', height = 7,
             scatter_kws=dict(alpha=0.3))
plt.xlabel('GarageArea', fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars', fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12);

In [None]:
train = train.drop(train[(train['GarageArea']> train.GarageArea.quantile(0.999)) 
           & (train['SalePrice'] < train.SalePrice.quantile(0.93))].index).reset_index(drop = True)

# Ejercicio:
Detecta outliers vs SalePrice
* OverallCond
* PoolQC
* SaleCondition

### 1st Floor Surface

In [None]:
sbn.jointplot(train['1stFlrSF'], (train.SalePrice/1000), kind = 'reg', height = 7,
             scatter_kws=dict(alpha=0.3))
plt.xlabel('1stFlrSF', fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars', fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12);

Tampoco hay algo que arreglar aquí.

### Full Bath

In [None]:
plt.figure(figsize = (10,5))
sbn.boxplot(train.FullBath, (train.SalePrice/1000))
plt.title('Sale Price vs Full Bath', fontsize = 15)
plt.xlabel('Full Bath',fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars',fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 12)
plt.grid(axis = 'y');

Pese a que hay un pequeño extraño entre las casas con cero y un baño, no considero pertinente cambiar nada aquí tampoco.

In [None]:
train.FullBath.value_counts()

### Year Built

In [None]:
plt.figure(figsize = (20,10))
sbn.boxplot(train.YearBuilt, (train.SalePrice/1000))
plt.title('Sale Price vs Year Built', fontsize = 15)
plt.xlabel('Year Built',fontsize = 15)
plt.ylabel('Sale Price in Thousands of Dollars',fontsize = 15)
plt.xticks(fontsize = 10, rotation = 90)
plt.yticks(fontsize = 15)
plt.grid(axis = 'y');

No contamos con información para discriminar si hay un outlier aquí, el precio de una casa puede aumentar o disminuir mientras pasan los años, pero también podría tener que ver el año en qué se vendió y en qué situación económica se encontraba el país en ese año. 
Damos por terminado el análisis de las variables más correlacionadas con SalePrice.

## ¿En qué barrio había más casas?

In [None]:
plt.figure(figsize=(10,6))
train.groupby('Neighborhood').SalePrice.count().sort_values(
    ascending = True).plot.barh(color='coral')
plt.xlabel('Number of houses', fontsize = 15)
plt.ylabel('Neighborhood',fontsize = 15)
plt.xticks(fontsize = 12)
plt.yticks(fontsize = 13);

# Ejercicio

* Graficar el número de casas contruidas por año.

# DataViz

In [None]:
plt.style.use('ggplot')
font = {'family' : 'sans',
        'weight' : 'bold',
        'size'   : 16}
plt.rc('font', **font)
plt.rcParams['xtick.labelsize'] = 16
plt.rcParams['ytick.labelsize'] = 16
plt.rcParams[u'figure.figsize'] = (12,6)
params = {'legend.fontsize': 'large',
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large'}
plt.rcParams.update(params)

## Histograma y KDE

In [None]:
train.SalePrice.hist(bins=40)
plt.xlabel("Precio de Venta")
plt.ylabel("Frecuencia");

In [None]:
sbn.kdeplot(train.SalePrice,shade=True)
plt.xlabel("Precio de Venta")
plt.ylabel("Frecuencia");

## Barras

In [None]:
train.SaleCondition.value_counts().plot.barh(color='navy', title="Condiciones de venta")
plt.xlabel("Frecuencia")
plt.ylabel("Tipo de venta");

In [None]:
train.SaleCondition.value_counts().plot.bar(color='navy', title="Condiciones de venta", rot=0)
plt.xlabel("Tipo de venta")
plt.ylabel("Frecuencia");


## Gráficos de Área

In [None]:
agg = train.groupby(["RoofStyle",'YrSold']).SalePrice.mean().unstack()
agg.plot.area(alpha=0.5, figsize=(15,8))
plt.ylim(175000,)
plt.title('Precio Promedio por Año', fontsize = 15)
plt.xlabel('Año', fontsize = 15)
plt.ylabel('Precio', fontsize = 15);

## Dispersion

In [None]:
sbn.scatterplot(x='LotArea', y='SalePrice', alpha=0.5, data=train, hue='OverallQual')

In [None]:
sbn.heatmap(train.groupby(["HouseStyle", "Foundation"]).SalePrice.mean().unstack(1), cmap='viridis',);

In [None]:
plt.figure(figsize=(14,6))
sbn.heatmap(train.corr(),cmap='coolwarm', annot=False, vmin=-1)

# Linea Serie de tiempo

In [None]:
agg.plot(style='*--', ms=15, title='El precio ha caido conforme los años')
plt.ylabel('Precio Promedio');

# Histograma en 2D

In [None]:
cmap=plt.cm.gist_heat_r
sbn.jointplot(train.LotFrontage,train.SalePrice, kind='hex', space=0, color=cmap(.2),
              joint_kws=dict(gridsize=20));

In [None]:
sbn.jointplot(train.LotFrontage,train.SalePrice, alpha=0.2);

In [None]:
sbn.jointplot(train.MSSubClass,train.SalePrice, alpha=0.8, kind="kde");

# Violin Plots

In [None]:
for i in train.columns:
    if len(train[i].unique()) == 2:
        print(i)

In [None]:
sbn.violinplot(x="SaleCondition", y="SalePrice", 
               split=True, inner="quart",hue="CentralAir",
               data=train);

## SwarmPlot

In [None]:
sbn.swarmplot(x="SaleCondition", y="SalePrice", 
              hue="Foundation",
#               palette=["r", "c", "y"],
              data=train);

## Pairplot

In [None]:
cols_sample = train.select_dtypes(include="int64").columns[:10]

In [None]:
mask = train.dtypes[train.dtypes == 'int64'].index.values

In [None]:
sbn.pairplot(train[cols_sample])

In [None]:
sbn.pairplot(train[mask[5:10]], plot_kws=dict(alpha=0.3, color='purple'),diag_kind='kde',diag_kws=dict(color='cyan'))

In [None]:
plt.style.use("seaborn-poster")

# **Lo que no se tiene que hacer**

In [None]:
plt.bar(0.3, 0.5)
plt.title("grafico de barras con un solo valor")

In [None]:
# create data
size_of_groups=[12,11,10,15]
 
# Create a pieplot
plt.pie(size_of_groups)
#plt.show()
 
# add a circle at the center
my_circle=plt.Circle( (0,0), 0.7, color='white')
p=plt.gcf()
p.gca().add_artist(my_circle)
 
plt.show()

In [None]:
train.groupby('YrSold').SalePrice.mean().plot.pie();

In [None]:
train.groupby(["GarageCars","BldgType"]).SalePrice.mean().unstack().plot.bar(stacked=True, rot=0)
plt.title("""Las barras apiladas son buenas si tenemos pocas categorias, 
          se nos complica saber quien es más grande con las barras que caen en medio""");

-----

# Anexo: mismo método get_dummies, pero con Label Encoder y OneHotEncoder

In [None]:
import pandas as pd

In [None]:
data = {'country': ['Belgium', 'France', 'France', 'Netherlands', 'Belgium']}
countries = pd.DataFrame(data)
countries

Necesitamos convertir los objetos de la columna a números para poder incluirlos en el modelo de predicción. Usaremos la función LabelEncoder para lograrlo:

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
encoder = LabelEncoder()
countries.country = encoder.fit_transform(countries.country)
countries

Con lo que se han asignado valores numéricos a cada país en estricto orden alfabético:

* Belgium = 0
* France = 1
* Netherlands = 2


Ahora nos enfrentamos a otro problema. La lista de arriba sugiere que Holanda es mayor que Francia y Bélgica lo cuál no tiene ningún sentido. Usaremos la función OneHotEncoder para solucionarlo:

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
onehotencoder = OneHotEncoder()
countries = onehotencoder.fit_transform(countries).toarray()
countries

In [None]:
countries = pd.DataFrame(countries, columns= ['Belgium', 'France', 'Netherlands'])
countries