#**Ajuste de variables categóricas en el caso de agrupamiento de nivels con pocos valores**

Datos tarjetas de crédito - Australia
https://archive.ics.uci.edu/ml/datasets/statlog+(australian+credit+approval)

In [None]:
from sklearn import preprocessing
import numpy as np
import pandas as pd
import seaborn as sns 
import matplotlib.pyplot as plt 
import statsmodels.api as sm 

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
mypath = "/content/drive/My Drive/data/australian.dat"


### Los cargamos y le ponemos nombres a las columnas:

In [None]:
data = pd.read_csv(mypath, sep=" ", header=None)

data.columns = ['A1','A2','A3','A4','A5','A6','A7','A8','A9','A10','A11','A12','A13','A14','class']
data.head(7)

In [None]:
data.info()

In [None]:
# Correlation analysis
corrMatt = data.corr()
mask = np.array(corrMatt)
mask[np.tril_indices_from(mask)] = False
fig,ax= plt.subplots()
fig.set_size_inches(20,10)
sns.heatmap(corrMatt, mask=mask,vmax=.8, square=True,annot=True)

##**Variables de entrada (independientes o predictores) y de salida (dependiente u objetivo)**

In [None]:
X = data[['A1','A2','A3','A4','A5','A6','A7','A8','A9','A10','A11','A12','A13','A14']]

Y = data[['class']]

In [None]:
# Verifiquemos qué tan bien balanceadas están las dos clases:

# 1 : (clase positiva) : Se autoriza el crédito
# 0 : (clase negativa) : No se autoriza el crédito

sum(Y['class'])

In [None]:
307/690   # clase positiva

In [None]:
1 -307/690   # clase negativa

#**Variables de valor entero: ¿Categóricas o Numéricas?**

##**Analicemos primeramente las variables de entrada X de tipo entero y determinar si las consideraremos Categórics o Numéricas**

Recuerda que es un problema de Calsificación: se aprueba (1) o no (0) el crédito.


###**Obtengamos primeramente sus histogramas y ver qué información podemos empezar a observar.**

In [None]:
Xint = ['A1','A4','A5','A6','A8','A9','A10','A11','A12','A13','A14']

In [None]:
sns.set(rc={'figure.figsize':(14,16)})   # (width, height)

In [None]:
fig, axes = plt.subplots(4, 3)

for k in range(0,11):
  plt.subplot(4,3,k+1)
  plt.hist(data[Xint[k]])
  plt.xlabel(Xint[k])

plt.show()

In [None]:
X.describe()  # no ayuda mucho este resumen...

In [None]:
sns.set(rc={'figure.figsize':(6,4)})   # (width, height)

In [None]:
plt.hist(data['A1'], bins=20)
plt.xlabel("A1")
plt.show()

In [None]:
print(X['A1'].value_counts())

print(X['A1'].value_counts() / X.shape[0])

###**Conclusión A1: Variable Categórica**

In [None]:
print(X['A4'].value_counts())

print(X['A4'].value_counts() / X.shape[0])

###**Conclusión A4: Variable Categórica**

In [None]:
print(X['A5'].value_counts())

print(X['A5'].value_counts() / X.shape[0])

In [None]:
plt.hist(data['A5'], bins=20)
plt.xlabel("A5")
plt.show()

In [None]:
# para ver el número de categorías diferentes:

print(X['A5'].value_counts().count())

In [None]:
plt.boxplot(data['A5'], vert=False)
plt.title("A5")
plt.show()

###**Conclusión A5: Este tipo de variables están en el umbral de poder considerarse categóricas o numéricas. Del histograma y el porcentaje de datos en cada entero, convendría mejor considerarla como categórica e inclusive agruparlos de a 2 enteros consecutivos para tener mayor información en cada nivel.**

###**Se recomienda tambié usar One-hot encoder**

**Hay una regla empírica que nos dice que lo deseable que en cada nivel de una variable empírica se tenga aproximadamente un 10% de la información.**

In [None]:
print(X['A6'].value_counts())

print(X['A6'].value_counts() / X.shape[0])

In [None]:
plt.hist(data['A6'], bins=20)
plt.xlabel("A6")
plt.show()

In [None]:
values = array(X['A6'])

###**Conclusión A6: Variable Categórica y se podrían reagrupar en 2 o 3 niveles.**

In [None]:
print(X['A8'].value_counts())

print(X['A8'].value_counts() / X.shape[0])

###**Conclusión A8: Variable Categórica**

In [None]:
print(X['A9'].value_counts())

print(X['A9'].value_counts() / X.shape[0])

###**Conclusión A9: Variable Categórica**

In [None]:
print(X['A10'].value_counts())

print(X['A10'].value_counts() / X.shape[0])

In [None]:
print(X['A10'].value_counts().count())

In [None]:
plt.hist(data['A10'], bins=20)
plt.xlabel("A10")
plt.show()

In [None]:
plt.boxplot(data['A10'], vert=False)
plt.title("A10")
plt.show()

###**Conclusión A10: Por la cantidad de valores diferentes esta variable ya podría considerarse numérica, aunque bien podría discretizarse o aplicar alguna trnsformación para minimizar el efecto negativo que pudieran tener los outliers.**

**Hay otra regla empírica que nos dice que si una variable tiene arriba de 15 o 20 valores diferentes, debiera considerarse como numérica.**

###**También se puede aplicar One-Hot encoder y luego algún criterio de reducción de dimensionalidad si se considera que creció mucho el espacio de los predictores.**

In [None]:
print(X['A11'].value_counts())

print(X['A11'].value_counts() / X.shape[0])

###**Conclusión A11: Variable Categórica**

In [None]:
print(X['A12'].value_counts())

print(X['A12'].value_counts() / X.shape[0])

###**Conclusión A12: Variable Categórica y se recomendaría agrupar los dos niveles con menor información.**

In [None]:
print(X['A13'].value_counts())

print(X['A13'].value_counts() / X.shape[0])

In [None]:
print(X['A13'].value_counts().count())


In [None]:
plt.hist(data['A13'], bins=20)
plt.xlabel("A13")
plt.show()

In [None]:
plt.boxplot(data['A13'], vert=False)
plt.title("A13")
plt.show()

###**Conclusión A13: Variable Numérica y sería recomendable también tratar de hacer alguna transformación que ayude a minimizar el peso de los outliers y observado en la forma de la distribución del histograma con sesgo positivo.**

In [None]:
print(X['A14'].value_counts())

print(X['A14'].value_counts() / X.shape[0])

In [None]:
print(X['A14'].value_counts().count())

240


In [None]:
plt.hist(data['A14'], bins=20)
plt.xlabel("A14")
plt.show()

In [None]:
plt.boxplot(data['A14'], vert=False)
plt.title("A14")
plt.show()

###**Conclusión A14: Variable Numérica y definitivamente hay que hacer algo con respecto a los outliers.**

#**Variable Numéricas**

###**Analicemos ahora las variables numéricas tipo flotante o de números reales.**

In [None]:
Xreal = ['A2','A3','A7']

#**¿Qué puedes decir a partir de estos histogramas?**

In [None]:
sns.set(rc={'figure.figsize':(16,4)})   # (width, height)
fig, axes = plt.subplots(4, 3)

for k in range(0,3):
  plt.subplot(1,3,k+1)
  plt.hist(data[Xreal[k]], bins=30)
  plt.xlabel(Xreal[k])

plt.show()

#**Variable de Salida/Objetivo/Dependiente**

In [None]:
print(Y.value_counts())

print(Y.value_counts() / Y.shape[0])

#**Realicemos el prerpocesamiento de algunas de estas variables a manera de ejemplo.**

Iniciemos con la variable de objetivo Y:

In [None]:
print(Y['class'])

Observamos que es una variable binaria con valores enteros 0 y 1. 

Con esto es suficiente para empezar a utilizarla, aunque algunos autores recomenda hacerla flotante para su uso dentro de los algoritmos numéricos de aprendizaje automático, aunque esto Python lo maneja de manera atuomática.

En dado caso se podría reasignar como sigue:

In [None]:
Y.astype(float)[0:5]

In [None]:
Y.astype('category')[0:5]   # vemos que como "category" binario los maneja como enteros.... ¿total?

In [None]:
Y[0:5]    

In [None]:
Y.info()

De manera análoga las variables predictoras que son binarias, las podemos dejar como tales. 

**Estas variables binarias son: A1, A8, A9, A11.**

Están por otro lado las variables **A4** y **A12** que son categóricas con 3 niveles, pero que uno de los niveles tiene una cantidad mínima de datos. Veamos nuevamente su información:

In [None]:
print(X['A4'].value_counts())

print(X['A4'].value_counts() / X.shape[0])

In [None]:
print(X['A12'].value_counts())

print(X['A12'].value_counts() / X.shape[0])

Existen varias aproximaciones para el procesamiento en estos casos. Tomaremos una de las más inmediateas y sencillas en este ejemplo, que es la de conjuntar las dos clases con menor información en una sola clase nueva.

Si las variables tienen un nombre específico, se le puede asignar un nombre al resultado de conjuntarlas y llamarlas "otros". 

In [None]:
X.iloc[497:503]

In [None]:
X.info()

In [None]:
X['A4'].replace(to_replace=[1,2,3], value=[1, 2, 1], inplace=True)

In [None]:
# veamos que A4 ya solo tiene ahora 2 niveles:

X.iloc[497:503]

In [None]:
print(X['A4'].value_counts())

print(X['A4'].value_counts() / X.shape[0])

**Procedemos de manera análoga con A12:**

In [None]:
X['A12'].replace(to_replace=[1,2,3], value=[1, 2, 1], inplace=True)

In [None]:
X['A12'] = X['A12'].astype('category', copy=False)  # se puede cambiar a categórico

In [None]:
print(X['A12'].value_counts())

print(X['A12'].value_counts() / X.shape[0])

In [None]:
X.info()   # ve la reducción de la memoria, de 71 KB a 66.3 KB con solo una variable..

##**Veamos la variable A5**

Esta variable podría procesarse de varias formas. Una como la que hicimos con A4 y A12, donde en este caso se pueden reagrupar de a 2 niveles, para formar uno nuevo. Y observando el diagrama de barras, podrían reetiquetarse como sigue:


In [None]:
print(X['A5'].value_counts())

print(X['A5'].value_counts() / X.shape[0])

In [None]:
print(X['A5'].value_counts().count())

14


In [None]:
sns.set(rc={'figure.figsize':(8,4)})   # (width, height)

plt.hist(data['A5'], bins=20)
plt.xlabel("A5")
plt.show()

In [None]:
X['A5'].replace(to_replace=[1,2,3,4,5,6,7,8,9,10,11,12,13,14], value=[1,1, 2,2, 3,3, 4,4, 5,5, 6,6, 7,7], inplace=True)

In [None]:
print(X['A5'].value_counts())

print(X['A5'].value_counts() / X.shape[0])

**Puedes poceder de manera análoga con A6.**

#**Variable Numérica A13**

Como se comentó previamente, esta variable debe considerarse numérica, pero conviene aplicar alguna transformación que ayude en el ajuste del marcado sesgo positivo que tiene la distribución.

In [None]:
plt.hist(data['A13'], bins=40)
plt.xlabel("A13")
plt.show()