# ¿Como tratar variables categoricas?
__*Sergio Camposortega*__


## Variables Categóricas, Cualitativas o de Atributo

En general, se identifican por tener valores limitados y se asignan a un grupo en particular sobre la base de algunas caracteristicas cualitativas.
Los valores de una variante categórica se pueden colocar en un número contable de categorías o grupos diferentes. 

Las variables categóricas pueden ser:

    Nominales: Los datos no cuentan con un orden.
    Ordinales: Los valores pueden ser ordenados lógicamente.

En el caso de variables cualitativas o categóricas nominales, el análisis consiste simplemente en determinar el rango de valores y frecuencia (o frecuencia relativa) de cada valor. Una técnica útil es la tabulación de frecuencias junto a porcentaje de ocurrencias de cada categoría.

En este caso, la dispersión de los datos se mide mediante la frecuencia relativa de la moda, es decir, el porcentaje de datos concentrados en el valor modal.

Una variable categorica que solo toma dos valores se le conoce como variable binaria o dicotómica y las variables categoricas que toman diversas clases se denominan variables politómica.

Ejemplos de variables categoricas:
  <ul style="list-style-type:circle">
      <li>Genero</li>
      <li>Clase Social</li>
      <li>Tipo de Sangre</li>
      <li>Plan Tarifario</li>
      <li>Acepto Campaña</li>
  </ul>

Preprocesaremos los datos categoricos en la siguiente base de datos con las variables de CHURN que corresponde a la campaña realizada de MovistarOn.
 
Pandas tiene una documentacion bastante completa para la obtencion y preprocesamiento de variables categoricas
Mayor info en: https://pandas.pydata.org/pandas-docs/stable/categorical.html


In [None]:
import pandas as pd
import numpy as np

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_auc_score, accuracy_score, confusion_matrix, precision_score, recall_score
from sklearn import preprocessing
df = pd.read_csv('scr_movion_7.csv')

In [None]:
del df['fch_alta']
df

One hot encoding transforms categorical features to a format that works better with classification and regression algorithms.

Let’s take the following example. I have seven sample inputs of categorical data belonging to four categories. Now, I could encode these to nominal values as I have done here, but that wouldn’t make sense from a machine learning perspective. We can’t say that the category of “Penguin” is greater or smaller than “Human”. Then they would be ordinal values, not nominal.

What we do instead is generate one boolean column for each category. Only one of these columns could take on the value 1 for each sample. Hence, the term one hot encoding.

This works very well with most machine learning algorithms. Some algorithms, like random forests, handle categorical values natively. Then, one hot encoding is not necessary. The process of one hot encoding may seem tedious, but fortunately, most modern machine learning libraries can take care of it.

One hot encoding transforma una variable a un formato que trabaja mejor con algoritmos de clasificación y de regresión.

En algunos casos, si nosotros pasamos una variable como valor nominal (sin orden) desde la perspectiva de ML no tiene sentido ya que no podriamos decir si una categoria es mayor o menor comparandose entre ellos. Por ejemplo, rango de edades (0-10,11-20,21-30,31-40,40+), estos valores se tienen que tomar como valores categoricos ordinales (sistematicos).

Lo que necesitariamos generar es una columna booleana para cada categoria, las famosas dummies.

Esto mejora en la mayoria de los algoritmos de ML, como veremos a continuacion.

Cabe mencionar que los Random Forest manejan valores categoricos nativamente, por lo que One Hot Encoding no es necesario.

In [None]:
#Tipo de cada variable
pd.DataFrame(df.ftypes, columns=['Tipo'])

One hot encoding transforms categorical features to a format that works better with classification and regression algorithms.

Let’s take the following example. I have seven sample inputs of categorical data belonging to four categories. Now, I could encode these to nominal values as I have done here, but that wouldn’t make sense from a machine learning perspective. We can’t say that the category of “Penguin” is greater or smaller than “Human”. Then they would be ordinal values, not nominal.

What we do instead is generate one boolean column for each category. Only one of these columns could take on the value 1 for each sample. Hence, the term one hot encoding.

This works very well with most machine learning algorithms. Some algorithms, like random forests, handle categorical values natively. Then, one hot encoding is not necessary. The process of one hot encoding may seem tedious, but fortunately, most modern machine learning libraries can take care of it.

Es importante identificar las variables como estan declaradas ya que al momento de modelar es común tomar un tipo de valor incorrecto como en el caso de las siguientes variables:

<ul style="list-style-type:circle">
      <li>nir</li>
      <li>cve_linea_negocio</li>
      <li>cve_region</li>
      <li>movion</li>
</ul>

Por lo que es necesario un preprocesamiento da variables.

Aqui mencionaremos algunas para el preprocesamiento:

## Creación de variables categóricas



### Scikit_learn LabelEncoder

En python, la libreria de sklearn requiere variables numéricas, por lo que es necesario procesar datos categoricos.

A continuación mostraremos el preprocesamiento con scikit_learn.preprocessing.LabelEncoder
el cual transforma de strings a valores enteros, identificando clases en la columna seleccionada y asignandole un valor numérico.


In [None]:
df_scikit = df

In [None]:
from sklearn.preprocessing import LabelEncoder

le =  LabelEncoder()

print('tipo de la columna:',type(df_scikit.id_plan_tarifario[0]))
#Aqui el modelo ajusta las etiquetas a los valores numericos
le.fit(df_scikit.id_plan_tarifario)

print('categorias', le.classes_)

print('Transformación de valores a numérico mostrando los elementos:',
      le.transform(df_scikit.id_plan_tarifario)[:11])
print('Transformación inversa de valores numéricos a strings mostrando elementos:',
      le.inverse_transform(le.transform(df_scikit.id_plan_tarifario)[:5]))
#Para agregarlas al DataFrame solo reemplazas la columna con el siguiente comando 
# df_scikit.plan_tarif = le.transform(df_scikit.plan_tarif)

### Scikit-Learn LabelBinarizer

Consiste en un clasificador binario de clases similar a get_dummies de Pandas

Regresara una clasificacion binaria por clase, por lo que convertira etiquetas multiclase a etiquetas binarias

In [None]:
df_scikit.id_forma_pago.head(10)

In [None]:
from sklearn.preprocessing import LabelBinarizer
lb = LabelBinarizer()

print('tipo de la columna:',type(df_scikit.id_forma_pago[0]))
#Aqui el modelo ajusta las etiquetas a los valores numericos
lb.fit(df_scikit.id_forma_pago)

print('categorias', lb.classes_)

print('transformacion de valores a numerico mostrando los primeros 5 elementos:',
      lb.transform(df_scikit.id_forma_pago)[:5])

Otras formas de tratar las variables categoricas es convertir rangos numericos a clases numericas (rango de edades) y existen diversos métodos como:

La creación de una nueva variable basandose en la moda o promedio del rango

Crear dos variables tomando en cuenta el valor menor del rango y el mayor

<img src='https://www.analyticsvidhya.com/wp-content/uploads/2015/11/Bins2-850x221.png'>

De esta manera nos dara mayor información.

### PANDAS

Se puede crear de Series o de una categoria del DataFrame ejemplo:

In [None]:
#Valores unicos de la columna id_plan_tarifario
df.id_plan_tarifario.unique()

De variable categorica como String la pasamos a categorica con el comando astype('category')

In [None]:
df['plan_tarif'] = df["id_plan_tarifario"].astype('category')

In [None]:
df.plan_tarif.head()

Inclusive la descripción para variables categoricas cambia como deveria de esperarse

Mostrando el número de registros, las categorias, la categoria más frecuente y su valor

In [None]:
df.plan_tarif.describe()

In [None]:
pd.DataFrame(df.id_plan_tarifario).head()

Metodo pd.get_dummies()

In [None]:
pd.get_dummies(df.id_plan_tarifario)

In [None]:
df_dummi = pd.concat([df, pd.get_dummies(df.plan_tarif)], axis=1)
df_dummi

In [None]:
del  df_dummi['KH']
del df_dummi['KM']

#no olvidar quitar variables directamente relacionadas con la 'y' del predict del modelo

Ejemplo de predicciones con distintos datasets procesados y no procesados.

In [None]:
from __future__ import division
import pandas as pd
from sklearn import cross_validation
from sklearn import neighbors
from sklearn import metrics
import numpy as np
import matplotlib.pyplot as plt

In [None]:
df.columns

In [None]:
df_dummi.columns

In [None]:
df_scikit.columns

In [None]:
#DATA FRAME PARA PROBAR EL PROCESAMIENTO DE DATOS se intento con kmeans no funciono...
df = df[['dn', 'id_plan_tarifario', 'cimei','total_recargado',
 'num_recargas','total_sms', 'voz_totales',
 'minutos_totales', 'contact_totales',  'mbtotal', 'movion']]

In [None]:
col = df.columns.tolist()

In [None]:
y = df.movion

In [None]:
len(df.loc[df.movion == 1])

In [None]:
features = df[['id_plan_tarifario', 'cimei','total_recargado',
 'num_recargas','total_sms', 'voz_totales',
 'minutos_totales', 'contact_totales',  'mbtotal', 'movion']]

In [None]:
X = features.as_matrix().astype(np.float)

ES NECESARIO CAMBIAR A NUMERICO LAS VARIABLES CATEGORICAS CON STRING

In [None]:
features.id_plan_tarifario
le =  LabelEncoder()
#Aqui el modelo ajusta las etiquetas a los valores numericos
le.fit(features.id_plan_tarifario)
#LABELENCODER
features.id_plan_tarifario = le.transform(features.id_plan_tarifario)
#LABELBINARIZER
lb =  LabelBinarizer()
lb.fit(features.cimei)
features.cimei = lb.transform(features.cimei)

In [None]:
features

In [None]:
X = features.as_matrix().astype(np.float)

In [None]:
acc = np.zeros((5,))
i=0
kf=cross_validation.KFold(n=y.shape[0], n_folds=5, shuffle=False, random_state=0)
#We will build the predicted y from the partial predictions on the test of each of the folds
yhat = y.copy()
for train_index, test_index in kf:
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    dt = neighbors.KNeighborsClassifier(n_neighbors=5)
    dt.fit(X_train,y_train)
    yhat[test_index] = dt.predict(X_test)
    acc[i] = metrics.accuracy_score(yhat[test_index], y_test)
    i=i+1
print ('Mean accuracy: '+ str(np.mean(acc)))

In [None]:
cm = metrics.confusion_matrix(y, yhat)
fig = plt.figure()
ax = fig.add_subplot(111)
ax.matshow(cm)
plt.title('Matriz de confusion',size=20)
ax.set_xticklabels([''] + ['no acepto', 'acepto'], size=20)
ax.set_yticklabels([''] + ['no acepto', 'acepto'], size=20)
plt.ylabel('Predicho',size=20)
plt.xlabel('Real',size=20)
for i in range(2):
    for j in range(2):
        ax.text(i, j, cm[i,j], va='center', ha='center',color='white',size=20)
fig.set_size_inches(7,7)
plt.show()

print (metrics.classification_report(y,yhat))