**Modulo 4 : Entrenamiento para Datos Tabulares**
* Instructor: [Juan Maniglia](https://juanmaniglia.github.io)

# Parte 4.1: Codificación de un vector de características para Deep Learning en Keras

Las redes neuronales pueden aceptar muchos tipos de datos. Comenzaremos con datos tabulares, donde hay filas y columnas bien definidas. Este es el tipo de datos que normalmente vería en Microsoft Excel. A continuación se muestra un ejemplo de datos tabulares.

Las redes neuronales requieren entrada numérica. Esta forma numérica se llama vector de características. Cada fila de datos de entrenamiento normalmente se convierte en un vector. Cada una de las neuronas de entrada individuales recibe una característica (o columna) de este vector. En esta sección, veremos cómo codificar los siguientes datos tabulares en un vector de características.

In [2]:
import pandas as pd

pd.set_option('display.max_columns', 7) 
pd.set_option('display.max_rows', 5)

df = pd.read_csv(
    "https://data.heatonresearch.com/data/t81-558/jh-simple-dataset.csv",
    na_values=['NA','?'])

pd.set_option('display.max_columns', 9)
pd.set_option('display.max_rows', 5)

display(df)

Unnamed: 0,id,job,area,income,...,pop_dense,retail_dense,crime,product
0,1,vv,c,50876.0,...,0.885827,0.492126,0.071100,b
1,2,kd,c,60369.0,...,0.874016,0.342520,0.400809,c
...,...,...,...,...,...,...,...,...,...
1998,1999,qp,c,67949.0,...,0.909449,0.598425,0.117803,c
1999,2000,pe,c,61467.0,...,0.925197,0.539370,0.451973,c


A partir de los datos anteriores se pueden hacer las siguientes observaciones:
* La columna de destino es la columna que busca predecir. Aquí hay varios candidatos. Sin embargo, inicialmente utilizaremos el producto. Este campo especifica qué producto compró alguien.
* Hay una columna de ID. Esta columna no debe ingresarse en la red neuronal ya que no contiene información útil para la predicción.
* Muchos de estos campos son numéricos y es posible que no requieran ningún procesamiento adicional.
* La columna de ingresos tiene algunos valores faltantes.
* Hay valores categóricos: trabajo, área y producto.

Para empezar, convertiremos el código de trabajo en variables ficticias.

In [3]:
pd.set_option('display.max_columns', 7) 
pd.set_option('display.max_rows', 5)

dummies = pd.get_dummies(df['job'],prefix="job")
print(dummies.shape)

pd.set_option('display.max_columns', 9)
pd.set_option('display.max_rows', 10)

display(dummies)

(2000, 33)


Unnamed: 0,job_11,job_al,job_am,job_ax,...,job_rn,job_sa,job_vv,job_zz
0,0,0,0,0,...,0,0,1,0
1,0,0,0,0,...,0,0,0,0
2,0,0,0,0,...,0,0,0,0
3,1,0,0,0,...,0,0,0,0
4,0,0,0,0,...,0,0,0,0
...,...,...,...,...,...,...,...,...,...
1995,0,0,0,0,...,0,0,1,0
1996,0,0,0,0,...,0,0,0,0
1997,0,0,0,0,...,0,0,0,0
1998,0,0,0,0,...,0,0,0,0


Debido a que hay 33 códigos de trabajo diferentes, hay 33 variables ficticias. También especificamos un prefijo, porque los códigos de trabajo (como "ax") no son tan significativos por sí mismos. Algo como "job_ax" también nos dice el origen de este campo.

A continuación, debemos fusionar estos Dummies nuevamente en el DataFrame principal. También descartamos el campo "job" original, ya que ahora está representado por Dummies.

In [4]:
pd.set_option('display.max_columns', 7) 
pd.set_option('display.max_rows', 5)

df = pd.concat([df,dummies],axis=1)
df.drop('job', axis=1, inplace=True)

pd.set_option('display.max_columns', 9)
pd.set_option('display.max_rows', 10)

display(df)

Unnamed: 0,id,area,income,aspect,...,job_rn,job_sa,job_vv,job_zz
0,1,c,50876.0,13.100000,...,0,0,1,0
1,2,c,60369.0,18.625000,...,0,0,0,0
2,3,c,55126.0,34.766667,...,0,0,0,0
3,4,c,51690.0,15.808333,...,0,0,0,0
4,5,d,28347.0,40.941667,...,0,0,0,0
...,...,...,...,...,...,...,...,...,...
1995,1996,c,51017.0,38.233333,...,0,0,1,0
1996,1997,d,26576.0,33.358333,...,0,0,0,0
1997,1998,d,28595.0,39.425000,...,0,0,0,0
1998,1999,c,67949.0,5.733333,...,0,0,0,0


También introducimos variables ficticias para la columna de 'area'.

In [5]:
pd.set_option('display.max_columns', 7) 
pd.set_option('display.max_rows', 5)

df = pd.concat([df,pd.get_dummies(df['area'],prefix="area")],axis=1)
df.drop('area', axis=1, inplace=True)

pd.set_option('display.max_columns', 9)
pd.set_option('display.max_rows', 10)
display(df)

Unnamed: 0,id,income,aspect,subscriptions,...,area_a,area_b,area_c,area_d
0,1,50876.0,13.100000,1,...,0,0,1,0
1,2,60369.0,18.625000,2,...,0,0,1,0
2,3,55126.0,34.766667,1,...,0,0,1,0
3,4,51690.0,15.808333,1,...,0,0,1,0
4,5,28347.0,40.941667,3,...,0,0,0,1
...,...,...,...,...,...,...,...,...,...
1995,1996,51017.0,38.233333,1,...,0,0,1,0
1996,1997,26576.0,33.358333,2,...,0,0,0,1
1997,1998,28595.0,39.425000,3,...,0,0,0,1
1998,1999,67949.0,5.733333,0,...,0,0,1,0


La última transformación restante es completar los valores de ingresos que faltan.

In [6]:
med = df['income'].median()
df['income'] = df['income'].fillna(med)

Hay formas más avanzadas de completar los valores faltantes, pero requieren más análisis. La idea sería ver si otro campo podría dar una pista sobre cuáles fueron los ingresos. Por ejemplo, podría ser beneficioso calcular un ingreso medio para cada una de las áreas o categorías de trabajo. Esto es algo a tener en cuenta para la competencia de clase Kaggle.

En este punto, Pandas DataFrame está listo para convertirse a Numpy para el entrenamiento de redes neuronales. Necesitamos saber una lista de las columnas que formarán *x* (los predictores o entradas) y *y* (el objetivo).

La lista completa de columnas es:

In [7]:
print(list(df.columns))

['id', 'income', 'aspect', 'subscriptions', 'dist_healthy', 'save_rate', 'dist_unhealthy', 'age', 'pop_dense', 'retail_dense', 'crime', 'product', 'job_11', 'job_al', 'job_am', 'job_ax', 'job_bf', 'job_by', 'job_cv', 'job_de', 'job_dz', 'job_e2', 'job_f8', 'job_gj', 'job_gv', 'job_kd', 'job_ke', 'job_kl', 'job_kp', 'job_ks', 'job_kw', 'job_mm', 'job_nb', 'job_nn', 'job_ob', 'job_pe', 'job_po', 'job_pq', 'job_pz', 'job_qp', 'job_qw', 'job_rn', 'job_sa', 'job_vv', 'job_zz', 'area_a', 'area_b', 'area_c', 'area_d']


Esto incluye tanto el objetivo como los predictores. Necesitamos una lista con el objetivo eliminado. También eliminamos **id** porque no es útil para la predicción.

In [8]:
x_columns = df.columns.drop('product').drop('id')
print(list(x_columns))

['income', 'aspect', 'subscriptions', 'dist_healthy', 'save_rate', 'dist_unhealthy', 'age', 'pop_dense', 'retail_dense', 'crime', 'job_11', 'job_al', 'job_am', 'job_ax', 'job_bf', 'job_by', 'job_cv', 'job_de', 'job_dz', 'job_e2', 'job_f8', 'job_gj', 'job_gv', 'job_kd', 'job_ke', 'job_kl', 'job_kp', 'job_ks', 'job_kw', 'job_mm', 'job_nb', 'job_nn', 'job_ob', 'job_pe', 'job_po', 'job_pq', 'job_pz', 'job_qp', 'job_qw', 'job_rn', 'job_sa', 'job_vv', 'job_zz', 'area_a', 'area_b', 'area_c', 'area_d']


### Generar X e Y para una red neuronal de Clasificación

Ahora podemos generar *x* e *y*. Tenga en cuenta que así es como generamos y para un problema de clasificación. La regresión no usaría dummies y simplemente codificaría el valor numérico del objetivo.

In [9]:
# Convertir a numpy - Clasificación
x_columns = df.columns.drop('product').drop('id')
x = df[x_columns].values
dummies = pd.get_dummies(df['product']) # Clasificación
products = dummies.columns
y = dummies.values

Podemos mostrar las matrices *x* e *y*.

In [10]:
print(x)
print(y)

[[5.08760000e+04 1.31000000e+01 1.00000000e+00 ... 0.00000000e+00
  1.00000000e+00 0.00000000e+00]
 [6.03690000e+04 1.86250000e+01 2.00000000e+00 ... 0.00000000e+00
  1.00000000e+00 0.00000000e+00]
 [5.51260000e+04 3.47666667e+01 1.00000000e+00 ... 0.00000000e+00
  1.00000000e+00 0.00000000e+00]
 ...
 [2.85950000e+04 3.94250000e+01 3.00000000e+00 ... 0.00000000e+00
  0.00000000e+00 1.00000000e+00]
 [6.79490000e+04 5.73333333e+00 0.00000000e+00 ... 0.00000000e+00
  1.00000000e+00 0.00000000e+00]
 [6.14670000e+04 1.68916667e+01 0.00000000e+00 ... 0.00000000e+00
  1.00000000e+00 0.00000000e+00]]
[[0 1 0 ... 0 0 0]
 [0 0 1 ... 0 0 0]
 [0 1 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 1 0]
 [0 0 1 ... 0 0 0]
 [0 0 1 ... 0 0 0]]


Los valores x e y ahora están listos para una red neuronal. Asegúrese de construir la red neuronal para un problema de clasificación. Específicamente,

* Las redes neuronales de clasificación tienen un recuento de neuronas de salida igual al número de clases.
* Las redes neuronales de clasificación deben usar **categorical_crossentropy** y una función de activación **softmax** en la capa de salida.

### Generar X e Y para una red neuronal de Regresión

Para una red neuronal de regresión, los valores *x* se generan de la misma manera. Sin embargo, *y* no usa dummies. Asegúrese de reemplazar **income** con su objetivo real.

In [11]:
y = df['income'].values