# Predicción de admisiones estudiantiles con KERAS.

## Mi primera red neuronal ?

Información de la UCLA basada en 3 datos:

   - GRE Scores (Test)
   - GPA Scores (Grades)
   - Class rank (1-4)

El dataset original se encuentra en: http://www.ats.ucla.edu/ y en este mismo apartado corresponde al file *binary.csv* extraido directaemten del sitio.

Debe tener instalado en el ambiente de trabajo Pandas, Keras etc.

# 1. Carga y vizualización de datos:

Para cargar los datos usamos load the data, usaremos un paquete de datos muy útil llamado Pandas. Puede leer en la documentación de Pandas aquí: https://pandas.pydata.org/


In [18]:
import pandas as pd
data = pd.read_csv('https://stats.idre.ucla.edu/stat/data/binary.csv')
print(data)

     admit  gre   gpa  rank
0        0  380  3.61     3
1        1  660  3.67     3
2        1  800  4.00     1
3        1  640  3.19     4
4        0  520  2.93     4
..     ...  ...   ...   ...
395      0  620  4.00     2
396      0  560  3.04     3
397      0  460  2.63     2
398      0  700  3.65     2
399      0  600  3.89     3

[400 rows x 4 columns]


# 2. Procesado de datos:

- Se remueven NaNs
- One-hot encode con rank
- Normalizacion de GRE y GPA, de manera que queden en el rango (0,1)
- Se parten los datos en input X - labels y

In [19]:
import numpy as np
import keras
from keras.utils import np_utils

# remove NaNs
data = data.fillna(0)

# One-hot encoding the rank
processed_data = pd.get_dummies(data, columns=['rank'])

# Normalizing the gre and the gpa scores to be in the interval (0,1)
processed_data["gre"] = processed_data["gre"]/800
processed_data["gpa"] = processed_data["gpa"]/4

# Splitting the data input into X, and the labels y 
X = np.array(processed_data)[:,1:]
X = X.astype('float32')
y = keras.utils.to_categorical(data["admit"],2)

In [20]:
# Checking that the input and output look correct
print("Shape of X:", X.shape)
print("\nShape of y:", y.shape)
print("\nFirst 10 rows of X")
print(X[:10])
print("\nFirst 10 rows of y")
print(y[:10])

Shape of X: (400, 6)

Shape of y: (400, 2)

First 10 rows of X
[[0.475  0.9025 0.     0.     1.     0.    ]
 [0.825  0.9175 0.     0.     1.     0.    ]
 [1.     1.     1.     0.     0.     0.    ]
 [0.8    0.7975 0.     0.     0.     1.    ]
 [0.65   0.7325 0.     0.     0.     1.    ]
 [0.95   0.75   0.     1.     0.     0.    ]
 [0.7    0.745  1.     0.     0.     0.    ]
 [0.5    0.77   0.     1.     0.     0.    ]
 [0.675  0.8475 0.     0.     1.     0.    ]
 [0.875  0.98   0.     1.     0.     0.    ]]

First 10 rows of y
[[1. 0.]
 [0. 1.]
 [0. 1.]
 [0. 1.]
 [1. 0.]
 [0. 1.]
 [0. 1.]
 [1. 0.]
 [0. 1.]
 [1. 0.]]


In [21]:
# Checking that the input and output look correct
print("Shape of X:", X.shape)
print("\nShape of y:", y.shape)
print("\nFirst 10 rows of X")
print(X[:10])
print("\nFirst 10 rows of y")
print(y[:10])

Shape of X: (400, 6)

Shape of y: (400, 2)

First 10 rows of X
[[0.475  0.9025 0.     0.     1.     0.    ]
 [0.825  0.9175 0.     0.     1.     0.    ]
 [1.     1.     1.     0.     0.     0.    ]
 [0.8    0.7975 0.     0.     0.     1.    ]
 [0.65   0.7325 0.     0.     0.     1.    ]
 [0.95   0.75   0.     1.     0.     0.    ]
 [0.7    0.745  1.     0.     0.     0.    ]
 [0.5    0.77   0.     1.     0.     0.    ]
 [0.675  0.8475 0.     0.     1.     0.    ]
 [0.875  0.98   0.     1.     0.     0.    ]]

First 10 rows of y
[[1. 0.]
 [0. 1.]
 [0. 1.]
 [0. 1.]
 [1. 0.]
 [0. 1.]
 [0. 1.]
 [1. 0.]
 [0. 1.]
 [1. 0.]]


# 3. Partición de los datos en training y testing:

In [22]:
# break training set into training and validation sets
(X_train, X_test) = X[50:], X[:50]
(y_train, y_test) = y[50:], y[:50]

# print shape of training set
print('x_train shape:', X_train.shape)

# print number of training, validation, and test images
print(X_train.shape[0], 'train samples')
print(X_test.shape[0], 'test samples')

x_train shape: (350, 6)
350 train samples
50 test samples


# 4. Definición de la arquitectura de la red neuronal:

In [23]:
# Imports
import numpy as np
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation
from keras.optimizers import SGD
from keras.utils import np_utils

In [27]:
model = Sequential()

model.add(Dense(128, input_dim=6))
model.add(Activation('tanh'))
model.add(Dropout(.3)) 

model.add(Dense(64))
model.add(Activation('sigmoid'))
model.add(Dropout(.2)) 

model.add(Dense(32))
model.add(Activation('linear'))
model.add(Dropout(.1))

model.add(Dense(2))
model.add(Activation('sigmoid'))

model.compile(loss = 'mean_squared_error', optimizer='rmsprop', metrics=['accuracy'])
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_17 (Dense)             (None, 128)               896       
_________________________________________________________________
activation_17 (Activation)   (None, 128)               0         
_________________________________________________________________
dropout_13 (Dropout)         (None, 128)               0         
_________________________________________________________________
dense_18 (Dense)             (None, 64)                8256      
_________________________________________________________________
activation_18 (Activation)   (None, 64)                0         
_________________________________________________________________
dropout_14 (Dropout)         (None, 64)                0         
_________________________________________________________________
dense_19 (Dense)             (None, 32)                2080      
__________

# 5. Entrenamiento del modelo:

In [30]:
# Training the model
#model.fit(X_train, y_train, epochs=200, batch_size=100, verbose=0)
model.fit(X_train, y_train, epochs=500, batch_size=100, verbose=0)

<keras.callbacks.History at 0x1b0a585f488>

# 6. Score del modelo:

In [31]:
# Evaluating the model on the training and testing set
score = model.evaluate(X_train, y_train)
print("\n Training Accuracy:", score[1])
score = model.evaluate(X_test, y_test)
print("\n Testing Accuracy:", score[1])


 Training Accuracy: 0.7142857139451163

 Testing Accuracy: 0.6799999976158142


# 7. Resumen del análisis efectuado

## Hiper parámetros de la arquitectura neuronal

Se usa una matriz para definir el total de las pruebas a realizar. Se analizan posibles valores para los Hiper parámetros: __Activation__, __Loss__ y __Optimizer__.<br/>

Lista de opciones:<br/>
Activation: relu, tanh, sigmod y linear<br/>
Loss: categorical_crossentropy y mean_squared_error<br/>
Optimizer: rmsprop y adam<br/>


De las anteriores opciones y tomando en cuenta que las opciones de Activation se usaran 3 veces (para cada sub capa), nos dará que la matriz será de 5 x 256. Se presenta un ejemplo de las opciones combinadas que llenan la matriz.

In [None]:
MatrizHiperParametros = pd.read_csv('MatrizOpcionesHiperParametros.csv')
print(MatrizHiperParametros)

Para hacer las pruebas se toman varios de las combinaciones de la matriz de manera que se reduzca el tiempo invertido y probar la mayor cantidad de combinaciones posibles.<br/>
Para este ejercicio se usó también la matriz para generar el código a probar concatenando las diferentes opciones a una plantilla en Excel. Se muestra un ejemplo de lo anterior.

![Codigo](https://raw.githubusercontent.com/paumorso/DataSicience/master/CodigoPruebasMatrizHiperParametros.PNG?token=AMVLDGP5I6KHDPXJGPBVEVC5LOEES)

Con base esta matriz y usando el código de la arquitectura neuronal se procede a ejecutar y obtener los resultados para el entrenamiento y las pruebas del modelo. Se llena esta nueva matriz de resultados para poder comparar los resultados.

In [32]:
ResultadosMatrizHiperParametros = pd.read_csv('ResultadosMatrizOpcionesHiperParametros.csv')
print(ResultadosMatrizHiperParametros)

     ID  Trainning  Testing
0     1   0.722857     0.66
1     2   0.722857     0.68
2     3   0.722857     0.68
3     4   0.725714     0.68
4     5   0.717143     0.66
5     6   0.717143     0.62
6    28   0.720000     0.66
7    74   0.717143     0.66
8   108   0.714286     0.66
9   114   0.734286     0.66
10  132   0.714286     0.66
11  151   0.714286     0.66
12  172   0.714286     0.66
13  212   0.720000     0.66
14  228   0.714286     0.68
15  235   0.714286     0.64
16  244   0.720000     0.64
17  253   0.722857     0.66
18  256   0.722857     0.66


Los resultados en la matriz se grafican para comparar ambos escenarios tanto en entrenamiento como de pruebas.

![Grafico](https://raw.githubusercontent.com/paumorso/DataSicience/master/GraficoPruebasMatrizHiperParametros.PNG?token=AMVLDGLFMABGKSM6G6VDH7C5LOEJI)

Del set de pruebas en la gráfica se selecciona la #15 que corresponde al id #228 de la matriz de opciones, estos son los Hiper parámetros de la arquitectura neuronal que se muestran en este ejemplo en la parte 4.

Al final nuestras pruebas dan que el modelo en el entrenamiento tiene un 71,42% de efectividad y en las pruebas un 67.99%

## Luego de la clase se efectúa unos ajustes para mejorar el modelo. Esta es la parte que le comentamos que fuen basado en lo que el Compañero expuso pero el alcanza el 75% en pruebas......

### a. Se ajusta el conjunto de datos de entrenamiento y pruebas para que sean 80% y 20% respectivamente.

In [44]:
# break training set into training and validation sets
(X_train, X_test) = X[80:], X[:20]
(y_train, y_test) = y[80:], y[:20]

# print shape of training set
print('x_train shape:', X_train.shape)

# print number of training, validation, and test images
print(X_train.shape[0], 'train samples')
print(X_test.shape[0], 'test samples')

x_train shape: (320, 6)
320 train samples
20 test samples


### b. La densidad de las sub capas (excepto la final – que queda igual) se aumentan de manera que queden 512, 128 y 64 respectivamente. Se usan los anteriores Hiper parámetros de la matriz de pruebas.

In [45]:
model = Sequential()

model.add(Dense(512, input_dim=6))
model.add(Activation('tanh'))
model.add(Dropout(.3)) 

model.add(Dense(128))
model.add(Activation('sigmoid'))
model.add(Dropout(.2)) 

model.add(Dense(64))
model.add(Activation('linear'))
model.add(Dropout(.1))

model.add(Dense(2))
model.add(Activation('sigmoid'))

model.compile(loss = 'mean_squared_error', optimizer='rmsprop', metrics=['accuracy'])
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_33 (Dense)             (None, 512)               3584      
_________________________________________________________________
activation_33 (Activation)   (None, 512)               0         
_________________________________________________________________
dropout_25 (Dropout)         (None, 512)               0         
_________________________________________________________________
dense_34 (Dense)             (None, 128)               65664     
_________________________________________________________________
activation_34 (Activation)   (None, 128)               0         
_________________________________________________________________
dropout_26 (Dropout)         (None, 128)               0         
_________________________________________________________________
dense_35 (Dense)             (None, 64)                8256      
__________

### c. Se modifican los Epochs y los Bacth de la siguiente manera: epochs=1000, batch_size=200.

In [46]:
# Training the model
#model.fit(X_train, y_train, epochs=200, batch_size=100, verbose=0)
model.fit(X_train, y_train, epochs=1000, batch_size=200, verbose=0)

<keras.callbacks.History at 0x1b0a88a8208>

### d. Para que al final el modelo se mejora y alcance un 80% en las pruebas, a pesar que en el entrenamiento obtuvo un 71,25%.

In [47]:
# Evaluating the model on the training and testing set
score = model.evaluate(X_train, y_train)
print("\n Training Accuracy:", score[1])
score = model.evaluate(X_test, y_test)
print("\n Testing Accuracy:", score[1])


 Training Accuracy: 0.71875

 Testing Accuracy: 0.800000011920929
