# Understanding your data

A continuación vamos a proceder a construir nuestro primer modelo de redes neuronales con Keras. Vamos a prodecir el salario de distintos profesionales en base a varios factores demográficos. Siempre antes de construir cualquier tipo de modelo es bueno comprender nuestros datos.

In [9]:
#Hacemos la carga de los datos
import numpy as np

#Cargamos los datos
df = pd.read_csv("hourly_wages.csv")

#Vemos las primeras observaciones
df.head()

Unnamed: 0,wage_per_hour,union,education_yrs,experience_yrs,age,female,marr,south,manufacturing,construction
0,5.1,0,8,21,35,1,1,0,1,0
1,4.95,0,9,42,57,1,1,0,1,0
2,6.67,0,12,1,19,0,0,0,1,0
3,4.0,0,12,4,22,0,0,0,0,0
4,7.5,0,12,17,35,0,1,0,0,0


In [12]:
#Vemos un resumen básico de los datos
df.describe()

Unnamed: 0,wage_per_hour,union,education_yrs,experience_yrs,age,female,marr,south,manufacturing,construction
count,534.0,534.0,534.0,534.0,534.0,534.0,534.0,534.0,534.0,534.0
mean,9.024064,0.179775,13.018727,17.822097,36.833333,0.458801,0.655431,0.292135,0.185393,0.044944
std,5.139097,0.38436,2.615373,12.37971,11.726573,0.498767,0.475673,0.45517,0.388981,0.207375
min,1.0,0.0,2.0,0.0,18.0,0.0,0.0,0.0,0.0,0.0
25%,5.25,0.0,12.0,8.0,28.0,0.0,0.0,0.0,0.0,0.0
50%,7.78,0.0,12.0,15.0,35.0,0.0,1.0,0.0,0.0,0.0
75%,11.25,0.0,15.0,26.0,44.0,1.0,1.0,1.0,0.0,0.0
max,44.5,1.0,18.0,55.0,64.0,1.0,1.0,1.0,1.0,1.0


# Specifying a model

Para empezar nuestra red necesitamos crear la estructura de la red, para ello vamos a proceder a crear una capa oculta, y una capa de salida.

In [20]:
import keras
from keras.layers import Dense
from keras.models import Sequential

#Nos creamos un numpy array que contiene los predictores
np_predictors = df.iloc[:,1:9].values

#Nos cremos un numpy con la variable a predecir o target
np_target = df.iloc[:,0].values

#Obtenemos el número de predictores ya que estos serán el númeor de inputs de nuestra red
n_cols = np_predictors.shape[1]

#Nos creamos el modelo de tipo secuencial
model = Sequential()

#Añadimos la primera capa oculta al modelo para ello vamos hacer uso de add y de la función Dense, con esta función lo 
#que hacemos crear una capa donde todas las neuronas están conectadas con todas las neuronas de la capa anterior. El
#primer parámetro de esta función es el número de neuronas de la red, el segundo parámetro es la función de activación
#que deseamos usar, y al ser la primera capa oculta debemos indicar el input_shape, que en este caso es el número de 
#inputs de nuestra red
model.add(Dense(50, activation = "relu", input_shape = (n_cols,)))

#Creamos la segunda capa oculta de la red
model.add(Dense(32, activation = "relu"))

#Nos creamos la capa de salida
model.add(Dense(1))

# Compiling the model

Una vez tenemos nuestro modelo construido, debemos de compilar nuestro modelo. para ello debemos de especificar la función de optimización y la función de coste. El optimizador **Adam** es una buena elección, mientras que para el caso de problemas de regresión la función de coste usada por excelencia es **mean squared error**.

In [23]:
#Compilamos el modelo
model.compile(optimizer = "adam", loss = "mean_squared_error")
#Verificamos que el modelo contiene la información correcta
print("Loss function: " + model.loss)
print("Optimizer: " + str(model.optimizer))

Loss function: mean_squared_error
Optimizer: <keras.optimizers.Adam object at 0x7fef7770a198>


# Fitting the model

El siguiente debe ser el de fijar el modelo. Para ello podemos hacer uso de **model.fit()**, función que recibe como parámetros principales los predictores y el target.

In [27]:
#Fijamos el modelo
model.fit(np_predictors, np_target)

Epoch 1/1


<keras.callbacks.History at 0x7fef740a9f28>

# Understanding your classification data

A continuación vamos a proceder a hacer uso de redes neuronales, pero en lugar de un progrema de regresión vamos a proceder a aplicar esto para un problema de clasifcación. Como siempre lo primero que debemos de hacer no es otra cosa que la de entender un poco nuestros datos.

In [31]:
#Cargamos los datos
df = pd.read_csv("titanic_all_numeric.csv")

#Vemos las primeras observaciones
df.head()

#Hacemos un describe de los datos
df.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare,male,embarked_from_cherbourg,embarked_from_queenstown,embarked_from_southampton
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208,0.647587,0.188552,0.08642,0.722783
std,0.486592,0.836071,13.002015,1.102743,0.806057,49.693429,0.47799,0.391372,0.281141,0.447876
min,0.0,1.0,0.42,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,2.0,22.0,0.0,0.0,7.9104,0.0,0.0,0.0,0.0
50%,0.0,3.0,29.699118,0.0,0.0,14.4542,1.0,0.0,0.0,1.0
75%,1.0,3.0,35.0,1.0,0.0,31.0,1.0,0.0,0.0,1.0
max,1.0,3.0,80.0,8.0,6.0,512.3292,1.0,1.0,1.0,1.0


# Last steps in classification models

A continuación vamos a proceder a crear nuestro modelo. En primer lugar lo que debemos de hacer es pasar a tipo categórica nuestra variable objetivo, que no es otra cosa que saber si una persona sobrevivió o no al accidente.

In [36]:
#Importamos la librería para pasar a tipo categórica 
from keras.utils import to_categorical

#Convertimos la variable objetivo a tipo categórica
target = to_categorical(df.survived)

#Pasamos a tipo numpy matrix las variables que usaremos en el modelo 
np_predictors = df.iloc[:, 1:].values

#Ahora obtenemos el número de predictores
n_predictors = np_predictors.shape[1]

#Nos generamos un modelo de red de tipo secuencial
model = Sequential()

#Nos generamos la primera capa oculta
model.add(Dense(32, activation = "relu", input_shape = (n_predictors,)))

#Nos generamos la capa de salida
model.add(Dense(2, activation = "softmax"))

#Compilamos le modelo en este caso haremos uso como optimizador "sgd" como función de coste "categorical_crossentropy y 
#finalmente como métrica pondremos "accuracy" con el fin de ver los resultados obtenidos en cada una de las epochs.
model.compile(optimizer = "sgd", loss = "categorical_crossentropy", metrics = ["accuracy"])

#Fijamos el modelo
model.fit(np_predictors, target, epochs = 10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7fef64fb2278>

# Making predictions

Una vez ya tenemos la red construida, compilada y hemos fijado el modelo, llegó el momento de realizar predicciones. Para ello vamos a proceder en primer lugar a cargar el conjunto de datos **pred_data**.

In [53]:
#Cargamos los datos
import numpy as np
pred_data = np.loadtxt("pred_data", delimiter = ",")

#Procedemos a realizar las predicciones
predictions = model.predict(pred_data)

#Accedemos a la probabilidad de que un determinado pasajero sobreviva, esto es la segunda columna de predictions
predictions_prob_true = predictions[:,1]

print(predictions_prob_true)

[ 0.36588463  0.50536394  0.60004205  0.51573604  0.22408882  0.22306496
  0.1721818   0.34617114  0.34312797  0.66494572  0.24267678  0.45201057
  0.3100132   0.33522624  0.22923794  0.18483727  0.32645312  0.58354485
  0.1667746   0.33368659  0.77096349  0.25226346  0.1750361   0.40082607
  0.39012367  0.27870739  0.64320928  0.53808993  0.29375792  0.81796825
  0.52756077  0.48080316  0.23822564  0.25323302  0.28071606  0.77245468
  0.27543697  0.21494153  0.64007616  0.60468245  0.26595587  0.41480818
  0.67789304  0.23198099  0.29807302  0.18430384  0.32275683  0.24768487
  0.54902607  0.78150243  0.35105181  0.10877088  0.53857899  0.61790127
  0.52222276  0.38990268  0.84497589  0.59694588  0.39728495  0.23822564
  0.26559445  0.37377912  0.63792837  0.37266666  0.41314778  0.41134247
  0.50521302  0.6439442   0.23833175  0.47009945  0.24281725  0.70614922
  0.27083787  0.18948129  0.56869847  0.44450271  0.30188596  0.26932818
  0.21255475  0.81601697  0.55332136  0.21813674  0