# REDES NEURONALES

Una red neuronal es un modelo simplificado que emula el modo en que el cerebro humano procesa la información: Funciona simultaneando un número elevado de unidades de procesamiento interconectadas que parecen versiones abstractas de neuronas. Modelos que están compuestos de múltiples capas de procesamiento para aprender representaciones de datos, con múltiples niveles de abstracción que realizan una serie de transformaciones lineales y no lineales que a partir de los datos de entrada generen una salida próxima a la esperada (label).

Las unidades de procesamiento se organizan en capas. Hay tres partes normalmente en una red neuronal :
* una capa de entrada, con unidades que representan los campos de entrada.
* Una o varias capas ocultas.
* Una capa de salida, con una unidad o unidades que representa el campo o los campos de destino.
Las unidades se conectan con fuerzas de conexión variables (o ponderaciones). Los datos de entrada se presentan en la primera capa, y los valores se propagan desde cada neurona hasta cada neurona de la capa siguiente. al final, se envía un resultado desde la capa de salida.

La red aprende examinando los registros individuales, generando una predicción para cada registro y realizando ajustes a las ponderaciones cuando realiza una predicción incorrecta. Este proceso se repite muchas veces y la red sigue mejorando sus predicciones hasta haber alcanzado uno o varios criterios de parada.

<img src="img/3.jpg">

## Algoritmos de regresión
Los algoritmos de regresión modelan la relación entre distintas variables de entrada (features) utilizando una medida de error, la loss, que se intentará minimizar en un proceso iterativo para poder realizar predicciones “lo más acertadas posibles”. Hablaremos de dos tipos: regresión logística y regresión lineal.

La diferencia principal entre regresión logística y lineal es en el tipo de salida de los modelos; cuando nuestra salida sea discreta, hablamos de regresión logística, y cuando la salida sea continua hablamos de regresión lineal. La regresión logística es un algoritmo con aprendizaje supervisado y se utiliza para clasificar.

## Funciones de activación
La función de activación devuelve una salida que será generada por la neurona dada una entrada o conjunto de entradas. Cada una de las capas que conforman la red neuronal tienen una función de activación que permitirá reconstruir o predecir. Además, se debe considerar que en la red neuronal se usará una función no lineal debido a que le permite al modelo adaptarse para trabajar con la mayor cantidad de datos. Las funciones de activación no son más que la manera de trasmitir esta información por las conexiones de salida. Las funciones de activación se utilizan para dar una «no linealidad» al modelo y que la red sea capaz de resolver problemas más complejos. Si todas las funciones de activación fueran lineales, la red resultante sería equivalente a una red sin capas ocultas.

* **Función lineal**: Esta función también conocida como identidad, permite que lo de la entrada sea igual a la salida por lo que si tengo un red neuronal de varias capas y aplicó función lineal se dice que es una regresión lineal. Por lo tanto, **esta función de activación lineal se usa si a la salida se requiere una regresión lineal y de esta manera a la red neuronal que se le aplica la función va a generar un valor único**. Por ejemplo se usa cuando se solicita predecir el valor de un número de ventas.
                                            <img src="img/lineal.png" height=300>
* **Función escalón**: Indica que si la x es menor que cero la neurona va a ser cero pero cuando es mayor igual a cero dará como salida igual 1. **Esta función se usa cuando se quiere clasificar o cuando se tiene salidas categóricas**.
                                            <img src="img/escalon.png" height=300>
* **Función sigmoide**: Esta función también conocida como función logística, está en un rango de valores de salida entre cero y uno por lo que la salida es interpretada como una probabilidad. Si se evalúa la función con valores de entrada muy negativos, es decir x<0 la función será igual a cero, si se evalúa en cero la función dará 0.5 y en valores altos su valor es aproximadamente a 1. **Por lo que esta función se usa en la última capa y se usa para clasificar datos en dos categorías**. Actualmente la sigmoide no es una función muy utilizada debido a que no está centrada y esto afecta en el aprendizaje y entrenamiento de la neurona por lo que influye con el problema de desaparición de gradiente. Cuanto más positivo es el valor de x más nos acercamos a 1 y por el contrario, cuanto más negativo es x más nos acercamos a 0. Existe una división entre los valores negativos y positivos de x, pero la función sigmoide no es tan estricta, el cambio se hace de manera suave. La función no tiene aristas, es más suave. **Se usa en la regresión logística, una de las técnicas más usadas en Machine Learning. Esta función es muy útil en la capa final de salida al final de la red neuronal, no solo para clasificar con valores categóricos, sino también para intentar predecir las probabilidades de pertenencia a cada categoría, donde sabemos que la probabilidad de un suceso imposible es 0 y la de un suceso seguro es 1**.
                                            <img src="img/sigmoide.png" height=300>
* **Función rectificadora** (ReLU): Está función es la más utilizada debido a que permite el aprendizaje muy rápido en las redes neuronales. Si a esta función se le da valores de entrada muy negativos el resultado es cero pero si se le da valores positivos queda igual y además el gradiente de esta función será cero en el segundo cuadrante y uno en el primer cuadrante. Cuando se tiene que la función es igual a cero y su derivada también se genera lo que es la muerte de neuronas, a pesar que puede ser un inconveniente en algunos casos permite la regularización Dropout. Por esta razón la función ReLu tiene una variante denominada Leaky ReLu que va a prevenir que existan neuronas muertas debido a la pequeña pendiente que existe cuando x<0.
                                            <img src="img/relu.png" height=300>
* **Función tangente hiperbólico**: Esta función de activación llamada tangente hiperbólica tiene un rango de valores de salida entre -1 y 1. Se dice que está función es un escalamiento de la función logística, por lo que a pesar que esta función está centrada tiene un problema similar a la sigmoide debido al problema de desaparición del gradiente, que se da cuando en el entrenamiento se genera un error con el algoritmo de propagación hacia atrás y debido a esto el error se va propagando entre las capas, por lo que en cada iteración toma un valor pequeño y la red no puede obtener un buen aprendizaje. No empieza en 0 y termina en 1, sino que empieza en -1 y termina en 1.
                                            <img src="img/tang.png" height=300>
* **Función softmax**: **Esta función se usa para clasificar datos**, por ejemplo si le damos de entrada la imagen de una fruta y se solicita saber el tipo de fruta a que pertenece, aplicando softmax la red nos dará la probabilidad de que puede ser 0.3 o 30% melón, 0.2 o 20% sandía y 0.5 o 50% papaya, por lo que nos da el resultado será el que tenga mayor probabilidad y cabe recalcar que la suma de estas probabilidades será igual a 1. En otras palabras, **Softmax se usa para clases múltiples y cuando se va a asignar probabilidades a cada clase que pertenezca a clases múltiples**.
                                            <img src="img/softmax.png" height=300>

In [1]:
import numpy as np
from keras.models import Sequential
from keras.layers import Dense

data = np.random.random((1000,100))
labels = np.random.randint(2,size=(1000,1))

La clase Sequential de la librería de Keras es una envoltura para el modelo de red neuronal secuencial que ofrece Keras. En este caso, el modelo en Keras se considera como una secuencia de capas que cada una de ellas va “destilando” gradualmente los datos de entrada para obtener la salida deseada.

In [2]:
model = Sequential() # Creamos un modelo secuencia y agregaremos capas una a una hasta que cumplan nuestros requerimientos.

la red neuronal se ha definido como una secuencia de dos capas que están densamente conectadas, es decir, que todas las neuronas de cada capa están conectadas con todas las neuronas de la capa siguiente.

In [3]:
# La primera capa debe tener el numero correcto de entradas, esto se puede especificar con el argumento input_dim. El numero de neuronas de entrada esta determinado por el numero de variables de entrada (columnas).
# La capa de salida, si por ejemplo estamos resolviendo un problema de clasificación tendra un numero de neuronas igual al numero de clases que existan en los datos.

# Capas completamente conectadas son definidas mediante la clase Dense.
# En la clase Dense se especifica: el numero de neuronas, la función de inicialización y la función de activación.
# input_dim indica el numero de neuronas que contiene la capa de entrada.
model.add(Dense(32, activation='relu', input_dim=100)) # 32 indica el número de neuronas
model.add(Dense(1, activation='sigmoid'))

In [4]:
model.summary() # método muy útil para comprobar la arquitectura de nuestra modelo.

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 32)                3232      
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 33        
Total params: 3,265
Trainable params: 3,265
Non-trainable params: 0
_________________________________________________________________


#### Compilar el modelo
Una vez que tengamos nuestro modelo definido, podemos configurar cómo será su proceso de aprendizaje con el método compile( ), con el que podemos especificar algunas propiedades a través de argumentos del método.
El primero de estos argumentos es la función de loss que usaremos para evaluar el grado de error entre salidas calculadas y las salidas deseadas de los datos de entrenamiento.
Se especifica un optimizador que, como veremos, es la manera que tenemos de especificar el algoritmo de optimitzaación que permite a la red neuronal calcular los pesos de los parámetros a partir de los datos de entrada y de la función de loss definida.
Debemos indicar la métrica que usaremos para monitorizar el proceso de aprendizaje (y prueba) de nuestra red neuronal.

In [None]:
# Compilamos el modelo. loss es la función de perdida que sirve para evaluar los pesos (binary-crossentropy es una función logarítmica de perdida), el otimizador utilizado para buscar entre los pesos de la red
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])

In [5]:
model.fit(data,labels,epochs=10,batch_size=32)
predictions = model.predict(data)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [6]:
from keras.datasets import boston_housing, mnist, cifar10, imdb
(x_train,y_train),(x_test,y_test) = mnist.load_data()
(x_train2,y_train2),(x_test2,y_test2) = boston_housing.load_data()
(x_train3,y_train3),(x_test3,y_test3) = cifar10.load_data()
(x_train4,y_train4),(x_test4,y_test4) = imdb.load_data(num_words=20000)
num_classes = 10

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/boston_housing.npz
Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz


In [7]:
from keras.models import Sequential
model = Sequential()
model2 = Sequential()
model3 = Sequential()

### Funciones de activación
* **relu** (Rectified Linear): Si el valor de mi x < 0, devuelve 0. Si no devuelve x.
* Tanh: Igual que sigmoid pero entre -1 y 1.
* **sigmoid** (Logistic): Para x muy grande nos da 1, si es muy pequeño nos da 0. Entre 0 y 1
* softmax: Devuelve la probabilidad de que sea de un tipo.

In [8]:
# Binary Classification
from keras.layers import Dense
model.add(Dense(12,input_dim=8,kernel_initializer='uniform',activation='relu'))
model.add(Dense(8,kernel_initializer='uniform',activation='relu'))
model.add(Dense(1,kernel_initializer='uniform',activation='sigmoid'))

#Multi-Class Classification
from keras.layers import Dropout
model.add(Dense(512,activation='relu',input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(512,activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(10,activation='softmax'))

#Regression
model.add(Dense(64,activation='relu',input_dim=x_train.shape[1]))
model.add(Dense(1))