<a href="https://colab.research.google.com/github/RodolfoFerro/dl-facilito-g2/blob/main/notebooks/solutions/Deep_Learning_Clase_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Deep Learning 101 - Clase 1  üß†

> **Descripci√≥n:** Cuaderno de contenidos (I) sobre introducci√≥n a _deep learning_ para el Bootcamp en DS con C√≥digo Facilito, 2022. <br>
> **Autor:** [Rodolfo Ferro](https://github.com/RodolfoFerro) <br>
> **Contacto:** [Twitter](https://twitter.com/rodo_ferro) / [Instagram](https://www.instagram.com/rodo_ferro/) 


## Contenido

### Secci√≥n I

1. Brief hist√≥rico
2. Unidad Umbralizaci√≥n Lineal (TLU)
3. Activaci√≥n y bias ‚Äì El perceptr√≥n

### Secci√≥n II

4. Aprendizaje en neuronas
5. Entrenamiento de una neurona
6. Predicciones

### Secci√≥n III ‚Äì Tarea

7. El dataset a utilizar
8. Preparaci√≥n de los datos
9. Creaci√≥n del modelo
10. Entrenamiento del modelo
11. Evaluaci√≥n y predicci√≥n

## **Secci√≥n I**

### **Breve historia de las redes neuronales**

Podr√≠amos decir que la historia se remonta a dar un inicio con el modelo neuronal de McCulloch y Pitts de 1943, la **Threshold Logic Unit (TLU)**, o **Linear Threshold Unit**,‚Äã que fue el primer modelo neuronal moderno, y ha servido de inspiraci√≥n para el desarrollo de otros modelos neuronales. (Puedes leer m√°s [aqu√≠](https://es.wikipedia.org/wiki/Neurona_de_McCulloch-Pitts).)

Posterior a los TLU, se la historia se complementa con el desarrollo de un tipo de neurona artificial con una **funci√≥n de activaci√≥n**, llamada **perceptr√≥n**. √âsta fue desarrollada entre 1950 y 1960 por el cient√≠fico **Frank Rosenblatt**.

### **Entonces, ¬øqu√© es una neurona artificial?**

Una neurona artificial es una funci√≥n matem√°tica que concevida como un modelo de neuronas biol√≥gicas. (Puedes leer un poco m√°s [aqu√≠](https://en.wikipedia.org/wiki/Artificial_neuron).)

El modelo general de una **neurona artificial** toma varias **entradas** $x_1, x_2,..., x_n $ y produce una **salida**. Se propuso que las entradas tuviesen **pesos** asciados $w_1, w_2, ..., w_n$, siendo √©stos n√∫meros reales que podemos interpretar como una expressi√≥n de la importancia respectiva para cada entrada de informaci√≥n para el c√°lculo del valor de salida de la neurona. La salida de la neurona, $0$ o $1$, est√° determinada con base en que la suma ponderada, 

$$\displaystyle\sum_{j}w_jx_j,$$

<!-- $\textbf{w}_{Layer}\cdot\textbf{x} = 
\begin{bmatrix}
w_{1, 1} & w_{1, 2} & \cdots & w_{1, n}\\
w_{2, 1} & w_{2, 2} & \cdots & w_{2, n}\\
\vdots & \vdots & \ddots & \vdots\\
w_{m, 1} & w_{m, 2} & \cdots & w_{m, n}\\
\end{bmatrix} \cdot
\begin{bmatrix}
x_1\\
x_2\\
\vdots\\
x_n
\end{bmatrix}$ -->

(para $j \in \{1, 2, ..., n\}$ ) sea menor o mayor que un **valor l√≠mite** que por ahora llamaremos **umbral**. (Aqu√≠ comenzamos con la formalizaci√≥n de lo que es un TLU y c√≥mo funciona.)

Visto de otro modo, una neurona artificial puede interpretarse como un sistema que toma decisiones con base en la evidencia presentada.

#### **Implementemos una TLU**

In [None]:
import numpy as np


# Primero creamos nuestra clase TLU
class TLU():
    def __init__(self, inputs, weights):
        """Class constructor.
        
        Parameters
        ----------
        inputs : list
            List of input values.
        weights : list
            List of weight values.
        """

        self.inputs = np.array(inputs) # TODO: np.array <- inputs
        self.weights = np.array(weights) # TODO: np.array <- weights
  
    def predict(self, threshold):
        """Function that operates inputs @ weights.
        
        Parameters
        ----------
        threshold : int
            Threshold value for decision.
        """

        # TODO: Inner product of data
        return (self.inputs @ self.weights) >= threshold

In [None]:
# Now, we need to set inputs and weights
inputs, weights = [], [1, 1, 1]

questions = [
    "¬∑ ¬øCu√°l es la velocidad? ",
    "¬∑ ¬øRitmo cardiaco? ",
    "¬∑ ¬øRespiraci√≥n? "
]

for question in questions:
    i = int(input(question))
    # w = int(input("¬∑ Y su peso asociado es... "))
    inputs.append(i)
    weights.append(w)
    print()

threshold = int(input("¬∑ Y nuestro umbral/l√≠mite ser√°: "))

In [None]:
tlu = TLU() # TODO Instantiate Perceptron
tlu.predict(threshold) # TODO Apply decision function with threshold

### **Bias y funciones de activaci√≥n ‚Äì El perceptr√≥n**

_Antes de continuar, introduciremos otro conceptos, el **bias** y la **funci√≥n de activaci√≥n**._

La operaci√≥n matem√°tica que realiza la neurona para la decisi√≥n de umbralizaci√≥n se puede escribir como:

$$ f(\textbf{x}) = 
  \begin{cases}
    0 & \text{si $\displaystyle\sum_{j}w_jx_j <$ umbral o treshold} \\
    1 & \text{si $\displaystyle\sum_{j}w_jx_j \geq$ umbral o treshold} \\
  \end{cases},$$

donde $j \in \{1, 2, ..., n\}$, y as√≠, $\textbf{x} = (x_1, x_2, ..., x_n)$.

De lo anterior, podemos despejar el umbral y escribirlo como $b$, obteniendo:

$$ f(\textbf{x}) = 
  \begin{cases}
    0 & \text{si $\displaystyle\sum_{j}w_jx_j + b < 0$} \\
    1 & \text{si $\displaystyle\sum_{j}w_jx_j + b > 0$} \\
  \end{cases},$$

donde $\textbf{x} = (x_1, x_2, ..., x_n)$ y $j \in \{1, 2, ..., n\}$.

Esto que escribimos como $b$, tambi√©n se le conoce como **bias**, y describe *qu√© tan susceptible la red es a __dispararse__*.

Curiosamente, esta descripci√≥n matem√°tica encaja con una funci√≥n de salto o de escal√≥n (funci√≥n [_Heaviside_](https://es.wikipedia.org/wiki/Funci%C3%B3n_escal%C3%B3n_de_Heaviside)), que es una **funci√≥n de activaci√≥n**. Esto es, una funci√≥n que permite el paso de informaci√≥n de acuerdo a la entrada y los pesos, permitiendo el disparo del lo procesado hacia la salida. La funci√≥n de salto se ve como sigue:

<center>
    <img src="https://upload.wikimedia.org/wikipedia/commons/4/4a/Funci%C3%B3n_Cu_H.svg" width="40%" alt="Funci√≥n escal√≥n de Heaviside">
</center>

Sin embargo, podemos hacer a una neurona a√∫n m√°s susceptible con respecto a los datos de la misma (entradas, pesos, bias) a√±adiendo una funci√≥n [sigmoide](https://es.wikipedia.org/wiki/Funci%C3%B3n_sigmoide). Esta fue una de las agregaciones de Rosenblatt al momento del desarrollo de su propuesta de perceptr√≥n. La funci√≥n sigmoide se ve como a continuaci√≥n: 

<center>
    <img src="https://upload.wikimedia.org/wikipedia/commons/6/66/Funci%C3%B3n_sigmoide_01.svg" width="40%" alt="Funci√≥n sigmoide">
</center>

Esta funci√≥n es suave, y por lo tanto tiene una diferente "sensibililad" a los cambios abruptos de valores. Tambi√©n, sus entradas en lugar de solo ser $1$'s o $0$'s, pueden ser valores en todos los n√∫meros reales. La funci√≥n sigmoide es descrita por la siguiente expresi√≥n matem√°tica:

$$f(z) = \dfrac{1}{1+e^{-z}}$$

O escrito en t√©rminos de entradas, pesos y bias:

$$f(z) = \dfrac{1}{1+\exp{\left\{-\left(\displaystyle\sum_{j}w_jx_j +b\right)\right\}}}$$

#### **Volviendo al ejemplo**

In [None]:
# Modificamos para a√±adir la funci√≥n de activaci√≥n
class Perceptron():
    def __init__(self, inputs, weights):
        """Class constructor.
        
        Parameters
        ----------
        inputs : list
            List of input values.
        weights : list
            List of weight values.
        """

        self.inputs = None # TODO: np.array <- inputs
        self.weights = None # TODO: np.array <- weights
  
    def predict(self, bias):
        """Function that operates inputs @ weights.
        
        Parameters
        ----------
        bias : int
            The bias value for operation.
        """

        # TODO: Inner product of data + bias
        # TODO: Apply sigmoid function f(z) = 1 / (1 + e^(-z))
        z = (self.inputs @ self.weights) >= bias
        return 1 / (1 + np.exp(-z))

In [None]:
bias = int(input("¬∑ El nuevo bias ser√°: "))
perceptron = Perceptron(inputs, weights)
perceptron.predict(bias)

> Esta es la neurona que usaremos para los siguientes t√≥picos.

<center>
    *********
</center>

## **Secci√≥n II**

### Aprendizaje de neuronas

Veamos c√≥mo se puede entrenar una sola neurona para hacer una predicci√≥n.

Para este problema construiremos un perceptr√≥n simple, como el propuesto por McCulloch & Pitts, usando la funci√≥n sigmoide.

#### **Planteamiento del problema:**

Queremos mostrarle a una neurona simple un conjunto de ejemplos para que pueda aprender c√≥mo se comporta una funci√≥n. El conjunto de ejemplos es el siguiente:

- `(1, 0)` deber√≠a devolver `1`.
- `(0, 1)` debe devolver `1`.
- `(0, 0)` deber√≠a devolver `0`.

Entonces, si ingresamos a la neurona el valor de `(1, 1)`, deber√≠a poder predecir el n√∫mero `1`.

> ¬øPuedes adivinar la funci√≥n?

#### ¬øQue necesitamos hacer?

Programar y entrenar una neurona para hacer predicciones.

En concreto, vamos a hacer lo siguiente:

- Construir la clase y su constructor.
- Definir la funci√≥n sigmoide y su derivada
- Definir el n√∫mero de √©pocas para el entrenamiento.
- Resolver el problema y predecir el valor de la entrada deseada

In [None]:
import numpy as np


class TrainableNeuron():
    def __init__(self, n):
        """Class constructor.
        
        Parameters
        ----------
        n : int
            Input size.
        """
        
        np.random.seed(123)
        self.synaptic_weights = 2 * np.random.random((n, 1)) - 1 # TODO. Use np.random.random((n, 1)) to gen values in (-1, 1)

    def __sigmoid(self, x):
        """Sigmoid function.
        
        Parameters
        ----------
        x : float
            Input value to sigmoid function.
        """
        
        # TODO: Return result of sigmoid function f(z) = 1 / (1 + e^(-z))
        return 1 / (1 + np.exp(-x))

    def __sigmoid_derivative(self, x):
        """Derivative of the Sigmoid function.
        
        Parameters
        ----------
        x : float
            Input value to evaluated sigmoid function."""

        # TODO: Return the derivate of sigmoid function x * (1 - x)
        return x * (1 - x)

    def train(self, training_inputs, training_output, epochs):
        """Training function.
        
        Parameters
        ----------
        training_inputs : list
            List of features for training.
        training_outputs : list
            List of labels for training.
        epochs : int
            Number of iterations for training.
        
        Returns
        -------
        history : list
            A list containing the training history.
        """

        history = []

        real_output = training_output.reshape((len(training_inputs), 1))
        
        for iteration in range(epochs):
            predicted_output = self.predict(training_inputs)
            #error = real_output - predicted_output
            error = - real_output * np.log(predicted_output) \
                    - (1 - real_output) * predicted_output
            error /= len(predicted_output)
            adjustment = np.dot(training_inputs.T, error *
                                self.__sigmoid_derivative(predicted_output))
            self.synaptic_weights += adjustment

            history.append(np.linalg.norm(error))
        
        return history

    def predict(self, inputs):
        """Prediction function. Applies input function to inputs tensor.
        
        Parameters
        ----------
        inputs : list
            List of inputs to apply sigmoid function.
        """
        # TODO: Apply self.__sigmoid to np.dot of (inputs, self.synaptic_weights)
        return self.__sigmoid(np.dot(inputs, self.synaptic_weights))

### Generando las muestras

Ahora podemos generar una lista de ejemplos basados en la descripci√≥n del problema.

In [None]:
# Training samples:
input_values = [(0, 1), (1, 0), (0, 0)]   # TODO. Define the input values as a list of tuples
output_values = [1, 1, 0]  # TODO. Define the desired outputs

training_inputs = np.array(input_values)
training_output = np.array(output_values).T.reshape((3, 1))

### Entrenando la neurona

Para hacer el entrenamiento, primero definiremos una neurona. De forma predeterminada, contendr√° pesos aleatorios (ya que a√∫n no se ha entrenado):

In [None]:
# Initialize Sigmoid Neuron:
neuron = TrainableNeuron(2)
print("Initial random weights:")
neuron.synaptic_weights

In [None]:
# TODO.
# We can modify the number of epochs to see how it performs.
epochs = 10000

# We train the neuron a number of epochs:
history = neuron.train(training_inputs, training_output, epochs)
print("New synaptic weights after training: ")
neuron.synaptic_weights

Podemos evaluar el entrenamiento de la neurona.

In [None]:
import plotly.express as px


eje_x = np.arange(len(history))

fig = px.line(
    x=eje_x,
    y=history,
    title='Historia de entrenamiento',
    labels=dict(x='√âpocas', y='Error')
)
fig.show()

### Realizando predicciones

In [None]:
# We predict to verify the performance:
one_one = np.array((1, 1))
print("Prediction for (1, 1): ")
neuron.predict(one_one)

<center>
    *********
</center>

## **Secci√≥n III ‚Äì Tarea**

### El dataset a utilizar: Naranjas vs. Manzanas

El dataset ha sido una adaptaci√≥n de datos encontrados en [Kaggle](https://www.kaggle.com/datasets/theblackmamba31/apple-orange). Dicho dataset est√° compuesto por conjuntos de im√°genes de naranjas y manzanas que ser√°n un utilizados para entrenar una neurona artificial.


Para cargar los datos, primero los descargaremos de un repositorio donde previamente los prepar√© para ustedes. 

Puedes explorar directamente los archivos fuente del [repositorio en GitHub ‚Äì `apple-orange-dataset`](https://github.com/RodolfoFerro/apple-orange-dataset).

Puedes tambi√©n explorar el [script](https://github.com/RodolfoFerro/apple-orange-dataset/blob/main/script.py) que he utilizado para la preparaci√≥n de los mismos.

In [None]:
!wget https://raw.githubusercontent.com/RodolfoFerro/apple-orange-dataset/main/training_data.csv
!wget https://raw.githubusercontent.com/RodolfoFerro/apple-orange-dataset/main/testing_data.csv

### Preparaci√≥n de los datos


In [None]:
import pandas as pd


training_df = pd.read_csv('training_data.csv')
testing_df = pd.read_csv('testing_data.csv')

training_df

In [None]:
training_df['class_str'] = training_df['class'].astype('str')
training_df['hover'] = [text.split('/')[-1] for text in training_df['filename']]

testing_df['class_str'] = testing_df['class'].astype('str')
testing_df['hover'] = [text.split('/')[-1] for text in testing_df['filename']]

training_df

### Exploraci√≥n de los datos

Podemos verificar si el conjunto de datos est√° balanceado:

In [None]:
training_df.groupby('class').count()

Podemos explorar c√≥mo se ven los datos en un gr√°fico 3D:

In [None]:
import plotly.express as px


fig = px.scatter_3d(
    training_df,
    x='r', y='g', z='b',
    color='class_str',
    symbol='class_str',
    color_discrete_sequence=['#be0900', '#ffb447'],
    opacity=0.5,
    hover_data=['hover']
)
fig.show()

Puedes explorar las im√°genes y sus valores de color utilizando el color picker que ofrece Google: https://g.co/kgs/uarXyu

> **Pregunta clave:** ¬øLos datos son linealmente separables? Con lo que hemos explorado hasta ahora, ¬øbasta una neurona para resolver el problema planteado?

### Creaci√≥n de una neurona artificial


In [None]:
neuron = TrainableNeuron(3) #TODO: Create a neuron instance
neuron.synaptic_weights

### Entrenamiento del modelo

Para entrenar el modelo, simplemente utilizamos el m√©todo `.train()` del modelo.

In [None]:
training_inputs = training_df[['r', 'g', 'b']].values / 255.
training_output = training_df['class'].values

training_inputs, training_output

In [None]:
history = neuron.train(training_inputs, training_output, epochs=1000) #TODO: Train a neuron

### Evaluaci√≥n y predicci√≥n

Podemos evaluar el entrenamiento de la neurona.

In [None]:
import plotly.express as px


eje_x = np.arange(len(history))

fig = px.line(
    x=eje_x,
    y=history,
    title='Historia de entrenamiento',
    labels=dict(x='√âpocas', y='Error')
)
fig.show()


> **Pregunta clave:** ¬øQu√© sucede con la historia de entrenamiento?

> **Pro-tip:** Exploremos con una nueva funci√≥n de p√©rdida, qu√© tal la utilizada usualemente en una regresi√≥n log√≠stica: https://developers.google.com/machine-learning/crash-course/logistic-regression/model-training

Para predecir un color de ejemplo:

In [None]:
# Preparamos los datos
sample_index = 0

input_sample = testing_df[['r', 'g', 'b']].iloc[sample_index].values
# input_sample = np.array([])
print('Color real:', input_sample)

input_sample = input_sample / 255.
print('Color transformado:', input_sample)

real_class = testing_df[['class']].iloc[sample_index].values
print('Clase real:', real_class)

In [None]:
neuron.predict(input_sample).tolist()

Para evaluar esta tarea, vamos a utilizar funciones de scikit-learn para la que nos permitir√°n realizar la evaluaci√≥n de resultados en el conjunto de pruebas. (Utilizar [`sklearn.metrics.accuracy_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score))

<center>
    *********
</center>

In [None]:
import plotly.express as px


fig = px.scatter_3d(
    testing_df,
    x='r', y='g', z='b',
    color='class_str',
    symbol='class_str',
    color_discrete_sequence=['#be0900', '#ffb447'],
    opacity=0.5,
    hover_data=['hover']
)
fig.show()

In [None]:
def get_predictions(testing_df, threshold=0.5):
    testing_inputs = testing_df[['r', 'g', 'b']].values / 255.
    testing_output = testing_df['class'].values

    predictions = []
    for test_input in testing_inputs:
        if neuron.predict(test_input)[0] <= threshold:
            prediction = 0
        else:
            prediction = 1
        predictions.append(prediction)
    predictions = np.array(predictions)

    return testing_output, predictions

In [None]:
from sklearn.metrics import accuracy_score
 

testing_output, predictions = get_predictions(testing_df, threshold=0.5)
result = accuracy_score(testing_output, predictions)
print(f'Accuracy: {result * 100:.6}%')

> **Pregunta clave:** ¬øQu√© sucede si cambiamos el _threshold_ a 0.7? A veces conviene explorar el valor de umbral que seleccionamos y no siempre dar por hecho que 0.5 va a funcionar todas las veces. <br><br>
> Lee m√°s aqu√≠: https://ploomber.io/blog/threshold/

> **Para resolver la tarea, el reto es:** Mejor accuracy obtenido en la clase.

**Puedes explorar:**
- Utilizar 1 a 3 variables (de las dadas).
- Investigar e implementar una nueva funci[texto del v√≠nculo](https://)√≥n para estimar el error.
- Realizar transformaciones en los datos.
- Entrenar por m√°s √©pocas.
- Mover el umbral para definir la clase.
- Explorar otras funciones de activaci√≥n.
- Generar tu nuevo dataset de datos a partir de las im√°genes originales.

--------

> Contenido creado por **Rodolfo Ferro**, 2022. <br>
> Puedes contactarme a trav√©s de Insta ([@rodo_ferro](https://www.instagram.com/rodo_ferro/)) o Twitter ([@rodo_ferro](https://twitter.com/rodo_ferro)).