<a href="https://colab.research.google.com/github/RodriBC/DeepL/blob/main/notebooks/Deep_Learning_Clase_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Deep Learning 101 - Clase 1  🧠

> **Descripción:** Cuaderno de contenidos (I) sobre introducción a _deep learning_ para el Bootcamp en DS con Código Facilito, 2022. <br>
> **Autor:** [Rodolfo Ferro](https://github.com/RodolfoFerro) <br>
> **Contacto:** [Twitter](https://twitter.com/rodo_ferro) / [Instagram](https://www.instagram.com/rodo_ferro/)


## Contenido

### Sección I

1. Brief histórico
2. Unidad Umbralización Lineal (TLU)
3. Activación y bias – El perceptrón

### Sección II

4. Aprendizaje en neuronas
5. Entrenamiento de una neurona
6. Predicciones

### Sección III – Tarea

7. El dataset a utilizar
8. Preparación de los datos
9. Creación del modelo
10. Entrenamiento del modelo
11. Evaluación y predicción

## **Sección I**

### **Breve historia de las redes neuronales**

Podríamos decir que la historia se remonta a dar un inicio con el modelo neuronal de McCulloch y Pitts de 1943, la **Threshold Logic Unit (TLU)**, o **Linear Threshold Unit**,​ que fue el primer modelo neuronal moderno, y ha servido de inspiración para el desarrollo de otros modelos neuronales. (Puedes leer más [aquí](https://es.wikipedia.org/wiki/Neurona_de_McCulloch-Pitts).)

Posterior a los TLU, se la historia se complementa con el desarrollo de un tipo de neurona artificial con una **función de activación**, llamada **perceptrón**. Ésta fue desarrollada entre 1950 y 1960 por el científico **Frank Rosenblatt**.

### **Entonces, ¿qué es una neurona artificial?**

Una neurona artificial es una función matemática que concevida como un modelo de neuronas biológicas. (Puedes leer un poco más [aquí](https://en.wikipedia.org/wiki/Artificial_neuron).)

El modelo general de una **neurona artificial** toma varias **entradas** $x_1, x_2,..., x_n $ y produce una **salida**. Se propuso que las entradas tuviesen **pesos** asciados $w_1, w_2, ..., w_n$, siendo éstos números reales que podemos interpretar como una expressión de la importancia respectiva para cada entrada de información para el cálculo del valor de salida de la neurona. La salida de la neurona, $0$ o $1$, está determinada con base en que la suma ponderada,

$$\displaystyle\sum_{j}w_jx_j,$$

<!-- $\textbf{w}_{Layer}\cdot\textbf{x} =
\begin{bmatrix}
w_{1, 1} & w_{1, 2} & \cdots & w_{1, n}\\
w_{2, 1} & w_{2, 2} & \cdots & w_{2, n}\\
\vdots & \vdots & \ddots & \vdots\\
w_{m, 1} & w_{m, 2} & \cdots & w_{m, n}\\
\end{bmatrix} \cdot
\begin{bmatrix}
x_1\\
x_2\\
\vdots\\
x_n
\end{bmatrix}$ -->

(para $j \in \{1, 2, ..., n\}$ ) sea menor o mayor que un **valor límite** que por ahora llamaremos **umbral**. (Aquí comenzamos con la formalización de lo que es un TLU y cómo funciona.)

Visto de otro modo, una neurona artificial puede interpretarse como un sistema que toma decisiones con base en la evidencia presentada.

#### **Implementemos una TLU**

In [1]:
import numpy as np


# Primero creamos nuestra clase TLU
class TLU():
    def __init__(self, inputs, weights):
        """Class constructor.

        Parameters
        ----------
        inputs : list
            List of input values.
        weights : list
            List of weight values.
        """

        self.inputs = np.array(inputs) # TODO: np.array <- inputs
        self.weights = np.array(weights) # TODO: np.array <- weights

    def predict(self, threshold):
        """Function that operates inputs @ weights.

        Parameters
        ----------
        threshold : int
            Threshold value for decision.
        """
        n = len(self.inputs)
        result = 0
        for i in range(n):
            result += self.inputs[i] * self.weights[i]

        # TODO: Inner product of data
        return result >= threshold

In [3]:
3# Now, we need to set inputs and weights
inputs, weights = [], [1, 1, 1]

# 3, 3, 3 --- Corriendo
# 2, 2, 2 --- Trotando (caminando)
# 1, 1, 1 --- Caminando
questions = [
    "· ¿Cuál es la velocidad? ", # 1, 2, 3
    "· ¿Ritmo cardiaco? ", # 1, 2, 3
    "· ¿Respiración? " # 1, 2, 3
]

for question in questions:
    i = int(input(question))
    # w = int(input("· Y su peso asociado es... "))
    inputs.append(i)
    #weights.append(w)
    print()

threshold = int(input("· Y nuestro umbral/límite será: "))

· ¿Cuál es la velocidad? 3

· ¿Ritmo cardiaco? 3

· ¿Respiración? 3

· Y nuestro umbral/límite será: 7


In [10]:
tlu = TLU(inputs, weights) # TODO Instantiate TLU
tlu.predict(threshold) # TODO Apply decision function with threshold

np.True_

### **Bias y funciones de activación – El perceptrón**

_Antes de continuar, introduciremos otro conceptos, el **bias** y la **función de activación**._

La operación matemática que realiza la neurona para la decisión de umbralización se puede escribir como:

$$ f(\textbf{x}) =
  \begin{cases}
    0 & \text{si $\displaystyle\sum_{j}w_jx_j <$ umbral o threshold} \\
    1 & \text{si $\displaystyle\sum_{j}w_jx_j \geq$ umbral o threshold} \\
  \end{cases}$$

donde $j \in \{1, 2, ..., n\}$, y así, $\textbf{x} = (x_1, x_2, ..., x_n)$.

De lo anterior, podemos despejar el umbral y escribirlo como $b$, obteniendo:

$$ f(\textbf{x}) =
  \begin{cases}
    0 & \text{si $\displaystyle\sum_{j}w_jx_j + b < 0$} \\
    1 & \text{si $\displaystyle\sum_{j}w_jx_j + b > 0$} \\
  \end{cases}$$

donde $\textbf{x} = (x_1, x_2, ..., x_n)$ y $j \in \{1, 2, ..., n\}$.

Esto que escribimos como $b$, también se le conoce como **bias**, y describe *qué tan susceptible la red es a __dispararse__*.

Curiosamente, esta descripción matemática encaja con una función de salto o de escalón (función [_Heaviside_](https://es.wikipedia.org/wiki/Funci%C3%B3n_escal%C3%B3n_de_Heaviside)), que es una **función de activación**. Esto es, una función que permite el paso de información de acuerdo a la entrada y los pesos, permitiendo el disparo del lo procesado hacia la salida. La función de salto se ve como sigue:

<center>
    <img src="https://upload.wikimedia.org/wikipedia/commons/4/4a/Funci%C3%B3n_Cu_H.svg" width="40%" alt="Función escalón de Heaviside">
</center>

Sin embargo, podemos hacer a una neurona aún más susceptible con respecto a los datos de la misma (entradas, pesos, bias) añadiendo una función [sigmoide](https://es.wikipedia.org/wiki/Funci%C3%B3n_sigmoide). Esta fue una de las agregaciones de Rosenblatt al momento del desarrollo de su propuesta de perceptrón. La función sigmoide se ve como a continuación:

<center>
    <img src="https://upload.wikimedia.org/wikipedia/commons/6/66/Funci%C3%B3n_sigmoide_01.svg" width="40%" alt="Función sigmoide">
</center>

Esta función es suave, y por lo tanto tiene una diferente "sensibililad" a los cambios abruptos de valores. También, sus entradas en lugar de solo ser $1$'s o $0$'s, pueden ser valores en todos los números reales. La función sigmoide es descrita por la siguiente expresión matemática:

$$f(z) = \dfrac{1}{1+e^{-z}}$$

O escrito en términos de entradas, pesos y bias:

$$f(z) = \dfrac{1}{1+\exp{\left\{-\left(\displaystyle\sum_{j}w_jx_j +b\right)\right\}}}$$

#### **Volviendo al ejemplo**

In [5]:
# Modificamos para añadir la función de activación
class Perceptron():
    def __init__(self, inputs, weights):
        """Class constructor.

        Parameters
        ----------
        inputs : list
            List of input values.
        weights : list
            List of weight values.
        """

        self.inputs = np.array(inputs) # TODO: np.array <- inputs
        self.weights = np.array(weights) # TODO: np.array <- weights

    def predict(self, bias):
        """Function that operates inputs @ weights.

        Parameters
        ----------
        bias : int
            The bias value for operation.
        """

        # TODO: Inner product of data + bias
        # TODO: Apply sigmoid function f(z) = 1 / (1 + e^(-z))
        z = (self.inputs @ self.weights) + bias
        fz = 1/(1+np.exp(-z))
        return fz

In [6]:
bias = int(input("· El nuevo bias será: "))
inputs = [5, 1, 1]
weights = [1, 2, 1]
perceptron = Perceptron(inputs, weights) # TODO Instantiate Perceptron
perceptron.predict(bias) # TODO Apply decision function with threshold

· El nuevo bias será: 3


np.float64(0.999983298578152)

> Esta es la neurona que usaremos para los siguientes tópicos.

<center>
    *********
</center>

## **Sección II**

### Aprendizaje de neuronas

Veamos cómo se puede entrenar una sola neurona para hacer una predicción.

Para este problema construiremos un perceptrón simple, como el propuesto por McCulloch & Pitts, usando la función sigmoide.

#### **Planteamiento del problema:**

Queremos mostrarle a una neurona simple un conjunto de ejemplos para que pueda aprender cómo se comporta una función. El conjunto de ejemplos es el siguiente:

- `(1, 0)` debería devolver `1`.
- `(0, 1)` debe devolver `1`.
- `(0, 0)` debería devolver `0`.

Entonces, si ingresamos a la neurona el valor de `(1, 1)`, debería poder predecir el número `1`.

> **Pregunta clave:** Esta función corresponde a una compuerta lógica, ¿puedes adivinar cuál?

#### ¿Que necesitamos hacer?

Programar y entrenar una neurona para hacer predicciones.

En concreto, vamos a hacer lo siguiente:

- Construir la clase y su constructor.
- Definir la función sigmoide y su derivada
- Definir el número de épocas para el entrenamiento.
- Resolver el problema y predecir el valor de la entrada deseada

In [7]:
import numpy as np


class TrainableNeuron():
    def __init__(self, n):
        """Class constructor.

        Parameters
        ----------
        n : int
            Input size.
        """

        np.random.seed(123)
        self.synaptic_weights = 2*np.random.random((n, 1)) - 1 # TODO. Use np.random.random((n, 1)) to gen values in (-1, 1)

    def __sigmoid(self, x):
        """Sigmoid function.

        Parameters
        ----------
        x : float
            Input value to sigmoid function.
        """

        # TODO: Return result of sigmoid function f(z) = 1 / (1 + e^(-z))
        return 1/(1+np.exp(-x))

    def __sigmoid_derivative(self, x):
        """Derivative of the Sigmoid function.

        Parameters
        ----------
        x : float
            Input value to evaluated sigmoid function."""

        # TODO: Return the derivate of sigmoid function x * (1 - x)
        return x*(1 - x)

    def train(self, training_inputs, training_output, epochs):
        """Training function.

        Parameters
        ----------
        training_inputs : list
            List of features for training.
        training_outputs : list
            List of labels for training.
        epochs : int
            Number of iterations for training.

        Returns
        -------
        history : list
            A list containing the training history.
        """

        # Historial de entrenamiento
        history = []

        # Transposición de vector de muestras
        real_output = training_output.reshape((len(training_inputs), 1))


        for iteration in range(epochs):
            # Predicción de valores
            predicted_output = self.predict(training_inputs)

            # Error simple
            error = real_output - predicted_output

            # Error más elaborado
            #error = - real_output * np.log(predicted_output) \
            #        - (1 - real_output) * predicted_output
            #error /= len(predicted_output)

            # Ajuste de pesos
            adjustment = np.dot(training_inputs.T, error *
                                self.__sigmoid_derivative(predicted_output))
            self.synaptic_weights += adjustment

            history.append(np.linalg.norm(error))

        return history

    def predict(self, inputs):
        """Prediction function. Applies input function to inputs tensor.

        Parameters
        ----------
        inputs : list
            List of inputs to apply sigmoid function.
        """
        # TODO: Apply self.__sigmoid to np.dot of (inputs, self.synaptic_weights)
        return self.__sigmoid(np.dot(inputs, self.synaptic_weights))

### Generando las muestras

Ahora podemos generar una lista de ejemplos basados en la descripción del problema.

In [8]:
# Training samples:
input_values = [(0, 1), (0, 1), (0, 0)]   # TODO. Define the input values as a list of tuples
output_values = [1, 1, 0]  # TODO. Define the desired outputs

training_inputs = np.array(input_values)
training_output = np.array(output_values).T.reshape((3, 1))

### Entrenando la neurona

Para hacer el entrenamiento, primero definiremos una neurona. De forma predeterminada, contendrá pesos aleatorios (ya que aún no se ha entrenado):

In [9]:
neuron = TrainableNeuron(2) # TODO Instantiate Trainable Neuron

print('Pesos iniciales (aleatorios):')
neuron.synaptic_weights

Pesos iniciales (aleatorios):


array([[ 0.39293837],
       [-0.42772133]])

In [10]:
# TODO.
# Modifiquemos el número de épocas de entranemiento para ver el
# performance de la neurona.
epochs = 10

# Entrenamos la neurona por tantas épocas
history = neuron.train(training_inputs, training_output, epochs)

print('Pesos después del entrenamiento (aleatorios):')
neuron.synaptic_weights

Pesos después del entrenamiento (aleatorios):


array([[0.39293837],
       [1.27677808]])

Podemos evaluar el entrenamiento de la neurona.

In [11]:
import plotly.express as px


eje_x = np.arange(len(history))

fig = px.line(
    x=eje_x,
    y=history,
    title='Historia de entrenamiento',
    labels=dict(x='Épocas', y='Error')
)
fig.show()

### Realizando predicciones

In [12]:
# Realizamos predicciones para verificar el resultado esperado
one_one = np.array((1, 1))

print('Predicción para (1, 1): ')
neuron.predict(one_one)

Predicción para (1, 1): 


array([0.84153801])

> **Pregunta clave:** ¿Cómo se ven los datos utilizados para entrenamiento? ¿Qué sucedería si intentáramos utilizar la compuerta XOR?


In [13]:
import plotly.graph_objects as go
import numpy as np

# Construcción de una rejilla
x = np.linspace(-1, 1.5, 201)
y = np.linspace(-1, 1.5, 201)
xy = np.meshgrid(x, y)
zz = np.array(list(zip(*(x.flat for x in xy))))

# Predicción en la rejilla de valores
surface = neuron.predict(zz).flatten()

fig = go.Figure(data=[go.Scatter3d(
    x=zz[:, 0],
    y=zz[:, 1],
    z=surface,
    mode='markers',
    marker=dict(
        size=1,
        color=surface,
        colorscale='Viridis',
        opacity=0.8
    )
)])

# Tight layout
fig.update_layout(margin=dict(l=0, r=0, b=0, t=0))
fig.show()

<center>
    *********
</center>

## **Sección III – Tarea**

### El dataset a utilizar: Naranjas vs. Manzanas

El dataset ha sido una adaptación de datos encontrados en [Kaggle](https://www.kaggle.com/datasets/theblackmamba31/apple-orange). Dicho dataset está compuesto por conjuntos de imágenes de naranjas y manzanas que serán un utilizados para entrenar una neurona artificial.


Para cargar los datos, primero los descargaremos de un repositorio donde previamente los preparé para ustedes.

Puedes explorar directamente los archivos fuente del [repositorio en GitHub – `apple-orange-dataset`](https://github.com/RodolfoFerro/apple-orange-dataset).

Puedes también explorar el [script](https://github.com/RodolfoFerro/apple-orange-dataset/blob/main/script.py) que he utilizado para la preparación de los mismos.

In [14]:
!wget https://raw.githubusercontent.com/RodolfoFerro/apple-orange-dataset/main/training_data.csv
!wget https://raw.githubusercontent.com/RodolfoFerro/apple-orange-dataset/main/testing_data.csv

--2025-05-26 18:47:23--  https://raw.githubusercontent.com/RodolfoFerro/apple-orange-dataset/main/training_data.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 140605 (137K) [text/plain]
Saving to: ‘training_data.csv’


2025-05-26 18:47:23 (23.9 MB/s) - ‘training_data.csv’ saved [140605/140605]

--2025-05-26 18:47:23--  https://raw.githubusercontent.com/RodolfoFerro/apple-orange-dataset/main/testing_data.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.111.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 11885 (12K) [text/plain]
Saving to: ‘testing_data.csv’


2025-05-26 18:4

### Preparación de los datos


In [15]:
import pandas as pd


training_df = pd.read_csv('training_data.csv')
testing_df = pd.read_csv('testing_data.csv')

training_df

Unnamed: 0,filename,r,g,b,class
0,train/apples/apple_0.jpg,125,27,18,0
1,train/apples/apple_10.jpg,187,49,39,0
2,train/apples/apple_100.jpg,255,255,255,0
3,train/apples/apple_1000.jpg,255,255,255,0
4,train/apples/apple_1001.jpg,180,64,77,0
...,...,...,...,...,...
3233,train/oranges/orange_995.jpg,239,129,50,1
3234,train/oranges/orange_996.jpg,229,120,51,1
3235,train/oranges/orange_997.jpg,249,249,249,1
3236,train/oranges/orange_998.jpg,239,130,63,1


In [16]:
training_df['class_str'] = training_df['class'].astype('str')
training_df['hover'] = [text.split('/')[-1] for text in training_df['filename']]

testing_df['class_str'] = testing_df['class'].astype('str')
testing_df['hover'] = [text.split('/')[-1] for text in testing_df['filename']]

training_df

Unnamed: 0,filename,r,g,b,class,class_str,hover
0,train/apples/apple_0.jpg,125,27,18,0,0,apple_0.jpg
1,train/apples/apple_10.jpg,187,49,39,0,0,apple_10.jpg
2,train/apples/apple_100.jpg,255,255,255,0,0,apple_100.jpg
3,train/apples/apple_1000.jpg,255,255,255,0,0,apple_1000.jpg
4,train/apples/apple_1001.jpg,180,64,77,0,0,apple_1001.jpg
...,...,...,...,...,...,...,...
3233,train/oranges/orange_995.jpg,239,129,50,1,1,orange_995.jpg
3234,train/oranges/orange_996.jpg,229,120,51,1,1,orange_996.jpg
3235,train/oranges/orange_997.jpg,249,249,249,1,1,orange_997.jpg
3236,train/oranges/orange_998.jpg,239,130,63,1,1,orange_998.jpg


### Exploración de los datos

Podemos verificar si el conjunto de datos está balanceado:

In [17]:
training_df.groupby('class').count()

Unnamed: 0_level_0,filename,r,g,b,class_str,hover
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,1566,1566,1566,1566,1566,1566
1,1672,1672,1672,1672,1672,1672


Podemos explorar cómo se ven los datos en un gráfico 3D:

In [18]:
import plotly.express as px


fig = px.scatter_3d(
    training_df,
    x='r', y='g', z='b',
    color='class_str',
    symbol='class_str',
    color_discrete_sequence=['#be0900', '#ffb447'],
    opacity=0.5,
    hover_data=['hover']
)
fig.show()

Puedes explorar las imágenes y sus valores de color utilizando el color picker que ofrece Google: https://g.co/kgs/uarXyu

> **Pregunta clave:** ¿Los datos son linealmente separables? Con lo que hemos explorado hasta ahora, ¿basta una neurona para resolver el problema planteado?

### Creación de una neurona artificial


In [None]:
neuron = None #TODO: Create a neuron instance
neuron.synaptic_weights

### Entrenamiento del modelo

Para entrenar el modelo, simplemente utilizamos el método `.train()` del modelo.

Antes de entrenar los datos, procedemos a escalarlos a valores en [0, 1].

In [None]:
training_inputs = training_df[['r', 'g', 'b']].values / 255.
training_output = training_df['class'].values

training_inputs, training_output

In [None]:
history = None #TODO: Train a neuron

### Evaluación y predicción

Podemos evaluar el entrenamiento de la neurona.

In [None]:
import plotly.express as px


eje_x = np.arange(len(history))

fig = px.line(
    x=eje_x,
    y=history,
    title='Historia de entrenamiento',
    labels=dict(x='Épocas', y='Error')
)
fig.show()


> **Pregunta clave:** ¿Qué sucede con la historia de entrenamiento?

> **Pro-tip:** Exploremos con una nueva función de pérdida, qué tal la utilizada usualemente en una regresión logística: https://developers.google.com/machine-learning/crash-course/logistic-regression/model-training

Para predecir un color de ejemplo:

In [None]:
# Preparamos los datos
sample_index = 0

input_sample = testing_df[['r', 'g', 'b']].iloc[sample_index].values
# input_sample = np.array([])
print('Color real:', input_sample)

input_sample = input_sample / 255.
print('Color transformado:', input_sample)

real_class = testing_df[['class']].iloc[sample_index].values
print('Clase real:', real_class)

In [None]:
neuron.predict(input_sample).tolist()

Para evaluar esta tarea, vamos a utilizar funciones de scikit-learn para la que nos permitirán realizar la evaluación de resultados en el conjunto de pruebas. (Utilizar [`sklearn.metrics.accuracy_score`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score))

<center>
    *********
</center>

In [None]:
import plotly.express as px


fig = px.scatter_3d(
    testing_df,
    x='r', y='g', z='b',
    color='class_str',
    symbol='class_str',
    color_discrete_sequence=['#be0900', '#ffb447'],
    opacity=0.5,
    hover_data=['hover']
)
fig.show()

In [None]:
def get_predictions(testing_df, threshold=0.5):
    testing_inputs = testing_df[['r', 'g', 'b']].values / 255.
    testing_output = testing_df['class'].values

    predictions = []
    for test_input in testing_inputs:
        if neuron.predict(test_input)[0] <= threshold:
            prediction = 0
        else:
            prediction = 1
        predictions.append(prediction)
    predictions = np.array(predictions)

    return testing_output, predictions

In [None]:
from sklearn.metrics import accuracy_score


testing_output, predictions = get_predictions(testing_df, threshold=0.5)
result = accuracy_score(testing_output, predictions)
print(f'Accuracy: {result * 100:.6}%')

> **Pregunta clave:** ¿Qué sucede si cambiamos el _threshold_ a 0.7? A veces conviene explorar el valor de umbral que seleccionamos y no siempre dar por hecho que 0.5 va a funcionar todas las veces. <br><br>
> Lee más aquí: https://ploomber.io/blog/threshold/

> **Para resolver la tarea, el reto es:** Mejor accuracy obtenido en la clase.

**Puedes explorar:**
- Utilizar 1 a 3 variables (de las dadas).
- Investigar e implementar una nueva función para estimar el error.
- Realizar transformaciones en los datos.
- Entrenar por más épocas.
- Mover el umbral para definir la clase.
- Explorar otras funciones de activación.
- Generar tu nuevo dataset de datos a partir de las imágenes originales.

--------

> Contenido creado por **Rodolfo Ferro**, 2022. <br>
> Puedes contactarme a través de Insta ([@rodo_ferro](https://www.instagram.com/rodo_ferro/)) o Twitter ([@rodo_ferro](https://twitter.com/rodo_ferro)).