<a href="https://colab.research.google.com/github/JuanMa216/Estructura_De_Datos/blob/main/Tarea_DSA_Parcial_I.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Enunciado**  
1. Considere un lugar para almacenar los parámetros de la red. Dado que cada neurona debe tener asociados unos pesos y un sesgo (*bias*), necesitamos almacenarlos de manera eficiente para que los algoritmos de *backpropagation* y evaluación puedan acceder a ellos. Proponga una adaptación de una o varias estructuras de datos que permitan realizar esto de la mejor manera. Defina la complejidad de las operaciones en las que incurrirían estos dos algoritmos según sus necesidades.  
---
## **Solución**  

Considerando la necesidad de almacenar los parámetros de una red neuronal de manera eficiente para su acceso en los algoritmos de *backpropagation* y evaluación, la estructura de datos propuesta es el uso de vectores, específicamente una matriz representada como un **vector de vectores**.  

Las redes neuronales estudiadas en clase y en la presentación del invitado no presentan cambios en su tamaño ni en el número de neuronas durante la ejecución. Por lo tanto, una estructura de datos adecuada, considerando estas características, es el uso de **vectores**. Estos han sido utilizados en tareas anteriores e implementados en clase, donde se ha observado que su manejo es más cómodo y eficiente, siempre que no se requiera cambiar su tamaño dinámicamente (pues en ese caso, sería necesario copiar el vector existente para expandirlo).  

El problema plantea la necesidad de una estructura eficiente tanto en **acceso como en almacenamiento**. Las **matrices de vectores** permiten un acceso directo a cualquier elemento en tiempo **constante \( O(1) \)**, lo cual es ideal en este caso para los algoritmos de *backpropagation* y evaluación. Dado que los valores de pesos y *biases* se acceden frecuentemente, no es necesario recorrer la matriz para encontrar un valor (como sí ocurre en listas enlazadas u otras estructuras dinámicas).  

Además, el uso de **álgebra matricial y lineal** optimiza las operaciones necesarias, ya que las matrices almacenan sus elementos en memoria **contigua**, mejorando la eficiencia de acceso y aprovechando la caché del procesador. Según investigaciones, esto es **crucial** en redes neuronales, ya que las operaciones matemáticas deben ejecutarse rápidamente sobre grandes volúmenes de datos. Usar **vectores evita el *overhead* del manejo de punteros**, lo que maximiza el rendimiento en memoria.  

---

## **Complejidad de Forward y Backpropagation**  

| **Paso**                  | **Operación**                              | **Complejidad por Capa**       | **Complejidad Total (Red de \( L \) capas)** |
|--------------------------|--------------------------------------|--------------------------|--------------------------------|
| **Forward Propagation**  | Multiplicación  $$ W^{(l)} A^{(l-1)} $$  | $$ O(n_l \cdot n_{l-1}) $$ | $$ O(L \cdot n^2) $$         |
|                          | Suma del *bias* $$ b^{(l)} $$            | $$ O(n_l) $$               | $$ O(L \cdot n)$$            |
|                          | Aplicación de activación $$ f(Z) $$    | $$ O(n_l) $$               | $$ O(L \cdot n) $$            |
| **Backpropagation**      | Cálculo del error en la última capa   | $$ O(n_L) $$               | $$ O(n) $$                    |
|                          | Propagación del error hacia atrás     | $$ O(n_l \cdot n_{l-1}) $$ | $$ O(L \cdot n^2) $$          |
|                          | Actualización de pesos $$ W $$        | $$ O(n_l \cdot n_{l-1}) $$ | $$ O(L \cdot n^2) $$          |

---

En resumen, la estructura de datos propuesta es el **uso de vectores (matrices)**, ya que permiten un acceso **rápido y eficiente** a los elementos gracias a su almacenamiento **contiguo en memoria**. Esto optimiza el rendimiento en redes neuronales que utilizan un **tamaño fijo**, evitando la sobrecarga de estructuras dinámicas.  

Si bien las operaciones necesarias para cada algoritmo pueden ser **costosas computacionalmente**, la complejidad asintótica para ambos (**Forward Propagation y Backpropagation**) es de:  

$$
O(L \cdot n^2)
$$

donde **\( L \)** representa el número de capas de la red neuronal.  


## **Enunciado**
2. Por ultimo necesitamos representar la red en cada una de sus capas. Por facilidad les propongo el caso de estudio de una red neuronal que reconoce digitos (MNIST). Piense que nuestra red tiene una capa de entrada de 784 neuronas y una capa de salida de 10 neuronas. Piense ademas que tiene un número *h* de capas ocultas densamente conectadas(es decir, cada neurona de la capa *i - 1* tiene una conexión con cada neurona de la capa *i*). Proponga una implementación de la clase *NeuralNetwork* que permita representar esta red. Defina muy bien sus atributos y las operaciones que considere básicas para su evaluación.
3. Proponga una implementación de la función *Forward* que permita evaluar la red desde su capa de entrada hasta su capa de salida.
---
##**Solución**

## Clase Neurona
### Atributos:
- Bias  
- Vector de Pesos  
- Salida  
- Delta (para backpropagation)  

## Clase Capa
### Atributos:
- Vector de Neuronas  

## Clase NeuralNetwork
### Atributos:
- Vector de Capas (cada capa contiene varias neuronas)  
- Tasa de aprendizaje  

### Métodos:
#### `inicializar(numero_capas_ocultas, tamaño_capa_oculta)`
- Crear la **capa de entrada** con **784 neuronas**.  
- Crear **capas ocultas** con el número y tamaño especificado.  
- Crear la **capa de salida** con **10 neuronas**.  
- Asignar **pesos aleatorios** a cada conexión entre neuronas.  
- Asignar un **bias aleatorio** a cada neurona.  

#### `evaluar(entrada)`
- Para cada **capa en la red**:  
  - Para cada **neurona en la capa**:  
    - Calcular **suma ponderada** de entradas + bias.  
    - Aplicar **función de activación** (sigmoide).  
    - Guardar **salida de la neurona**.  
- Retornar **salida final**.  

#### `entrenar(entrada, salida_esperada)`
1. Evaluar la red con la entrada para obtener **salida real**.  
2. Calcular **error en la capa de salida**:  
   - `error = salida_esperada - salida_real`  
   - `delta_salida = error * derivada_sigmoide(salida_real)`  
3. Retropropagar error a capas ocultas:  
   - Para cada **capa desde la salida hasta la entrada**:  
     - Para cada **neurona en la capa**:  
       - Calcular **error basado en los pesos** de la siguiente capa.  
       - `delta = error * derivada_sigmoide(salida_neurona)`.  
4. Ajustar **pesos y bias**:  
   - Para cada **neurona en cada capa**:  
     - Para cada **peso**:  
       - `peso += tasa_aprendizaje * delta * salida_anterior`  
     - `bias += tasa_aprendizaje * delta`  

#### `derivada_sigmoide(x)`
- Retornar `x * (1 - x)`.  

#### `entrenar_red(datos_entrenamiento, etiquetas, epocas)`
- Para cada **época**:  
  - Para cada **muestra en los datos de entrenamiento**:  
    - Llamar a `entrenar` con la muestra y su etiqueta.  

#### `predecir(entrada)`
- Llamar a `evaluar` (forward) con la entrada.  
- Retornar la **neurona con el mayor valor de salida** (clase predicha).  

### Main
- Crear una **instancia de la red neuronal** con parámetros adecuados.  
- Generar **datos de entrenamiento** y **etiquetas**.  
- Llamar a `entrenar_red` con los datos y número de épocas.  
- Evaluar la red con **nuevas entradas**.  
- **Mostrar resultados**.  



In [None]:
%%writefile main.cpp
#include <iostream>
#include <vector>
#include <cmath>
#include <random>

using namespace std;

class NeuralNetwork
{
private:
    // Clase interna que representa una neurona
    class Neuron
    {
    public:
        double bias;            // Valor de sesgo de la neurona
        vector<double> weights; // Lista de pesos de las conexiones de entrada
        double output;          // Salida de la neurona tras la activación
        double delta;           // Delta para el ajuste en backpropagation

        // Constructor: inicializa pesos y bias aleatorios
        Neuron(int num_inputs)
        {
            random_device rd;
            mt19937 gen(rd());
            uniform_real_distribution<double> dist(-1.0, 1.0);
            bias = dist(gen);
            weights.resize(num_inputs); // Reserva espacio en el vector weights para almacenar num_inputs elementos. (Los inicializa con 0.0)
            for (double &w : weights)   // &w: Referencia a cada elemento dentro del vector weights.
            {
                w = dist(gen);
            }
        }

        // Calcula la salida de la neurona aplicando la función de activación (sigmoide)
        double activate(const vector<double> &inputs)
        {
            double sum = bias;
            for (unsigned int i = 0; i < inputs.size(); i++)
            {
                sum += inputs[i] * weights[i];
            }
            output = sigmoid(sum); // Aplicar sigmoide a la suma ponderada
            return output;
        }

        // Ajusta los pesos y el bias en base al error calculado y la tasa de aprendizaje
        void updateWeights(double learning_rate, const vector<double> &inputs)
        {
            for (unsigned int i = 0; i < weights.size(); i++)
            {
                weights[i] += learning_rate * delta * inputs[i]; // Ajuste de pesos
            }
            bias += learning_rate * delta; // Ajuste del bias
        }

    private:
        // Función de activación sigmoide
        static double sigmoid(double x)
        {
            return 1.0 / (1.0 + exp(-x));
        }
    };

    // Clase interna que representa una capa de la red neuronal
    class Layer
    {
    public:
        vector<Neuron> neurons; // Vector de neuronas en la capa

        // Constructor: Crea una capa con un número dado de neuronas
        Layer(int num_neurons, int num_inputs)
        {
            for (int i = 0; i < num_neurons; i++)
            {
                neurons.push_back(Neuron(num_inputs));
            }
        }

        // Realiza la propagación hacia adelante de la capa
        vector<double> forwardPass(const vector<double> &inputs)
        {
            vector<double> outputs;
            for (Neuron &neuron : neurons)
            {
                outputs.push_back(neuron.activate(inputs));
            }
            return outputs;
        }
    };
    // Atributos
    vector<Layer> layers; // Vector de capas de la red neuronal
    double learning_rate; // Tasa de aprendizaje

    // Función de activación sigmoide
    static double sigmoid(double x)
    {
        return 1.0 / (1.0 + exp(-x));
    }

    // Derivada de la función sigmoide
    static double sigmoidDerivative(double x)
    {
        return x * (1.0 - x);
    }

public:
    // Constructor: Inicializa la red neuronal con capas ocultas y tasa de aprendizaje
    NeuralNetwork(int hidden_layers, int hidden_neurons, double rate)
    {
        learning_rate = rate;
        // Capa oculta inicial con conexiones desde la entrada (784)
        layers.emplace_back(hidden_neurons, 784);

        // Capas ocultas intermedias
        for (int i = 1; i < hidden_layers; i++)
        {
            layers.emplace_back(hidden_neurons, hidden_neurons);
            //layers.push_back(Layer(hidden_neurons, hidden_neurons));
        }

        // Capa de salida con 10 neuronas y conexiones desde la última capa oculta
        layers.emplace_back(10, hidden_neurons);
    }

    // Propagación hacia adelante: calcula la salida de la red neuronal
    vector<double> forward(const vector<double> &input)
    {
        vector<double> activations = input;
        for (Layer &layer : layers)
        {
            activations = layer.forwardPass(activations);
        }
        return activations;
    }

    // Entrenamiento de la red neuronal usando backpropagation
    void train(const vector<double> &input, const vector<double> &expected_output)
    {
        // Paso 1: Propagación hacia adelante
        vector<double> output = forward(input);

        // Paso 2: Calcular el error y los deltas en la capa de salida
        for (unsigned int i = 0; i < layers.back().neurons.size(); i++)
        {
            double error = expected_output[i] - layers.back().neurons[i].output;
            layers.back().neurons[i].delta = error * sigmoidDerivative(layers.back().neurons[i].output);
        }

        // Paso 3: Retropropagación del error en capas ocultas
        for (int i = layers.size() - 2; i >= 0; i--)
        {
            for (unsigned int j = 0; j < layers[i].neurons.size(); j++)
            {
                double error_sum = 0.0;
                for (unsigned int k = 0; k < layers[i + 1].neurons.size(); k++)
                {
                    error_sum += layers[i + 1].neurons[k].weights[j] * layers[i + 1].neurons[k].delta;
                }
                layers[i].neurons[j].delta = error_sum * sigmoidDerivative(layers[i].neurons[j].output);
            }
        }

        // Paso 4: Actualizar pesos y bias en la primera capa
        for (unsigned int i = 0; i < layers[0].neurons.size(); i++)
        {
            layers[0].neurons[i].updateWeights(learning_rate, input);
        }

        // Paso 5: Actualizar pesos y bias en las capas ocultas y de salida
        for (unsigned int i = 1; i < layers.size(); i++)
        {
            for (unsigned int j = 0; j < layers[i].neurons.size(); j++)
            {
                vector<double> previousOutputs;
                for (const Neuron &neuron : layers[i - 1].neurons)
                {
                    previousOutputs.push_back(neuron.output);
                }
                layers[i].neurons[j].updateWeights(learning_rate, previousOutputs);
            }
        }
    }
};

int main()
{
    // Crear una red neuronal con 45 capas ocultas de 100 neuronas y tasa de aprendizaje de 0.03
    NeuralNetwork nn(45, 100, 0.03);

    // Crear un vector de entrada de tamaño 784 con valores de 0.5
    vector<double> input(784, 0.5);

    // Crear una salida esperada donde solo el índice 3 es 1.0 (etiqueta de clase 3)
    vector<double> expected_output(10, 0.0);
    expected_output[5] = 1.0;

    // Entrenar la red neuronal con la misma entrada 1000 veces
    for (int i = 0; i < 1000; i++)
    {
        nn.train(input, expected_output);
    }

    // Evaluar la red neuronal con la misma entrada después del entrenamiento
    vector<double> output = nn.forward(input);

    // Imprimir la salida de la red neuronal
    cout << "Salida de la red: ";
    for (double val : output)
    {
        cout << val << " ";
    }
    cout << endl;

    return 0;
}



Overwriting main.cpp


In [None]:
!g++ main.cpp -o main
!./main

Salida de la red: 0.0167087 0.0218052 0.0153408 0.0155954 0.0173472 0.984673 0.0145977 0.0146769 0.014641 0.0155058 
