<a href="https://colab.research.google.com/github/jserrataylor/cursoAI/blob/main/Neurona_Simple.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Perceptrón

## **El Perceptrón: Una Introducción a las Redes Neuronales Artificiales**

El perceptrón, creado en 1957 por Frank Rosenblatt, es un modelo fundamental en el aprendizaje automático y un bloque básico en las redes neuronales artificiales. Este algoritmo simple para el aprendizaje supervisado de clasificadores binarios marca el inicio en el estudio de la inteligencia artificial, jugando un papel crucial en la comprensión de conceptos más avanzados.

![Grafica](https://miro.medium.com/v2/resize:fit:600/format:webp/0*k6nvli_G-bz3J2zB.jpg)

## **Comparación con la Neurona Biológica**

El perceptrón se asemeja a una neurona biológica en su estructura y función:

- **Estructura:**
  - Neurona Biológica: Compuesta por dendritas, cuerpo celular y axón.
  - Perceptrón: Incluye entradas (similares a dendritas), pesos (eficacia sináptica), función de suma (integración de señales) y función de activación (generación de potencial de acción).

- **Procesamiento de Información:**
  - Neurona Biológica: Suma analógica de señales y generación de potencial de acción.
  - Perceptrón: Suma ponderada de entradas y aplicación de una función de activación.

- **Aprendizaje:**
  - Neurona Biológica: Ajuste de conexiones sinápticas (plasticidad sináptica).
  - Perceptrón: Ajuste de pesos según un algoritmo de aprendizaje para minimizar errores.

- **Función y Limitaciones:**
  - Neurona Biológica: Funciones variadas en un sistema biológico complejo.
  - Perceptrón: Clasificación y predicción simples; limitado a problemas linealmente separables sin redes más complejas.

![Gráfica](https://d2f0ora2gkri0g.cloudfront.net/dd/db/dddb807b-a15b-457d-a21a-8a9e6f029a3e.png)

A pesar de sus diferencias, el perceptrón sigue siendo una herramienta poderosa, inspirada por la eficiencia y capacidad de procesamiento de las neuronas biológicas.

## **Representación Esquemática del Perceptrón**

Una representación típica del perceptrón incluye nodos de entrada, pesos, un sumador y una función de activación. Estas partes simulan el proceso de recepción, ponderación y procesamiento de señales en la neurona artificial.

![Gráfica](https://www.alexisalulema.com/wp-content/uploads/2022/09/image-2-1536x808.png)

## **Características Clave del Perceptrón**

1. **Estructura Básica**: Entradas múltiples con pesos ajustables, suma ponderada y función de activación binaria.

- **Nodos de entrada (x1, x2, x3, ..., xm)**: Estos círculos amarillos representan las neuronas de entrada, que reciben las señales a procesar. En este caso, hay m entradas, lo que sugiere que el perceptrón puede procesar m características diferentes.
- **Pesos (w1, w2, w3, ..., wm)**: Los círculos color salmón a la derecha de las entradas representan los pesos asignados a cada señal de entrada. Estos pesos son los factores que se ajustan durante el proceso de aprendizaje de la red neuronal y determinan la importancia de cada entrada en la salida del perceptrón.
- **Sumatoria (Σ)**: El círculo grande azul en el centro es el sumador. Su función es multiplicar cada entrada (xi) por su peso correspondiente (wi) y sumar todos estos productos. Esto se conoce como la suma ponderada de las entradas.
- **Función de activación**: El cuadro rojo en el extremo derecho representa la función de activación que se aplica a la suma ponderada de las entradas. La línea negra dentro del cuadro rojo es un gráfico de una función escalón, que es una función de activación común en los perceptrones. Esta función convierte la suma ponderada en una salida binaria, generalmente 0 o 1, que se utiliza para la clasificación.

2. **Proceso de Aprendizaje**: Entrenamiento con ejemplos y ajuste de pesos mediante la regla de aprendizaje del perceptrón.

3. **Limitaciones**: Solo clasifica datos linealmente separables y no resuelve problemas no lineales.
4. **Evolución y Uso**: Fundamento para redes neuronales más complejas y diversas aplicaciones en inteligencia artificial.

## **Referencias**

Sgantzos, K., Grigg, I., & Al Hemairy, M. (2022). Multiple Neighborhood Cellular Automata as a Mechanism for Creating an AGI on a Blockchain. Journal of Risk and Financial Management, 15(8). https://doi.org/10.3390/jrfm15080360

### **¿Cómo funciona un Perceptrón? - Demostración en una Hoja de Cálculo (Google Sheets)**

[Demostración de un **Perceptrón** en una Hoja de Cálculo](https://docs.google.com/spreadsheets/d/1tSarA8ixoJvTtZiYbjf9D8QtuRNind-Ei3mVr6Xz-1w/edit?usp=sharing)

## **Ejercicios demostrativo del entrenamiento de un Perceptrón**

In [None]:
class SimpleNeuron:

    def __init__(self, learning_rate, initial_weights):
        """
        Inicializa la neurona con una tasa de aprendizaje y pesos iniciales.
        """
        self.learning_rate = learning_rate
        self.weights = initial_weights

    def activate(self, weighted_sum):
        """
        Función de activación: devuelve 1 si la suma ponderada es positiva y 0 en caso contrario.
        """
        return 1 if weighted_sum > 0 else 0

    def predict(self, inputs):
        """
        Realiza una predicción basada en las entradas y los pesos actuales.
        """
        weighted_sum = sum([i*w for i, w in zip(inputs, self.weights)])
        return self.activate(weighted_sum)

    def train(self, inputs, desired_output):
        """
        Entrena la neurona ajustando los pesos basados en el error entre la salida deseada y la predicción.
        """
        prediction = self.predict(inputs)
        error = desired_output - prediction
        self.weights = [w + self.learning_rate * error * i for w, i in zip(self.weights, inputs)]
        return error, self.weights

# Datos iniciales
initial_weights = [1.0, 1.0, 1.0]
learning_rate = 0.5
inputs_outputs = [
    ([1, 0, 0], 0),
    ([1, 1, 0], 0),
    ([1, 0, 1], 0),
    ([1, 1, 1], 1)
]

# Crear una neurona
neuron = SimpleNeuron(learning_rate, initial_weights)

# Simular la evolución de la neurona durante varias épocas
epochs = 6
for epoch in range(epochs):
    print(f"Época {epoch + 1}:")
    for inputs, desired_output in inputs_outputs:
        error, new_weights = neuron.train(inputs, desired_output)
        print(f"Entrada: {inputs[1:]} -> Pesos: {new_weights} -> Error: {error}")
    print("------")


Época 1:
Entrada: [0, 0] -> Pesos: [0.5, 1.0, 1.0] -> Error: -1
Entrada: [1, 0] -> Pesos: [0.0, 0.5, 1.0] -> Error: -1
Entrada: [0, 1] -> Pesos: [-0.5, 0.5, 0.5] -> Error: -1
Entrada: [1, 1] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
------
Época 2:
Entrada: [0, 0] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [1, 0] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [0, 1] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [1, 1] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
------
Época 3:
Entrada: [0, 0] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [1, 0] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [0, 1] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [1, 1] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
------
Época 4:
Entrada: [0, 0] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [1, 0] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [0, 1] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
Entrada: [1, 1] -> Pesos: [-0.5, 0.5, 0.5] -> Error: 0
------
Época 5:
Entrada: [0, 0] -> Pesos: [-0.5, 0.5, 0.5] -> 

In [None]:
import numpy as np

# Definir la tasa de aprendizaje
learning_rate = 0.5

# Inicializar los pesos, por ejemplo, a 1
weights = np.array([1.0, 1.0, 1.0])  # W0 es el sesgo, W1 y W2 son los pesos

# Definir la función de activación, usaremos una función escalón
def activation_function(x):
    return 1 if x >= 0 else 0

# Función para el entrenamiento del perceptrón
def train_perceptron(inputs, targets, epochs):
    global weights
    for epoch in range(epochs):
        epoch_errors = []
        for input, target in zip(inputs, targets):
            # Calcula la suma ponderada
            weighted_sum = np.dot(input, weights[1:]) + weights[0]  # W0 es el sesgo
            # Calcula la salida de la función de activación
            output = activation_function(weighted_sum)
            # Calcula el error
            error = target - output
            epoch_errors.append(error)
            # Actualiza los pesos y el sesgo
            weights[1:] += learning_rate * error * input
            weights[0] += learning_rate * error
        # Imprimir la información de la época
        epoch_accuracy = (np.array(epoch_errors) == 0).mean()
        print(f'Época {epoch+1} - Error: {np.sum(np.abs(epoch_errors))}, Precisión: {epoch_accuracy}')
        # Almacenar métricas de la época
        epoch_metrics.append((epoch+1, np.sum(np.abs(epoch_errors)), epoch_accuracy))

    return epoch_metrics

# Datos de entrenamiento
inputs = np.array([
    # X1, X2
    [0, 0],
    [1, 0],
    [0, 1],
    [1, 1],
])

# Etiquetas objetivo (Lo que queremos [1])
targets = np.array([0, 0, 0, 1])

# Lista para almacenar las métricas de cada época
epoch_metrics = []

# Entrenar el perceptrón
metrics = train_perceptron(inputs, targets, epochs=6)

# Imprimir los pesos finales y las métricas de cada época
weights, metrics


Época 1 - Error: 3, Precisión: 0.25
Época 2 - Error: 2, Precisión: 0.5
Época 3 - Error: 3, Precisión: 0.25
Época 4 - Error: 2, Precisión: 0.5
Época 5 - Error: 1, Precisión: 0.75
Época 6 - Error: 0, Precisión: 1.0


(array([-1.5,  0.5,  1. ]),
 [(1, 3, 0.25),
  (2, 2, 0.5),
  (3, 3, 0.25),
  (4, 2, 0.5),
  (5, 1, 0.75),
  (6, 0, 1.0)])

## Tipos de Redes Neuronales

Algunos de los tipos más comunes de redes neuronales y sus diferencias principales. Cada tipo de red neuronal es adecuado para diferentes tipos de problemas, basándose en la naturaleza de los datos y el tipo de tarea a realizar. Por ejemplo, las CNNs son ideales para datos visuales, mientras que las RNN y sus variantes son mejores para datos secuenciales como texto o series temporales.

1. **Redes Neuronales Densas o Completamente Conectadas (Fully Connected Neural Networks)**
   - **Descripción**: En estas redes, cada neurona en una capa está conectada a todas las neuronas en la capa siguiente.
   - **Uso**: Son útiles para problemas de clasificación y regresión general, donde la relación entre las entradas y las salidas no depende de datos espaciales o temporales.
   - **Diferencia**: No consideran la relación espacial o temporal entre las entradas.

2. **Redes Neuronales Convolucionales (Convolutional Neural Networks, CNNs)**
   - **Descripción**: Se especializan en procesar datos con una estructura en forma de rejilla, como imágenes.
   - **Uso**: Son ideales para tareas de visión computacional como reconocimiento de imágenes, análisis de video y clasificación de imágenes.
   - **Diferencia**: Utilizan capas convolucionales que aplican filtros para capturar características espaciales.

3. **Redes Neuronales Recurrentes (Recurrent Neural Networks, RNNs)**
   - **Descripción**: Diseñadas para trabajar con secuencias de datos, tienen conexiones recurrentes que permiten información persistente.
   - **Uso**: Se utilizan para tareas como el procesamiento del lenguaje natural, reconocimiento de voz y análisis de series temporales.
   - **Diferencia**: Capaces de manejar secuencias de datos y recordar información previa gracias a sus conexiones recurrentes.

4. **Long Short-Term Memory Networks (LSTM)**
   - **Descripción**: Una variante avanzada de las RNN, diseñada para evitar el problema del desvanecimiento del gradiente al procesar secuencias largas.
   - **Uso**: Útiles en aplicaciones similares a las RNN, pero mejoran el rendimiento en secuencias largas.
   - **Diferencia**: Incorporan celdas especiales que pueden mantener información durante períodos más largos y regular el flujo de información.

5. **Redes Neuronales de Memoria a Corto Plazo (Short-Term Memory Networks, GRU)**
   - **Descripción**: Similar a LSTM, pero con una estructura más simplificada.
   - **Uso**: Procesamiento de secuencias donde se requiere eficiencia computacional.
   - **Diferencia**: Ofrecen un balance entre el poder de modelado de LSTM y la eficiencia de las RNN tradicionales.

6. **Autoencoders**
   - **Descripción**: Redes diseñadas para aprender representaciones codificadas (comprimidas) de los datos de entrada.
   - **Uso**: Utilizados para reducción de dimensionalidad, des-ruido de datos y generación de nuevas instancias de datos.
   - **Diferencia**: Su objetivo es reproducir la entrada en la salida, aprendiendo una representación compacta en el proceso.

7. **Redes Neuronales Generativas Antagónicas (Generative Adversarial Networks, GANs)**
   - **Descripción**: Consisten en dos redes, una generativa y otra discriminativa, que se entrenan en conjunto.
   - **Uso**: Creación de contenido nuevo (como imágenes, música, texto), mejoramiento de imágenes, y más.
   - **Diferencia**: Utilizan un enfoque de aprendizaje adversario donde dos redes se entrenan en competición.

8. **Redes Neuronales de Gráficos (Graph Neural Networks, GNNs)**
   - **Descripción**: Diseñadas para trabajar con datos en forma de gráficos.
   - **Uso**: Análisis de redes sociales, sistemas de recomendación, y análisis de estructuras moleculares.
   - **Diferencia**: Capaces de manejar datos estructurados como gráficos, donde las relaciones entre los nodos son clave.

## **Transformers**

Los **Transformers** representan un tipo avanzado de arquitectura de red neuronal que ha revolucionado particularmente el campo del procesamiento del lenguaje natural (PLN), aunque también se han aplicado en otras áreas como la visión por computadora.

### Características Principales de los Transformers

1. **Mecanismo de Atención**:
   - Los Transformers se basan en un mecanismo de atención, específicamente la "atención auto-dirigida", que les permite ponderar la importancia de diferentes partes de la entrada de manera dinámica. Esto les permite centrarse en las partes más relevantes de los datos para una tarea específica.

2. **Paralelismo y Eficiencia**:
   - A diferencia de las RNN y LSTM, los Transformers no procesan los datos secuencialmente, lo que permite un mayor paralelismo en el entrenamiento y la inferencia. Esto los hace particularmente eficientes en el procesamiento de grandes conjuntos de datos.

3. **Flexibilidad y Generalización**:
   - Los Transformers han demostrado ser increíblemente flexibles y eficaces en una amplia gama de tareas de PLN, como la traducción automática, la generación de texto, la comprensión de lectura, y más. Su capacidad para manejar contextos largos y su eficiencia en capturar relaciones complejas los hace adecuados para tareas de PLN avanzadas.

4. **Arquitectura de Encoder-Decoder**:
   - Muchos modelos basados en Transformers utilizan una arquitectura de encoder-decoder. El encoder procesa la entrada y el decoder genera la salida. Esta estructura es especialmente útil en tareas como la traducción automática, donde la entrada y la salida son secuencias de diferentes longitudes.

5. **Escalabilidad y Modelos Preentrenados**:
   - Los Transformers escalan muy bien con grandes cantidades de datos y recursos computacionales, lo que ha llevado al desarrollo de modelos preentrenados de gran tamaño (como GPT-3, BERT, y otros) que pueden ser afinados para tareas específicas con resultados impresionantes.

### Diferencias con Otras Redes Neuronales

- **Atención vs. Recurrencia/Convolución**: Mientras que las RNN y las CNN se basan en la recurrencia y las convoluciones respectivamente, los Transformers dependen principalmente del mecanismo de atención para procesar secuencias de datos.
- **Procesamiento Paralelo**: A diferencia de las RNN, que procesan secuencias de manera secuencial, los Transformers pueden procesar todos los elementos de una secuencia en paralelo, lo que los hace más rápidos y eficientes para ciertas aplicaciones, especialmente en hardware moderno.
- **Capacidad de Manejar Contextos Largos**: Los Transformers son especialmente buenos en manejar contextos largos, lo que los hace adecuados para tareas de PLN donde la comprensión del contexto extenso es crucial.

### Aplicaciones

- **Procesamiento del Lenguaje Natural**: Traducción automática, generación de texto, respuesta a preguntas, resumen de texto, y más.
- **Visión por Computadora**: Recientemente, los Transformers también han encontrado aplicaciones en el análisis de imágenes y videos, donde se utilizan para tareas como el reconocimiento de objetos y la segmentación de imágenes.

Los Transformers han marcado un antes y un después en el campo de la inteligencia artificial, especialmente en PLN, debido a su capacidad para manejar eficientemente grandes cantidades de datos y capturar relaciones complejas en los mismos.