## Neuronas McCulloch-Pitts y Perceptrón

*   **Modelado de la Entrada**:
    
    *   **Neurona de McCulloch-Pitts**: Utiliza entradas binarias y pondera estas entradas antes de sumarlas. La decisión se basa en si la suma ponderada supera un umbral.
    *   **Perceptrón**: Similarmente, toma múltiples entradas, usualmente numéricas, y las pondera. Sin embargo, el Perceptrón incorpora un paso adicional de función de activación.
*   **Función de Activación**:
    
    *   **Neurona de McCulloch-Pitts**: No tiene una función de activación explícita; utiliza un umbral para determinar la salida binaria (0 o 1) basada en la suma ponderada.
    *   **Perceptrón**: Utiliza una función de activación, generalmente una función escalón, para determinar la salida. Si la suma ponderada es mayor que el umbral, la salida es 1; de lo contrario, es 0.
*   **Capacidad de Aprendizaje**:
    
    *   **Neurona de McCulloch-Pitts**: No tiene un mecanismo inherente para el aprendizaje; los pesos son fijos y determinados por el diseñador.
    *   **Perceptrón**: Incluye un algoritmo de aprendizaje que ajusta los pesos basándose en los errores de las predicciones.
*   **Uso y Aplicaciones**:
    
    *   **Neurona de McCulloch-Pitts**: Sirve como modelo básico para entender la lógica neuronal y se utiliza más en teoría que en aplicaciones prácticas.
    *   **Perceptrón**: Es un modelo más práctico, utilizado para tareas simples de clasificación y como base para modelos de redes neuronales más complejos.


| Característica | Neurona de McCulloch-Pitts | Perceptrón |
| --- | --- | --- |
| Entradas | Binarias | Numéricas |
| Ponderación de Entradas | Sí | Sí |
| Función de Activación | No (solo umbral) | Sí (función escalón) |
| Mecanismo de Aprendizaje | No | Sí |
| Uso y Aplicaciones | Teórico | Práctico, clasificación básica |


### Ejemplo M-P

![image-2.png](attachment:image-2.png)

El diagrama está dividido en dos partes principales: la agregación y la decisión.

1.  **Agregación**: Aquí es donde las entradas a la neurona (denotadas como X1,X2,X3,X4​) se combinan. Cada entrada puede estar asociada con un peso, aunque en este diagrama no se muestran los pesos. Las entradas son binarias, lo que significa que solo pueden tener un valor de 0 o 1. En este caso, X1​ y X4​ son 1, mientras que X2​ y X3​ son 0.
    
2.  **Decisión**: La función de agregación (denotada por la letra griega Σ (Z), que generalmente representa la suma) combina las entradas, y luego la función de activación (denotada por la letra a) decide el valor de salida de la neurona. En los modelos de McCulloch-Pitts, la función de activación es típicamente una función de umbral, lo que significa que la neurona se "activa" (es decir, da una salida de 1) si la suma ponderada de las entradas supera un cierto umbral. Si no, la salida es 0.
    

En el diagrama, hay dos posibles salidas para la función de decisión, "y = 1" o "y = 0", que indican el estado activado o no activado de la neurona, respectivamente.

### Ejemplo de Perceptron

![image.png](attachment:image.png)


*   **Entradas (X1, X2)**: Estos son los valores de entrada a la neurona, pueden ser datos crudos o salidas de otras neuronas en una red.
    
*   **Pesos (W1, W2)**: Son los parámetros del modelo que se multiplican por las entradas correspondientes. Son ajustables y su optimización es el objetivo principal del entrenamiento de la red.
    
*   **Sesgo (b)**: Es un parámetro adicional que permite que la función de activación se desplace hacia la izquierda o hacia la derecha, lo que ayuda a la neurona a ser más flexible.
    
*   **Suma ponderada (z(x)\=w1x1+w2x2+b)**: Representa la suma de las entradas ponderadas por sus respectivos pesos más el sesgo. Esta suma es entonces la entrada a la función de activación.
    
*   **Función de Activación (a)**: Una función que se aplica a la suma ponderada. Su propósito es introducir no linealidad en el modelo y ayudar a decidir si la neurona se 'activa' o no.
    
*   **Salida (y^\=hw(x))**: Es el resultado final de la neurona después de aplicar la función de activación a la suma ponderada. Esta salida puede ser utilizada como una entrada para otra neurona en una red más grande, o puede ser la salida final del modelo en una red de una sola capa.

Este esquema es típico de un Perceptrón simple o de una única neurona en una red neuronal más grande, y es fundamental para comprender cómo las redes neuronales procesan la información y aprenden de los datos.


## Perceptrón multicapa (MLP)

![image.png](attachment:image.png)

Un perceptrón multicapa (MLP) es una red neuronal artificial que consiste en múltiples capas de unidades, destinadas a modelar relaciones complejas en los datos. Funciona mediante la composición de diferentes transformaciones lineales y no lineales de los datos de entrada para realizar tareas de clasificación o regresión.

**Estructura del MLP:**

*   **Capa de Entrada**: Recibe las señales (características) del conjunto de datos. No realiza ningún cálculo, solo distribuye los datos a la siguiente capa.
    
*   **Capas Ocultas**: Estas capas realizan transformaciones matemáticas de las entradas. Cada neurona en estas capas aplica una suma ponderada de sus entradas y luego pasa el resultado a través de una función de activación no lineal.
    
*   **Capa de Salida**: La última capa que produce la salida del modelo. En una tarea de clasificación, por ejemplo, cada neurona en la capa de salida correspondería a una clase y la red se entrena para activar la neurona correspondiente a la clase correcta.
    

**Funciones de Activación:** Las funciones de activación no lineales permiten que el MLP aprenda relaciones no lineales complejas. Algunas funciones de activación comunes son:

*   **Sigmoide**: Produce una salida entre 0 y 1, útil para probabilidades.
    
*   **Tanh**: Versión escalada de la función sigmoide que produce salidas entre -1 y 1.
    
*   **ReLU (Unidad Lineal Rectificada)**: Da cero para entradas negativas y la misma entrada para entradas positivas. Es la más utilizada debido a su simplicidad computacional y buen rendimiento.
    

**Entrenamiento del MLP:** El entrenamiento se realiza a través del algoritmo de retropropagación (backpropagation) y el descenso de gradiente. Este proceso implica:

1.  Propagación hacia adelante de las entradas para generar una salida.
2.  Comparación de la salida con la salida deseada y cálculo del error.
3.  Propagación hacia atrás del error a través de la red para calcular el gradiente del error respecto a cada peso.
4.  Ajuste de pesos para minimizar el error, generalmente con descenso de gradiente o variantes como Adam o SGD.

**Prevención de Sobreajuste:** Para evitar el sobreajuste, se pueden utilizar técnicas como:

*   **Regularización (L1, L2)**: Penaliza los pesos grandes.
*   **Dropout**: Desactiva aleatoriamente neuronas durante el entrenamiento para evitar que la red dependa demasiado de cualquier conjunto de neuronas.
*   **Early Stopping**: Detiene el entrenamiento cuando el rendimiento en un conjunto de validación comienza a empeorar.


## Función de activación
En las redes neuronales artificiales, las funciones de activación son componentes clave que se utilizan en las neuronas o unidades (nodos) de la red para introducir no linealidad en el modelo. Estas funciones son esenciales para que la red pueda aprender y representar relaciones complejas en los datos, ya que sin ellas, la red sería equivalente a un modelo lineal, lo que limitaría su capacidad para aprender patrones y realizar tareas complejas.

La función de activación determina la salida de una neurona en función de la suma ponderada de sus entradas. Básicamente, toma una entrada y produce una salida basada en cierta regla matemática. Hay varias funciones de activación comunes en la inteligencia artificial, y algunas de las más utilizadas incluyen:

*  Función Sigmoide (Sigmoid): La función sigmoide aplana los valores de entrada en el rango de 0 a 1, lo que la hace útil en problemas de clasificación binaria. Su fórmula es f(x) = 1 / (1 + e^(-x)).
    
*   Función ReLU (Rectified Linear Unit): La función ReLU es una de las más populares en la actualidad. Es simple y eficiente, ya que mantiene los valores positivos sin cambios y establece los valores negativos en cero. Su fórmula es f(x) = max(0, x).
    
*   Función Tangente Hiperbólica (Tanh): La función tanh es similar a la sigmoide pero aplana los valores de entrada en el rango de -1 a 1. Su fórmula es f(x) = (e^(x) - e^(-x)) / (e^(x) + e^(-x)).
    
*   Función de Activación Lineal (Linear Activation): Esta función simplemente pasa la entrada sin ningún cambio, y es comúnmente utilizada en capas de salida de modelos de regresión.
    
*   Función Softmax: La función softmax se utiliza típicamente en la capa de salida de redes neuronales para problemas de clasificación multiclase. Convierte las puntuaciones de entrada en una distribución de probabilidad, donde la suma de todas las salidas es igual a 1.
  
La elección de la función de activación depende del tipo de problema que se esté abordando y de la arquitectura de la red neuronal. Experimentar con diferentes funciones de activación es común en el proceso de ajuste de hiperparámetros para encontrar la que funcione mejor para un problema específico. Cada función de activación tiene sus propias propiedades y ventajas, por lo que seleccionar la adecuada puede marcar una gran diferencia en el rendimiento de la red.

## Función de pérdida

Una función de pérdida, también conocida como función de costo, es un componente esencial en el aprendizaje automático y las redes neuronales, ya que mide la cantidad de error en las predicciones del modelo. Es una función matemática que calcula la diferencia entre la salida predicha por el modelo y los valores reales (o verdaderos) que estamos tratando de predecir.

**Propósito de la Función de Pérdida:** El propósito principal de una función de pérdida es guiar el algoritmo de aprendizaje al proporcionar una medida de cómo de bien está actuando el modelo. Durante el entrenamiento, el objetivo es minimizar esta función de pérdida, lo que implica ajustar los parámetros del modelo (como los pesos en una red neuronal) para reducir el error total de predicción.

**Tipos de Funciones de Pérdida:**

1.  **Error Cuadrático Medio (MSE)**: Utilizado para problemas de regresión. Es el promedio de los cuadrados de las diferencias entre las predicciones y los valores reales.
    
    ![image.png](attachment:image.png)
    
    donde ![image-2.png](attachment:image-2.png) es el valor real y ![image-3.png](attachment:image-3.png) es la predicción.
    
2.  **Entropía Cruzada**: Comúnmente usada en problemas de clasificación. Mide la diferencia entre dos distribuciones de probabilidad: la verdadera y la predicha.
    
    ![image-4.png](attachment:image-4.png)
    
    donde ![image-2.png](attachment:image-2.png)​ es la etiqueta verdadera (generalmente 0 o 1) y ![image-3.png](attachment:image-3.png)​ es la probabilidad predicha de pertenecer a la clase i.
    
3.  **Función de Pérdida Hinge**: Usada a menudo con máquinas de vectores de soporte (SVM) para problemas de clasificación.
    
4.  **Log-Loss**: Es un caso especial de entropía cruzada para el caso binario (dos clases).
    

**Minimización de la Función de Pérdida:** La minimización de la función de pérdida es un problema de optimización en el que se utilizan algoritmos como el Descenso de Gradiente (o sus variantes) para encontrar los parámetros del modelo que resultan en el menor valor posible de la función de pérdida.

**Importancia en el Aprendizaje Automático:** La elección de la función de pérdida es crucial ya que define el criterio que se usará para evaluar las predicciones del modelo. Diferentes problemas pueden requerir diferentes funciones de pérdida. Por ejemplo, si las penalizaciones por ciertos tipos de errores deberían ser mayores, la función de pérdida debe diseñarse para reflejar esto.

En resumen, la función de pérdida es el indicador de rendimiento que se utiliza durante el entrenamiento para evaluar y mejorar los modelos de aprendizaje automático.
