# Neurona artificial

Una **neurona artificial** es un modelo matemático que imita el comportamiento básico de una neurona biológica. 

Su formulación consiste en tomar una combinación lineal de entradas, aplicar un sesgo (bias) y, posteriormente, transformar ese valor mediante una función de activación. 


### 1. **Fórmula básica con suma ponderada y función de activación**

La forma más habitual es:

$$
y = f\left(\sum_{i=1}^{n} w_i\, x_i + b\right)
$$

**Donde:**

- **$x_i$**:  
  *Nombre:* Entrada (o característica) número $i$.  
  *Significado:* Es el valor de la $i$-ésima característica que se suministra a la neurona. Por ejemplo, en procesamiento de imágenes, cada $x_i$ podría representar el valor de un píxel. En datasets tabulares puede ser una columna numérica como por ejemplo una edad.

- **$w_i$**:  
  *Nombre:* Peso asociado a la entrada $x_i$.  
  *Significado:* Indica la importancia o contribución de la entrada $x_i$ a la salida final. Un peso alto amplifica la entrada, mientras que un peso bajo la atenúa. Sin los pesos, todas las entradas tendrían la misma importancia, lo que limitaría la capacidad de la red para aprender y distinguir entre diferentes patrones. Ajustando los pesos durante el entrenamiento, la red "aprende" qué características son más relevantes para resolver la tarea específica.

- **$n$**:  
  *Nombre:* Número total de entradas.  
  *Significado:* Es la cantidad de señales de entrada que recibe la neurona.

- **$b$**:  
  *Nombre:* Sesgo (o bias).  
  *Significado:* Es un término adicional que permite desplazar la función de activación. Sirve para ajustar la posición del límite de decisión y, en conjunto con los pesos, ayuda a que la neurona se adapte mejor a los datos. El sesgo actúa de manera similar al intercepto en una regresión lineal. Permite que la función de activación se desplace hacia la izquierda o derecha. Esto es crucial para que la neurona pueda ajustar su salida incluso cuando las entradas son cero o tienen valores pequeños.

- **$f$**:  
  *Nombre:* Función de activación.  
  *Significado:* Es una función no lineal que transforma la suma ponderada de las entradas en la salida de la neurona. Entre las funciones más comunes se encuentran:
  - **Función escalón (o función de Heaviside):**  
    $$
    f(z) =
    \begin{cases}
      1, & \text{si } z \ge 0 \\
      0, & \text{si } z < 0
    \end{cases}
    $$
  - **Función sigmoide:**  
    $$
    f(z) = \frac{1}{1+e^{-z}}
    $$
  - **ReLU (Rectified Linear Unit):**  
    $$
    f(z) = \max(0, z)
    $$
  - Entre otras.

- **$y$**:  
  *Nombre:* Salida de la neurona.  
  *Significado:* Es el valor resultante después de aplicar la función de activación a la suma ponderada de las entradas y el sesgo.


### 2. **Representación vectorial**

Usando notación de vectores, la fórmula se puede escribir de manera más compacta:

$$
y = f\left(\mathbf{w}^\top \mathbf{x} + b\right)
$$

**Donde:**

- **$\mathbf{x}$**:  
  *Nombre:* Vector de entradas.  
  *Significado:* $\mathbf{x} = [x_1, x_2, \dots, x_n]^\top$ representa todas las señales de entrada de la neurona.

- **$\mathbf{w}$**:  
  *Nombre:* Vector de pesos.  
  *Significado:* $\mathbf{w} = [w_1, w_2, \dots, w_n]^\top$ contiene los pesos asociados a cada entrada.

- **$\mathbf{w}^\top \mathbf{x}$**:  
  *Nombre:* Producto escalar.  
  *Significado:* Es la suma ponderada de las entradas, equivalente a $\sum_{i=1}^{n} w_i\, x_i$.

- **$b$**, **$f$** y **$y$** conservan los mismos significados que anteriormente.



### **Ejemplo con función escalón**

Si se utiliza la función escalón para obtener una salida binaria (por ejemplo, en el caso del **Perceptrón**), la fórmula se escribe como:

$$
y =
\begin{cases}
1, & \text{si } \sum_{i=1}^{n} w_i\, x_i + b \ge 0 \\
0, & \text{si } \sum_{i=1}^{n} w_i\, x_i + b < 0
\end{cases}
$$

Aquí, la función de activación $f$ es la función escalón, que devuelve 1 si la suma ponderada (más el sesgo) supera o iguala 0, y 0 en caso contrario.



### **Ejemplo con función sigmoide**

Para modelos que requieren una salida continua en el rango (0, 1), se suele usar la función sigmoide:

$$
y = \sigma\left(\sum_{i=1}^{n} w_i\, x_i + b\right) = \frac{1}{1 + e^{-\left(\sum_{i=1}^{n} w_i\, x_i + b\right)}}
$$

Donde:

- **$\sigma(z)$**:  
  *Nombre:* Función sigmoide.  
  *Significado:* Transforma cualquier valor real $z$ en un valor entre 0 y 1, lo que es útil para modelar probabilidades o para redes neuronales en tareas de clasificación binaria.

* Diferencia entre la función escalón y la función sigmoide:
  * Escalón: 
    * Devuelve valores binarios discretos (por ejemplo, 0 o 1) de manera abrupta. Si la entrada es mayor o igual a un umbral (usualmente 0), devuelve 1; de lo contrario, devuelve 0. Esto implica que no ofrece una estimación de probabilidad, sino una decisión directa.
    * Es discontinua en el punto de umbral y no tiene una transición suave entre los valores 0 y 1. Esto significa que pequeños cambios en la entrada alrededor del umbral pueden provocar cambios drásticos en la salida.
    * No es diferenciable en el punto de umbral (y es constante en cada intervalo), lo que dificulta el uso de métodos de optimización basados en gradiente (como el descenso del gradiente) durante el entrenamiento de modelos.
  * Sigmoide:
    * Devuelve un valor continuo en el intervalo (0, 1), lo que permite interpretar la salida como la probabilidad de pertenecer a la clase positiva. Por ejemplo, una salida de 0.8 puede interpretarse como un 80% de probabilidad de que la muestra pertenezca a la clase 1.
    * Es una función suave y continua. La transición gradual de 0 a 1 permite que pequeños cambios en la entrada se reflejen en pequeños cambios en la salida, lo que es útil para modelar incertidumbre y para interpretar la salida como una probabilidad.
    * Es diferenciable en todos sus puntos, lo que permite calcular gradientes de manera eficiente. Esto es crucial para algoritmos como la retropropagación en redes neuronales, facilitando el ajuste de los parámetros durante el entrenamiento.

In [None]:
import numpy as np

# Ejemplo de una neurona con una sola columna X y sin aplicar función de activación
def neurona(X, w, b):
     return w * X + b
 
X = np.array([1, 2, 3, 4, 5])  # Una única característica para varias muestras.
w = 0.5
b = 1.0

neurona(X, w, b)

array([1.5, 2. , 2.5, 3. , 3.5])

In [None]:
# Ejemplo de una neurona con una sola columna X y aplicando función de activación sigmoide
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def neurona(X, w, b):
    z = w * X + b
    return sigmoid(z) # ideal para clasificación binaria

neurona(X, w, b)

array([0.81757448, 0.88079708, 0.92414182, 0.95257413, 0.97068777])

In [None]:
# Ejemplo con múltiples columnas en la X sin función de activación
def neurona(X, w, b):
    return np.dot(X, w) + b

X = np.array([
    [1, 2],
    [3, 4],
    [5, 6]
])
w = np.array([0.5, -0.5]) # al haber dos columnas creamos dos pesos weight
# w = np.array([0.1, 0.2, -1.0, 4.0]) # ejemplo si tenemos 4 columnas, pueden ser tanto positivos como negativos
b = 1.0
neurona(X, w, b)

array([0.5, 0.5, 0.5])

In [4]:
# Ejemplo con múltiples columnas en la X con función de activación
def neurona(X, w, b):
    z = np.dot(X, w) + b
    return sigmoid(z)

neurona(X, w, b)

array([0.62245933, 0.62245933, 0.62245933])

En total siempre habrá un peso w para cada columna de la X.

Por ejemplo si tenemos 10 columnas en la X, tendremos 10 pesos w, uno para cada columna