In [1]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder

# Cargar el dataset iris
iris = load_iris()
X = iris.data
y = iris.target

# One-hot encoding para las etiquetas
encoder = OneHotEncoder(sparse=False)
y = encoder.fit_transform(y.reshape(-1, 1))

# Dividir en conjuntos de entrenamiento y prueba
X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(X, y, test_size=0.2, random_state=42)

# Función de activación escalón
def funcion_escalon(x):
    return np.where(x >= 0, 1, 0)

# Inicializar parámetros
tamano_entrada = X_entrenamiento.shape[1]
tamano_oculta1 = 5
tamano_oculta2 = 5
tamano_salida = y_entrenamiento.shape[1]

np.random.seed(42)
W1 = np.random.rand(tamano_entrada, tamano_oculta1) - 0.5
b1 = np.zeros((1, tamano_oculta1))
W2 = np.random.rand(tamano_oculta1, tamano_oculta2) - 0.5
b2 = np.zeros((1, tamano_oculta2))
W3 = np.random.rand(tamano_oculta2, tamano_salida) - 0.5
b3 = np.zeros((1, tamano_salida))

# Parámetros de entrenamiento
tasa_aprendizaje = 0.2
epocas = 1000

# Entrenamiento
for epoca in range(epocas):
    # Propagación hacia adelante
    Z1 = np.dot(X_entrenamiento, W1) + b1
    A1 = funcion_escalon(Z1)
    Z2 = np.dot(A1, W2) + b2
    A2 = funcion_escalon(Z2)
    Z3 = np.dot(A2, W3) + b3
    A3 = funcion_escalon(Z3)

    # Cálculo de la pérdida (entropía cruzada)
    m = y_entrenamiento.shape[0]
    logprobs = -np.sum(y_entrenamiento * np.log(A3 + 1e-8)) / m
    costo = logprobs

    # Propagación hacia atrás
    dZ3 = A3 - y_entrenamiento
    dW3 = np.dot(A2.T, dZ3) / m
    db3 = np.sum(dZ3, axis=0, keepdims=True) / m
    dZ2 = np.dot(dZ3, W3.T) * A2 * (1 - A2)
    dW2 = np.dot(A1.T, dZ2) / m
    db2 = np.sum(dZ2, axis=0, keepdims=True) / m
    dZ1 = np.dot(dZ2, W2.T) * A1 * (1 - A1)
    dW1 = np.dot(X_entrenamiento.T, dZ1) / m
    db1 = np.sum(dZ1, axis=0, keepdims=True) / m

    # Actualización de parámetros
    W1 -= tasa_aprendizaje * dW1
    b1 -= tasa_aprendizaje * db1
    W2 -= tasa_aprendizaje * dW2
    b2 -= tasa_aprendizaje * db2
    W3 -= tasa_aprendizaje * dW3
    b3 -= tasa_aprendizaje * db3

    if epoca % 100 == 0:
        print(f"Época {epoca}, Costo: {costo}")

# Predicciones en el conjunto de prueba
Z1 = np.dot(X_prueba, W1) + b1
A1 = funcion_escalon(Z1)
Z2 = np.dot(A1, W2) + b2
A2 = funcion_escalon(Z2)
Z3 = np.dot(A2, W3) + b3
A3 = funcion_escalon(Z3)
predicciones = np.argmax(A3, axis=1)
y_prueba_etiquetas = np.argmax(y_prueba, axis=1)

# Calcular precisión
precision = np.mean(predicciones == y_prueba_etiquetas)
print(f"Precisión: {precision}")




Época 0, Costo: 12.280453825968245
Época 100, Costo: 5.98672123503452
Época 200, Costo: 5.98672123503452
Época 300, Costo: -9.99999988922529e-09
Época 400, Costo: 6.2937325809337255
Época 500, Costo: 12.280453825968245
Época 600, Costo: 5.98672123503452
Época 700, Costo: -9.99999988922529e-09
Época 800, Costo: 6.2937325809337255
Época 900, Costo: 12.280453825968245
Precisión: 0.6333333333333333
