# Pytorch - Redes Neuronales

In [118]:
# Importa la biblioteca PyTorch, que se utiliza para construir y entrenar redes neuronales.
import torch
#Importa la biblioteca NumPy, que se utiliza para operaciones numéricas eficientes en Python.
import numpy as np
#Importa la biblioteca Pandas, que se utiliza para trabajar con estructuras de datos tabulares, como DataFrames.
import pandas as pd

Definición del modelo:

    Define la arquitectura de tu modelo, incluyendo el número de capas, el número de neuronas en cada capa y las funciones de activación.
  

    D_in: Representa la dimensión de entrada de la red neuronal, que es 784.
    H: Representa el número de neuronas en la capa oculta de la red, que es 55.
    Reducción de 784 a 55 características
    D_out: Representa la dimensión de salida de la red neuronal, que es 10.

In [119]:
#modelo de red neuronal artificial (RNA) utilizando el framework PyTorch.
D_in, H, D_out = 784, 55, 10
# se crea el modelo de red neuronal
# h=55  es el numero de neuronas en la capa oculta de la red neuronal
# se usan tres capas
model = torch.nn.Sequential(
    torch.nn.Linear(D_in, H),
    torch.nn.ReLU(),
    torch.nn.Linear(H, D_out),
)

# D_in, H1, H2, D_out = 784, 100, 50, 10
# model = torch.nn.Sequential(
#     torch.nn.Linear(D_in, H1),
#     torch.nn.ReLU(),
#     torch.nn.Linear(H1, H2),
#     torch.nn.ReLU(),
#     torch.nn.Linear(H2, D_out),
# )

se utiliza para verificar la forma de las salidas generadas por el modelo cuando se le proporciona un lote de 64 ejemplos de datos de entrada. Esto es útil para comprender la estructura de las salidas y asegurarse de que coincidan con las expectativas antes de continuar con el entrenamiento o la evaluación del modelo en un conjunto de datos real.

In [120]:
outputs = model(torch.randn(64, 784))#64 ejemplos
outputs.shape

torch.Size([64, 10])

In [121]:
if torch.cuda.is_available():
    device = torch.cuda.get_device_name(0)
    print("GPU disponible:", device)
else:
    print("No se detectó una GPU.")

GPU disponible: Tesla T4


Mueve el modelo de la CPU al dispositivo de GPU.

El resultado es la arquitectura del modelo con sus capas y conexiones.

In [122]:
model.to("cuda")

Sequential(
  (0): Linear(in_features=784, out_features=55, bias=True)
  (1): ReLU()
  (2): Linear(in_features=55, out_features=10, bias=True)
)

In [123]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


#### Procesamiento de datos

In [124]:
#data = np.loadtxt("/content/drive/MyDrive/Colab Notebooks/DATASETS/fashion-mnist_train.csv", delimiter=',',skiprows=1)
#data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/machine learning/Datasets/fashion-mnist_train.csv', nrows=5000)
data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/machine learning/Datasets/DigitRecognizer_extended_trainData.csv')
num_filas, num_columnas = data.shape

keys = data.keys()
print(keys)
print(f'Número de filas: {num_filas}\n')
print(f'Número de columnas: {num_columnas}\n')
num_labels = data['label'].nunique()
print("Número de etiquetas únicas para y:", num_labels)



Index(['label', 'pixel0', 'pixel1', 'pixel2', 'pixel3', 'pixel4', 'pixel5',
       'pixel6', 'pixel7', 'pixel8',
       ...
       'pixel774', 'pixel775', 'pixel776', 'pixel777', 'pixel778', 'pixel779',
       'pixel780', 'pixel781', 'pixel782', 'pixel783'],
      dtype='object', length=785)
Número de filas: 210000

Número de columnas: 785

Número de etiquetas únicas para y: 10


In [125]:
X, Y = data.iloc[:, 1:], data.iloc[:, 0]
print(X.shape)
print(Y.shape)

(210000, 784)
(210000,)


In [126]:
# normalización y split
#X_train, X_test, y_train, y_test = X[:50000] / 255., X[50000:] / 255., Y[:50000].astype(np.int), Y[50000:].astype(np.int)
from sklearn.model_selection import train_test_split

# Suponiendo que X es tu conjunto de características y Y es tu conjunto de etiquetas

# Dividir los datos en entrenamiento y prueba (80% - 20%)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Normalizar los datos, dividiendo por 255.
X_train = X_train / 255.0
X_test = X_test / 255.0

# Asegurarse de que las etiquetas sean de tipo entero
y_train = y_train.astype(np.int)
y_test = y_test.astype(np.int)



Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_train = y_train.astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_test = y_test.astype(np.int)


In [127]:
"""print("X_train:\n",X_train)
print("y_train:\n",y_train)
print("X_test:\n",X_test)
print("y_test:\n",y_test)"""

'print("X_train:\n",X_train)\nprint("y_train:\n",y_train)\nprint("X_test:\n",X_test)\nprint("y_test:\n",y_test)'

La función softmax se utiliza en la capa de salida de una red neuronal para convertir las puntuaciones o logits (números reales) en probabilidades que representan la confianza del modelo en cada clase.

La entropía cruzada se utiliza como función de pérdida en el proceso de entrenamiento de redes neuronales. La idea es minimizar esta pérdida para que las predicciones del modelo se aproximen lo más posible a las etiquetas reales.

In [128]:
# función de pérdida y derivada

def softmax(x):
    return torch.exp(x) / torch.exp(x).sum(axis=-1,keepdims=True)

def cross_entropy(output, target):
    logits = output[torch.arange(len(output)), target]
    loss = - logits + torch.log(torch.sum(torch.exp(output), axis=-1))
    loss = loss.mean()
    return loss

In [129]:
#print(X)

In [130]:
model.cuda()

Sequential(
  (0): Linear(in_features=784, out_features=55, bias=True)
  (1): ReLU()
  (2): Linear(in_features=55, out_features=10, bias=True)
)

In [131]:

X_t = torch.from_numpy(X_train.values).float().cuda()
Y_t = torch.from_numpy(y_train.values).long().cuda()

# bucle entrenamiento
epochs = 100
lr = 0.6
log_each = 10
l = []
for e in range(1, epochs + 1):


    # forward pass
    y_pred = model(X_t)

    # loss
    loss = cross_entropy(y_pred, Y_t)
    l.append(loss.item())

    # ponemos a cero los gradientes
    model.zero_grad()

    # Backprop (calculamos todos los gradientes automáticamente)
    loss.backward()

    # Actualización  de los pesos
    with torch.no_grad():
        for param in model.parameters():
            param -= lr * param.grad

    if not e % log_each:
        print(f"Epoch {e}/{epochs} Loss {np.mean(l):.5f}")

Epoch 10/100 Loss 1.67598
Epoch 20/100 Loss 1.33727
Epoch 30/100 Loss 1.10846
Epoch 40/100 Loss 0.97230
Epoch 50/100 Loss 0.86941
Epoch 60/100 Loss 0.78496
Epoch 70/100 Loss 0.72726
Epoch 80/100 Loss 0.67843
Epoch 90/100 Loss 0.63654
Epoch 100/100 Loss 0.60175


In [132]:
from sklearn.metrics import accuracy_score

def evaluate(x):
    model.eval()
    y_pred = model(x)
    y_probas = softmax(y_pred)
    return torch.argmax(y_probas, axis=1)
# Convierte X_test a un NumPy array
##
X_train_numpy = X_train.to_numpy()
X_test_numpy = X_test.to_numpy()
#y_pred = evaluate(torch.from_numpy(X_test_numpy).float().cuda())
#accuracy_score(y_test, y_pred.cpu().numpy())

#precisión del modelo en el conjunto de datos de prueba.

X_train_tensor = torch.from_numpy(X_train_numpy).float().cuda()
X_test_tensor = torch.from_numpy(X_test_numpy).float().cuda()
#print(X_test_tensor)
y_pred_train = evaluate(X_train_tensor)
y_pred = evaluate(X_test_tensor)
#print(y_pred)
test_accuracy = accuracy_score(y_train, y_pred_train.cpu().numpy())
print(f'Accuracy en los datos de entrenamiento: {test_accuracy:.4f}')

accuracy = accuracy_score(y_test, y_pred.cpu().numpy())
print(f"Accuracy en los datos de prueba: {accuracy:.4f}")


Accuracy en los datos de entrenamiento: 0.9180
Accuracy en los datos de prueba: 0.9180
