Crear canva

In [3]:
pip install torch torchvision torchaudio

Note: you may need to restart the kernel to use updated packages.


pip install --upgrade torch torchvision torchaudio

In [3]:
import torch

In [1]:
from ipycanvas import Canvas
from PIL import Image, ImageDraw
import numpy as np
import os

# Crear lienzo interactivo
canvas = Canvas(width=200, height=200, background_color="white", sync_image_data = True)

# Función para capturar el dibujo como imagen
def get_drawing():
    # Convierte la imagen del lienzo a una matriz NumPy y luego a imagen de escala de grises    
    img = Image.fromarray(canvas.get_image_data(0, 0, 200, 200))
    # Convertir la imagen a escala de grises (L)
    img = img.convert("L")
    img = img.resize((28, 28))  # Redimensionar a 28x28 píxeles
    # Convertir la imagen en escala de grises a una matriz NumPy
    return np.array(img)

# Función para guardar el dibujo
def save_drawing(class_name, count):
    # Crear directorio si no existe
    os.makedirs(f"data/{class_name}", exist_ok=True)
    # Obtener el dibujo del lienzo
    img = get_drawing()
    
    # Guardar la imagen en el directorio especificado
    filepath = f"data/{class_name}/{count}.png"
    Image.fromarray(img).save(filepath)
    print(f"Dibujo guardado en: {filepath}")


# Variable para almacenar la última posición
last_x, last_y = None, None

# Función para dibujar en el lienzo
def on_mouse_down(x, y):
    global last_x, last_y
    canvas.fill_style = "black"
    last_x, last_y = x, y  # Guardar la posición inicial cuando se presiona el botón del mouse

def on_mouse_move(x, y):
    global last_x, last_y
    if last_x is not None and last_y is not None:
        canvas.stroke_style = "black"
        canvas.line_width = 5
        canvas.begin_path()
        canvas.move_to(last_x, last_y)
        canvas.line_to(x, y)
        canvas.stroke()
        last_x, last_y = x, y  # Actualizar la posición de la última coordenada

def on_mouse_up(x, y):
    global last_x, last_y
    last_x, last_y = None, None  # Resetear cuando se suelta el mouse

# Asignar los eventos de mouse al lienzo
canvas.on_mouse_down(on_mouse_down)
canvas.on_mouse_move(on_mouse_move)
canvas.on_mouse_up(on_mouse_up)

# Mostrar el lienzo
display(canvas)


Canvas(height=200, sync_image_data=True, width=200)

In [3]:
save_drawing("circle", 5)

Dibujo guardado en: data/circle/5.png


Generar Imágenes

In [5]:
# Generar formas sintéticas

def generate_synthetic_data(class_name, count):
    os.makedirs(f"data/{class_name}", exist_ok=True)
    for i in range(count):
        # Crear una imagen en blanco
        img = Image.new("L", (28, 28), "white")
        draw = ImageDraw.Draw(img)
        
        if class_name == "circle":
            draw.ellipse((5, 5, 23, 23), outline="black", fill="black")
        elif class_name == "square":
            draw.rectangle((5, 5, 23, 23), outline="black", fill="black")
        elif class_name == "triangle":
            draw.polygon([(14, 5), (5, 23), (23, 23)], outline="black", fill="black")
        elif class_name == "star":
            draw.polygon([(14, 5), (10, 20), (5, 14), (23, 14), (18, 20)], outline="black", fill="black")

        # Guardar la imagen
        filepath = f"data/{class_name}/{i}.png"
        img.save(filepath)
        #print(f"Dibujo sintético guardado en: {filepath}")

# Generar 100 imágenes sintéticas por clase
generate_synthetic_data("circle", 100)
generate_synthetic_data("square", 100)
generate_synthetic_data("triangle", 100)
generate_synthetic_data("star", 100)


Cargar imágenes en el Dataset

In [7]:
import os
import glob
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader
from PIL import Image

class DrawingDataset(Dataset):
    def __init__(self, root_dir, transform=None):
        self.root_dir = root_dir
        self.transform = transform
        self.filepaths = glob.glob(os.path.join(root_dir, "*", "*.png"))

        if not self.filepaths:
            raise ValueError(f"No se encontraron imágenes en {root_dir}. Verifica la estructura del directorio.")

        self.labels = [os.path.basename(os.path.dirname(path)) for path in self.filepaths]
        self.label_to_idx = {label: idx for idx, label in enumerate(set(self.labels))}

    def __len__(self):
        return len(self.filepaths)


    def __getitem__(self, idx):
            # Abrir imagen y convertirla a escala de grises
            img = Image.open(self.filepaths[idx]).convert("L")  # Convertir a escala de grises (1 canal)
            label = self.label_to_idx[self.labels[idx]]
            
            # Aplicar transformaciones
            if self.transform:
                img = self.transform(img)
            else:
                # Convertir a tensor si no hay transformaciones
                img = transforms.ToTensor()(img)
            
            return img, label
# Transformaciones para normalizar imágenes
transform = transforms.Compose([
    transforms.Resize((28, 28)),       # Asegurar tamaño 28x28
    transforms.ToTensor(),            # Convertir a tensor
    transforms.Normalize((0.5,), (0.5,))  # Normalizar
])

# Cargar el dataset
dataset = DrawingDataset(root_dir="data", transform=transform)
dataloader = DataLoader(dataset, batch_size=16, shuffle=True)


Paso 3: Crear y Entrenar el Modelo CNN¶
Definimos un modelo básico en PyTorch.

In [11]:
import torch.nn.functional as F
# from torch.nn import functional as F

# Verificar si GPU está disponible
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando dispositivo: {device}")

# Enviar el modelo al dispositivo
model.to(device)

# Función de entrenamiento
def train_model(model, dataloader, criterion, optimizer, epochs=5):
    model.train()  # Modo entrenamiento
    for epoch in range(epochs):
        running_loss = 0.0
        correct = 0
        total = 0
        
        for images, labels in dataloader:
            # Enviar imágenes y etiquetas al dispositivo
            images, labels = images.to(device), labels.to(device)
            
            # Forward
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            
            # Backward y optimización
            loss.backward()
            optimizer.step()
            
            # Estadísticas
            running_loss += loss.item()
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        accuracy = 100 * correct / total
        print(f"Epoch {epoch+1}/{epochs}, Loss: {running_loss/len(dataloader):.4f}, Accuracy: {accuracy:.2f}%")

# Entrenar el modelo
train_model(model, dataloader, criterion, optimizer, epochs=5)


NameError: name 'torch' is not defined

Entrenamos el modelo con los datos capturados.

In [None]:


# Mostrar el lienzo
display(canvas)


In [None]:
import torch
from torchvision import transforms
from PIL import Image
import numpy as np

# Crear la transformación que se debe aplicar al dibujo
transform = transforms.Compose([
    transforms.ToTensor(),                  # Convierte a tensor
    transforms.Normalize((0.5,), (0.5,))    # Normaliza (ajusta según las necesidades del modelo)
])

# Función para obtener la imagen desde el lienzo
def get_drawing():
    img = Image.fromarray(canvas.get_image_data(0, 0, 200, 200))
    img = img.convert("L")  # Convertir a escala de grises
    img = img.resize((28, 28))  # Redimensionar a 28x28 píxeles
    return np.array(img)  # Retorna como un array NumPy

# Función para predecir usando el modelo
def predict_drawing(model, dataset):
    # Obtener el dibujo actual del lienzo
    img = get_drawing()
    
    # Preprocesar la imagen
    img_tensor = transform(Image.fromarray(img)).unsqueeze(0)  # Agregar dimensión batch
    
    # Enviar la imagen al modelo para predicción
    model.eval()  # Establecer el modelo en modo evaluación
    with torch.no_grad():  # Desactivar gradientes para predicción
        output = model(img_tensor)  # Obtener las predicciones
        pred = torch.argmax(output, dim=1).item()  # Obtener la clase predicha
    
    # Mapear la predicción a la etiqueta correspondiente
    label = list(dataset.label_to_idx.keys())[list(dataset.label_to_idx.values()).index(pred)]
    print(f"Predicción: {label}")

# Ejemplo de uso después de dibujar algo en el lienzo:
predict_drawing(model, dataset)

#Limpiar el canvas después de la prediccion
canvas.clear()

