### Importamos ciertas librerias necesarias para realizar scraping con respecto a los productos en la RD que se encuentran en el dataset de Open Food Facts

In [1]:
import requests
import pandas as pd
import os
import time

### Realizamos el scraping

## Prueba del modelo sin entrenamiento previo

### Importaciones y configuración global


In [52]:
import requests
import base64
from PIL import Image
import io
import json
import numpy as np
from sklearn.metrics import confusion_matrix, recall_score, precision_score, f1_score, accuracy_score
import seaborn as sns
import matplotlib.pyplot as plt
from typing import List, Dict, Union, Tuple
from IPython.display import display, Image as IPImage

# Configuraciones globales
BASE_URL = "http://localhost:11434/api/generate"
MODEL_NAME = "llama3.2-vision"
VALID_CLASSES = ['agua', 'leche', 'galletas']
BRANDS = {
    'agua': ['planeta azul', 'dasani', 'cascada'],
    'leche': ['carnation', 'rica', 'nestlé', 'milex'],
    'galletas': ['club social', 'oreo', 'club extra', 'guarina']
}
ERROR_CLASS = 'desconocido'

### Funciones de procesamiento de imágenes

In [53]:
def encode_image(image_path):
    """Codifica una imagen a base64 con manejo mejorado de formatos."""
    try:
        if isinstance(image_path, str):
            with Image.open(image_path) as img:
                if img.mode != 'RGB':
                    img = img.convert('RGB')
                buffer = io.BytesIO()
                img.save(buffer, format='JPEG')
                img_str = base64.b64encode(buffer.getvalue()).decode('utf-8')
        else:
            img = image_path
            if img.mode != 'RGB':
                img = img.convert('RGB')
            buffer = io.BytesIO()
            img.save(buffer, format='JPEG')
            img_str = base64.b64encode(buffer.getvalue()).decode('utf-8')
        
        return img_str
    except Exception as e:
        print(f"Error al codificar la imagen: {str(e)}")
        return None

def clean_prediction(prediction: str) -> Tuple[str, str]:
    """Limpia la respuesta del modelo para extraer la categoría y la marca."""
    prediction_lower = prediction.lower()
    
    # Primero identificamos la categoría
    category_scores = {clase: 0 for clase in VALID_CLASSES}
    
    # Palabras clave para categorías
    keywords = {
        'agua': ['agua', 'botella', 'bebida', 'refresco', 'líquido'],
        'leche': ['leche', 'lácteo', 'dairy', 'milk', 'evaporada', 'condensada'],
        'galletas': ['galleta', 'cookie', 'oreo', 'snack', 'dulce', 'club social', 'cracker', 'sandwich']
    }
    
    # Evaluar categoría
    for categoria, palabras in keywords.items():
        for palabra in palabras:
            if palabra in prediction_lower:
                category_scores[categoria] += 1
    
    # Determinar categoría
    category = max(category_scores.items(), key=lambda x: x[1])[0] if max(category_scores.values()) > 0 else VALID_CLASSES[0]
    
    # Buscar marca
    brand = "marca desconocida"
    for marca in BRANDS[category]:
        if marca.lower() in prediction_lower:
            brand = marca
            break
            
    if brand == "marca desconocida":
        common_prefixes = ["marca", "producto", "de la marca", "elaborado por"]
        for prefix in common_prefixes:
            if prefix in prediction_lower:
                start_idx = prediction_lower.find(prefix) + len(prefix)
                end_idx = prediction_lower.find(" ", start_idx + 15) if " " in prediction_lower[start_idx:] else len(prediction_lower)
                potential_brand = prediction_lower[start_idx:end_idx].strip()
                if len(potential_brand) > 2:
                    brand = potential_brand
                    break
    
    return category, brand

def analyze_image(image_path: str, prompt: str) -> str:
    """Analiza una imagen usando el modelo de visión."""
    base64_image = encode_image(image_path)
    if not base64_image:
        return f"{ERROR_CLASS} (marca desconocida)"
    
    payload = {
        "model": MODEL_NAME,
        "prompt": prompt,
        "stream": False,
        "images": [base64_image]
    }
    
    try:
        print("Enviando petición a Ollama...")
        response = requests.post(BASE_URL, json=payload)
        print(f"Código de estado: {response.status_code}")
        
        if response.status_code == 200:
            result = response.json()
            prediction = result.get('response', 'No se pudo obtener una respuesta')
            category, brand = clean_prediction(prediction)
            print(f"Predicción original: {prediction}")
            print(f"Categoría: {category}")
            print(f"Marca: {brand}")
            return f"{category} ({brand})"
        else:
            print(f"Respuesta completa del servidor: {response.text}")
            return f"{ERROR_CLASS} (marca desconocida)"
        
    except requests.exceptions.RequestException as e:
        print(f"Error detallado: {str(e)}")
        return f"{ERROR_CLASS} (marca desconocida)"

### Funciones de métricas y visualización

In [54]:
def calculate_metrics(predictions: List[str], ground_truth: List[str]) -> Dict[str, float]:
    """Calcula métricas de evaluación."""
    from sklearn.preprocessing import LabelEncoder
    le = LabelEncoder()
    
    # Limpiar predicciones para obtener solo la categoría (antes del paréntesis)
    cleaned_predictions = [pred.split('(')[0].strip() for pred in predictions]
    
    y_true = le.fit_transform(ground_truth)
    y_pred = le.transform(cleaned_predictions)
    
    metrics = {
        'accuracy': accuracy_score(y_true, y_pred),
        'precision_macro': precision_score(y_true, y_pred, average='macro'),
        'recall_macro': recall_score(y_true, y_pred, average='macro'),
        'f1_macro': f1_score(y_true, y_pred, average='macro')
    }
    
    classes = le.classes_
    for i, class_name in enumerate(classes):
        y_true_binary = (y_true == i)
        y_pred_binary = (y_pred == i)
        
        metrics[f'precision_{class_name}'] = precision_score(y_true_binary, y_pred_binary)
        metrics[f'recall_{class_name}'] = recall_score(y_true_binary, y_pred_binary)
        metrics[f'f1_{class_name}'] = f1_score(y_true_binary, y_pred_binary)
        
    return metrics

def plot_confusion_matrix(predictions: List[str], ground_truth: List[str]) -> None:
    """Genera y muestra la matriz de confusión."""
    from sklearn.preprocessing import LabelEncoder
    le = LabelEncoder()
    
    # Limpiar predicciones para obtener solo la categoría
    cleaned_predictions = [pred.split('(')[0].strip() for pred in predictions]
    
    y_true = le.fit_transform(ground_truth)
    y_pred = le.transform(cleaned_predictions)
    
    cm = confusion_matrix(y_true, y_pred)
    
    plt.figure(figsize=(10, 8))
    sns.heatmap(cm, 
               annot=True, 
               fmt='d', 
               cmap='Blues',
               xticklabels=le.classes_,
               yticklabels=le.classes_)
    plt.title('Matriz de Confusión')
    plt.ylabel('Etiqueta Verdadera')
    plt.xlabel('Predicción')
    plt.show()

### Función principal de prueba

In [55]:
def test_vision_with_metrics(image_paths: List[str], 
                           ground_truth: List[str] = None, 
                           prompt: str = None) -> Dict[str, float]:
    """Función de prueba que evalúa múltiples imágenes y muestra métricas."""
    
    if ground_truth is None:
        ground_truth = ['galletas'] * len(image_paths)
    
    if len(image_paths) != len(ground_truth):
        print("ADVERTENCIA: El número de imágenes no coincide con el número de etiquetas ground truth")
        if len(image_paths) > len(ground_truth):
            ground_truth.extend([ground_truth[-1]] * (len(image_paths) - len(ground_truth)))
        else:
            ground_truth = ground_truth[:len(image_paths)]
    
    if prompt is None:
        prompt = f"Identifica qué tipo de producto ves en esta imagen y su marca. El producto debe ser uno de estos: {', '.join(VALID_CLASSES)}. Menciona explícitamente tanto el tipo de producto como la marca, especialmente si es una marca dominicana como Planeta Azul, Club Social, Rica, etc."
    
    print("Ejemplos de imágenes a analizar:")
    for i, path in enumerate(image_paths):
        try:
            display(IPImage(filename=path))
            print(f"Ground truth: {ground_truth[i]}\n")
        except Exception as e:
            print(f"Error al mostrar la imagen {path}: {str(e)}")
    
    print("\nProcesando imágenes...")
    predictions = []
    
    for i, image_path in enumerate(image_paths):
        print(f"\nProcesando imagen {i+1}/{len(image_paths)}: {image_path}")
        prediction = analyze_image(image_path, prompt)
        predictions.append(prediction)
    
    print("\nResumen de predicciones:")
    for i, (pred, true) in enumerate(zip(predictions, ground_truth)):
        print(f"Imagen {i+1}: Predicción = {pred}, Ground Truth = {true}")
    
    metrics = calculate_metrics(predictions, ground_truth)
    plot_confusion_matrix(predictions, ground_truth)
    
    print("\nMétricas de evaluación:")
    for metric_name, value in metrics.items():
        print(f"{metric_name}: {value:.4f}")
    
    return metrics


# Celda 5: Ejecución de prueba
image_paths = ['37_Planeta Azul.jpg', '197_leche.jpg', '4_Club Social Integral Tradicion.jpg', '7_Oreo Original.jpg', '127_Carnation Evaporated Milk.jpg']
ground_truth = ['agua', 'leche', 'galletas', 'galletas', 'leche']
metrics = test_vision_with_metrics(image_paths, ground_truth)