# Ejercicio 3

In [5]:
import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist

# Cargar el dataset completo
(X_train, y_train), (X_test, y_test) = mnist.load_data()

# Seleccionar solo las primeras 1000 im√°genes y etiquetas
X_train_small = X_train[:10000]
y_train_small = y_train[:10000]

X_test_small = X_test[:2000]   # Tambi√©n pod√©s reducir el test si quer√©s
y_test_small = y_test[:2000]

print("Shape del set de entrenamiento:", X_train_small.shape)
print("Shape del set de prueba:", X_test_small.shape)

Shape del set de entrenamiento: (10000, 28, 28)
Shape del set de prueba: (2000, 28, 28)


### Preprocesamiento

In [4]:
# Aplanar las im√°genes de 28x28 a 784 caracter√≠sticas (1D)
X_train_flattened = X_train_small.reshape(X_train_small.shape[0], -1)
X_test_flattened = X_test_small.reshape(X_test_small.shape[0], -1)

print("Shape del set de entrenamiento:", X_train_flattened.shape)
print("Shape del set de prueba:", X_test_flattened.shape)

# Escalar los valores de los p√≠xeles entre 0 y 1
X_train_normalized = X_train_flattened / 255.0
X_test_normalized = X_test_flattened / 255.0

from sklearn.preprocessing import Binarizer

binarizer = Binarizer(threshold=127)
X_train_binarized = binarizer.fit_transform(X_train_flattened)
X_test_binarized = binarizer.transform(X_test_flattened)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_standardized = scaler.fit_transform(X_train_flattened)
X_test_standardized = scaler.transform(X_test_flattened)

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train_flattened)
X_test_scaled = scaler.transform(X_test_flattened)

Shape del set de entrenamiento: (10000, 784)
Shape del set de prueba: (2000, 784)


### Preprocesamiento: Datasets a probar

In [22]:
from sklearn.metrics import accuracy_score
import time

# Diccionario de datasets a probar (ya definidos previamente)
datasets = {
    "Raw (sin normalizar)": X_train_flattened,
    "Normalizado (/255)": X_train_normalized,
    "Binarizado": X_train_binarized,
    "Estandarizado (Z-score)": X_train_standardized,
    "Min-Max Scaling": X_train_scaled
}

test_sets = {
    "Raw (sin normalizar)": X_test_flattened,
    "Normalizado (/255)": X_test_normalized,
    "Binarizado": X_test_binarized,
    "Estandarizado (Z-score)": X_test_standardized,
    "Min-Max Scaling": X_test_scaled
}

## RandomForest

In [23]:
from sklearn.ensemble import RandomForestClassifier

total_accuracy = 0
total_time = 0
n = len(datasets)

# Evaluar cada tipo de preprocesamiento
for nombre, X_train_version in datasets.items():
    print(f"\nüå≤ Evaluando con Random Forest: {nombre}")
    
    # Iniciar contador de tiempo
    start_time = time.time()
    
    # Crear modelo
    model = RandomForestClassifier(n_estimators=150, random_state=42)
    
    # Entrenar
    model.fit(X_train_version, y_train_small)
    
    # Predecir
    X_test_version = test_sets[nombre]
    y_pred = model.predict(X_test_version)
    
    # Calcular precisi√≥n
    acc = accuracy_score(y_test_small, y_pred)
    elapsed_time = time.time() - start_time

    total_accuracy += acc
    total_time += elapsed_time

    # Resultados
    print(f"‚úÖ Precisi√≥n: {acc * 100:.2f}%")
    print(f"‚è±Ô∏è Tiempo total: {elapsed_time:.2f} segundos")

# Promedios
avg_accuracy_RandomForest = (total_accuracy / n) * 100
avg_time_RandomForest = total_time / n

print(f"\nüìä Promedio con Random Forest:")
print(f"üî¢ Precisi√≥n promedio: {avg_accuracy:.2f}%")
print(f"‚è≥ Tiempo promedio: {avg_time:.2f} segundos")



üå≤ Evaluando con Random Forest: Raw (sin normalizar)
‚úÖ Precisi√≥n: 93.35%
‚è±Ô∏è Tiempo total: 8.05 segundos

üå≤ Evaluando con Random Forest: Normalizado (/255)
‚úÖ Precisi√≥n: 93.35%
‚è±Ô∏è Tiempo total: 8.42 segundos

üå≤ Evaluando con Random Forest: Binarizado
‚úÖ Precisi√≥n: 92.30%
‚è±Ô∏è Tiempo total: 4.17 segundos

üå≤ Evaluando con Random Forest: Estandarizado (Z-score)
‚úÖ Precisi√≥n: 93.35%
‚è±Ô∏è Tiempo total: 8.18 segundos

üå≤ Evaluando con Random Forest: Min-Max Scaling
‚úÖ Precisi√≥n: 93.35%
‚è±Ô∏è Tiempo total: 8.41 segundos

üìä Promedio con Random Forest:
üî¢ Precisi√≥n promedio: 92.07%
‚è≥ Tiempo promedio: 15.10 segundos


## Support Vector Machine (SVC)

In [24]:
from sklearn.svm import SVC
import time
from sklearn.metrics import accuracy_score

# Diccionarios para guardar resultados
avg_accuracy_svm = {}
avg_time_svm = {}

# Lista de kernels a probar
kernels = ['linear', 'rbf', 'poly']

# Evaluar cada kernel de SVM con todos los preprocesamientos
for kernel in kernels:
    print(f"\n==============================")
    print(f"üîç Evaluando kernel: {kernel}")
    print(f"==============================")
    
    total_accuracy = 0
    total_time = 0
    n = len(datasets)

    for nombre, X_train_version in datasets.items():
        X_test_version = test_sets[nombre]
        
        print(f"\nüëâ Preprocesamiento: {nombre}")
        
        # Iniciar cron√≥metro
        start_time = time.time()
        
        # Crear y entrenar modelo
        model = SVC(kernel=kernel, random_state=42)
        model.fit(X_train_version, y_train_small)
        
        # Predecir
        y_pred = model.predict(X_test_version)
        
        # Evaluar
        acc = accuracy_score(y_test_small, y_pred)
        elapsed_time = time.time() - start_time
        
        total_accuracy += acc
        total_time += elapsed_time
        
        print(f"‚úÖ Precisi√≥n: {acc * 100:.2f}%")
        print(f"‚è±Ô∏è Tiempo total: {elapsed_time:.2f} segundos")
    
    # Guardar resultados promedio para este kernel
    avg_accuracy = (total_accuracy / n) * 100
    avg_time = total_time / n
    avg_accuracy_svm[kernel] = avg_accuracy
    avg_time_svm[kernel] = avg_time

    print(f"\nüìä Promedio para kernel '{kernel}':")
    print(f"üî¢ Precisi√≥n promedio: {avg_accuracy:.2f}%")
    print(f"‚è≥ Tiempo promedio: {avg_time:.2f} segundos")


üîç Evaluando kernel: linear

üëâ Preprocesamiento: Raw (sin normalizar)
‚úÖ Precisi√≥n: 89.55%
‚è±Ô∏è Tiempo total: 7.74 segundos

üëâ Preprocesamiento: Normalizado (/255)
‚úÖ Precisi√≥n: 89.75%
‚è±Ô∏è Tiempo total: 7.40 segundos

üëâ Preprocesamiento: Binarizado
‚úÖ Precisi√≥n: 86.65%
‚è±Ô∏è Tiempo total: 7.80 segundos

üëâ Preprocesamiento: Estandarizado (Z-score)
‚úÖ Precisi√≥n: 88.70%
‚è±Ô∏è Tiempo total: 6.84 segundos

üëâ Preprocesamiento: Min-Max Scaling
‚úÖ Precisi√≥n: 89.90%
‚è±Ô∏è Tiempo total: 6.86 segundos

üìä Promedio para kernel 'linear':
üî¢ Precisi√≥n promedio: 88.91%
‚è≥ Tiempo promedio: 7.33 segundos

üîç Evaluando kernel: rbf

üëâ Preprocesamiento: Raw (sin normalizar)
‚úÖ Precisi√≥n: 94.45%
‚è±Ô∏è Tiempo total: 12.88 segundos

üëâ Preprocesamiento: Normalizado (/255)
‚úÖ Precisi√≥n: 94.45%
‚è±Ô∏è Tiempo total: 13.56 segundos

üëâ Preprocesamiento: Binarizado
‚úÖ Precisi√≥n: 93.85%
‚è±Ô∏è Tiempo total: 15.37 segundos

üëâ Preprocesamiento: Estandariza

## K-nearest neighbors (KNN)

In [17]:
from sklearn.neighbors import KNeighborsClassifier

# Inicializar variables para los promedios
total_accuracy_knn = 0
total_time_knn = 0
n = len(datasets)

# Evaluar cada tipo de preprocesamiento
for nombre, X_train_version in datasets.items():
    print(f"\nüëü Evaluando con KNN: {nombre}")
    
    # Iniciar contador de tiempo
    start_time = time.time()
    
    # Crear modelo KNN
    model_knn = KNeighborsClassifier(n_neighbors=5)  # N√∫mero de vecinos (puedes ajustarlo)
    
    # Entrenar
    model_knn.fit(X_train_version, y_train_small)
    
    # Predecir
    X_test_version = test_sets[nombre]
    y_pred_knn = model_knn.predict(X_test_version)
    
    # Calcular precisi√≥n
    acc_knn = accuracy_score(y_test_small, y_pred_knn)
    elapsed_time_knn = time.time() - start_time

    total_accuracy_knn += acc_knn
    total_time_knn += elapsed_time_knn

    # Resultados
    print(f"‚úÖ Precisi√≥n: {acc_knn * 100:.2f}%")
    print(f"‚è±Ô∏è Tiempo total: {elapsed_time_knn:.2f} segundos")

# Promedios
avg_accuracy_knn = (total_accuracy_knn / n) * 100
avg_time_knn = total_time_knn / n

print(f"\nüìä Promedio con KNN:")
print(f"üî¢ Precisi√≥n promedio: {avg_accuracy_knn:.2f}%")
print(f"‚è≥ Tiempo promedio: {avg_time_knn:.2f} segundos")


üëü Evaluando con KNN: Raw (sin normalizar)
‚úÖ Precisi√≥n: 92.05%
‚è±Ô∏è Tiempo total: 0.49 segundos

üëü Evaluando con KNN: Normalizado (/255)
‚úÖ Precisi√≥n: 92.05%
‚è±Ô∏è Tiempo total: 0.33 segundos

üëü Evaluando con KNN: Binarizado
‚úÖ Precisi√≥n: 90.15%
‚è±Ô∏è Tiempo total: 0.47 segundos

üëü Evaluando con KNN: Estandarizado (Z-score)
‚úÖ Precisi√≥n: 88.65%
‚è±Ô∏è Tiempo total: 0.27 segundos

üëü Evaluando con KNN: Min-Max Scaling
‚úÖ Precisi√≥n: 92.05%
‚è±Ô∏è Tiempo total: 0.28 segundos

üìä Promedio con KNN:
üî¢ Precisi√≥n promedio: 90.99%
‚è≥ Tiempo promedio: 0.37 segundos


## Regresion logistica

In [20]:
from sklearn.linear_model import LogisticRegression

# Inicializar variables para los promedios
total_accuracy_logreg = 0
total_time_logreg = 0
n = len(datasets)

# Evaluar cada tipo de preprocesamiento
for nombre, X_train_version in datasets.items():
    print(f"\nüìâ Evaluando con Regresi√≥n Log√≠stica: {nombre}")
    
    # Iniciar contador de tiempo
    start_time = time.time()
    
    # Crear modelo de Regresi√≥n Log√≠stica
    model_logreg = LogisticRegression(max_iter=1000, random_state=42)
    
    # Entrenar
    model_logreg.fit(X_train_version, y_train_small)
    
    # Predecir
    X_test_version = test_sets[nombre]
    y_pred_logreg = model_logreg.predict(X_test_version)
    
    # Calcular precisi√≥n
    acc_logreg = accuracy_score(y_test_small, y_pred_logreg)
    elapsed_time_logreg = time.time() - start_time

    total_accuracy_logreg += acc_logreg
    total_time_logreg += elapsed_time_logreg

    # Resultados
    print(f"‚úÖ Precisi√≥n: {acc_logreg * 100:.2f}%")
    print(f"‚è±Ô∏è Tiempo total: {elapsed_time_logreg:.2f} segundos")

# Promedios
avg_accuracy_logreg = (total_accuracy_logreg / n) * 100
avg_time_logreg = total_time_logreg / n

print(f"\nüìä Promedio con Regresi√≥n Log√≠stica:")
print(f"üî¢ Precisi√≥n promedio: {avg_accuracy_logreg:.2f}%")
print(f"‚è≥ Tiempo promedio: {avg_time_logreg:.2f} segundos")


üìâ Evaluando con Regresi√≥n Log√≠stica: Raw (sin normalizar)
‚úÖ Precisi√≥n: 83.15%
‚è±Ô∏è Tiempo total: 10.03 segundos

üìâ Evaluando con Regresi√≥n Log√≠stica: Normalizado (/255)
‚úÖ Precisi√≥n: 87.00%
‚è±Ô∏è Tiempo total: 2.55 segundos

üìâ Evaluando con Regresi√≥n Log√≠stica: Binarizado
‚úÖ Precisi√≥n: 85.60%
‚è±Ô∏è Tiempo total: 2.23 segundos

üìâ Evaluando con Regresi√≥n Log√≠stica: Estandarizado (Z-score)
‚úÖ Precisi√≥n: 86.00%
‚è±Ô∏è Tiempo total: 1.94 segundos

üìâ Evaluando con Regresi√≥n Log√≠stica: Min-Max Scaling
‚úÖ Precisi√≥n: 87.05%
‚è±Ô∏è Tiempo total: 2.41 segundos

üìä Promedio con Regresi√≥n Log√≠stica:
üî¢ Precisi√≥n promedio: 85.76%
‚è≥ Tiempo promedio: 3.83 segundos


### Cuadro comparativo

In [25]:
import pandas as pd
import matplotlib.pyplot as plt

# Crear el diccionario de datos para el cuadro comparativo
data = {
    'Algoritmo': [
        'Random Forest',
        'SVM (Linear)',
        'SVM (RBF)',
        'SVM (Poly)',
        'KNN',
        'Regresi√≥n Log√≠stica'
    ],
    'Precisi√≥n (%)': [
        avg_accuracy,                      # Random Forest
        avg_accuracy_svm['linear'],        # SVM Linear
        avg_accuracy_svm['rbf'],           # SVM RBF
        avg_accuracy_svm['poly'],          # SVM Poly
        avg_accuracy_knn,                  # KNN
        avg_accuracy_logreg                # Regresi√≥n Log√≠stica
    ],
    'Tiempo (s)': [
        avg_time,                          # Random Forest
        avg_time_svm['linear'],            # SVM Linear
        avg_time_svm['rbf'],               # SVM RBF
        avg_time_svm['poly'],              # SVM Poly
        avg_time_knn,                      # KNN
        avg_time_logreg                    # Regresi√≥n Log√≠stica
    ]
}

# Crear DataFrame
df = pd.DataFrame(data)

# Mostrar tabla
print("üìä Cuadro comparativo de modelos:\n")
print(df.to_string(index=False))

# ------------------------------
# üìà Gr√°fico de comparaci√≥n
# ------------------------------

# Estilo bonito
plt.style.use('seaborn-vibrant')

# Crear figura y ejes
fig, ax1 = plt.subplots(figsize=(10, 6))

# Graficar barras de precisi√≥n
color_acc = 'tab:blue'
df.plot(kind='bar', x='Algoritmo', y='Precisi√≥n (%)', ax=ax1, color=color_acc, position=0, width=0.4)
ax1.set_ylabel('Precisi√≥n (%)', color=color_acc)
ax1.tick_params(axis='y', labelcolor=color_acc)

# Crear segundo eje Y para el tiempo
ax2 = ax1.twinx()
color_time = 'tab:red'
df.plot(kind='bar', x='Algoritmo', y='Tiempo (s)', ax=ax2, color=color_time, position=1, width=0.4)
ax2.set_ylabel('Tiempo (s)', color=color_time)
ax2.tick_params(axis='y', labelcolor=color_time)

# T√≠tulo y ajustes
plt.title('Comparaci√≥n de Algoritmos: Precisi√≥n vs Tiempo')
plt.xticks(rotation=45)
plt.tight_layout()

# Mostrar gr√°fico
plt.show()


ModuleNotFoundError: No module named 'pandas'