# Universidad Central de Venezuela
## Facultad de Ciencias
### Escuela de Computación
#### Aprendizaje Automático

**Joiner Rojas V29501730**

## Tarea #2 - Python

# Sección 1: Clasificación

## 1-A Modelo de clasificación de Números

### Preprocesamiento Transformación de Datos

#### Metodología

En esta sección, se detallan los pasos para el preprocesamiento y transformación de los datos, así como la implementación de los modelos de Regresión Logística, k-Vecinos más Cercanos (k-NN) y Máquinas de Soporte Vectorial (SVM).


El primer paso consiste en cargar y preprocesar el dataset MNIST. A continuación se describen los pasos realizados para este propósito:


#### Código

In [1]:
# Importar la función para cargar MNIST desde Keras
from keras.datasets import mnist
import os
from PIL import Image
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import matplotlib.pyplot as plt
from tensorflow.keras.utils import to_categorical

# Definir la cédula como semilla 
seed = 29501730
np.random.seed(seed)

# Cargar el dataset MNIST
(trainImages, trainLabels), (testImages, testLabels) = mnist.load_data()

# Unir todas las imágenes y etiquetas
Images = np.concatenate((trainImages, testImages), axis=0)
Labels = np.concatenate((trainLabels, testLabels), axis=0)

# Mezclar las imágenes y etiquetas usando la semilla, esto con el objetivo de dividir el dataset de manera random utilizando la cédula como parámetro
indices = np.arange(Images.shape[0])
np.random.shuffle(indices)
Images = Images[indices]
Labels = Labels[indices]

# Dividir los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba), estos porcentajes de división
# son un criterio heredado de la asignatura Minería de Datos (fue el usado en regresión lineal)
trainImages, testImages, trainLabels, testLabels = train_test_split(
    Images, Labels, test_size=0.2, random_state=seed
)


# Redimensionar y normalizar las imágenes
trainImages = trainImages.reshape((trainImages.shape[0], 28 * 28)).astype('float32') / 255
testImages = testImages.reshape((testImages.shape[0], 28 * 28)).astype('float32') / 255

# Convertir las etiquetas a categorías
trainLabels = to_categorical(trainLabels)
testLabels = to_categorical(testLabels)

# Convertir las etiquetas de vuelta a su formato original
trainLabels = np.argmax(trainLabels, axis=1)
testLabels = np.argmax(testLabels, axis=1)

# Mostrar la forma (dimensiones) de los datos después de las operaciones realizadas
print('Forma de las imágenes de entrenamiento:', trainImages.shape)
print('Forma de las etiquetas de prueba:', trainLabels.shape)
print('Forma de las imágenes prueba:', testImages.shape)
print('Forma de las etiquetas de prueba:', testLabels.shape)



Forma de las imágenes de entrenamiento: (56000, 784)
Forma de las etiquetas de prueba: (56000,)
Forma de las imágenes prueba: (14000, 784)
Forma de las etiquetas de prueba: (14000,)


#### Discusion de resultados 

### Implementación de Modelos



En esta sección se implementan tres modelos de clasificación diferentes: Regresión Logística, k-Vecinos más Cercanos (k-NN), y Máquinas de Soporte Vectorial (SVM). Para cada modelo, se ajustan los hiperparámetros utilizando `GridSearchCV` y se evalúa el rendimiento.

#### Regresión Logística


##### Metodología

In [None]:
explicacion de que es y que se hace, parametros etc

##### Código


In [2]:
# Definir el modelo y los hiperparámetros a ajustar
param_grid_LR = {
    #'C': [0.01, 0.1, 1, 10, 100],
    'C': [0.01, 0.1, 1],
    'penalty': ['l2'],  
    'solver': ['lbfgs']
}

# Realizar la búsqueda de hiperparámetros con validación cruzada

#grid_search_LR = GridSearchCV(LogisticRegression(max_iter=1000), param_grid_LR, cv=5, scoring='accuracy')
grid_search_LR= GridSearchCV(LogisticRegression(max_iter=500), param_grid_LR, cv=3, scoring='accuracy')
grid_search_LR.fit(trainImages, trainLabels)


# Resultados de la búsqueda de hiperparámetros
print(f"Resultados obtenidos:")
print(f"Hiperparámetros encontrados: {grid_search_LR.best_params_}\n")
print(f"Métricas del modelo:")
print(f"Accuracy: {grid_search_LR.best_score_ * 100:.2f}%")

# Evaluar el mejor modelo en el conjunto de prueba
best_model_LR = grid_search_LR.best_estimator_
lr_predictions = best_model_LR.predict(testImages)

lr_accuracy = accuracy_score(testLabels, lr_predictions)
lr_precision = precision_score(testLabels, lr_predictions, average='weighted')
lr_recall = recall_score(testLabels, lr_predictions, average='weighted')
lr_f1 = f1_score(testLabels, lr_predictions, average='weighted')

print(f"Precisión del modelo en el conjunto de prueba: {lr_accuracy * 100:.2f}%")
print(f"Precisión (Precision): {lr_precision * 100:.2f}%")
print(f"Recall: {lr_recall * 100:.2f}%")
print(f"F1 Score: {lr_f1 * 100:.2f}%")




Resultados obtenidos:
Hiperparámetros encontrados: {'C': 0.1, 'penalty': 'l2', 'solver': 'lbfgs'}

Métricas del modelo:
Accuracy: 91.96%
Precisión del modelo en el conjunto de prueba: 92.41%
Precisión (Precision): 92.39%
Recall: 92.41%
F1 Score: 92.39%


##### Evaluación del modelo

##### Discusión de Resultados

In [None]:
bla bla bla

#### K-vecinos

##### Metodología

In [None]:
es un alg

##### Código

In [3]:

param_grid_kNN = {
    'n_neighbors': [3, 5, 7, 9],  # Prueba diferentes valores de k
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

grid_search_kNN = GridSearchCV(KNeighborsClassifier(), param_grid_kNN, cv=3, scoring='accuracy')
grid_search_kNN.fit(trainImages, trainLabels)

best_model_kNN = grid_search_kNN.best_estimator_
knn_predictions = best_model_kNN.predict(testImages)

knn_accuracy = accuracy_score(testLabels, knn_predictions)
knn_precision = precision_score(testLabels, knn_predictions, average='weighted')
knn_recall = recall_score(testLabels, knn_predictions, average='weighted')
knn_f1 = f1_score(testLabels, knn_predictions, average='weighted')

print(f"Mejores hiperparámetros para k-NN: {grid_search_kNN.best_params_}")
print(f"Precisión del modelo k-NN en el conjunto de prueba: {knn_accuracy * 100:.2f}%")
print(f"Precisión (Precision): {knn_precision * 100:.2f}%")
print(f"Recall: {knn_recall * 100:.2f}%")
print(f"F1 Score: {knn_f1 * 100:.2f}%")


NameError: name 'KNeighborsClassifier' is not defined

##### Evaluación del modelo

##### Análisis de Resultados

#### Máquinas de Soporte Vectorial

##### Metodología

##### Código

In [None]:
# Ajuste de hiperparámetros para Máquinas de Soporte Vectorial (SVM)
param_grid_SVM = {
    'C': [0.1, 1],
    'kernel': ['linear', 'rbf'],
    'gamma': ['scale']
}

grid_search_SVM = GridSearchCV(SVC(), param_grid_SVM, cv=3, scoring='accuracy')
grid_search_SVM.fit(trainImages, trainLabels)

# Evaluar el mejor modelo SVM
best_model_SVM = grid_search_SVM.best_estimator_
svm_predictions = best_model_SVM.predict(testImages)

svm_accuracy = accuracy_score(testLabels, svm_predictions)
svm_precision = precision_score(testLabels, svm_predictions, average='weighted')
svm_recall = recall_score(testLabels, svm_predictions, average='weighted')
svm_f1 = f1_score(testLabels, svm_predictions, average='weighted')

print(f"Mejores hiperparámetros para SVM: {grid_search_SVM.best_params_}")
print(f"Precisión del modelo SVM en el conjunto de prueba: {svm_accuracy * 100:.2f}%")
print(f"Precisión (Precision): {svm_precision * 100:.2f}%")
print(f"Recall: {svm_recall * 100:.2f}%")
print(f"F1 Score: {svm_f1 * 100:.2f}%")

##### Evaluación del modelo

##### Discusion de Resultados

In [6]:
 import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

# Guardar métricas en un diccionario
metrics = {
    'Model': ['Logistic Regression', 'k-NN', 'SVM'],
    'Accuracy': [lr_accuracy, knn_accuracy, svm_accuracy],
    'Precision': [lr_precision, knn_precision, svm_precision],
    'Recall': [lr_recall, knn_recall, svm_recall],
    'F1 Score': [lr_f1, knn_f1, svm_f1]
}

# Convertir el diccionario en un DataFrame
metrics_df = pd.DataFrame(metrics)

# Crear una gráfica de barras con Seaborn para Accuracy
plt.figure(figsize=(4, 2))  # Reducir tamaño de la gráfica
sns.barplot(x='Model', y='Accuracy', hue='Model', data=metrics_df, palette='viridis', dodge=False)
plt.title('Comparación de Accuracy entre Modelos')
plt.legend([], [], frameon=False)  # Eliminar leyenda redundante
plt.show()

# Crear una gráfica de barras para Precision, Recall y F1 Score
plt.figure(figsize=(4, 2))  # Reducir tamaño de la gráfica
metrics_melted = metrics_df.melt(id_vars='Model', value_vars=['Precision', 'Recall', 'F1 Score'], var_name='Metric', value_name='Score')
sns.barplot(x='Model', y='Score', hue='Metric', data=metrics_melted, palette='viridis')
plt.title('Comparación de Precision, Recall y F1 Score entre Modelos')
plt.show()


NameError: name 'knn_accuracy' is not defined

Ahora, Redimensionamos las imágenes del dataset MNIST a una estructura de 28x28 píxeles con un único canal de color. Esto es esencial para asegurar la compatibilidad con los modelos, que requieren una estructura específica de datos para funcionar correctamente. En términos simples, esto permite que nuestro modelo de inteligencia artificial pueda "ver" y procesar las imágenes de manera adecuada.

Adicionalmente, Normalizamos las imágenes escalando los valores de los píxeles a un rango de [0, 1]. Esta normalización es crucial porque ayuda a que el modelo de aprendizaje automático converja más rápido y estable durante el entrenamiento, es decir, que se entrene de manera más rápida y eficiente. Además, al mantener los valores en un rango pequeño, evitamos posibles problemas de inestabilidad numérica que podrían afectar el rendimiento del modelo.

##### Metodología

##### Código

##### Análisis de Resultados

##### Metodología

##### Código

##### Análisis de Resultados