# Conjunto de datos MNIST

In [1]:
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', as_frame=False)

KeyboardInterrupt: 

In [None]:
print(mnist.DESCR)

In [None]:
mnist.keys()

In [None]:
X, y = mnist.data, mnist.target
X

In [None]:
X.shape

Hay 70.000 imágenes y cada una tiene 784 características. Esto se debe a que cada imagen tiene 28 × 28 píxeles, y cada característica representa simplemente la intensidad de un píxel, de 0 (blanco) a 255 (negro).

In [None]:
y

In [None]:
y.shape

Echemos un vistazo a un dígito del conjunto de datos. Todo lo que tenemos que hacer es tomar el vector de características de una instancia, darle forma de matriz de 28 × 28 y mostrarlo mediante la función imshow() de Matplotlib. Utilizamos cmap=«binary» para obtener un mapa de colores en escala de grises donde 0 es blanco y 255 es negro

In [None]:
import matplotlib.pyplot as plt

def plot_digit(image_data):
    image = image_data.reshape(28, 28)
    plt.imshow(image, cmap="binary")
    plt.axis("off")

primer_digito = X[0]
plot_digit(primer_digito)
plt.show()

In [None]:
y[0]

Observemos las primeras 100 imágenes

In [None]:
plt.figure(figsize=(9, 9))
for idx, image_data in enumerate(X[:100]):
    plt.subplot(10, 10, idx + 1)
    plot_digit(image_data)
plt.subplots_adjust(wspace=0, hspace=0)
plt.show()

### Dividir en entrenamiento y prueba

In [None]:
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

El conjunto de entrenamiento ya está barajado (como lo hace *train_test_split*), lo que es bueno porque garantiza que todos los pliegues (*folds*) de validación cruzada serán similares (no queremos que a un pliegue le falten algunos dígitos). Además, algunos algoritmos de aprendizaje son sensibles al orden de las muestras de entrenamiento y obtienen malos resultados si reciben muchas muestras similares seguidas. Barajar el conjunto de datos garantiza que esto no ocurra.

## Empecemos por un clasificador binario

Simplifiquemos el problema e intentemos identificar sólo un dígito, por ejemplo, el número **cero**. Este "detector" de **0**" será un ejemplo de clasificador binario capaz de distinguir entre dos clases: **0** y **NO 0**. Primero crearemos el vector objetivo para esta tarea de clasificación:

In [None]:
y_train_0 = (y_train == '0')  # True para todos los 0s, Falso para los demás dígitos
y_test_0 = (y_test == '0')

In [None]:
y_train_0

Implementemos un modelo lineal regularizado con aprendizaje por descenso de gradiente estocástico (SGD)

In [None]:
from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train_0)

In [None]:
y[0]

In [None]:
sgd_clf.predict([X[0]])

In [None]:
y[1]

In [None]:
sgd_clf.predict([X[1]])

### Medición de la exactitud mediante validación cruzada

In [None]:
from sklearn.model_selection import cross_val_score

cross_val_score(sgd_clf, X_train, y_train_0, cv=3, scoring="accuracy")

### Evaluando la matriz de confusión

In [None]:
from sklearn.model_selection import cross_val_predict
y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_0,cv=3)

In [None]:
from sklearn.metrics import accuracy_score

print(accuracy_score(y_train_0, y_train_pred))

In [None]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_train_0, y_train_pred)
cm

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_train_0, y_train_pred))

¿Y si creamos un modelo que clasifique todo como NO 0?

In [None]:
from sklearn.metrics import accuracy_score

y_dummy = [False]*len(y_train_0) # vector False
accuracy_score(y_dummy,y_train_0)

In [None]:
print(classification_report(y_train_0, y_dummy))

## Clasificador de múltiples etiquetas

### Probemos con un Bosque Aleatorio

In [None]:
# Esta celda puede tardar varios minutos en ejecutarse

from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV
from sklearn.preprocessing import StandardScaler
from scipy.stats import randint, uniform, geom, expon

# Creemos un Pipeline que primero escale los datos y luego entrene un clasificador
# En este caso en particular NO necesitamos hacer imputación

rf_pipeline = Pipeline([
    ('std',StandardScaler()),
    ('rf',RandomForestClassifier(random_state=42,n_jobs=-1))
])

param_RF = {
        'rf__n_estimators': randint(50, 300),             # Distribución entera aleatoria para n_estimators
        'rf__max_depth': randint(3, 20),                  # Distribución entera aleatoria para max_depth
        # 'rf__min_samples_split': randint(2, 20),          # Distribución entera aleatoria para min_samples_split
        # 'rf__min_samples_leaf': randint(1, 20),           # Distribución entera aleatoria para min_samples_leaf
        # 'rf__max_features': ['sqrt','log2',None],         # Raíz cuadrada, logaritmo o None para max_features
        # 'rf__bootstrap': [True, False],                   # Lista de valores para bootstrap
    }

rnd_search_RF = RandomizedSearchCV(
    rf_pipeline, param_distributions=param_RF, cv=3,
    scoring='accuracy', random_state=42)

rnd_search_RF.fit(X_train[:2000], y_train[:2000])

In [None]:
rnd_search_RF.best_params_

In [None]:
import pandas as pd

cv_res = pd.DataFrame(rnd_search_RF.cv_results_)
cv_res.sort_values(by="mean_test_score", ascending=False, inplace=True)
cv_res = cv_res[["split0_test_score","split1_test_score",
                 "split2_test_score", "mean_test_score"]]
score_cols = ["split0", "split1", "split2", "mean_test_accuracy"]
cv_res.columns = score_cols
cv_res[score_cols] = cv_res[score_cols].round(2)
cv_res.head()

In [None]:
from sklearn.metrics import classification_report

final_model_RF = rnd_search_RF.best_estimator_
y_pred_RF = final_model_RF.predict(X_train)

print(classification_report(y_train, y_pred_RF))

In [None]:
from sklearn.metrics import confusion_matrix

print(confusion_matrix(y_train, y_pred_RF))

In [None]:
rnd_final = RandomForestClassifier(random_state=42, n_jobs=-1, max_depth=14, n_estimators= 207)
rnd_final.fit(X_train, y_train)

In [None]:
y_pred_RF_final = rnd_final.predict(X_train)

print(classification_report(y_train, y_pred_RF_final))

# Actividad 2

## Probar el mejor modelo en el conjunto de Prueba

In [None]:
y_pred_test = rnd_final.predict(X_test)
print(classification_report(y_test, y_pred_test))

In [None]:
from sklearn.linear_model import LogisticRegression

from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV
from sklearn.preprocessing import StandardScaler
from scipy.stats import randint, uniform, geom, expon

# Creemos un Pipeline que primero escale los datos y luego entrene un clasificador
# En este caso en particular NO necesitamos hacer imputación

lr_pipeline = Pipeline([
    ('std',StandardScaler()),
    ('lr',LogisticRegression(random_state=42))
])

param_LR = {
    'lr__C': randint(low=1, high=20),
    'lr__penalty': ['l1','l2']
}

rnd_search_LR = RandomizedSearchCV(
    lr_pipeline, param_distributions=param_LR, cv=5,
    scoring='accuracy', random_state=42)

rnd_search_LR.fit(X_train[:1000], y_train[:1000])

In [None]:
import pandas as pd

cv_res = pd.DataFrame(rnd_search_LR.cv_results_)
cv_res.sort_values(by="mean_test_score", ascending=False, inplace=True)
cv_res = cv_res[["split0_test_score","split1_test_score",
                 "split2_test_score", "split3_test_score",
                 "split4_test_score", "mean_test_score"]]
score_cols = ["split0", "split1", "split2", "split3", "split4", "mean_test_accuracy"]
cv_res.columns = score_cols
cv_res[score_cols] = cv_res[score_cols].round(2)
cv_res.head()

In [None]:
final_model_LR = rnd_search_LR.best_estimator_
y_pred_LR = final_model_LR.predict(X_test)

print(classification_report(y_test, y_pred_test))

In [None]:
from sklearn.svm import SVC

# Creemos un Pipeline que primero escale los datos y luego entrene un clasificador
# En este caso en particular NO necesitamos hacer imputación

svm_pipeline = Pipeline([
    ('std',StandardScaler()),
    ('svm',SVC(random_state=42))
])

param_SVM = {
    'svm__C': randint(low=1, high=20),
    'svm__gamma': expon(scale=1.0)
}

rnd_search_SVM = RandomizedSearchCV(
    svm_pipeline, param_distributions=param_SVM, cv=5,
    scoring='accuracy', random_state=42)


In [None]:
import pandas as pd

cv_res = pd.DataFrame(rnd_search_SVM.cv_results_)
cv_res.sort_values(by="mean_test_score", ascending=False, inplace=True)
cv_res = cv_res[["split0_test_score","split1_test_score",
                 "split2_test_score", "split3_test_score",
                 "split4_test_score", "mean_test_score"]]
score_cols = ["split0", "split1", "split2", "split3", "split4", "mean_test_accuracy"]
cv_res.columns = score_cols
cv_res[score_cols] = cv_res[score_cols].round(2)
cv_res.head()

In [None]:
final_model_SVM= rnd_search_SVM.best_estimator_
y_pred_LR = final_model_SVM.predict(X_test)

print(classification_report(y_test, y_pred_test))

## Probar en el conjunto de prueba de Kaggle

In [None]:
test_data = pd.read_csv('/content/test.csv')
test_data.head()

In [None]:
test_data.info()

In [None]:
test_data.describe()

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import make_pipeline

rf_test_pipeline = make_pipeline(
    # SimpleImputer(strategy='mean'),
    StandardScaler(),
    RandomForestClassifier(random_state=42,n_jobs=-1, max_depth=14, n_estimators= 207)
)

rf_test_pipeline.fit(X_train,y_train)

In [None]:
y_pred_test = rf_test_pipeline.predict(test_data)

In [None]:
import numpy as np

ImageId = np.arange(1,len(y_pred_test)+1)

In [None]:
data_kaggle = pd.DataFrame({'ImageId':ImageId,'Label':y_pred_test,})
data_kaggle.head()

In [None]:
data_kaggle.to_csv('y_pred.csv', index=False)

### Probar con diferentes modelos

Por ejemplo: máquinas de soporte vectorial, regresión logística, árboles de decisión.

In [None]:
# Verificar los hiperparámetros del modelo

# Paso 1: Importar la biblioteca
from sklearn.linear_model import LogisticRegression

# Paso 2: Crear una instancia del modelo
lr = LogisticRegression()

# Paso 3: Ver los hiperparámetros
params = lr.get_params()
params

In [None]:
from sklearn.linear_model import LogisticRegression

lr_pipeline = Pipeline([
    ('std',StandardScaler()),
    ('lr',LogisticRegression(random_state=42,n_jobs=-1))
])

param_lr = {
    'lr__C': randint(low=1, high=20),
    # 'lr__penalty': ['l1','l2']
    }

rnd_search_lr = RandomizedSearchCV(
    lr_pipeline, param_distributions=param_lr, cv=5,
    scoring='accuracy', random_state=42)

rnd_search_lr.fit(X_train[:1000], y_train[:1000])

In [None]:
rnd_search_lr.best_params_

In [None]:
final_model_lr = rnd_search_lr.best_estimator_
y_pred_lr = final_model_lr.predict(X_train)

print(classification_report(y_train, y_pred_lr))

In [None]:
from sklearn.metrics import confusion_matrix

print(confusion_matrix(y_train, y_pred_lr))

In [None]:
# Importar las librerías necesarias
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

In [None]:
# Cargar el conjunto de datos MNIST
mnist = fetch_openml('mnist_784', version=1)
X = mnist.data
y = mnist.target

In [None]:
# Convertir las etiquetas a enteros
y = y.astype(np.int32)

In [None]:
# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Estandarizar los datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# Crear y entrenar el modelo de máquinas de soporte vectorial (SVM)
svm_model = SVC()
svm_model.fit(X_train, y_train)

In [None]:
# Hacer predicciones con el modelo SVM
svm_pred = svm_model.predict(X_test)

In [None]:
# Evaluar el modelo SVM
svm_accuracy = accuracy_score(y_test, svm_pred)
svm_conf_matrix = confusion_matrix(y_test, svm_pred)
svm_class_report = classification_report(y_test, svm_pred)

In [None]:
# Mostrar los resultados
print('Support Vector Machine:')
print(f'Accuracy: {svm_accuracy}')
print('Confusion Matrix:')
print(svm_conf_matrix)
print('Classification Report:')
print(svm_class_report)