# EJERCICIOS

In [7]:
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, mean_squared_error, precision_score, recall_score, roc_auc_score
from sklearn.decomposition import PCA
from sklearn.linear_model import SGDClassifier
from matplotlib import pyplot as plt
from sklearn.manifold import LocallyLinearEmbedding, MDS, TSNE
from sklearn.pipeline import make_pipeline

## EJERCICIO 1

Carga el conjunto de datos MNIST y divídelo en un conjunto de entrenamiento y un conjunto de prueba (coge las 60.000 primeras instancias para el entrenamiento y las 10.000 restantes para la prueba). 
Entrena un clasificador random forest en el conjunto de datos y cronometra cuánto tarda (puedes usar la anotación %time de jupyter notebook); luego, evalúa el modelo resultante en el conjunto de prueba. 

A continuación, utiliza PCA para reducir la dimensionalidad del conjunto de datos, con un ratio de varianza explicada del 95%. Entrena un nuevo clasificador random forest en el conjunto de datos reducido y comprueba cuánto tarda. ¿Ha sido el entrenamiento mucho más rápido? A continuación, evalúa el clasificador en el conjunto de prueba. ¿Qué tal lo hace en comparación con el clasificador anterior? 

Prueba otra vez con un SGDClassifier, ¿cuánto ayuda ahora el PCA?

In [None]:
# Cargar datos
mnist = fetch_openml('mnist_784', as_frame=False, parser="auto" )

# Dividir x y
X_mnist, y_mnist = mnist.data, mnist.target
X_train, y_train = X_mnist[:60_000], y_mnist[:60_000]
X_test, y_test = X_mnist[60_000:], y_mnist[60_000:]
X_test[0]

'7'

In [None]:
# Entrenar y cronometrar Random forest
modeloRFC = RandomForestClassifier(random_state=42)
print('Entrenando ', modeloRFC)
%time modeloRFC.fit(X_train, y_train)

Entrenando  RandomForestClassifier(random_state=42)
CPU times: total: 37.2 s
Wall time: 37.5 s


In [None]:
y_test_pred = modeloRFC.predict(X_test)
y_test_pred_proba = modeloRFC.predict_proba(X_test)  # predict_proba: curva ROC

# Evaluar con test
exactutid = accuracy_score(y_test, y_test_pred)
precision = precision_score(y_test, y_test_pred, average='macro')
sensibilidad = recall_score(y_test, y_test_pred, average='macro')
f1 = f1_score(y_test, y_test_pred, average='macro')
roc_auc = roc_auc_score(y_test, y_test_pred_proba, multi_class='ovr')

print('''
    Exactitud: {}
    Precision: {}
    Sensibilidad: {}
    f1: {}
    area bajo curva roc: {}'''.format(exactutid,precision,sensibilidad,f1,roc_auc))


    Exactitud: 0.9705
    Precision: 0.9703666911082005
    Sensibilidad: 0.9702072950839545
    f1: 0.970260923866558
    area bajo curva roc: 0.9991484091997871


In [12]:
# Reducir dimensionalidad con PCA varianza 95%
pca = PCA(n_components=0.95)
X_train_reduced = pca.fit_transform(X_train)
X_test_reduced = pca.transform(X_test)
X_test_reduced[0]

array([-3.32271169e+02, -7.47798716e+02,  4.28448190e+01,  3.11173912e+02,
       -4.95361139e+02, -2.42372428e+02,  3.92906083e+02,  4.70745644e+02,
       -3.99245066e+02, -1.86129879e+02, -1.94884263e+02, -1.10457567e+02,
       -3.35410454e+01, -2.20144789e+02,  1.38025759e+02,  8.00793067e+01,
       -2.90477539e+02,  2.55326014e+02,  7.22763395e+01,  5.72055858e+01,
        5.31227775e+01,  2.45091419e+02, -5.15347174e+01,  8.24027571e+01,
        1.28188344e+02, -4.08481377e+01, -1.35632390e+02, -2.85949485e+01,
        1.88491049e+01, -2.12609272e+02,  7.87032534e+01, -2.95868497e+02,
       -8.21169387e+01, -1.53991346e+02, -2.42557772e+01, -1.74337388e+02,
        9.27992680e+01,  1.06523230e+02, -3.51669869e+01,  7.74269367e+01,
       -2.90307614e+02, -7.68445386e+01, -1.10348107e+02,  4.03480170e+01,
        1.68168848e+02,  3.52709145e+01, -9.42118074e+01,  5.90473647e+01,
       -7.63229899e+00, -1.15060928e+02, -3.20560841e+00, -1.61086881e+02,
       -3.20946875e+01,  

In [None]:
# Entrenar con datos reducidos
modeloRFC_2 = RandomForestClassifier(random_state=42)
print('Entrenando ', modeloRFC_2)
%time modeloRFC_2.fit(X_train, y_train)

Entrenando  RandomForestClassifier(random_state=42)
CPU times: total: 36.9 s
Wall time: 37.1 s


In [None]:
y_test_pred_2 = modeloRFC_2.predict(X_test)
y_test_pred_proba_2 = modeloRFC_2.predict_proba(X_test)  # predict_proba: curva ROC

exactutid = accuracy_score(y_test, y_test_pred_2)
precision = precision_score(y_test, y_test_pred_2, average='macro')
sensibilidad = recall_score(y_test, y_test_pred_2, average='macro')
f1 = f1_score(y_test, y_test_pred_2, average='macro')
roc_auc = roc_auc_score(y_test, y_test_pred_proba_2, multi_class='ovr')

print('''
    Exactitud: {}
    Precision: {}
    Sensibilidad: {}
    f1: {}
    area bajo curva roc: {}'''.format(exactutid,precision,sensibilidad,f1,roc_auc))


    Exactitud: 0.9705
    Precision: 0.9703666911082005
    Sensibilidad: 0.9702072950839545
    f1: 0.970260923866558
    area bajo curva roc: 0.9991484091997871


No hay mucha diferencia entre el modelo entrenado con los datos reducidos y el entrenado con los normales

Lo mismo con SGDClasifier

In [20]:
modeloSGD = SGDClassifier(random_state=42)

# Entrenar y cronometrar
print("Entrenando ", modeloSGD)
%time modeloSGD.fit(X_test, y_test)

y_test_pred = modeloSGD.predict(X_test)

exactutid = accuracy_score(y_test, y_test_pred)
precision = precision_score(y_test, y_test_pred, average='macro')
sensibilidad = recall_score(y_test, y_test_pred, average='macro')
f1 = f1_score(y_test, y_test_pred, average='macro')
roc_auc = roc_auc_score(y_test, y_test_pred_proba, multi_class='ovr')

print('''
    Exactitud: {}
    Precision: {}
    Sensibilidad: {}
    f1: {}
    area bajo curva roc: {}'''.format(exactutid,precision,sensibilidad,f1,roc_auc))

Entrenando  SGDClassifier(random_state=42)
CPU times: total: 9.38 s
Wall time: 9.44 s

    Exactitud: 0.9363
    Precision: 0.9393269187649059
    Sensibilidad: 0.9343961692885927
    f1: 0.9350428734821599
    area bajo curva roc: 0.9991484091997871


In [None]:
modeloSGD_2 = SGDClassifier(random_state=42)

# Entrenar y cronometrar con datos reducidos
print("Entrenando ", modeloSGD_2)
%time modeloSGD_2.fit(X_test_reduced, y_test)

y_test_pred = modeloSGD_2.predict(X_test_reduced)

exactutid = accuracy_score(y_test, y_test_pred)
precision = precision_score(y_test, y_test_pred, average='macro')
sensibilidad = recall_score(y_test, y_test_pred, average='macro')
f1 = f1_score(y_test, y_test_pred, average='macro')
roc_auc = roc_auc_score(y_test, y_test_pred_proba, multi_class='ovr')

print('''
    Exactitud: {}
    Precision: {}
    Sensibilidad: {}
    f1: {}
    area bajo curva roc: {}'''.format(exactutid,precision,sensibilidad,f1,roc_auc))

Entrenando  SGDClassifier(random_state=42)
CPU times: total: 3.94 s
Wall time: 3.94 s

    Exactitud: 0.8389
    Precision: 0.8395544557243368
    Sensibilidad: 0.8368523401163552
    f1: 0.8363330334647386
    area bajo curva roc: 0.9991484091997871


Con los datos reducidos ha tardado un tercio de lo que tarda con los datos normales pero las metracas se han reducido tambien, pasan de 0.93 a 0.83 

## EJERCICIO 2 (OPCIONAL)

Utiliza t-SNE para reducir las primeras 5.000 imágenes del conjunto de datos MNIST a dos dimensiones (2 columas) 

Representa el resultado utilizando un gráfico de dispersión con 10 colores diferentes para representar la clase objetivo de cada imagen. 

 Prueba a utilizar otros algoritmos de reducción de dimensionalidad como PCA, LLE o MDS y compara las visualizaciones resultantes (la opción de MDS puede que tarde un rato).

 Prueba ahora creando un pipeline que primero aplique PCA y luego MDS (lanzalo con tiempo).