# Percepción (PER): examen de prácticas del bloque 2, grupo 3CO11, turno1, 28-5-2024, 8:00-8:45

Lee este cuaderno y realiza las actividades y ejercicios propuestos

## Importación de librerías relevantes

In [4]:
import warnings; warnings.filterwarnings("ignore")
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.decomposition import PCA
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier, HistGradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

def parse_dni(x):
    return x % 1000

## Lectura y partición del corpus covertype

Ejecuta el código siguiente con dni igual a tu DNI/NIE sin letra.

In [4]:
dni = 20860758

X, y = fetch_openml("covertype", version=13, return_X_y=True, as_frame=False)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, shuffle=True, random_state=parse_dni(dni))

print(f'N = {X.shape[0]} D = {X.shape[1]} C = {len(np.unique(y))} N_train = {len(X_train)} N_test = {len(X_test)}')

N = 423680 D = 54 C = 2 N_train = 381312 N_test = 42368


Tarea del [**tabular data learning benchmark**](https://arxiv.org/abs/2207.08815). Se trata de predecir el tipo de cobertura boscosa (2 clases) en áreas del Roosevelt National Forest del norte de Colorado, Estados Unidos, a partir de variables cartográficas. Cada dato corresponde a un celda de $30\times 30$ metros.

## Experimento de referencia con GradientBoosting

Ejecuta el código siguiente para estudiar el error de GradientBoosting con parámetros por defecto.

In [5]:
clf = GradientBoostingClassifier(random_state=parse_dni(dni))

acc = clf.fit(X_train[:10000], y_train[:10000]).score(X_test, y_test)
print(f'Precisión: {acc:.1%}')

Precisión: 79.2%


## Ejercicio 1

Modifica el código de referencia para estudiar el error de GradientBoosting con ajuste de hiper-parámetros mediante alguna de las técnicas de optimización explicadas en las prácticas.

No aplicamos PCA ni normalizamos los datos al no requerirse explícitamente. Se imporime por pantalla el proceso y más tarde la configuración de parámetros que ofrece menos error.


Por cuestiones de tiempo no se prueba con más valores.

In [3]:

clf = GradientBoostingClassifier(random_state=parse_dni(dni))

G = {"n_estimators":[50,100,150,200], "max_features":[10,20,30,40], "max_depth":[1,2,3,4]}

GS = GridSearchCV(clf, G, scoring="accuracy", refit=True ,verbose=10)
acc = GS.fit(X_train[:10000], y_train[:10000]).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

NameError: name 'GradientBoostingClassifier' is not defined

In [2]:
G = {"max_depth": [1,2,3,4],"n_estimators":[50,100,150,200],"max_features":[10,20,30,40,54]}

GS = GridSearchCV(GradientBoostingClassifier(), G, scoring='accuracy', refit=True, cv=5, verbose=10)

acc = GS.fit(X_train[:10000], y_train[:10000]).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

NameError: name 'GridSearchCV' is not defined

## Ejercicio 2

De forma similar al ejercicio anterior, estudia el error de KNeighbors con ajuste de hiper-parámetros mediante alguna de las técnicas de optimización explicadas en las prácticas

En este caso es conveniente aplicar normalización y PCA por cuestiones de como trabaja KNeighbors y por los beneficios que obtiene. Al igual que antes, aquí se imprime el porcentaje de acierto y no de error.

In [8]:
scaler = StandardScaler()
pca = PCA()
knn = KNeighborsClassifier()

pipe = Pipeline(steps=[("scaler", scaler), ("pca", pca), ("knn", knn)])

G = {"pca__n_components": [5,10,15,20,25,50,54], "knn__n_neighbors": [1,3,4,5]}

GS = GridSearchCV(pipe, G, scoring='accuracy', refit=True, cv=5, verbose = 30)
acc = GS.fit(X_train[:10000], y_train[:10000]).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

Fitting 5 folds for each of 28 candidates, totalling 140 fits
[CV 1/5; 1/28] START knn__n_neighbors=1, pca__n_components=5....................
[CV 1/5; 1/28] END knn__n_neighbors=1, pca__n_components=5;, score=0.734 total time=   0.4s
[CV 2/5; 1/28] START knn__n_neighbors=1, pca__n_components=5....................
[CV 2/5; 1/28] END knn__n_neighbors=1, pca__n_components=5;, score=0.708 total time=   0.4s
[CV 3/5; 1/28] START knn__n_neighbors=1, pca__n_components=5....................
[CV 3/5; 1/28] END knn__n_neighbors=1, pca__n_components=5;, score=0.738 total time=   0.3s
[CV 4/5; 1/28] START knn__n_neighbors=1, pca__n_components=5....................
[CV 4/5; 1/28] END knn__n_neighbors=1, pca__n_components=5;, score=0.729 total time=   0.3s
[CV 5/5; 1/28] START knn__n_neighbors=1, pca__n_components=5....................
[CV 5/5; 1/28] END knn__n_neighbors=1, pca__n_components=5;, score=0.740 total time=   0.3s
[CV 1/5; 2/28] START knn__n_neighbors=1, pca__n_components=10............