## Trabajo final de la asignatura de Aprendizaje Automático II del Master en Ciencia de Datos y Aprendizaje Automático (UR)

### **Requisitos generales:**

- Grupos de 1 a 3 personas (ideal 3).
- Probar con al menos 3 modelos distintos (si el grupo es de menos de 3 personas el requisito es de 2 modelos).
- Cada una de las partes ha de estar bien documentada y descrita.

### **Requisitos mínimos del trabajo (para aprobar el trabajo final):**

- Selección de un dataset (ver sugerencias a continuación)
- Breve preprocesamiento de datos: no es el objetivo de esta asignatura pero sí que es necesario realizar un breve estudio de conocer cómo son los datos (como los vistos en las prácticas). En caso de columnas incompletas, con valores nulos, o datos con dimensión muy alta, se permite eliminar estas columnas y no tener en cuenta algunas de las características.
- Para cada modelo:
    * Datos entrada: estudio del balanceo de los datos y aplicar si es el caso una técnica de balanceo. (Si los datos están balanceados, reducir de forma artificial una de las clases y aplicar una técnica para balancear. En este caso, continuar con el conjunto original el resto de ejercicios, es decir con el conjunto balanceado inicial.)
    * Incluir técnicas de validación (aplicar al menos 1 técnica).
    * Estudio de hiperparámetros (aplicar al menos 1 técnica) y creación del modelo
    * Evaluación del modelo con más de una métrica de las vistas en clase

- Comparación de modelos
- Hacer un ensemble con los modelos elegidos.
- Comparar los resultados entre los modelos y el ensemble realizado.

### **Ejercicios para alcanzar mayor nota:**

- Utilizar más de una técnica de balanceo
- Ampliar las técnicas del estudio de hiperparámetros
- Ampliar el número de modelos
- Utilizar varios métodos de ensemble
- Aplicar almenos una técnica de interpretabilidad.


Fecha final de entrega :
A las 23:59 del 13 de enero de 2024.

### **Posibles datasets:**

A continuación tienes enlaces a posibles datasets, cualquier otro dataset que no sean parte de los conocidos como “toy datasets” también vale. Si son datos en los que tengáis un especial interés, mejor.

A continuación tienes enlaces a posibles datasets, cualquier otro dataset que no sean parte de los conocidos como “toy datasets” también vale. Si son datos en los que tengáis un especial interés, mejor.

**CLASIFICACIÓN**

- https://www.kaggle.com/denisadutca/customer-behaviour
- https://www.kaggle.com/fedesoriano/heart-failure-prediction
- https://www.kaggle.com/fedesoriano/hepatitis-c-dataset
- https://www.kaggle.com/fedesoriano/cirrhosis-prediction-dataset
- https://www.kaggle.com/fedesoriano/stroke-prediction-dataset
- https://www.kaggle.com/ronitf/heart-disease-uci

**REGRESIÓN**

- https://www.kaggle.com/fedesoriano/body-fat-prediction-dataset
- https://www.kaggle.com/budincsevity/szeged-weather
- https://www.kaggle.com/new-york-city/nyc-east-river-bicycle-crossings
- https://www.kaggle.com/aungpyaeap/fish-market
- https://www.kaggle.com/vbmokin/suspended-substances-prediction-in-river-water
- https://www.kaggle.com/vbmokin/dissolved-oxygen-prediction-in-river-water

In [3]:
# Guardar librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocesamiento
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder
# ... y más

# Datos entrada
from sklearn.utils import resample
from imblearn.over_sampling import RandomOverSampler, SMOTE, ADASYN
from imblearn.under_sampling import RandomUnderSampler
from collections import Counter
# ... y más

# Metricas
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import ConfusionMatrixDisplay
# ... o más

# Validación
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import KFold
from sklearn.model_selection import RepeatedKFold
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import ShuffleSplit
# ... o más

# Modelos: Clasificación y Regresión

# Clasificación
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
# ... o más

# Regresión
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.naive_bayes import GaussianNB
# ... o más

# Optimización de hiperparámetros
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from skopt import BayesSearchCV
from sklearn.model_selection import HalvingGridSearchCV
from sklearn_nature_inspired_algorithms.model_selection.nature_inspired_search_cv import NatureInspiredSearchCV
from evolutionary_search import EvolutionaryAlgorithmSearchCV

# Ensembles Clasificación y Regresión

# Clasificación
from sklearn.ensemble import VotingClassifier
from sklearn.ensemble import StackingClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier

# Regresión
from sklearn.ensemble import VotingRegressor
from sklearn.ensemble import StackingRegressor
from sklearn.ensemble import BaggingRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import XGBRegressor

## Seleccion del dataset

- Nombre del dataset
- Short Discription
- ... y más

In [6]:
# guardar el dataset en un archivo local
df = pd.read_csv('PON_DIRECCION', sep=",")

# Mostrar las n primeras filas del dataset
df.head(5)

In [None]:
# Mostrar la información del dataset
df.info()

In [None]:
# Mostrar las estadísticas del dataset
df.describe()

In [None]:
# Histograms
df.hist()
plt.show()

In [None]:
# Density
df.plot(kind='density', subplots=True, layout=(4,3), sharex=False)
plt.show()

In [None]:
# Mostrar el número de instancias para cada valor de la clase
df['Class'].value_counts()

#### *Elgir juntos: que tecnicas del preprocesamiento vamos a usar?*
- 
-
-

## 1. Preprocesamiento de datos

In [None]:
# ...

In [None]:
# ...

In [None]:
# ...

## 2. Datos entrada

- *Todas las referencias al codigo en la Practica 01*

Vemos cuantas instancias hay de cada clase

In [None]:
# Mostrar el número de instancias para cada valor de la clase
df['Class'].value_counts()

In [None]:
# Mostrar el número de instancias para cada valor de la clase en forma de gráfico
plt.hist(df['Class'])

*Todas opciones:*
1. Aumentar la muestra  - aleatoriamente seleccionamos las filas y las duplicamos
2. Disminuir la muestra - eliminar las instancias
3. Combinar las 2 primeras
4. SMOTE - sintetizar nuevas instancias sin tener en cuenta la densidad (k_neighbors )
5. ADASYN -  sintetizar nuevas instancias teniendo en cuenta la densidad (se crean las inctancias con baja densidad evitando desacharlos como ruido)
(n_neighbors )

#### *Responder juntos: QUE PROBAMOS?*
- 
-
-

### 2.1. Aumentar la muestra de la clase minoritaria - por ejemplo


*referencia al codigo en clase:*


In [None]:

# Separar las clases mayoritaria y minoritaria
df_majority = df[df.Class==0]
df_minority = df[df.Class==1]

# Aumentar la muestra de la clase minoritaria
df_minority_upsampled = resample(df_minority,
                                 replace=True,     # muestra con remplazamiento
                                 n_samples=576,    # número de muestras de la clase mayoritaria
                                 random_state=123) # semilla para que los resultados sean reproducibles

# Combinar el nuevo grupo con el grupo original mayoritario
df_upsampled = pd.concat([df_majority, df_minority_upsampled])

# Mostrar el número de instancias en cada clase
df_upsampled.Class.value_counts()

Despues para cada metodo podemos explorar como se comporta el modelo y despues eligir la mejor tecnica de balanceo

In [9]:
# de clasificación
model1 = KNeighborsClassifier().fit(X_train, y_train)
model2 = SVC().fit(X_train, y_train)
model3 = DecisionTreeClassifier().fit(X_train, y_train)
model4 = RandomForestClassifier().fit(X_train, y_train)
#... y más si queremos o otros

# de regresión
model1 = KNeighborsRegressor().fit(X_train, y_train)
model2 = SVR().fit(X_train, y_train)
model3 = DecisionTreeRegressor().fit(X_train, y_train)
model4 = RandomForestRegressor().fit(X_train, y_train)
#... y más si queremos o otros

models = [model1, model2, model3, model4]
names = ['KNN', 'SVC', 'DT', 'RF']
accuracy_scores = []
confusion_matrices = []

for model, name in zip(models, names):
    y_pred = model.predict(X_test)
    accuracy_scores.append(accuracy_score(y_test, y_pred))
    confusion_matrices.append(confusion_matrix(y_test, y_pred)) # matriz de confusión - no es necesario pero me parece util para comparar todos al final
    # y elejir el mejor metodo donde el modelo no sobreajuste
    print(name)
    print(accuracy_score(y_test, y_pred))

In [10]:
# ... repetimos por mas metodos

Al final seria bueno tener una tabla con todos los resultados

In [None]:
# creamos la tabla de los resulado de los modelos
resultados = pd.DataFrame()
resultados["Técnica  de balanceo"] = ["Sin balanceo", "Oversampling_576", "Downsampling_49", "Combinación de técnicas_312"]
resultados['k-nn'] = [acc_knn, acc_knn_up, acc_knn_down, acc_knn_comb]
resultados['Regresión Logística'] = [acc_lr, acc_lr_up, acc_lr_down, acc_lr_comb]
resultados

Con matriz de confusion tambien - *es un ejemplo de mi practica*

![image.png](attachment:image.png)

El codigo para matriz de confusion

In [None]:
# Mostamos las matrices de confusión de los modelos
import matplotlib.pyplot as plt
import seaborn as sns

conf_matrix_all_knn = [conf_matrix_knn, conf_matrix_knn_up, conf_matrix_knn_down, conf_matrix_knn_comb]
conf_matrix_all_lr = [conf_matrix_lr, conf_matrix_lr_up, conf_matrix_lr_down, conf_matrix_lr_comb]
conf_matrix_knn_lr = [conf_matrix_all_knn, conf_matrix_all_lr]
modelos = ['k-NN', 'LR']
tecnicas = ['Sin balanceo', 'Oversampling_576', 'Downsampling_49', 'Combinación de técnicas_312']

fig, axes = plt.subplots(2, 4, figsize=(16, 8))
for j in range(2):
    for i in range(4):
        sns.heatmap(conf_matrix_knn_lr[j][i], annot=True,  fmt='d',cmap ='Blues', ax=axes[j, i],cbar=False, square=True)
        axes[j, i].set_title(f'{modelos[j]} {tecnicas[i]}')
        # plt.tight_layout()
    plt.suptitle('Matriz de confusión de k-nn y Regresión Logística', fontsize=16)
plt.show()


**Conclusiones:**

-
-
-


## 3. Técnicas de validación 

- *Todas las referencias al codigo en la Practica 02*

*Opciones:*

1. Simple Validation (Hold Out) - when we separate to X_train, X_test
2. Leave One Out (n = n instances) 
3. k-fold Cross Validation (with folds like 5-10)
    - ShuffleSplit - n_splits willl be splitted into small parts (splits) on the whole dataset but in the sum they are 20% (or whatever proportion we defined) of the dataset that is X_test
    - StratifiedKFold - n_splits from each class
    - GroupShuffleSplit
    - StratifiedShuffleSplit
    - RepeatedStratifiedKFold
    - TimeSeriesSplit

### *Ideas:*

- podemos crear 2 funciones para evaluar, por ejemplo `def evaluar_sv()` - 'simple validation' y `def evaluar_cv()` - 'cross validation' y aplicarlos cada vez para evaluacion

### *responder juntos: Que hacemos? Otras ideas?*
- 
-
-


## 4. Estudio de hiperparámetros y creación del modelo


- *Todas referencias al codigo en la Practica 05*

*Opciones:*


- ``GridSearch``: It checks all possible combinations of hyperparameter values you want to tune, making it a thorough but potentially time-consuming search.

- ``Random Search:``	Instead of checking everything like GridSearch, it randomly picks combinations to try. This can be faster and sometimes find good settings without checking every option.

- ``Bayesian optimization:``	It's like a smart assistant. It guesses what might work based on past results, tries something, and updates its guess. It's efficient when checking many options might take a long time.

- ``HalvingGridSearchCV (divison of resources):``	It's like a game of "20 Questions" where you split the questions based on previous answers. It helps save time by eliminating less promising options early.

- ``Nature-based optimization methods:`` Imagine tuning parameters like animals evolving. Nature-inspired methods mimic natural processes, like evolution or swarm behavior, to find good settings.

- ``Genetic algorithms:`` Think of it as a genetic evolution for your settings. It starts with a bunch of options, lets the good ones "reproduce," and over time, you end up with settings that work well together.


Podemos ir probando los diferentes metodos y gaurdando los resultatos del RMSE o Accuracy (depende de nuestro dataset) y al final eligir lo mejor basandonos en estos resultados. Tambien podempos incluir una tabla con todos los resultados. Abajo propociono un ejemplo

![image.png](attachment:image.png)

### *responder juntos: Que modelos vamos a probar? Otras ideas?*
- 
-
-

## 5. Hacer un ensemble con los modelos elegidos.

- *Todas referencias al codigo en la Practica 06*

*Todas opciones:*
- Mayoría o Media (VotingClassifier/ VotingRegressor)
- Bagging 
    * (BaggingClassifier / BaggingRegressor:
        * Bagging 
        * Random pathches
        * Random subspaces)
- Random Forest
- Boosting
- AdaBoosting
- Gradient Boosting
- Blending
- Stacking




*Idea:*
- Elegir unos ensembles 
- Lo mismo: crear tabla y poner todos los resultados obtenidos.
- Visualisar los datos (por ejemplo con el histograma de baras)

### *responder juntos: Que modelos vamos a probar? Otras ideas?*
- 
-
-

## 6. Interpretabilidad.

## 7. Conclusiones

# ...

## 8. Literatura

# ...