<a href="https://colab.research.google.com/github/ignaciomontovio/TP-Virus/blob/Nacho/TP_EntregableVirus.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Examen Práctico

#### 01-3900 | Ciencia de datos | 2024

Alumno:

## Enunciado

Se tienen un dataset con datos de pacientes internados en un hospital (TP_Virus_Alumnos.csv). La clase de interes (1) refiere a la presencia de un virus. El virus tiene normalmente una gravedad leve/baja y el tratamiento suele ser invasivo. Datos como nombre y apellido han sido eliminados y los valores tanto en sangre (BLD), hormonales u otros análisis sobre reactivos han sido alterados en sus valores para preservar la privacidad. Se aclara que no se ha modificado su capacidad predictiva (Si es que la tienen).


Para su conocimiento: </BR>
Datos generales de Edad, Peso, Altura y condición laboral (Activo, Pasivo etc).
Datos medidos en hospital:</BR>
BLD: Sangre</BR>
LVL: Hormonales</BR>
REC: Otros análisis</BR>

Se pide obtener con los datos disponibles el mejor modelo posible que prediga la presencia o ausencia del virus.
Dado que el tratamiento es invasivo y la grevedad es moderada se requiere "atrapar" tantos "1" como sea posible y minimizar los falsos positivos para evitar que reciban un tratamiento de estas caracteristicas personas que no presentan el virus. Intente obtener el mejor modelo que maximice la métrica que considere correspondiente.



## Como desarrollar el exámen

A partir del dataset realice todas las acciones para poder llegar al mejor modelo, explique brevemente en los fundamentos de sus transformaciones o acciones en general.

La nota derivará de: </BR>
1.La calidad de la clasificación realizada</BR>
2.La fundamentación de los pasos realizados</BR>
3.Lo sencillo de llevar a producción el desarrollo</BR>



Los docentes evaluaran su clasificador utilizando un conjunto de datos del dataset "fuera de la caja" (out of the box, al que usted no tiene acceso). Para minimizar la posible diferencia entre su medición y la medición del docente recuerde y aplique conceptos de test, validación cruzada y evite los errores comunes de sesgo de selección y fuga de datos (PPT/Pdf Árboles de clasificación) o  Sklearn "10. Common pitfalls and recommended practices" disponible en "https://scikit-learn.org/stable/common_pitfalls.html"   

Al final del notebook encontrará un bloque de código que lee la muestra adicional (a la que usted no tiene acceso) si PRODUCCION==True, en caso contrario solo lee una submuestra del conjunto original para validar que el código funciona. Desarrolle el notebook como considere, para finalmente asignar el mejor clasificador que usted haya obtenido remplazando en f_clf = None, None por su clasificador. Implemente todas las transformaciones entre esa línea y la predición final (Evitando al fuga de datos). Ver TP_AutomatizarTransformaciones.ipynb

En materiales del MIEL se adjunta un notebook que propone algunas ideas para automatizar el proceso.

## Importaciones y Utilidades

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## Modelos de clasificacion
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import MultinomialNB, GaussianNB

## Utilidades
from sklearn import metrics
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.impute import SimpleImputer,KNNImputer
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import  MinMaxScaler


def graficarCurvaRoc( y_pred, model ):
  fpr, tpr, _ = metrics.roc_curve(y_test,  y_pred)
  auc = metrics.roc_auc_score(y_test, y_pred)
  # Graficamos
  plt.plot(fpr,tpr,label= model +" AUC="+str(round(auc,4))) #,label= "AUC="+str(auc))
  plt.legend(loc=4, fontsize=12)
  return auc

# Para automatizar la imputacion y hacerlo mas rapido y simple
# Nos va a servir para probar rapido distintas strategias de imputacion, encoding, normalizacion
# Y ver cual es la mejor.

class ColImputer(BaseEstimator, TransformerMixin):
    def __init__(self, imputer=SimpleImputer(), columns=[]):
        super().__init__()
        self.imputer = imputer
        self.columns = columns

    def fit(self, X, y=None):
        self.imputer.fit(X[self.columns])
        return self

    def get_feature_names_out(self):
        return self.imputer.get_feature_names_out()

    def  transform(self, X):
        Xc = X.copy()
        Xc.loc[:, self.columns] = self.imputer.transform(Xc[self.columns])
        return Xc

class ColEncoder(BaseEstimator, TransformerMixin):
    def __init__(self, encoder=None, columns=[]):
        super().__init__()
        self.encoder = encoder
        self.columns = columns

    def fit(self, X, y=None):
        self.encoder.fit(X[self.columns])
        return self

    def get_feature_names_out(self):
        return self.get_feature_names_out()

    def  transform(self, X):
        Xc = X.copy()
        Xc.loc[:, self.columns] = self.encoder.transform(Xc[self.columns])
        return Xc

class ColScaler(BaseEstimator, TransformerMixin):
    def __init__(self, scaler=StandardScaler(), columns=[]):
        super().__init__()
        self.scaler = scaler
        self.columns = columns

    def fit(self, X, y=None):
        self.scaler.fit(X[self.columns])
        return self

    def get_feature_names_out(self):
        return self.scaler.get_feature_names_out()

    def  transform(self, X):
        Xc = X.copy()
        Xc.loc[:, self.columns] = self.scaler.transform(Xc[self.columns])
        return Xc

class ColDummy(BaseEstimator, TransformerMixin):
    def __init__(self, columns=[], delete = ''):
        super().__init__()
        self.columns = columns
        self.delete = delete

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        Xc = X.copy()
        Xc = pd.get_dummies(Xc, columns=self.columns)
        if(self.delete != ''):
          Xc = Xc.drop(columns=self.delete)
        #Xc = X.drop(columns=self.columns)
        return Xc

class ReplaceValue(BaseEstimator, TransformerMixin):
    def __init__(self, column, old_value, new_value):
        self.column = column
        self.old_value = old_value
        self.new_value = new_value

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        Xc = X.copy()
        Xc.loc[:, self.column] = Xc[self.column].replace(self.old_value, self.new_value)
        return Xc
    
class ColumnTypeModifier:
    def __init__(self, column_name, new_dtype):
        self.column_name = column_name
        self.new_dtype = new_dtype
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        Xc = X.copy()
        Xc[self.column_name] = Xc[self.column_name].astype(self.new_dtype)
        return Xc
    
class ColumnDrop:
    def __init__(self, columns_to_drop=[]):
        super().__init__()
        self.columns_to_drop=columns_to_drop

    def fit(self, X, y=None):
        return self
    
    def transform(self, X):
        Xc = X.copy()
        Xc = Xc.drop(self.columns_to_drop, axis=1)
        return Xc

## Evaluacion final - Docente + Alumno

In [None]:
## Primero necesitamos hacer una ejecucion de las celdas de abajo ( tratamiento de variables, evaluacion y mejora de modelos ) para establecer el modelo antes de ir a produccion.

PRODUCCION = False

#Leemos el dataset de evaluación, simulando producción
if not PRODUCCION:
    df = pd.read_csv("TP_Virus_Alumnos.csv")
    # Seguir ejecutando demas celdas del cuaderno.

else:

    df = pd.read_csv("TP_Virus_Evaluacion.csv")

    #Dividimos en target y predictoras
    X_prod = df.drop("target", axis=1)
    y_prod = df["target"]

    # Treaemos el modelo de Random Forest obtenido previamente en grid search si existe o en su defecto el modelo sin optimizar
    best_clf = best_rf if best_rf else rf_model

    display(best_clf)
    
    #Transformaciones
    X_prod = pl.transform(X_prod)

    #Evaluación final
    y_pred = best_clf.predict(X_prod)
    print(classification_report(y_prod, y_pred))
    df.shape[0]
    

## Analisis de Variables

In [None]:
# verificamos los tipos de datos
df.dtypes

In [None]:
# Verificamos si hay valores nulos para imputar
print(df.isnull().sum())
# Verificamos si hay duplicados
print(df.duplicated().sum())

### Correlacion

In [None]:
#En la matriz de correlación vemos que edad, peso e hijos estan ampliamente correlacionados.
#Las demas variables no poseen correlacion entre ellas, pueden aportar valor.
fig, ax = plt.subplots(figsize=(10,7))
mat = df.select_dtypes(include=['int', 'float']).corr()
sns.heatmap(mat, annot=True, cmap='coolwarm', fmt=".2f",  ax=ax)
plt.title('Matriz de Correlación')
plt.show()

### Edad

In [None]:
# Analisis de la distribución de la variable target "Edad"
print( df.Edad.value_counts() )
sns.countplot(x='Edad', data=df, hue='target', legend=False)

In [None]:
df[["Edad"]].boxplot()
df[["Edad"]].hist()

In [None]:
df[["Edad"]].describe().T

In [None]:
df.Edad.value_counts()

### Peso

In [None]:
df[["Peso"]].boxplot()
df[["Peso"]].hist()

In [None]:
df[["Peso"]].describe().T

In [None]:
df.Peso.value_counts()

# Observamos outliers en peso. Los valores atipicos estan relacionados con los recien nacidos, debido a la media del peso de la muestra,
# parece ser un valor fuera de lo normal cuando no lo es. Sin embargo que el peso '8.934178..'
# sea el único que encuentre repetido varias veces es indicativo de un error en la carga o defectos en la muestra.

### Hijos

In [None]:
# Analisis de la distribución de la variable target "hijos"
print( df.hijos.value_counts() )
sns.countplot(x='hijos', data=df, hue='hijos', legend=False)

In [None]:
df[["hijos"]].boxplot()

In [None]:
df[["hijos"]].hist()

In [None]:
df[["hijos"]].describe().T

In [None]:
df.hijos.value_counts()

### BLD01

In [None]:
df[["BLD01"]].boxplot()
df[["BLD01"]].hist(bins=30)

In [None]:
df[["BLD01"]].describe().T

In [None]:
df.BLD01.value_counts()

### BLD02

In [None]:
df[["BLD02"]].boxplot()
df[["BLD02"]].hist()

In [None]:
df[["BLD02"]].describe().T

In [None]:
print(df.BLD02.value_counts())

### BLD03

In [None]:
df[["BLD03"]].boxplot()
df[["BLD03"]].hist()

In [None]:
df[["BLD03"]].describe().T

In [None]:
df.BLD03.value_counts()

### REC1

In [None]:
df[["REC1"]].boxplot()
df[["REC1"]].hist()

In [None]:
df[["REC1"]].describe().T

In [None]:
df.REC1.value_counts()

### REC2

In [None]:
df[["REC2"]].boxplot()
df[["REC2"]].hist()

In [None]:
df[["REC2"]].describe().T

In [None]:
df.REC2.value_counts()

### REC3

In [None]:
df[["REC3"]].boxplot()
df[["REC3"]].hist()

In [None]:
df[["REC3"]].describe().T

In [None]:
df.REC3.value_counts()

### REC4

In [None]:
df[["REC4"]].boxplot()
df[["REC4"]].hist()

In [None]:
df[["REC4"]].describe().T

In [None]:
df.REC4.value_counts()

### REC5

In [None]:
df[["REC5"]].boxplot()
df[["REC5"]].hist()

In [None]:
df[["REC5"]].describe().T

In [None]:
df.REC5.value_counts()

### Target

In [None]:
sns.countplot(x='target', data=df, hue='target', legend=False)

In [None]:
#No hay duplicados.
print("Cantidad:",  df.duplicated().sum())

## Tratamiento de variables

Aca vamos a tratar cosas generales que queremos aplicar siempre, luego en la evaluacion del modelo,
con los pipelines probamos y analiamos distintas estragias de imputacion, normalizacion, etc...

In [None]:
df_norm = df

X = df_norm.drop("target", axis=1)
y = df_norm["target"]

X_train_norm, X_test_norm, y_train, y_test = train_test_split(X, y, random_state=3, test_size=0.3)


pl = Pipeline(steps=[
    ("DropColumns", ColumnDrop(["Genero", "hijos", "Laboral", "REC1", "REC2"])),
    ("BLD03Scaler", ColScaler(scaler=MinMaxScaler(), columns=["BLD03"])),
    ("BLD02Scaler", ColScaler(scaler=MinMaxScaler(), columns=["BLD02"])),
    ("BLD01Scaler", ColScaler(scaler=MinMaxScaler(), columns=["BLD01"])),
    ("LVLReplace", ReplaceValue("LVL",1000000, np.nan)), # Reemplazar los 1000000 por nan
    ("LVLImputer", ColImputer(imputer=SimpleImputer(strategy='mean'), columns=["LVL"])),
    ("LVLScaler", ColScaler(scaler=MinMaxScaler(), columns=["LVL"])),
    ("EdadImputer", ColImputer(imputer=SimpleImputer(strategy='median'), columns=["Edad"])),
    ("EdadTypeReplace",ColumnTypeModifier("Edad",int))
])

pl.fit(X_train_norm, y_train)
X_train = pl.transform(X_train_norm)
X_test = pl.transform(X_test_norm)

X_train

## Evaluacion de modelos

In [None]:
logreg = LogisticRegression( max_iter=3000 )
logreg.fit(X_train, y_train)
y_pred_lg = logreg.predict(X_test)

treeclf = DecisionTreeClassifier(max_depth=10, random_state=1)
treeclf.fit(X_train, y_train)
y_pred_tc = treeclf.predict(X_test)

bayes_multi = MultinomialNB()
bayes_multi.fit(X_train, y_train)
y_pred_nb = bayes_multi.predict(X_test)

bayes_gauss = GaussianNB()
bayes_gauss.fit(X_train, y_train)
y_pred_gauss = bayes_gauss.predict(X_test)

rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

In [None]:
# Inicializamos los labels del gráfico
plt.figure(figsize=(20, 10))
plt.xlabel('% 1 – Specificity (falsos positivos)', fontsize=14)
plt.ylabel('% Sensitivity (positivos)', fontsize=14)

# Graficamos la recta del azar
it = [i/100 for i in range(100)]
plt.plot(it,it,label="AZAR AUC=0.5",color="black")

modelos = { 'bayesGauss':y_pred_gauss,'arbol':y_pred_tc, 'reglog':y_pred_lg, 'multinomial': y_pred_nb, 'randomForest':y_pred_rf}
areas = []
for pred in modelos:
    auc = graficarCurvaRoc( modelos[pred] , pred )
    areas.append( (pred, auc) )
areas = pd.DataFrame(areas, columns=['model','auc'])
areas.sort_values('auc', ascending=False)

cm_display = metrics.ConfusionMatrixDisplay(confusion_matrix = confusion_matrix(y_test,y_pred_rf), display_labels = [False, True])
cm_display.plot()
plt.show()

### Clasificacion de todos los modelos.
Debemos mejorar precision: para evitar los falsos positivos, dado que el tratamiento es invasivo y la gravedad moderada.
Debemos mejorar recall: porque queremos detectar todos los positivos posibles.

In [None]:
from IPython.display import display, Markdown

display(Markdown(f"## LogisticRegression"))
print(classification_report(y_test, y_pred_lg))

display(Markdown(f"## DecisionTreeClassifier"))
print(classification_report(y_test, y_pred_tc))

display(Markdown(f"## MultinomialNB"))
print(classification_report(y_test, y_pred_nb))

display(Markdown(f"## GaussianNB"))
print(classification_report(y_test, y_pred_gauss))

display(Markdown(f"## RandomForest"))
print(classification_report(y_test, y_pred_rf))


### Mejora de los modelos con GridSearch

#### Logistic Regression

In [None]:
from warnings import simplefilter
# ignore all warnings
simplefilter(action='ignore')

parameters =  {"C":np.logspace(-3,3,13), "penalty":["l1","l2",None], "max_iter":[1500,3000,4000]}
clf = GridSearchCV( LogisticRegression() , parameters, scoring='precision', cv=5, )
clf.fit(X_train, y_train)

print("Best Parameters:", clf.best_params_)
print("Best Score:", clf.best_score_)

best_logreg = clf.best_estimator_

#### Decision Tree Classifier

In [None]:
parameters = {"criterion": ['gini', 'entropy', 'log_loss'], "splitter": ['best', 'random'], "max_depth": [2, 5, 10, 20, 30, 40], "random_state": [1,5,9,15,20,30,40]}
clf = GridSearchCV( DecisionTreeClassifier() , parameters, scoring='precision', cv=5, )
clf.fit(X_train, y_train)

print("Best Parameters:", clf.best_params_)
print("Best Score:", clf.best_score_)

best_decisiontree = clf.best_estimator_

#### Multinomial

In [None]:
parameters = {"fit_prior": [True, False], "alpha": [0,1.0,2.0,3.0], "force_alpha": [True, False]}
clf = GridSearchCV( MultinomialNB() , parameters, scoring='precision', cv=5, )
clf.fit(X_train, y_train)

print("Best Parameters:", clf.best_params_)
print("Best Score:", clf.best_score_)

best_multibayes = clf.best_estimator_

#### GaussianNB

In [None]:
parameters = {'var_smoothing': np.logspace(0,-9, num=100)}
clf = GridSearchCV( GaussianNB() , parameters, scoring='precision', cv=5, )
clf.fit(X_train, y_train)

print("Best Parameters:", clf.best_params_)
print("Best Score:", clf.best_score_)

best_gaussbayes = clf.best_estimator_

#### Random Forest Classifier

In [None]:
parameters = {
    'n_estimators': [100],  # Número de árboles en el bosque
    'max_depth': [None],  # Máxima profundidad de los árboles
    'min_samples_split': [2, 5],  # Número mínimo de muestras requeridas para dividir un nodo
    'min_samples_leaf': [1, 2],  # Número mínimo de muestras requeridas en un nodo hoja
    'bootstrap': [True], 
    "random_state": [1,5,9,15,20,30,40] # Método para seleccionar muestras para entrenar cada árbol
    }

clf = GridSearchCV(RandomForestClassifier(), parameters, scoring='accuracy', cv=5)
clf.fit(X_train, y_train)

# Imprimir los mejores parámetros y el mejor puntaje
print("Best Parameters:", clf.best_params_)
print("Best Score:", clf.best_score_)

# Obtener el mejor modelo
best_rf = clf.best_estimator_ 

### Re-Evaluacion

In [None]:
best_logreg.fit(X_train, y_train)
y_pred_lg = best_logreg.predict(X_test)


best_decisiontree.fit(X_train, y_train)
y_pred_tc = best_decisiontree.predict(X_test)

best_multibayes.fit(X_train, y_train)
y_pred_nb = best_multibayes.predict(X_test)

best_gaussbayes.fit(X_train, y_train)
y_pred_gauss = best_gaussbayes.predict(X_test)

best_rf.fit(X_train, y_train)
y_pred_rf = best_rf.predict(X_test)

plt.figure(figsize=(20, 10))
plt.xlabel('% 1 – Specificity (falsos positivos)', fontsize=14)
plt.ylabel('% Sensitivity (positivos)', fontsize=14)

# Graficamos la recta del azar
it = [i/100 for i in range(100)]
plt.plot(it,it,label="AZAR AUC=0.5",color="black")

modelos = { 'randomForest': y_pred_rf ,'bayesGauss':y_pred_gauss,'arbol':y_pred_tc, 'reglog':y_pred_lg, 'multinomial': y_pred_nb}
areas = []
for pred in modelos:
    auc = graficarCurvaRoc( modelos[pred] , pred )
    areas.append( (pred, auc) )
areas = pd.DataFrame(areas, columns=['model','auc'])
# Grafico
# plt.title("Curva ROC", fontsize=14)
# plt.tick_params(labelsize=12);
# plt.show()
# Tabla
areas.sort_values('auc', ascending=False)

confusion_matrix(y_test,y_pred_rf)
cm_display = metrics.ConfusionMatrixDisplay(confusion_matrix = confusion_matrix(y_test,y_pred_rf), display_labels = [False, True])
cm_display.plot()
plt.show()


In [None]:
from IPython.display import display, Markdown

display(Markdown(f"## RandomForest"))
print(classification_report(y_test, y_pred_rf))

display(Markdown(f"## LogisticRegression"))
print(classification_report(y_test, y_pred_lg))

display(Markdown(f"## DecisionTreeClassifier"))
print(classification_report(y_test, y_pred_tc))

display(Markdown(f"## MultinomialNB"))
print(classification_report(y_test, y_pred_nb))

display(Markdown(f"## GaussianNB"))
print(classification_report(y_test, y_pred_gauss))

## Validación Cruzada

Para garantizar la robustez y la generalización de nuestro modelo utilizaremos la técnica de validación cruzada (K-Folds). Esto nos permitirá evaluar el rendimiento del modelo de manera más exhaustiva.

La validación cruzada nos ayudará a reducir el sesgo de evaluación,Además nos permitirá identificar la variabilidad en el rendimiento del modelo, minimizando así el riesgo de sobreajuste (overfitting) y asegurando que el modelo generalice bien a nuevos datos no vistos.

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

def realizar_kfolds_val(model,X,y,splits=5,shf=True):
    kf = KFold(n_splits=splits, shuffle=shf, random_state=42)

    # Evaluar el modelo utilizando validación cruzada
    scores = cross_val_score(model, X, y, cv=kf)

    display(Markdown(f' Scores for each fold: \n {scores}'))
    display(Markdown(f' Mean score: \n {scores.mean()}'))
    display(Markdown(f' Standard deviation: \n {scores.std()}'))


folds = 10

display(Markdown("# Cross-Validation - Log Reg"))
realizar_kfolds_val(best_logreg,X_train,y_train,folds)

display(Markdown("\n\n # Cross-Validation - Decision Tree Classifier"))
realizar_kfolds_val(best_decisiontree,X_train,y_train,folds)

display(Markdown("# Cross-Validation - Random Forest Classifier"))
realizar_kfolds_val(best_rf,X_train,y_train,folds)

display(Markdown("\n\n # Cross-Validation - Multinomial Bayes"))
realizar_kfolds_val(best_multibayes,X_train,y_train,folds)

display(Markdown("\n\n # Cross-Validation - Gaussian Bayes"))
realizar_kfolds_val(best_gaussbayes,X_train,y_train,folds)