# Aprendizaje automático y aplicaciones

---
$A^3$ @ FI-UNER : 2021

## Objetivo
Entrene un algoritmo capaz de clasificar la patología descripta a continuación en base a los tributos disponibles (o un subconjunto de ellos).

## Descripción del problema

El diagnóstico diferencial de las enfermedades eritemato-escamosas es un verdadero problema en dermatología. Todas ellas comparten las características clínicas de eritema y descamación, con muy pocas diferencias. Las enfermedades de este grupo son la psoriasis, la dermatitis sebórica, el liquen plano, la pitiriasis rosada y la dermatitis crónica. Normalmente es necesaria una biopsia para el diagnóstico, pero desgraciadamente estas enfermedades también comparten muchas características histopatológicas. Otra dificultad para el diagnóstico diferencial es que una enfermedad puede mostrar los rasgos de otra enfermedad en la fase inicial y puede tener los rasgos característicos en las fases siguientes. Los pacientes fueron evaluados primero clínicamente con 12 rasgos. Posteriormente, se tomaron muestras de piel para la evaluación de 22 rasgos histopatológicos. Los valores de los rasgos histopatológicos se determinan mediante un análisis de las muestras al microscopio.

En este conjunto de datos, el rasgo de historia familiar tiene el valor 1 si se ha observado alguna de estas enfermedades en la familia, y 0 en caso contrario. La característica de edad representa simplemente la edad del paciente. A todas las demás características (clínicas e histopatológicas) se les dio un grado en el rango de 0 a 3. Aquí, 0 indica que la característica no estaba presente, 3 indica la mayor cantidad posible, y 1, 2 indican los valores intermedios relativos. Así, todos los atributos pueden tomar valores del conjunto {0, 1, 2, 3}, a excepción de la historia familiar (family history) que sólo puede tomar valores {0,1}.

## Carga de bibliotecas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from copy import deepcopy

from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_recall_fscore_support, accuracy_score

# Carga de datos

In [None]:
trn_filename = 'DERMATOLOGY_trn.csv'
tst_filename = 'DERMATOLOGY_tst.csv'


#---------------------
# Carga de datos
#---------------------
data_trn = pd.read_csv(trn_filename, index_col=False, header=0)
data_tst = pd.read_csv(tst_filename, index_col=False, header=0)

In [None]:
#-----------------------------------
# Separamos patrones de etiquetas
#-----------------------------------
X_TRN = data_trn.iloc[:,:-1]  # Features - patrones training + validation
Y_TRN = data_trn.iloc[:,-1]  # Clases - patrones training + validation

X_tst = data_tst.iloc[:,:-1]  # Features - patrones test
y_tst = data_tst.iloc[:,-1]  # Clases - patrones test

## Exploración de datos

- **¿Contiene datos faltantes el dataset?**

...

- *Si la respuesta es afirmativa*: **¿Para qué features y en qué cantidad?** 
(Confeccione una tabla con el nombre de la feature y el número de datos faltantes)

...

- **¿El dataset está balanceado?**

...

## Separo datos para entrenamiento y validación

*Sugerencia*: Separar 80% de los patrones para entrenamiento y 20% para validación.

In [None]:
X_trn, X_val, y_trn, y_val = ...

## Imputación de datos *(si fuera necesario)*

**Recordar**: Si el método debe aprender de los datos, antrenar en train y luego aplicar al resto.

## Estandarizo los datos *(si fuera necesario)*

**Recordar**: Si el método debe aprender de los datos, antrenar en train y luego aplicar al resto.

In [None]:
#transformation = ...

##---------------------------------------------------
## Aprendizaje de parámetros para los datos de train
##---------------------------------------------------
#transformation.fit(X_trn)

##---------------------------------------------------
## Transformación de datos train, validation y test
##---------------------------------------------------
#X_trn = transformation.transform(X_trn)
#X_val = transformation.transform(X_val)
#X_tst = transformation.transform(X_tst)

## Proyección de los datos y visualización

- Utilice PCA y obtenga las componentes principales para este dataset utilizando PCA y LDA.
- ¿Qué porcentaje de la varianza explican las 2 primeras componentes con cada técnica?.
- Construya un gráfico compuesto por 2 subplots:
  - Subplot 1: Gráfico 2D mostrando la distribución de los datos empleando las 2 componentes más importantes encontradas mediante PCA.
  - Subplot 2: Gráfico 2D mostrando la distribución de los datos empleando las 2 componentes más importantes encontradas mediante LDA.


In [None]:
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

In [None]:
# PCA
pca = ...
pca.fit(X_trn)  # Determino componentes PCA

X_trn_pca = pca.transform(X_trn)  # Datos de train proyectados con PCA
X_val_pca = pca.transform(X_val)  # Datos de validación proyectados con PCA
X_tst_pca = pca.transform(X_tst)  # Datos de test proyectados con PCA

In [None]:
print(f'Explained variance ratio [PCA]: {...}')

In [None]:
# LDA
lda = ...
lda.fit(X_trn, y_trn)  # Determino componentes LDA

X_trn_lda = lda.transform(X_trn)  # Datos de train proyectados con LDA
X_val_lda = lda.transform(X_val)  # Datos de validación proyectados con LDA
X_tst_lda = lda.transform(X_tst)  # Datos de test proyectados con LDA

In [None]:
print(f'Explained variance ratio [LDA]: {...}')

In [None]:
# CONSTRUCCION DEL GRAFICO



## Genero estructura para guardar métricas

In [None]:
METRICAS = {'modelo': {'trn': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None},
                       'val': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None},
                       'tst': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None}},
            'modelo+pca': {'trn': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None},
                           'val': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None},
                           'tst': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None}},
            'modelo+lda': {'trn': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None},
                           'val': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None},
                           'tst': {'Pr': None, 'Rc': None, 'Acc': None, 'F1':None}}}

## Definición del modelo a utilizar

In [None]:
from sklearn...

model = ...  # Seleccionar un clasificador

model_full = deepcopy(model)  # Copia para entrenar con todas las features
model_pca = deepcopy(model)  # Copia para entrenar con las features de PCA
model_lda = deepcopy(model)  # Copia para entrenar con las features de LDA

# Entrenamiento del modelo con todas las features

In [None]:
model_full.fit(X_trn, y_trn)

In [None]:
# PREDICCION DEL MODELO
y_pred = model_full.predict(X_trn)

In [None]:
# CALCULO DE METRICAS
precision, recall, f1,_ = precision_recall_fscore_support(y_trn, y_pred, average='macro')
accuracy = accuracy_score(y_trn, y_pred)

# SALVO METRICAS
METRICAS['modelo']['trn']['Pr'] = precision
METRICAS['modelo']['trn']['Rc'] = recall
METRICAS['modelo']['trn']['Acc'] = accuracy
METRICAS['modelo']['trn']['F1'] = f1

**VALIDATION**

In [None]:
y_pred = model_full.predict(X_val)

In [None]:
precision, recall, f1,_ = precision_recall_fscore_support(y_val, y_pred, average='macro')
accuracy = accuracy_score(y_val, y_pred)

# SALVO METRICAS
METRICAS['modelo']['val']['Pr'] = precision
METRICAS['modelo']['val']['Rc'] = recall
METRICAS['modelo']['val']['Acc'] = accuracy
METRICAS['modelo']['val']['F1'] = f1

# Entrenamiento del modelo con features proyectadas

### PCA

In [None]:
model_pca.fit(X_trn, y_trn)

In [None]:
# PREDICCION DEL MODELO
y_pred = model_pca.predict(X_trn)

In [None]:
# CALCULO DE METRICAS
precision, recall, f1,_ = precision_recall_fscore_support(y_trn, y_pred, average='macro')
accuracy = accuracy_score(y_trn, y_pred)

# SALVO METRICAS
METRICAS['modelo+pca']['trn']['Pr'] = precision
METRICAS['modelo+pca']['trn']['Rc'] = recall
METRICAS['modelo+pca']['trn']['Acc'] = accuracy
METRICAS['modelo+pca']['trn']['F1'] = f1

**VALIDATION**

In [None]:
y_pred = model_pca.predict(X_val)

In [None]:
precision, recall, f1,_ = precision_recall_fscore_support(y_val, y_pred, average='macro')
accuracy = accuracy_score(y_val, y_pred)

In [None]:
print(f'Pr: {precision:.4} -- Rc: {recall:.4} -- Acc: {accuracy:.4} -- F1: {f1:.4}')

In [None]:
# SALVO METRICAS

METRICAS['modelo+pca']['val']['Pr'] = precision
METRICAS['modelo+pca']['val']['Rc'] = recall
METRICAS['modelo+pca']['val']['Acc'] = accuracy
METRICAS['modelo+pca']['val']['F1'] = f1

In [None]:
# REPORTE EN PANTALLA
for k,v in METRICAS['modelo+pca']['val'].items():
    print(f'{k}: {v:.4}')

### LDA

In [None]:
model_lda.fit(X_trn, y_trn)

In [None]:
# PREDICCION DEL MODELO
y_pred = model_lda.predict(X_trn)

In [None]:
# CALCULO DE METRICAS
precision, recall, f1,_ = precision_recall_fscore_support(y_trn, y_pred, average='macro')
accuracy = accuracy_score(y_trn, y_pred)

# SALVO METRICAS
METRICAS['modelo+lda']['trn']['Pr'] = precision
METRICAS['modelo+lda']['trn']['Rc'] = recall
METRICAS['modelo+lda']['trn']['Acc'] = accuracy
METRICAS['modelo+lda']['trn']['F1'] = f1

**VALIDATION**

In [None]:
y_pred = model_lda.predict(X_val)

In [None]:
precision, recall, f1,_ = precision_recall_fscore_support(y_val, y_pred, average='macro')
accuracy = accuracy_score(y_val, y_pred)

# SALVO METRICAS
METRICAS['modelo+lda']['val']['Pr'] = precision
METRICAS['modelo+lda']['val']['Rc'] = recall
METRICAS['modelo+lda']['val']['Acc'] = accuracy
METRICAS['modelo+lda']['val']['F1'] = f1

---

## Resultados comparativos

In [None]:
print('\n------------------------------------------')
print(':::                TRAIN               :::')
print('------------------------------------------')
print('Features    Precision  Recall   Acc     F1')

m1 = METRICAS['modelo']['trn']
print(f"Full        {m1['Pr']:.4}     {m1['Rc']:.4}   {m1['Acc']:.4}  {m1['F1']:.4}")
m2 = METRICAS['modelo+pca']['trn']
print(f"PCA         {m2['Pr']:.4}     {m2['Rc']:.4}   {m2['Acc']:.4}  {m2['F1']:.4}")
m3 = METRICAS['modelo+lda']['trn']
print(f"LDA         {m3['Pr']:.4}     {m3['Rc']:.4}   {m3['Acc']:.4}  {m3['F1']:.4}")

#----------------------

print('\n-----------------------------------------------')
print(':::               VALIDATION                :::')
print('-----------------------------------------------')
print('Features    Precision  Recall   Acc     F1')

measures = METRICAS['modelo']['val']
print(f"Full        {measures['Pr']:.4}     {measures['Rc']:.4}   {measures['Acc']:.4}  {measures['F1']:.4}")
measures = METRICAS['modelo+pca']['val']
print(f"PCA         {measures['Pr']:.4}     {measures['Rc']:.4}   {measures['Acc']:.4}  {measures['F1']:.4}")
measures = METRICAS['modelo+lda']['val']
print(f"LDA         {measures['Pr']:.4}     {measures['Rc']:.4}   {measures['Acc']:.4}  {measures['F1']:.4}")

---


# TESTEANDO LOS MODELOS

In [None]:
# MODELO CON TODAS LAS FEATURES
y_pred = model_full.predict(X_tst)

In [None]:
precision, recall, f1,_ = precision_recall_fscore_support(y_tst, y_pred, average='macro')
accuracy = accuracy_score(y_tst, y_pred)

# SALVO METRICAS
METRICAS['modelo']['tst']['Pr'] = precision
METRICAS['modelo']['tst']['Rc'] = recall
METRICAS['modelo']['tst']['Acc'] = accuracy
METRICAS['modelo']['tst']['F1'] = f1

---
**MODELO CON FEATURES PCA**

In [None]:
# MODELO CON TODAS LAS FEATURES
y_pred = model_pca.predict(X_tst)

In [None]:
precision, recall, f1,_ = precision_recall_fscore_support(y_tst, y_pred, average='macro')
accuracy = accuracy_score(y_tst, y_pred)

# SALVO METRICAS
METRICAS['modelo+pca']['tst']['Pr'] = precision
METRICAS['modelo+pca']['tst']['Rc'] = recall
METRICAS['modelo+pca']['tst']['Acc'] = accuracy
METRICAS['modelo+pca']['tst']['F1'] = f1

---

**MODELO CON FEATURES LDA**

In [None]:
y_pred = model_lda.predict(X_tst)

In [None]:
precision, recall, f1,_ = precision_recall_fscore_support(y_tst, y_pred, average='macro')
accuracy = accuracy_score(y_tst, y_pred)

# SALVO METRICAS
METRICAS['modelo+lda']['tst']['Pr'] = precision
METRICAS['modelo+lda']['tst']['Rc'] = recall
METRICAS['modelo+lda']['tst']['Acc'] = accuracy
METRICAS['modelo+lda']['tst']['F1'] = f1

---

## Resultados comparativos

In [None]:
print('\n----------------------------------------------')
print(':::                  TEST                  :::')
print('----------------------------------------------')
print('Features    Precision  Recall   Acc     F1')

measures = METRICAS['modelo']['tst']
print(f"Full        {measures['Pr']:.4}     {measures['Rc']:.4}   {measures['Acc']:.4}  {measures['F1']:.4}")
measures = METRICAS['modelo+pca']['tst']
print(f"PCA         {measures['Pr']:.4}     {measures['Rc']:.4}   {measures['Acc']:.4}  {measures['F1']:.4}")
measures = METRICAS['modelo+lda']['tst']
print(f"LDA         {measures['Pr']:.4}     {measures['Rc']:.4}   {measures['Acc']:.4}  {measures['F1']:.4}")

## Guardando las predicciones en un archivo "csv"

In [None]:
import json

with open('summary.json', 'w') as fp:
    json.dump(METRICAS, fp, indent=4)