# Práctica APA - Evaluación preliminar del problema

## Aplicación del Aprendizaje Automático en la detección de pacientes con Hipotiroidismo

### Autores

* Pol Casacuberta Gil
* Marta Granero i Martí

### Elección del conjunto de datos

El objetivo de este informe es exponer de forma breve qué tema hemos escogido juntamente con un leve análisis del Dataset asociado al problema que hemos escogido para llevar a cargo la práctica.

El dataset a este problema se puede consultar en [OpenML (Open Machine Learning)](https://www.openml.org/search?type=data&status=any&id=1000), una plataforma abierta dónde se encuentran varios conjuntos de datos.

Para poder usar este Dataset, hemos comprobado debidamente que no se ha hecho ya un análisis a este problema usando el mismo, buscando notebooks existentes en [Kaggle](https://www.kaggle.com). 

Solamente hemos encontrado [4 notebooks](https://www.kaggle.com/datasets/kumar012/hypothyroid/code) donde se intenta resolver este problema aunque usando un Dataset distinto. Estos usan un conjunto de datos que cuenta con 26 columnas a diferencia de las 30 del Dataset que hemos escogido y carecen de las columnas que sí que se incluyen en el nuestro, como son: 
- **hypopituitary** - toma valores: f, t
- **psych** - toma valores: f, t
- **referral source** - toma valores: SVHC,other,SVI,STMW,SVHD
- **binaryClass** - variable respuesta que toma valores: P si es positivo, o N en otro caso

Además hemos comprobado que satisfaga todas las condiciones que se exigen, como siguen:

* El conjunto de datos tiene variables numéricas y categóricas
* El conjunto de datos no se ha generado sintéticamente
* El conjunto de datos tiene 30 variables(en estas se incluye la variable respuesta).
* Creemos que tenemos suficiente información sobre el problema para entender y analizar los resultados.
* El dataset no está preprocesado ya que cuenta con valores Nan i con valores faltantes en la mayoria de muestras del conjunto de datos.
* El conjunto de datos contiene más de 3772 muestras.
* El problema es lo suficientemente complejo ya que no hemos obtenido un acierto bueno usando naive bayes ni tampoco una R2 casi perfecta

#### Descripción del conjunto de datos

* Descripción del conjunto de datos

Imagino que hem de donar una breu descripció dels atributs

#### Variable respuesta

Trataremos con un problema de clasificación binária dónde la variable respuesta será: **binaryClass**. Ésta toma valores categóricos: (P,N) en función de sí un paciente es positivo en Hipotiroidismo(P), o N si este no lo es.

#### Problemas específicos de los datos

* como atributos relacionados con el tiempo y desbalance entre clases.

### Descripción del problema

En esta práctica desarrollaremos varios modelos de clasificación usando distintos algoritmos de ML para resolver el problema real de detección de pacientes con Hipotiroidismo.

#### Carga de los datos

##### Librerías necesarias

In [None]:
from scipy.io import arff
from scipy.stats import normaltest
from sklearn.model_selection import train_test_split
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import missingno as msno

In [None]:
data = arff.loadarff('hypothyroid.arff')
df = pd.DataFrame(data[0])

df.head()

In [None]:
#Aplicamos un mini procesamiento del Dataframe

#Primer tratamiento del DataFrame para pasar las columnas de tipo string a formato utf8, ya que sino teníamos b'f'
columnes = df.applymap(lambda col: isinstance(col, bytes)).all(0)
columnes = df.columns[columnes]
df.loc[:, columnes] = df[columnes].applymap(lambda col: col.decode("utf-8", errors='ignore'))

#Cambiamos los valors 'f', 't' por tipos booleanos, False y True resp.
df.replace({'t': 1, 'f': 0}, inplace=True)

df.head()

#### Estadística descriptiva

In [None]:
#Damos un primer vistazo a los datos y vemos que tenemos valors muchos NaN
df.describe(include='all').T

#También tenemos muchos missing values, marcados con '?', p.ej:
df.sex.unique()
df.TBG.unique()
df.TBG.count()

#Reordenamos y ponemos la variable respuesta primero
columnes = list(df.columns)
columnes.remove('binaryClass')
columnes.insert(0, 'binaryClass')
df = df.reindex(columns=columnes)

df.head()

#### Visualización básica

In [None]:
#Visualizamos algunos atributos
df.loc[:,['age', 'T3', 'TT4', 'T4U']].hist(bins=15, figsize=(10,10));

#Comprobamos si las variables numéricas siguen una distribución Normal.
print(normaltest(df['age'], nan_policy='omit'))
print(normaltest(df['T3'], nan_policy='omit'))


df.loc[:,['age', 'T3', 'TT4', 'T4U']].plot.box(figsize=(10,10));

In [None]:
grafic = sns.catplot(data=df, kind="bar", x="sex", y="age", hue="binaryClass")

In [None]:
grafic3 = sns.catplot(data=df, kind="bar", x="sex", y="age", hue="binaryClass")

In [None]:
#Correlación entre distintas variables
corr = df.corr()
mask = np.triu(np.ones_like(corr, dtype=bool))
plt.subplots(figsize=(15, 15))
sns.heatmap(corr, mask=mask, cmap='seismic',  center=0, square=True, linewidths=.8, cbar_kws={"shrink": .5});

#### Partición del Dataset

In [None]:
df_train, df_test = train_test_split(df, test_size=0.2, random_state=42)

df_train.shape, df_test.shape

#### Preprocesamiento del Dataset

In [None]:
df_train.info()

In [None]:
#Contamos cuantos valores perdidos con NaN tenemos:
df_train.isna().sum()

In [None]:
msno.matrix(df_train)

In [None]:
#Hemos de tratar los atributos:binaryClass, age, sex, TSH, T3, T4U, TT4, FTI, TBG y referral source

#age
df_train['age'].plot.kde().set_xlim(left=-5)
df_train['age'].mean()
df_train['age'].std()

df_train['age'].fillna(value=df_train['age'].mean(), inplace=True)

#outlier detectado en la columna de age, quitamos la fila del outlier:
plt.figure(figsize=(10,6));
sns.boxplot(data=df_train, x="age");

Q1 = df_train['age'].quantile(0.25)
Q3 = df_train['age'].quantile(0.75)
IQR = Q3 - Q1

Q1, Q3, IQR

small_outliers = df_train['age'] < (Q1 - 1.5 * IQR)
big_outliers = df_train['age'] > (Q3 + 1.5 * IQR)

sum(small_outliers), sum(big_outliers)

df_train['age'] [small_outliers | big_outliers].head()
df_train.drop([1364], inplace=True)
df_train.info()

#quitamos los outliers
fig, axes= plt.subplots(1,2, gridspec_kw={'width_ratios': [1, 4]}, figsize=(9,5))
df_train[~(small_outliers | big_outliers)].boxplot(column='age',ax=axes[0]);
df_train[~(small_outliers | big_outliers)]['age'].plot.kde().set_xlim(left=-10);

df_train['age'].mean()
df_train['age'].std()

#Lo hemos quitado exitosamente
plt.figure(figsize=(10,6));
sns.boxplot(data=df_train, x="age");

In [None]:
df_train.info()

In [None]:
df_train.isna().sum()

In [None]:
#tratamos la columna TBG
df_train.drop('TBG', inplace=True, axis=1)
df_train.info()
df_train.isna().sum()

#tratamos la columna referral source
df_train.drop('referral source', inplace=True, axis=1)
df_train.info()
df_train.isna().sum()

In [None]:
df_train.hist(figsize = (20,20))

In [None]:
df_train.describe()

In [None]:
df_train.info()

In [None]:
#convertimos la variable de 'sex'
df_train['sex'].unique()
df_train['sex'].value_counts()

#La categoria ? nos muestra que no sabemos el sexo del paciente asi que supondremos que es una mujer ya que tenemos un valor para esta categoria mayor
df_train.replace(to_replace='?', inplace=True, value='F')
df_train['sex'] = df_train['sex'].astype('category').cat.codes

df_train['sex'].unique()
df_train['sex'].value_counts()

In [None]:
df_train.hist(figsize = (20,20))

In [None]:
df_train.info()

In [None]:
#convertimos la variable respuesta a binaria
df_train['binaryClass'].unique()
df_train['binaryClass'].value_counts()

df_train['binaryClass'] = df_train['binaryClass'].astype('category').cat.codes