## Fuentes de Datos

Para llevar a cabo este estudio de caso centrado en la enfermedad hepática, se ha utilizado el conjunto de datos "ILPD" (Indian Liver Patient Dataset) (Conjunto de Datos de Pacientes Hepáticos Indios). Este conjunto de datos se encuentra públicamente disponible y constituye una fuente valiosa de información relacionada con la enfermedad hepática, especialmente en la población de origen indio.

**Detalles del Conjunto de Datos:**

- **Nombre:** ILPD (Indian Liver Patient Dataset)
- **Fuente:** Repositorio de Machine Learning UC Irvine
- **Enlace de Acceso:** [ILPD (Indian Liver Patient Dataset) en el Repositorio UCI](https://archive.ics.uci.edu/dataset/225/ilpd+indian+liver+patient+dataset)
- **Número de Instancias:** 583
- **Número de Atributos:** 11 (1 atributo nominal, 10 atributos numéricos)
- **Valores Faltantes:** No

## Análisis Exploratorio de Datos

Este análisis exploratorio proporciona una descripción detallada de cada uno de los atributos presentes en el conjunto de datos "ILPD" (Indian Liver Patient Dataset), destacando su importancia, tipo y su posible relevancia en el diagnóstico y la progresión de la enfermedad hepática.

1. **Edad (numérico, en años):** La edad es un factor significativo en la enfermedad hepática, ya que ciertas enfermedades hepáticas pueden estar relacionadas con el envejecimiento.
2. **Género (nominal):** El género del paciente puede ser relevante en el contexto de la enfermedad hepática, ya que las tasas de enfermedad hepática pueden variar entre hombres y mujeres.
3. **Bilirrubina Total (numérico):** La bilirrubina es un marcador importante de la función hepática, y los niveles anormales pueden indicar problemas en el hígado.
4. **Bilirrubina Directa (numérico):** La bilirrubina directa es una fracción de la bilirrubina total y también es un indicador de la función hepática.
5. **Proteínas Totales (numérico):** Las proteínas totales en suero pueden verse afectadas en casos de enfermedad hepática.
6. **Albúmina (numérico):** La albumina es una proteína producida por el hígado, y los niveles bajos pueden ser un indicio de enfermedad hepática.
7. **Proporción de Albúmina y Globulina (numérico):** La relación entre la albúmina y la globulina es un indicador adicional de la función hepática.
8. **SGPT (numérico):** También conocido como ALT (alanina aminotransferasa), es una enzima hepática. Los niveles elevados pueden indicar daño hepático.
9. **SGOT (numérico):** También conocido como AST (aspartato aminotransferasa), es otra enzima hepática. Los niveles elevados pueden ser un signo de daño hepático.
10. **Fosfatasa Alcalina (numérico):** La fosfatasa alcalina es una enzima que se encuentra en varios tejidos, incluido el hígado. Los niveles anormales pueden estar relacionados con enfermedad hepática.
11. **Clase (numérico):** Esta es la variable objetivo y el foco del análisis. Indica si un paciente tiene una enfermedad hepática (1) o no (2). Esta variable es crucial en las tareas de clasificación para predecir la presencia de enfermedad hepática.

## Preprocesamiento de Datos

Antes de adentrarnos en las complejidades del preprocesamiento de datos, es fundamental realizar una revisión integral de todos los atributos. Este paso es esencial, ya que sienta las bases para las etapas posteriores del proceso de preparación de datos.

### Carga de dataset

En este paso, utilizando la librería Pandas, se carga el conjunto de datos de entrenamiento y de prueba desde sus respectivos archivos CSV.

In [None]:
input_file = 'indian_liver_patient.csv'
df = pd.read_csv(input_file, header=0)

Ahora se identifican los atributos numéricos en el dataset, para luego mediante la función describe() generar estadísticas descriptivas sobre el DataFrame, obteniendo así datos como la media, la mediana, el valor mínimo y máximo, la desviación estándar y los percentiles de cada columna.

In [None]:
types_data = df.dtypes
num_values = types_data[(types_data == float) | (types_data == 'int64')]

print('These are the numerical features:')
print(num_values)

In [None]:
data_describe = df.describe()
print(data_describe)

## Manejo de Valores Correlacionados

Para comprender mejor las relaciones entre los atributos numéricos dentro del conjunto de datos, se realizó un análisis de correlación. Empleando una matriz de correlación, fue posible cuantificar el grado en que pares de atributos están relacionados linealmente.

In [None]:
numeric_data = df.select_dtypes(include='number')
correlation_matrix = numeric_data.corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

![Matriz de correlación](../images/liver_rcorr_matrix.jpg)

En el análisis inicial, quedó claro que ciertos atributos podrían no contribuir significativamente al poder predictivo del modelo final. Ciertos atributos muestran fuertes correlaciones con otros, lo que implica preocupaciones de redundancia y posibles problemas de multicolinealidad. Incluir tales atributos puede complicar el modelo sin agregar un valor sustantivo y, en algunos casos, incluso disminuir su capacidad de generalización. Para los fines de este estudio de caso, se considera que una correlación de mayores a 0.6 es fuerte y, por lo tanto, debe manejarse adecuadamente.

Por lo tanto, como parte de este análisis preliminar de atributos y selección, se identificó un subconjunto de los atributos que posteriormente se eliminaron del conjunto de datos. Cada eliminación se fundamentó en justificaciones, asegurando que la integridad y el potencial de los datos permanecieran intactos, al tiempo que se eliminaba el ruido o la redundancia potencial. A continuación, se presenta una justificación detallada para la eliminación de cada atributo:

- **Bilirrubina Directa:** este atributo está altamente correlacionado con el atributo "Bilirrubina Total", mientras que "Bilirrubina Directa" se refiere específicamente a la bilirrubina directa en el torrente sanguíneo, "Bilirrubina Total" engloba tanto la bilirrubina directa como la indirecta. En el contexto de la evaluación de la función hepática, la bilirrubina total proporciona una visión más completa de los niveles de bilirrubina en sangre. Dado que "Bilirrubina Total" proporciona una visión más completa, es aconsejable eliminar el atributo "Bilirrubina Directa" del conjunto de datos para evitar redundancias.
- **SGOT:** este atributo está altamente correlacionado con el atributo "SGPT", ambos son enzimas hepáticas que se utilizan para evaluar la función hepática, y es común que estén relacionados. Sin embargo, en el contexto de la evaluación de la función hepática y la detección de enfermedad hepática, "SGPT” tiende a ser más específica para el daño hepático, y los niveles elevados de "SGPT” se asocian con mayor frecuencia con enfermedad hepática. "SGOT” también puede elevarse en enfermedades hepáticas, pero también puede estar relacionada con afecciones cardíacas y musculares. Además el atributo “SGPT” está correlacionado con el atributo “alkphos”, tienen una correlación en el contexto de la función hepática y la evaluación de enfermedades hepáticas. Ambos atributos son marcadores utilizados en pruebas de laboratorio para evaluar la función hepática, pero cada uno proporciona información ligeramente diferente. Dado que "SGPT" es más específica para el daño hepático y además “SGOT” está correlacionado con “Alkphos”, es aconsejable eliminar el atributo "SGOT" del conjunto de datos para evitar redundancias y simplificar el análisis.
- **A/G_ratio**: este atributo y el atributo "Albúmina” están relacionados en el contexto de la evaluación de la función hepática y la salud general. La albúmina es una proteína que se encuentra en el suero sanguíneo y es producida por el hígado. La relación Albúmina/Globulina (A/G Ratio) es una medida que compara los niveles de albúmina con los niveles de globulina, que es otro tipo de proteína en el suero sanguíneo. La "A/G Ratio" (Relación Albúmina/Globulina) es una medida que compara los niveles de albúmina con los niveles de globulina, y si bien puede proporcionar información útil, generalmente se utiliza en el contexto de una evaluación más amplia de la función hepática y la salud inmunológica. Dado que "Albumin" es un marcador específico para la función hepática y es más directamente relevante para la detección de enfermedad hepática, sería preferible considerar este atributo de manera individual para tal propósito.

Para eliminar los atributos se utiliza el método drop(), indicándole en los parámetros las etiquetas correspondientes, en el parámetro “axis” se le indica 1, valor que indica eliminar columnas, y en el parámetro “inplace” se le indica “True” para que la eliminación sea en el DataFrame original.

In [None]:
df.drop(labels = ['direct_bilirubin', 'A/G_ratio', 'SGOT'], axis = 1, inplace = True)

## Manejo de Valores Atípicos

Habiendo completado una limpieza inicial de los datos, ahora estamos trabajando con un conjunto de 8 atributos, además de nuestra clase objetivo. A medida que avanzamos en nuestro análisis de datos, es hora de abordar la presencia de valores atípicos. Los valores atípicos son puntos de datos que se desvían significativamente del resto, y su existencia puede sesgar los análisis estadísticos y los modelos, lo que potencialmente lleva a resultados engañosos. Descuidar el manejo de los valores atípicos puede comprometer la precisión de los modelos predictivos, afectar las suposiciones de las pruebas estadísticas y, en algunos casos, llevar a conclusiones incorrectas. En esta sección, profundizaremos en los métodos empleados para detectar y manejar los valores atípicos, asegurando la integridad y confiabilidad de nuestros análisis posteriores.

Con el propósito de detectar posibles valores atípicos en nuestro conjunto de datos, hemos optado por crear un diagrama de pares. Este enfoque gráfico nos brinda la capacidad de explorar de manera integral las interacciones y relaciones existentes entre todos los atributos.

In [None]:
sns.pairplot(df)
plt.show()

![Pairplot](../images/liver_pairplot.jpg)

Al realizar una observación inicial en el diagrama de pares, se destacan indicios de valores atípicos en cuatro atributos particulares. Para una evaluación más detallada y precisa de estos posibles valores atípicos, se opta por crear gráficos de dispersión individuales para cada uno de estos atributos.

- **Bilirrubina Total (µmol/L):**

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
ax1.scatter(x='total_bilirubin', y='total_bilirubin', data=df)
ax1.set_title('Total Bilirubin Scatter')
ax1.set_xlabel('total_bilirubin')
ax1.set_ylabel('total_bilirubin')
ax2.hist(df['total_bilirubin'], bins=20)
ax2.set_xlabel('total_bilirubin')
ax2.set_ylabel('Frequency')
ax2.set_title('Total Bilirubin Histogram')
plt.show()

![Bilirrubina total](../images/liver_total_bilirubin_chart.jpg)

- Bajo (0 - 5 µmol/L): Valores bajos pueden indicar deficiencia en la producción de bilirrubina u otras condiciones médicas.
- Normal (5 - 20 µmol/L): Valores normales reflejan una función hepática saludable y un metabolismo adecuado.
- Alto (20+ µmol/L): Valores altos suelen estar asociados con problemas hepáticos o biliares.

Dado que valores superiores a 40 µmol/L se consideran significativamente altos, es importante filtrar todos los valores mayores a 40 para concentrar el análisis y evitar posibles datos erróneos que puedan afectar el modelo.

- **Proteínas Totales (mg/L)**:

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
ax1.scatter(x='total_proteins', y='total_proteins', data=df)
ax1.set_title('Total Proteins Scatter')
ax1.set_xlabel('total_proteins')
ax1.set_ylabel('total_proteins')
ax2.hist(df['total_proteins'], bins=20)
ax2.set_xlabel('total_proteins')
ax2.set_ylabel('Frequency')
ax2.set_title('Total Proteins  Histogram')
plt.show()

![Proteinas totales](../images/liver_total_proteins_chart.jpg)

- Bajo (0 - 600 mg/L): Valores bajos pueden indicar una condición médica que afecta la síntesis de proteínas o la función hepática.
- Normal (600 - 830 mg/L): Valores normales (mg/L) se consideran dentro del rango saludable para adultos.
- Alto (830+ mg/L): Valores altos pueden estar relacionados con condiciones como deshidratación, mieloma múltiple u otras condiciones médicas.

Como valores superiores a 830 mg/L pueden indicar condiciones médicas que no están relacionadas con problemas hepáticos, se filtran todos los valores mayores a 830.

- **Albúmina**:

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
ax1.scatter(x='albumin', y='albumin', data=df)
ax1.set_title('Albumin Scatter')
ax1.set_xlabel('albumin')
ax1.set_ylabel('albumin')
ax2.hist(df['albumin'], bins=20)
ax2.set_xlabel('albumin')
ax2.set_ylabel('Frequency')
ax2.set_title('Albumin Histogram')
plt.show()

![Albumina](../images/liver_albumin_chart.jpg)

Dado que valores superiores a 600 se consideran significativamente altos y no tienen aporte al problema, es importante filtrar todos los valores mayores a 600 para concentrar el análisis y evitar sesgos que puedan afectar el modelo.

- **Fosfatasa Alcalina(U/L)**:

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
ax1.scatter(x='alkphos', y='alkphos', data=df)
ax1.set_title('Alkaline Phosphotase Scatter')
ax1.set_xlabel('alkphos')
ax1.set_ylabel('alkphos')
ax2.hist(df['alkphos'], bins=20)
ax2.set_xlabel('alkphos')
ax2.set_ylabel('Frequency')
ax2.set_title('Alkaline Phosphotase Histogram')
plt.show()

![Bilirrubina total](../images/liver_alkphos_chart.jpg)

- Bajo (0 - 0.5 U/L): Valores bajos, a menudo poco comunes, pueden indicar deficiencia enzimática y afecciones que afectan la producción de fosfatasa alcalina.
- Normal (0.5 - 1.2 U/L): Valores normales (U/L) se consideran saludables y reflejan una función enzimática adecuada en el organismo, contribuyendo al metabolismo óseo y hepático.
- Alto (1.2+ U/L): Valores altos se asocian con diversas condiciones médicas, incluyendo problemas hepáticos, obstrucción de las vías biliares y enfermedades óseas. Es importante investigar la causa subyacente si se encuentran valores significativamente altos.

Como valores superiores a 2.0 U/L se consideran significativamente altos y podrían llegar a ser datos erróneos, se filtran todos los valores mayores a 2.0 para evitar sesgos.

Luego de la evaluación aplicamos los filtros correspondientes obteniendo un nuevo conjunto de datos, posteriormente obtenemos los mismos gráficos para visualizar que efectivamente se hayan quitado.

In [None]:
data = df[(df['total_bilirubin'] < 40) & (df['total_proteins'] < 830) & (df['albumin'] < 600) & (df['alkphos'] < 2)]

![Gráficos de datos](../images/liver_data_charts.jpg)

Después de eliminar los valores atípicos, se redujo el conjunto de datos en 41 registros.

## Manejo de Valores Duplicados

En esta etapa del preprocesamiento de datos, abordaremos la cuestión de los valores duplicados en el conjunto de datos. Se utiliza la función duplicated() para identificar si existían valores duplicados y se determinó que, efectivamente, se encontraban duplicados.

In [None]:
data.duplicated().any()

Tras identificar los valores duplicados, se procede a eliminarlos del dataset mediante el uso de la función drop_duplicates().

In [None]:
clean_data = data.drop_duplicates()
clean_data.duplicated().any()

Luego de eliminar los valores duplicados, se borraron 12 registros del conjunto de datos, eliminando así datos redundantes.

## División del Dataset

La división de un conjunto de datos en características y etiquetas desempeña un papel fundamental, ya que esta separación permite que los modelos aprendan de manera efectiva y generalicen sus predicciones en datos nuevos. Al aislar las características como las variables independientes y las etiquetas como las variables dependientes, se establece una relación clara entre las entradas y las salidas del modelo. Esto facilita el proceso de entrenamiento, ya que el modelo aprende a partir de ejemplos etiquetados, lo que le permite capturar patrones y relaciones en los datos. Esta división también permite el preprocesamiento y la manipulación de características de manera más efectiva, lo que mejora la calidad de las predicciones y la robustez del modelo en diferentes contextos.

In [None]:
X = data.loc[:, data.columns != 'class']
y = data['class'].values

Antes de realizar alguna acción en los conjuntos, generamos gráficos para los atributos numéricos del conjunto de características y poder observar sus distribuciones.

In [None]:
fig, axes = plt.subplots(3, 2, figsize=(12, 12))

for i, columna in enumerate(X.select_dtypes(include='number').columns):
    row, col = divmod(i, 2)
    sns.distplot(X[columna], kde=True, ax=axes[row, col])
    axes[row, col].set_xlabel(columna)
    axes[row, col].set_ylabel('Density')

plt.tight_layout()
plt.show()

![Gráficos](../images/liver_displots.jpg)

Observando los gráficos, se puede observar que los atributos presentan sesgo, por lo que podría no ser beneficioso para el modelo. Pero antes atacar este problema, realizaremos algunas acciones previas.

## Creación variables ficticias

La creación de variables ficticias, también conocidas como variables dummy, es una técnica esencial en el procesamiento de datos categóricos, ya que permite que los algoritmos manejen de manera efectiva esta información y generen modelos más precisos y significativos.

Por tal motivo, se realiza la codificación de las variables categóricas utilizando el “LabelEncoder” de Scikit-learn.

In [None]:
le = LabelEncoder()

y_encoded = le.fit_transform(y)
encoded_gender = le.fit_transform(X['gender'])

Después de codificar las variables categóricas, se agregan de nuevo al conjunto de características “X”. Esto se hace para poder utilizar todas las características, incluidas las categóricas codificadas, en el entrenamiento del modelo.

In [None]:
X['gender'] = encoded_gender

## Balanceo del Dataset

En la etapa de preparación de datos, nos encontramos con un desafío importante: el desequilibrio en la variable objetivo del dataset. La desigual distribución de las clases en la variable objetivo es una situación común en muchos conjuntos de datos.

In [None]:
sns.countplot(x='class', data=df)
plt.show()

![Conteo de clases](../images/liver_class_count.jpg)

Se observa que el dataset contiene registros de 416 pacientes diagnosticados con enfermedad hepática (1) y 167 pacientes sin enfermedad hepática (2). Esto equivale al 71% de los registros correspondientes a la clase positiva (con enfermedad hepática) y al 29% a la clase negativa (sin enfermedad hepática).

Este desequilibrio en las clases puede presentar un problema importante al entrenar modelos de aprendizaje automático, ya que el modelo podría volverse sesgado hacia la clase mayoritaria y no aprender de manera efectiva las características de la clase minoritaria. En el contexto de la detección de enfermedad hepática, es crucial que nuestro modelo pueda identificar con precisión tanto los casos positivos como los negativos, para garantizar un diagnóstico adecuado.

Para abordar este desequilibrio, se aplicará la técnica SMOTE (Synthetic Minority Over-sampling Technique). SMOTE es una técnica de sobremuestreo que se utiliza para generar muestras sintéticas de la clase minoritaria, equilibrando así la distribución de clases en el dataset. Esta técnica nos permite crear instancias artificiales de la clase minoritaria, lo que mejora la capacidad del modelo para aprender patrones en ambas clases de manera equitativa y proporcionar una mayor precisión en la detección de la enfermedad hepática.

Con la implementación de la función “SMOTE” de la librería “imbalanced-learn”, se logrará una distribución más equitativa de las clases, garantizando que el modelo pueda ofrecer predicciones precisas para ambas condiciones de enfermedad hepática.

In [None]:
sm = SMOTE(sampling_strategy='auto', k_neighbors=5, random_state=100)
X_resample, y_resample = sm.fit_resample(X, y_encoded)

X_train = pd.DataFrame(X_resample, columns=X.columns)
y_resample_df = pd.DataFrame({'class': y_resample})

sns.countplot(x='class', data=y_resample_df)
plt.show()

![Conteo de clases](../images/liver_class_count_smote.jpg)

Ahora, tras aplicar el proceso de balanceo del conjunto de datos, hemos logrado equilibrar las clases. Esta estrategia de balanceo antes de la normalización es beneficiosa, ya que no solo garantiza que las clases minoritarias tengan una representación adecuada, sino que también preserva la integridad de nuestras características al evitar que los valores extremos en las clases minoritarias distorsionen el proceso de normalización. 

Antes de normalizar, mencionemos el fenómeno de “contaminación por normalización", este se refiere a la posibilidad de que la normalización de datos se realice incorrectamente, lo que puede llevar a una fuga de información desde el conjunto de prueba al conjunto de entrenamiento.

Para mitigar este riesgo es recomendable normalizar luego de dividir el conjunto de datos, normalizando así los conjuntos de entrenamiento y prueba por separado.

In [None]:
train_X, test_X, train_y, test_y = train_test_split(X_train, y_resample, test_size=0.30, random_state=0, shuffle=True)

## Normalización

La normalización es un paso fundamental en el preprocesamiento de datos. Consiste en transformar los datos para que estén en una escala común, lo que facilita la comparación y el procesamiento de las características. La normalización es particularmente importante cuando las variables en un conjunto de datos tienen escalas muy diferentes, ya que algunas características pueden dominar sobre otras durante el entrenamiento del modelo.

Para normalizar los atributos utilizaremos el “StandardScaler” de Scikit-learn. Los atributos se organizaron en arreglos numpy y se reformatearon utilizando el método "reshape" con el argumento (-1, 1). Esta operación de reformateo es esencial para asegurar que los datos tengan la estructura adecuada para el escalado.

Luego, se aplicó “fit_transform” a cada atributo por separado y reemplazando estos valores normalizados en las respectivas columnas del conjunto de datos original.

In [None]:
scaler = StandardScaler()

age_train = np.array(train_X['age']).reshape(-1, 1)
total_bilirubin_train = np.array(train_X['total_bilirubin']).reshape(-1, 1)
total_proteins_train = np.array(train_X['total_proteins']).reshape(-1, 1)
albumin_train = np.array(train_X['albumin']).reshape(-1, 1)
sgpt_train = np.array(train_X['SGPT']).reshape(-1, 1)
alkphos_train = np.array(train_X['alkphos']).reshape(-1, 1)
age_test = np.array(test_X['age']).reshape(-1, 1)
total_bilirubin_test = np.array(test_X['total_bilirubin']).reshape(-1, 1)
total_proteins_test = np.array(test_X['total_proteins']).reshape(-1, 1)
albumin_test = np.array(test_X['albumin']).reshape(-1, 1)
sgpt_test = np.array(test_X['SGPT']).reshape(-1, 1)
alkphos_test = np.array(test_X['alkphos']).reshape(-1, 1)

train_X['age'] = scaler.fit_transform(age_train)
train_X['total_bilirubin'] = scaler.fit_transform(total_bilirubin_train)
train_X['total_proteins'] = scaler.fit_transform(total_proteins_train)
train_X['albumin'] = scaler.fit_transform(albumin_train)
train_X['SGPT'] = scaler.fit_transform(sgpt_train)
train_X['alkphos'] = scaler.fit_transform(alkphos_train)
test_X['age'] = scaler.fit_transform(age_test)
test_X['total_bilirubin'] = scaler.fit_transform(total_bilirubin_test)
test_X['total_proteins'] = scaler.fit_transform(total_proteins_test)
test_X['albumin'] = scaler.fit_transform(albumin_test)
test_X['SGPT'] = scaler.fit_transform(sgpt_test)
test_X['alkphos'] = scaler.fit_transform(alkphos_test)

In [None]:
print(train_X.head())
print(test_X.head())