# TP N° 1: Análisis Exploratorio de Datos
## Heart Diseases Dataset
Este conjunto de datos es una versión avanzada del clásico conjunto de datos de enfermedades cardíacas de UCI Machine Learning, enriquecido con más características para soportar análisis más sofisticados.

## 1- Listado de variables y selección 

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import h5py
import PIL
import seaborn as sns
import plotly
import sklearn_pandas
import plotly.express as px

In [2]:
data = pd.read_csv('./heart_disease_data_with_features.csv')

In [None]:
data.shape
# Muestra las dimensiones del dataframe

In [None]:
data.head(10)

In [None]:
# Dividimos por las columnas de interes
subset = data.loc[:, ['sex','cp','fbs','restecg','thalach', 'exang','oldpeak','slope', 'ca','thal', 'num','age_group', 'cholesterol_level', 'bp_level','risk_score', 'symptom_severity', 'risk_factor', 'avg_chol_by_age_group']]
subset.describe()

In [None]:
subset.head(10)

In [None]:
# Mostramos los tipos de datos
subset.dtypes

In [None]:
# Elije 10 filas al azar del DataFrame
subset.sample(10)

In [None]:
fig = px.box(subset, y='thalach', )
fig.show()

Analizando la variable "thalach" podemos ver que uno de los registros que tiene es atípico. Este registro va a ser eliminado porque puede perjudicar el modelo. 

In [None]:
result = subset[subset['thalach'] == 71]
result.head()

In [11]:
subset = subset.drop(index=245)

In [None]:
fig = px.box(subset, y='thalach', )
fig.show()

Con el gráfico en barras podemos deducir que en la mayoria de datos del subconjunto es 0, es decir, que no se detectaron enfermedades. Y luego la cantidad de casos donde se empieza a detectar enfermedades se encuentran escalonadas, yendo desde el 1 (enfermedad leve) hasta 4 (enfermedad grave).

## 2- Análisis detallado de un conjunto de variables

### Variables Nulos
Estos son los valores nulos encontrados en el subset de datos:

In [None]:
subset.isnull().sum()

#### Tratamiento de valores nulos

**Variables:**
- **ca: numerica**
- **thal: numerica**
- **age_group: cualitativa**
- **cholesterol_level: cualitativa**
- **bp_level: cualitativa**
- **risk_factor: numerica**
- **avg_chol_by_age_group: numerica**

Para las variables numericas, el tratamiento que llevaremos a cabo sera rellenar con la media
Para las variables cualitativas, el tratamiento será rellenar con el valor que mas se repite

#### tratamiento de valores nulos de 'ca'

In [None]:
subset['ca'] = subset['ca'].fillna(subset['ca'].mean())
subset['ca'].isnull().sum()

#### tratamiento de valores nulos de 'thal'

In [None]:
subset[subset['thal'].isna()]

In [None]:
subset['thal'] = subset['thal'].fillna(subset['thal'].mean())
subset['thal'].isnull().sum()

#### tratamiento de valores nulos de 'age_group'

In [None]:
subset['age_group'] = subset['age_group'].fillna(subset['age_group'].mode()[0])
subset['age_group'].isnull().sum()

#### tratamiento de valores nulos de 'cholesterol level'

In [None]:
subset['cholesterol_level'] = subset['cholesterol_level'].fillna(subset['cholesterol_level'].mode()[0])
subset['cholesterol_level'].isnull().sum()

#### tratamiento de valores nulos de 'bp_level'

In [None]:
subset['bp_level'] = subset['bp_level'].fillna(subset['bp_level'].mode()[0])
subset['bp_level'].isnull().sum()

#### tratamiento de valores nulos de 'risk_factor'

In [None]:
subset['risk_factor'] = subset['risk_factor'].fillna(subset['risk_factor'].mean())
subset['risk_factor'].isnull().sum()

#### tratamiento de valores nulos de 'avg_chol_by_age_group'

In [None]:
subset['avg_chol_by_age_group'] = subset['avg_chol_by_age_group'].fillna(subset['avg_chol_by_age_group'].mean())
subset['avg_chol_by_age_group'].isnull().sum()

In [22]:
# ESTO PUEDE JUNTARSE EN DOS CELDAS, UNA CON LAS NUMERICAS Y OTRA CON LAS CUALITATIVAS

### Variable de salida
**num** 

In [None]:
subset.num.value_counts().plot.bar(title='num')

In [None]:
subset.num.value_counts()

In [None]:
len(subset)

Podemos observar en el grafico que de la variable **num** se encuentra dividida en los siguientes porcentajes:
- **0 - 55,21%**
- **1 - 18.51%**
- **2 - 11.78%**
- **3 - 11.78%**
- **4 - 4.37%**

Esto nos indica que el 55% de las personas no se detectaron enfermedades cardiacas, y el resto, el 45% indica que hay enfermedad cardiaca entre sus diferentes gravedades. Esto nos muestra que hay una tendencia en la cual mientras más grave sea la enfermedad cardiaca, menor es la cantidad de personas hay.

In [None]:
mean = subset['num'].mean()

std_dev = subset['num'].std()

print(f"Media: {mean}")
print(f"Desviación estándar: {std_dev}")

Interpretación de la Media: Es 0.9337, lo que indica que el valor promedio de la variable es cercano a 1. Esto sugiere que la mayoría de los datos están en los valores más bajos (0 y 1), con algunos valores más altos contribuyendo a elevarla ligeramente.

Interpretación de la Desviación Estándar: Es 1.229, lo que nos indica cuánto se desvían los datos de la media, en promedio. Es relativamente alta en comparación con la media, lo que sugiere que hay una considerable variabilidad en los datos con una distribución sesgada hacia los valores más bajos (cercanos a 0). Esto es consistente con una distribución en la que hay pocos datos con valores altos (3 o 4), lo cual tiene sentido, dado que es más complejo tener mayor cantidad de registros de pacientes con mayor gravedad.

### Variables de entrada

Para trabajar de una manera mas entendible en el trabajo decidimos renombrar las mismas.

In [None]:
BETTER_COLUMN_NAMES = {
    'sex': 'sex',
    'cp': 'chest_pain',
    'fbs':'fasting_blood_sugar',
    'restecg':'rest_ecg',
    'thalach':'max_heart_rate',
    'exang':'exercise_induced_angina',
    'oldpeak':'depression_induced_ex',
    'slope':'slope',
    'ca':'vessels_colored_fl',
    'thal':'thalassemia',
    'num':'diagnosis',
    'age_group':'age_group',
    'cholesterol_level':'cholesterol_level',
    'bp_level':'blood_pressure_level',
    'risk_score':'risk_score',
    'symptom_severity':'symptom_severity',
    'risk_factor':'risk_factor',
    'avg_chol_by_age_group':'avg_chol_by_age_group'
}

subset.rename(columns=BETTER_COLUMN_NAMES, inplace=True)

subset

Para facilitar la comprensión de las proporciones de las variables en estudio en función de diagnosis, realizamos una funcion que nos permite obtener las mismas.

In [28]:
def calcular_proporcion_por_valor(df, variable1, valor1, variable2, valor2):
    filtro = (df[variable1] == valor1) & (df[variable2] == valor2)
    conteo_filtro = df[filtro].shape[0]

    proporcion = conteo_filtro / df[variable2].value_counts()[valor2]
    
    return proporcion

def mostrar_total_propociones(variable1, variable2):
    proporciones = {}
    valores_diagnosis = subset[variable1].unique()
    valores_vessels_colored_fl = subset[variable2].unique()

    for valor_diagnosis in valores_diagnosis:
        for valor_vessels in valores_vessels_colored_fl:
            proporcion = calcular_proporcion_por_valor(subset, variable1, valor_diagnosis, variable2, valor_vessels)
            proporciones[(valor_diagnosis, valor_vessels)] = proporcion

    proporciones_df = pd.DataFrame(list(proporciones.items()), columns=['Combinación', 'Proporción'])
    proporciones_df[variable2] = proporciones_df['Combinación'].apply(lambda x: x[1])
    proporciones_df[variable1] = proporciones_df['Combinación'].apply(lambda x: x[0])
    proporciones_df = proporciones_df.drop(columns=['Combinación'])

    print(proporciones_df.sort_values(by=[variable2, variable1]))  

### **sex**

In [None]:
subset.sex.value_counts()

In [None]:
subset.sex.value_counts().plot.bar(title='Sex (1: Hombre 0: Mujer)')

In [None]:
grouped_data = subset.groupby(['diagnosis', 'sex']).size().unstack(fill_value=0)
grouped_data.plot(kind='bar', title='Distribución de sex por diagnosis')

plt.xlabel('diagnosis')
plt.ylabel('Cantidad')
plt.show()

Hay que considerar que los registros de sex se encuentra desbalaceados, siendo la cantidad de hombres en los registros de un 69.02% y de las mujeres el 32.65%, por lo que es evidente que el gráfico indique que los hombres son más propensos a contraer una enfermedad cardiaca. 

Para realizar un mejor análisis, sacamos la porporción de los resultados:

In [None]:
mostrar_total_propociones('diagnosis', 'sex')

Entre las mujeres, la mayoría no presenta enfermedad cardíaca (Diagnóstico 0) y la proporción disminuye considerablemente para diagnósticos más graves.
Entre los hombres, también hay una alta proporción sin enfermedad cardíaca, pero la distribución es más equitativa entre las diferentes categorías de severidad comparado con las mujeres.
Esto sugiere que, en el grupo representado, tanto hombres como mujeres tienen una alta proporción sin enfermedad cardíaca, pero los hombres tienen una mayor proporción en las categorías de diagnóstico más severas en comparación con las mujeres.

### **Depression_induced_ex**

In [None]:
fig = px.box(subset, y='depression_induced_ex')
fig.show()

La variable representa la depresión inducida por el ejercicio en relación al reposo, lo que quiere decir que cuanto mas cercano a 0 es mejor, dado que un corazón saludable no debería esforzarse demasiado para hacer ejercicio.

Podemos observar en el gráfico que, el 50% de los datos se encuentran entre 0 y 1,6. A su vez, observamos que hay 4 registros con valores aberrantes, los cuales contemplaremos, dado que debemos analizar qué tan grave es la enfermedad cardíaca de un paciente, y estos casos aislados pueden darle información relevante al modelo.

In [None]:
subset.boxplot(column='depression_induced_ex', by='diagnosis', grid=False)

plt.title('Distribución de depression_induced_ex por diagnosis')
plt.suptitle('')  
plt.xlabel('diagnosis')
plt.ylabel('depression_induced_ex')
plt.show() 

Las estadísticas muestran que la depresión inducida por el ejercicio aumenta a medida que el grupo de diagnóstico sube de 0 a 4. Los grupos con diagnósticos más altos (3 y 4) tienen valores promedio y desviaciones estándar más altos, indicando una mayor intensidad y variabilidad de la depresión inducida. En contraste, los grupos con diagnósticos más bajos (0 y 1) muestran menor intensidad y dispersión. Por lo tanto, hay una relación directamente proporcional entre el diagnóstico y la depresión inducida, con mayor severidad y variabilidad en los diagnósticos más altos.

### **Grupo Etáreo**

In [None]:
subset.age_group.value_counts().plot.bar(title='Grupo etario', )

In [None]:
grouped_data = subset.groupby(['diagnosis', 'age_group']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de age_group por num')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('diagnosis')
plt.ylabel('Cantidad')
plt.show()

In [None]:
subset.age_group.value_counts()

A simple vista observamos que el grupo etáreo de los **50s** es aquel que más destaca entre los diferentes valores de diagnosis, al igual que aquel grupo que se encuentra entre los **60s**.

**Porcentajes**
- **30s - 4.71%**
- **40s - 24.24%**
- **50s - 41.07%**
- **60s - 26.59%**
- **70s - 3.36%**

Con estos porcentajes observamos que los registros de las edades etarias se encuentra desbalanceados, siendo el grupo etáreo de 50s con el mayor porcentaje. 

Para hacer un análisis más profundo, sacamos la proporción de cada grupo etáreo en funcion con la gravedad de la enfermedad:


In [None]:
mostrar_total_propociones('diagnosis', 'age_group')

La distribución muestra que la gravedad de la enfermedad aumenta con la edad, especialmente a partir de los 50 años, donde se observa un mayor porcentaje de casos en niveles de gravedad moderada y severa. Los grupos más jóvenes (30s y 40s) presentan una mayoría de casos leves o sin enfermedad, mientras que en los grupos mayores (60s y 70s) se ve una mayor dispersión, con algunos individuos en niveles graves, especialmente en los 70s, donde un 20% alcanza el nivel más alto de severidad. Esto sugiere una relación clara entre la edad y la progresión de la enfermedad.

#### **CP - Tipo de dolor de pecho**

Es especialmente relevante en un contexto cardíaco, ya que el dolor en el pecho suele estar relacionado con el corazón. Esta clasificación es crucial para evaluar y diferenciar entre diferentes presentaciones clínicas que podrían indicar la presencia o ausencia de una condición cardíaca. 

Valores que puede tomar:

- 1: Angina típica -- suele estar relacionada con problemas coronarios significativos, por lo que es grave.

- 2: Angina atípica -- puede retrasar el tratamiento dado que es díficl de analizar, aunque en algunos casos puede no ser tan grave como la angina típica.

- 3: Dolor no anginal -- este tipo de dolor no suele estar relacionado con el corazón, lo que lo hace menos grave desde el punto de vista cardíaco.

- 4: Asintomático -- al no haber dolor ni otras señales de advertencia, el problema puede pasar desapercibido y no tratarse a tiempo, lo que aumenta el riesgo de complicaciones como infartos en pacientes que estan enfermos. Pero también aquellos que estén sanos entran en esta categoría.

Según lo investigado, el asíntomatico puede ser bueno o muy grave, dado que no asegura que una persona no está enferma, ya que puede desarrollarse una enfermedad cardíaca sin presentar síntomas. 

La pregunta que haríamos es: ¿cómo tomamos los registros asintomáticos, cómo algo bueno o malo? Es decir, ¿cuánto mayor es el valor de estos resultados, menos probabilidades de tener una enfermedad grave? ¿O están desordenados?

In [None]:
subset.chest_pain.value_counts().plot.bar(title='Tipo de dolor de pecho')

In [None]:
grouped_data = subset.groupby(['diagnosis', 'chest_pain']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de chest_pain por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

In [None]:
subset.chest_pain.value_counts()

Se puede observar el tipo de dolor de pecho es una variable relevante para determinar la gravedad de la enfermedad cardíaca. 

Pero, también se ve en el gráfico que aquellos pacientes asintomáticos (4) se encuentran distribuidos uniformemente entre todas las variables del diagnosis por lo cual, creemos que distorisionará las predicciones del modelo dado que hay tanto casos de reigstros asintomáticos que no presentan ninguna gravedad, como también hay casos que presentan las diferentes gravedades. 

**Porcentaje de chest_pain**
- **4 - 46.80%**
- **3 - 28.95%**
- **2 - 16.83%**
- **1 - 7.40%**

In [None]:
mostrar_total_propociones('diagnosis', 'chest_pain')

### **FBS - Azúcar en sangre en ayunas > 120 mg/dl**

In [None]:
subset.fasting_blood_sugar.value_counts().plot.bar(title='Azúcar en sangre > 120ml/dl')

In [None]:
grouped_data = subset.groupby(['diagnosis', 'fasting_blood_sugar']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de fasting_blood_sugar por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('diagnosis')
plt.ylabel('Cantidad')
plt.show()

In [None]:
subset.fasting_blood_sugar.value_counts()

Valores de fasting_blood_sugar
- 0: No supera de 120 mg/dl de azúcar en sangre.
- 1: Supera de 120 mg/dl de azúcar en sangre.

In [None]:
mostrar_total_propociones('diagnosis', 'fasting_blood_sugar')


El grupo con fasting_blood_sugar mayor de 120 mg/dl tiende a tener una mayor proporción de casos con diagnosis 2 y 3, lo que sugiere que altos niveles de azúcar en sangre están correlacionados con una mayor gravedad de la enfermedad cardíaca, aunque no necesariamente en los casos más críticos (diagnosis 4). Esto respalda la relación conocida entre la hiperglucemia y el riesgo de complicaciones cardíacas.

### **restecg - Resultado electrocardiográfico en reposo**

In [None]:
subset.rest_ecg.value_counts().plot.bar(title='rest_ecg')

In [None]:
grouped_data = subset.groupby(['diagnosis', 'rest_ecg']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de rest_ecg por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('rest_ecg')
plt.ylabel('Cantidad')
plt.show()

In [None]:
mostrar_total_propociones('diagnosis', 'rest_ecg')


**Valores**

- 0 (Normal): Sin problemas evidentes.
- 1 (ST-T anomalía): Podría indicar problemas de oxigenación del corazón o daño en el músculo cardíaco.
- 2 (Hipertrofia ventricular izquierda): Señala un posible agrandamiento del ventrículo izquierdo, generalmente relacionado con presión arterial alta y asociado a mayor riesgo de enfermedad cardíaca.

En resumen, los resultados electrocardiográficos en reposo parecen estar asociados con la severidad de la enfermedad cardíaca de manera variable. Un electrocardiograma normal se asocia predominantemente con la ausencia de enfermedad, mientras que resultados que muestran hipertrofia ventricular o anomalías en ST-T están más uniformemente distribuidos entre las diferentes severidades de la enfermedad, sugiriendo una relación más compleja entre los resultados en reposo y la severidad de la enfermedad cardíaca.

### **exang - angina inducida por el ejercicio**

 Indica un flujo sanguíneo insuficiente al corazón durante el esfuerzo, señal de enfermedad coronaria.; 1: si, 0: no.

In [None]:
subset.exercise_induced_angina.value_counts().plot.bar(title='exang')

In [None]:
grouped_data = subset.groupby(['diagnosis', 'exercise_induced_angina']).size().unstack(fill_value=0)
grapf = grouped_data.plot(kind='bar', title='Distribución de exercise_induced_angina por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('diagnosis')
plt.ylabel('Cantidad')
plt.show()

In [None]:
mostrar_total_propociones('diagnosis', 'exercise_induced_angina')

Los datos muestran que la presencia de angina inducida por ejercicio está asociada con una gama más amplia de severidad en la enfermedad cardíaca, ya que los pacientes con flujo sanguíneo insuficiente durante el ejercicio tienen una distribución variada entre diferentes niveles de severidad. En contraste, aquellos sin angina inducida por ejercicio tienden a concentrarse en los niveles menos severos de la enfermedad, lo que indica que la angina inducida puede estar relacionada con una mayor severidad de la enfermedad cardíaca.

### **slope**

Es la pendiente del segmento ST en el pico de ejercicio. Si es ascendente (valor 1) es el valor menos procupante a la hora de tener que indicar alguna enfermedad cardiaca, por lo contrario, el valor 3 si es preocupante porque indica que la pendiente es descendente, y el valor 2 es plano, lo cual es ligeramente preocupante.

In [None]:
subset.slope.value_counts().plot.bar(title='slope')

In [None]:
grouped_data = subset.groupby(['diagnosis', 'slope']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de slope por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('slope')
plt.ylabel('Cantidad')
plt.show()

In [None]:
mostrar_total_propociones('diagnosis', 'slope')

Los datos muestran que una pendiente normal del segmento ST (slope = 1) en el ejercicio se asocia con niveles menos severos de enfermedad cardíaca, mientras que una pendiente preocupante (slope = 3) está vinculada a una mayor severidad de la enfermedad. Una pendiente incierta (slope = 2) tiene una distribución más variada entre los diagnósticos.

#### Vessels colored fl

In [None]:
subset.vessels_colored_fl.sample(10)

Aca tenemos un problema, el tipo de variable de 'vessels_colored_fl' es float, pero los datos adentro son todos enteros, asi que seran transformados en int.

In [57]:
subset['vessels_colored_fl'] = subset['vessels_colored_fl'].astype(int)

In [None]:
subset.vessels_colored_fl.value_counts().plot.bar()

In [None]:
grouped_data = subset.groupby(['diagnosis', 'vessels_colored_fl']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de vessels_colored_fl por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('diagnosis')
plt.ylabel('Cantidad')
plt.show()


In [None]:
mostrar_total_propociones('diagnosis', 'vessels_colored_fl')

Es el número de vasos principales coloreados por fluroscopia, reflejando la cantidad de vasos afectados y la severidad de la obstruccion. Como podemos ver, aquellos que no poseen enfermedad cardiaca, son aquellos que no poseen vasos principales bloqueados.

Para aclarar, la escala de 0 a 4 generalmente tiene el siguiente significado:

0: No hay vasos principales afectados; es decir, no se observa enfermedad coronaria significativa. 1: Un vaso principal está afectado. 2: Dos vasos principales están afectados. 3: Tres vasos principales están afectados.

EN conclusión, a medida que aumenta la cantidad de vasos afectados, aumenta la gravedad de la enfermedad cardiaca.

### **Thalassemia**

Los valores de "thalassemia" son enteros, solo que en el dataframe se encuentran almacenados como float, entonces a la hora de realizar el gráfico aparecen un par de errores. Para solucionar este problema, vamos a pasarlos a enteros

In [61]:
subset["thalassemia"] = subset["thalassemia"].astype(int)

In [None]:
grouped_data = subset.groupby(['diagnosis', 'thalassemia']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de thalassemia por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('diagnosis')
plt.ylabel('Cantidad')
plt.show()

In [None]:
mostrar_total_propociones('diagnosis', 'thalassemia')

El conjunto de datos presenta proporciones que muestran cómo se distribuye la variable thalassemia entre diferentes valores de diagnóstico (diagnosis). Por ejemplo, para el valor de diagnóstico 3, la proporción de thalassemia varía desde 0.781818, indicando que aproximadamente el 78.18% de las observaciones tienen un valor específico de thalassemia, hasta 0.012121, donde solo el 1.21% de las observaciones presentan un valor diferente. De manera similar, para el diagnóstico 4, la proporción de thalassemia alcanza el 50% para algunos valores, sugiriendo una distribución equitativa en estas observaciones. Estas proporciones permiten observar cómo cambia la frecuencia de thalassemia en relación con los diferentes diagnósticos, lo que puede ser útil para identificar patrones en la prevalencia de thalassemia asociada a cada diagnóstico.

### **Max_heart_rate**

Frecuencia cardiaca máxima alcanzada (float).

In [None]:
subset.boxplot(column='max_heart_rate', by='diagnosis', grid=False)

plt.title('Distribución de max_heart_rate por diagnosis')
plt.suptitle('')
plt.xlabel('diagnosis')
plt.ylabel('thalassemia')
plt.show()

Haciendo un análisis de los diagramas de caja en cada valor de la gravedad, llegamos a la conclusión de que el valor de la mediana es inversamente proporiconal a la gravedad de la enfermedad cardíaca. Esto indica que, a mayor gravedad de la enfermedad, menor es la frecuencia cardíaca máxima alcanzada.

#### Cholesterol_level

In [None]:
subset.cholesterol_level.value_counts().plot.bar()

In [None]:
grouped_data = subset.groupby(['diagnosis', 'cholesterol_level']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de cholesterol_level por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('diagnosis')
plt.ylabel('Cantidad')
plt.show()

In [None]:
mostrar_total_propociones('diagnosis', 'cholesterol_level')

El análisis de las proporciones de niveles de colesterol según el diagnóstico muestra que los niveles de colesterol normal predominan en los diagnósticos menos graves, mientras que los niveles altos y bajos se distribuyen de manera más variada en diagnósticos más severos. A medida que la severidad del diagnóstico aumenta, las proporciones de colesterol alto y bajo tienden a cambiar, sugiriendo que los niveles de colesterol están relacionados con la severidad de la enfermedad, aunque esta relación no es estrictamente lineal.

#### Blood_pressure_level

In [None]:
grouped_data = subset.groupby(['diagnosis', 'blood_pressure_level']).size().unstack(fill_value=0)
graph = grouped_data.plot(kind='bar', title='Distribución de blood_pressure_level por diagnosis')

for container in graph.containers:
    graph.bar_label(container, label_type='edge')

plt.xlabel('diagnosis')
plt.ylabel('Cantidad')
plt.show()

In [None]:
mostrar_total_propociones('diagnosis', 'blood_pressure_level')

El conjunto de datos muestra la proporción de niveles de colesterol (cholesterol_level) en relación con diferentes valores de diagnóstico (diagnosis). Para el diagnóstico 0, la proporción de personas con colesterol normal es alta, alcanzando 0.630000, mientras que las proporciones para los niveles high y low son más bajas, con 0.477124 y 0.571429 respectivamente. A medida que cambia el diagnóstico, las proporciones también cambian: por ejemplo, para el diagnóstico 1, la proporción para colesterol high es 0.215686, mientras que para low es 0.142857 y para normal es 0.150000. Estas proporciones permiten observar cómo varía la distribución del colesterol en función del diagnóstico, proporcionando una visión de la relación entre los niveles de colesterol y la condición diagnosticada

#### Risk_score

Riesgo calculado de la siguiente manera {edad} * {colesterol} / 1000 + {presión arterial en reposo} / 100.

In [None]:
fig = px.box(subset, y='risk_score')
fig.show()

La mediana del risk_score (14.374) se encuentra en un valor intermedio dentro del gráfico de caja, y el rango intercuartílico, que va de 12.068 a 17.202, abarca el 50% de los datos. Esto sugiere que la mayoría de los pacientes presenta un riesgo moderado. Sin embargo, también se observan algunos valores máximos que se alejan significativamente de la mediana, identificados como valores atípicos. Estos valores podrían estar asociados a pacientes con niveles elevados en las variables utilizadas para calcular el **risk_score**, como la edad, el colesterol y la presión arterial en reposo.

In [None]:
bxp = subset.boxplot(column='risk_score', by='diagnosis', grid=False)

plt.title('Distribución de risk_score por diagnosis')
plt.suptitle('')
plt.xlabel('diagnosis')
plt.ylabel('risk_score')
plt.show()

**Risk_score en relación con Diagnosis**
- **Diagnosis 0:** La mediana del risk_score es la más baja entre todos los grupos de diagnóstico, pero no se observa una diferencia suficientemente marcada que sugiera una clara relación entre un riesgo calculado bajo y la ausencia de enfermedad cardíaca. Además, los valores atípicos significativamente alejados de la mediana muestran que un risk_score alto no necesariamente implica la presencia de enfermedad cardíaca.

- **Diagnosis 1 - 4:** En los casos donde se detecta alguna enfermedad cardíaca (diagnosis 1-4), las medianas de risk_score son similares entre sí, aunque el valor más bajo se encuentra en el grupo de diagnosis = 4, que representa la enfermedad cardíaca más grave. Esto sugiere que, incluso con un risk_score relativamente bajo, es posible que exista una condición cardíaca grave, lo que indica que un bajo risk_score no descarta la gravedad de la enfermedad.

In [None]:
conteo_por_diagnosis = subset.groupby('diagnosis')['risk_factor'].count()
print(conteo_por_diagnosis)

#### Risk_factor

Es el riesgo calculado a partir del 'chest_pain', 'depression_induced_ex' y 'thalassemia'.

In [None]:
fig = px.box(subset, y='risk_factor')
fig.show()

La mediana de 7.2 y el rango intercuartílico que va de 0 a 28.8 indican que la mayoría de los valores del **risk_factor** son relativamente bajos. Esto sugiere que la mayoría de los pacientes evaluados presentan un riesgo calculado reducido. Sin embargo, los valores máximos significativamente más altos en comparación con la mediana revelan la presencia de un grupo de pacientes con un riesgo considerablemente mayor. Esto podría estar relacionado con una combinación de características (como el dolor de pecho, la depresión inducida por ejercicio y la talasemia) que elevan el factor de riesgo en esos casos específicos. 

In [None]:
bxp = subset.boxplot(column='risk_factor', by='diagnosis', grid=False)

plt.title('Distribución de risk_factor por diagnosis')
plt.suptitle('')
plt.xlabel('diagnosis')
plt.ylabel('risk_factor')
plt.show()

**Risk_factor en relación a Diagnosis**
- **Diagnosis 0:** Los valores de risk_factor para los casos sin enfermedad cardíaca (diagnosis = 0) son relativamente bajos, con una mediana cercana a 0. Esto sugiere una correlación entre un bajo factor de riesgo y una menor probabilidad de desarrollar enfermedad cardíaca. Sin embargo, es importante tener en cuenta la presencia de valores atípicos, donde el risk_factor es elevado a pesar de no haber indicios de enfermedad cardíaca.

- **Diagnosis 1-4:** A medida que aumenta la gravedad de la enfermedad cardíaca, los valores de risk_factor también incrementan. En los niveles 3 y 4, que representan los diagnósticos más graves, la mediana del risk_factor es notablemente más alta, lo que refuerza la relación entre un mayor riesgo calculado y una mayor gravedad. Además, se observan menos valores atípicos en estos grupos, lo que sugiere una mayor consistencia en el aumento del factor de riesgo en casos más graves.

#### Symptom_severity - Gravedad de los síntomas.

Determinar la urgencia del tratamiento y la extensión de la enfermedad cardíaca, calculado como ('chest_pain' * 'depression_induced_ex')

In [None]:
fig = px.box(subset, y='symptom_severity')
fig.show()

In [None]:
bxp = subset.boxplot(column='symptom_severity', by='diagnosis', grid=False)

plt.title('Distribución de symptom_severity por diagnosis')
plt.suptitle('')
plt.xlabel('diagnosis')
plt.ylabel('symptom_severity')
plt.show()

A simple vista, el gráfico sugiere una tendencia en la que, al aumentar la gravedad de la enfermedad diagnosticada, también se incrementa la severidad de los síntomas. Sin embargo, este patrón no confirma por sí solo que un aumento en la gravedad de los síntomas esté directamente relacionado con una enfermedad cardíaca. 

Asimismo, se observan valores atípicos en el gráfico de caja, principalmente en los casos donde no se detecta enfermedad (diagnosis = 0). Esto podría indicar posibles anomalías o errores en los datos, lo cual sería importante investigar más a fondo para entender si tienen un origen justificable.



#### Avg_chol_by_age_group

In [None]:
fig = px.box(subset, y='avg_chol_by_age_group')
fig.show()

In [None]:
bxp = subset.boxplot(column='avg_chol_by_age_group', by='diagnosis', grid=False)

plt.title('Distribución de avg_chol_by_age_group por diagnosis')
plt.suptitle('')
plt.xlabel('diagnosis')
plt.ylabel('avg_chol_by_age_group')
plt.show()

In [103]:
valor_unicos_age_group = subset['age_group'].unique()
vu_chol =  subset['cholesterol_level'].unique()
vu_bp = subset['blood_pressure_level'].unique()

In [None]:
subset["age_group"] = subset.age_group.replace(valor_unicos_age_group, [60, 30, 40, 50, 70])
subset['cholesterol_level'] = subset.cholesterol_level.replace(vu_chol, [1, 2, 0])
subset['blood_pressure_level'] = subset.blood_pressure_level.replace(vu_bp, [2,0,1])
sns.heatmap(subset.corr(), annot=True, cmap='RdYlGn', linewidths=0.2)
fig = plt.gcf()
fig.set_size_inches(15, 12)
plt.show()

**Menor relacion con diagnosis**
1. **Max_heart_rate** tiene una baja correlacion con **diagnosis**, que es nuestra variable de salida. Esto nos lleva a entender que max_heart_rate no afecta a la hora de determinar el diagnostico. Además podemos ver que **Max_heart_rate** tiene una baja relación con el resto de variables por lo que nos lleva a pensar de que se pueda eleminar del dataset. 

**Estas son las variables con mayor correlacion con diagnosis**
Consideramos que empieza haber cierta correlacion a partir de 0.40.

1. **chest_pain** 0.4
2. **exercise_induced_angina** 0.44
3. **depression_induced_ex** 0.43
4. **vessel_coloured_fl** 0.46
5. **thalassemia** 0.53
6. **symptom_severity** 0.49
7. **risk_factor** 0.54

**Una vez identificadas estas variables, queremos saber con que otras variables poseen una mayor correlación aparte de diagnosis**
1. **chest_pain**
- risk_factor - 0.42
- symptom_severity - 0.42

2. **exercise_induced_angina**
- risk_factor - 0.41

3. **depression_induced_ex**
- slope - 0.54
- symptom_severity - 0.94
- risk_factor - 0.84

5. **thalassemia**
- risk_factor - 0.54

6. **symptom_severity**
- risk_factor - 0.93
- slope - 0.51
- depression_induced_ex - 0.94
- chest_pain - 0.42

7. **risk_factor**
- symptom_severity - 0.93
- chest_pain - 0.42
- exercise_induced_angina - 0.41
- depression_induced_ex - 0.84
- thalassemia - 0.54

Para el resto de variables que no muestran algun signo de generar una alta influencia en diagnosis, se van a probar con eliminarlas del dataset y evaluar si influye considerablemente en el resultado. 

### Listado de posibles dudas/preguntas al encargado de proveer los datos

1. ¿Que tan fiable son los datos?
2. ¿Por qué hay tantos outliners en las siguientes variables risk_score, risk_factor, symptom_severity y avg_chol_by_age_group? 

## 3- Hipótesis sobre los datos

In [None]:
from sklearn.feature_selection import mutual_info_classif
from sklearn.preprocessing import LabelEncoder
import pandas as pd

def preparar_datos_para_info_mutua(subset, target_column):
    subset_encoded = subset.copy()
    
    le = LabelEncoder()
    
    for column in subset_encoded.columns:
        if subset_encoded[column].dtype == 'object':
            subset_encoded[column] = le.fit_transform(subset_encoded[column])
    
    return subset_encoded

def calcular_informacion_mutua(subset, target_column):
    subset_encoded = preparar_datos_para_info_mutua(subset, target_column)
    
    X = subset_encoded.drop(columns=[target_column])
    y = subset_encoded[target_column]
    
    info_mutua = mutual_info_classif(X, y, discrete_features='auto')
    
    info_mutua_df = pd.DataFrame({
        'Variable': X.columns,
        'Informacion_Mutua': info_mutua
    })
    
    info_mutua_df = info_mutua_df.sort_values(by='Informacion_Mutua', ascending=False)
    
    return info_mutua_df

resultado_info_mutua = calcular_informacion_mutua(subset, 'diagnosis')
print(resultado_info_mutua)


### a. Formulación de hipótesis sobre la variable target bajo determinadas condiciones

1. En la variable **chest_pain** se piensa que esta puede no influir a la hora de predecir si hay o no alguna enfermedad cardiaca.
2. En la variable **fasting_blood_sugar** se piensa que puede no influir a la hora de predecir si hay o no alguna enfermedad cardiaca. No se termina de saber si al ser true nos asegure que pueda haber algun tipo de enfemerdad cardiaca. 
3. Planteamos que las variables mencionadas como aquellas con mayor relación son las que más van a influir con el resultado final de diagnosis y a su vez, cada una de estas variables estan relacionadas con otras variables que se consideraran importantes a la hora de obtener el diagnosis.
4. **Max_heart_rate** no tiene una correlación con diagnosis, por lo que esta variable no tiene importancia para diagnosis.
 

### b. Comprobación de la hipótesis

### c. Creación de nuevas variables

## 4- Modelado

Como primera instancia, lo que vamos a hacer es elegir cuál será la métrica de performance que utilicemos para evaluar el modelo.
Las métricas disponibles para elegir son **Accuracy, Precision, ReCall y F1-Score**. Pero, antes de elegir una, tendremos que
evaluar que tan importante es nuestro resultado.

Para eso primero nos haremos unas preguntas:
- ¿Que tan importante es que cuando nosotros digamos A, sea realmente A y no un falso posito?
- ¿Que tan importante es que cuando nosotros digamos que no es A, realmente sea A y no un falso negativo?
- ¿Que tan costo sería errar en la predición?

*Nota del facha que lo escribío*: Lo que me refiero es hacer preguntas y ver que tan seguro queremos que nuestro modelo este para decir si
tiene una enfermedad o no. Obviamente queremos que este bastante seguro. Si el modelo dice que no esta enfermo, pero en realidad lo esta,
no es un resultado que nosotros queramos. Ahora, si el modelo dice que esta enfermo, pero en realidad no lo esta, o dice que tiene un enfermedad tipo 4 y en realidad es tipo 2, tampoco es taaan grave. Ustedes que tienen mas idea les va a salir de die y seguro me entienden

Una vez respondidas esas preguntas, podemos decir que la métrica elegida es: **Inserte métrica fachera como F1-Score**

Ahora como siguiente paso vamos a implementar **feature engineering**, si es posible, para mejorar los datos de entrada de los modelos

Dividimos el conjunto de datos en train, validation y test

In [None]:
from sklearn.model_selection import train_test_split

train, not_train = train_test_split(subset, test_size=0.4, random_state=42)
validation, test = train_test_split(not_train, test_size=0.5, random_state=42)

train.shape, validation.shape, test.shape

Generamos nuestro mapper

In [None]:
from sklearn_pandas import DataFrameMapper
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelBinarizer

mapper = DataFrameMapper([
    (['sex'], [LabelBinarizer()]),
    (['chest_pain'], [StandardScaler()]),
    (['fasting_blood_sugar'], [OneHotEncoder()]),
    (['rest_ecg'], [StandardScaler()]),
    (['max_heart_rate'], [StandardScaler()]),
    (['exercise_induced_angina'], [OneHotEncoder()]),
    (['depression_induced_ex'], [StandardScaler()]),
    (['slope'], [StandardScaler()]),
    (['vessels_colored_fl'], [StandardScaler()]),
    (['thalassemia'], [StandardScaler()]),
    (['age_group'], [OneHotEncoder()]),
    (['cholesterol_level'], [OneHotEncoder()]),
    (['blood_pressure_level'], [OneHotEncoder()]),
    (['risk_score'], [StandardScaler()]),
    (['symptom_severity'], [StandardScaler()]),
    (['risk_factor'], [StandardScaler()]),
    (['avg_chol_by_age_group'], [StandardScaler()])
])

mapper.fit(train)

Vemos como realiza las transformaciones

In [None]:
subset.sample(1, random_state=42)

In [None]:
mapper.transform(subset.sample(1, random_state=42))

In [None]:
mapper.transformed_names_

### Generamos el Pipeline
Se van a generar los Pipelines de los 3 modelos elegidos, estos son:
- LogisticRegression
- k-NN
- Árboles de decisión

In [86]:
from sklearn import metrics


def evaluate_model(model, set_names=('train', 'validation'), title=''):
    if title:
        display(title)
        
    final_metrics = {
        'Accuracy': [],
        'Precision': [],
        'Recall': [],
        'F1': [],        
    }
        
    for i, set_name in enumerate(set_names):
        assert set_name in ['train', 'validation', 'test']
        set_data = globals()[set_name]  # <- hack feo...
    
        y = set_data.diagnosis
        y_pred = model.predict(set_data)
        final_metrics['Accuracy'].append(metrics.accuracy_score(y, y_pred))
        final_metrics['Precision'].append(metrics.precision_score(y, y_pred, average='macro'))
        final_metrics['Recall'].append(metrics.recall_score(y, y_pred, average='macro'))
        final_metrics['F1'].append(metrics.f1_score(y, y_pred, average='macro'))
        
    display(pd.DataFrame(final_metrics, index=set_names))

#### LogisticRegression

Haremos una exploración de hyperparámetros mediante una búsqueda en grilla para determinar que combinación de hyperparámetros es la más
adecuada para este tipo de problemas.

Los hyperparámetros a explorar son:
1. **`penalty`**:  
   Define el tipo de regularización que se aplicará para evitar el sobreajuste del modelo. Las opciones son:
   - `'l1'`: Lasso, aplica una regularización L1, lo que puede llevar a coeficientes exactamente cero (selección de características).
   - `'l2'`: Ridge, aplica una regularización L2, penaliza grandes coeficientes pero no los reduce a cero.
   - `'elasticnet'`: Combinación de normativas L1 y L2 (solo con `solver='saga'`).

2. **`C`**:  
   Es el inverso de la fuerza de regularización. Controla cuánto penalizará el modelo los coeficientes grandes.  
   - Valores pequeños de `C` aumentan la regularización (más simple).
   - Valores grandes de `C` disminuyen la regularización (más ajuste).  
   - Valores típicos: `[0.001, 0.01, 0.1, 1, 10, 100]`.

3. **`solver`**:  
   Algoritmo utilizado para optimizar los coeficientes del modelo. Las opciones son:
   - `'liblinear'`: Eficiente para problemas pequeños o clasificación binaria, utiliza descenso coordinado.
   - `'newton-cg'`: Basado en gradiente, adecuado para problemas multiclase.
   - `'lbfgs'`: Quasi-Newton, rápido y adecuado para problemas multiclase.
   - `'sag'`: Gradiente estocástico promedio, eficiente para grandes conjuntos de datos.
   - `'saga'`: Similar a `'sag'`, pero soporta regularización L1 y problemas grandes.

4. **`max_iter`**:  
   Número máximo de iteraciones para que el algoritmo alcance la convergencia. Aumentar este valor puede ser útil si el modelo no está convergiendo.  
   - Valores típicos: `[100, 200, 300]`.

5. **`tol`**:  
   Tolerancia para la convergencia. Define el criterio para detener el ajuste cuando el cambio en la función objetivo es menor que `tol`.  
   - Valores bajos hacen el modelo más preciso, pero toman más tiempo.  
   - Valores típicos: `[1e-4, 1e-3, 1e-2]`.

6. **`class_weight`**:  
   Ajusta los pesos de las clases para manejar desbalanceos en los datos:
   - `None`: Todas las clases tienen el mismo peso.
   - `'balanced'`: Ajusta automáticamente los pesos en función de la distribución de clases, dando más peso a las clases minoritarias.

In [None]:
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

LR_clf = LogisticRegression(random_state=42)
LR_params = {
    'penalty': ['l1', 'l2'],
    'C': [0.01, 0.1, 1, 10],
    'solver': ['newton-cg', 'liblinear', 'lbfgs', 'sag', 'saga'],
    'max_iter': [100, 300, 500, 1000],
    'tol': [1e-5, 1e-4, 1e-3, 1e-2],
    'class_weight': [None, 'balanced'],
    'random_state': [42]
}

clf = GridSearchCV(LR_clf, LR_params, refit=True, verbose=1)

pipeLR = Pipeline([
    ('mapper', mapper),
    ('classifier', clf),
])

pipeLR.fit(train, train.diagnosis)

clf.best_score_, clf.best_params_

Como vemos en los resultados de la búsqueda en grilla, la mejor combinación de parámetros es:
- 'C': 0.001
- 'class_weight': None
- 'max_iter': 100
- 'penalty': 'l2'
- 'solver': 'liblinear'
- 'tol': 0.0001

Dando como mejor resultado: **0.6298798798798798**

Ahora, generamos un modelo con los mejores parámetros y realizamos la predicción
*Nota del facha que escribe*: Nose si hace falta hacer ooootro modelo

In [None]:
LR_best_params = {'C': 0.001,
  'class_weight': None, # por defecto
  'max_iter': 300, # por defecto
  'penalty': 'l2', # por defecto
  'solver': 'liblinear',
  'tol': 0.0001} # por defecto

LR_clf_best_params = LogisticRegression(random_state=42,
                                        solver='liblinear',
                                        C=0.1
                                        )

pipeLR = Pipeline([
    ('mapper', mapper),
    ('classifier', LR_clf_best_params),
])

pipeLR.fit(train, train.diagnosis)

y_predLR = pipeLR.predict(validation)
y_predLR

Evaluamos las métricas elegidas.

Aca evalúa todas qsya no conozco otra jasjsa

In [None]:
evaluate_model(pipeLR, title='LogisticRegression')

#### k-NN
Haremos una exploración de hyperparámetros mediante una búsqueda en grilla para determinar que combinación de hyperparámetros es la más
adecuada para este tipo de problemas.

Los hyperparámetros a explorar son:
1. **`n_neighbors`**: El número de vecinos a considerar. Ejemplos de valores a probar:
   - `[3, 5, 7, 10]`

2. **`weights`**: La función de peso para los vecinos. Opciones disponibles:
   - `'uniform'` (todos los vecinos tienen el mismo peso)
   - `'distance'` (los vecinos más cercanos tienen más peso)

3. **`algorithm`**: El algoritmo para calcular los vecinos. Opciones disponibles:
   - `'auto'`
   - `'ball_tree'`
   - `'kd_tree'`
   - `'brute'`

4. **`p`**: La potencia del parámetro de la métrica de distancia. Ejemplos de valores a probar:
   - `1` (distancia de Manhattan)
   - `2` (distancia Euclidiana)

5. **`leaf_size`**: Tamaño de la hoja para el algoritmo `'ball_tree'` o `'kd_tree'`. Ejemplos de valores a probar:
   - `[10, 20, 30]`

In [None]:
from sklearn.neighbors import KNeighborsClassifier


knn_clf = KNeighborsClassifier(n_neighbors=1)

knn_params = [{
    'n_neighbors': np.linspace(1, 100, 100, dtype=int)
}]

clf = GridSearchCV(knn_clf, knn_params, refit=True, verbose=1)

gs_pipe = Pipeline([
    ('mapper', mapper),
    ('classifier', clf),
])

gs_pipe.fit(train, train.diagnosis)

clf.best_score_, clf.best_params_

Una vez realizada la búsqueda en grilla, podemos ver que los mejores hyperparámetros son:
- 'algorithm': 'auto'
- 'leaf_size': 5
- 'n_neighbors': 7
- 'p': 1
- 'weights': 'distance'

Dando como mejor resultado: **0.6573573573573575**

In [None]:
# kNN_best_params = {
#   'algorithm': 'auto', # default
#   'leaf_size': 5,
#   'n_neighbors': 7,
#   'p': 1,
#   'weights': 'distance',
# }

# kNN_clf_best_params = KNeighborsClassifier(algorithm='auto',
#                             p=1,
#                             n_neighbors=7,
#                             weights= 'distance',
#                             leaf_size=5
#                             )
kNN_clf_best_params = KNeighborsClassifier(n_neighbors=7)

pipekNN = Pipeline([
    ('mapper', mapper),
    ('classifier', kNN_clf_best_params),
])

pipekNN.fit(train, train.diagnosis)

y_predkNN = pipekNN.predict(validation)
y_predkNN

In [None]:
evaluate_model(pipekNN, title='kNN')

#### Árboles de decisión

In [93]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
TM_clf = DecisionTreeClassifier(random_state=42)
TM_params = {
  'max_depth': [None, 1, 2, 3, 4]
}

clf = GridSearchCV(TM_clf, TM_params, refit=True, verbose=1)

TM_pipe = Pipeline([
    ('mapper', mapper),
    ('classifier', clf),
])

TM_pipe.fit(train, train.diagnosis)

clf.best_score_, clf.best_params_

In [None]:
TM_clf = DecisionTreeClassifier(random_state=42, max_depth=2)

TM_pipe = Pipeline([
    ('mapper', mapper),
    ('classifier', TM_clf),
])

TM_pipe.fit(train, train.diagnosis)

evaluate_model(TM_pipe, title='Decision Tree')

### Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier


RF_clf = RandomForestClassifier(random_state=42)
RF_params = [{ 
  'n_estimators': [100, 200, 300, 400], 
  'max_depth': [None, 1 , 2, 3, 4, 5, 6, 7, 8],
  # 'max_features': [2, 5]
}]

clf = GridSearchCV(RF_clf, RF_params, refit=True, verbose=1)

RF_pipe = Pipeline([
    ('mapper', mapper),
    ('classifier', clf),
])

RF_pipe.fit(train, train.diagnosis)

clf.best_score_, clf.best_params_

In [None]:
RF_clf = RandomForestClassifier(random_state=42,
                                max_depth=None,
                                n_estimators=500,
                                max_features=5
                                )

RF_pipe = Pipeline([
    ('mapper', mapper),
    ('classifier', RF_clf),
])

RF_pipe.fit(train, train.diagnosis)

evaluate_model(RF_pipe, title='Decision Tree')

In [None]:
# subset['diagnosis'] = subset['diagnosis'].apply(lambda x: 1 if x > 1 else x)

# subset.diagnosis