<center>
<h1> Laboratorio PyCaret </h1>

<b> John González </b>

30 de septiembre de 2023
<p>
<img src='https://raw.githubusercontent.com/pycaret/pycaret/master/docs/images/logo.png' height=50/>
</center>

Pycaret es una librería de Python que permite trabajar con Machine Learning de bajo código. A diferencia de otras librerías como sklearn, keras, pytorch, fast.ai, ... Esta permite tener varios modelos de una manera muy rápida, concentrarse en la preparación de los datos y análisis de resultados. Por debajo utiliza principalmente la libraría sklearn, básicamente Pycaret lo que hace es simplificar su uso.

Nosotros en este notebook vamos a seguir [este tutorial](https://pycaret.gitbook.io/docs/get-started/quickstart)

```bash
uv add pycaret
```

Adicionalmente vamos a instalar sweetviz, una librería especializada para hacer análisis descriptivo exploratorio para machine learning.

```bash
uv add sweetviz
```

## 1. Importar datos

In [1]:
from pycaret.datasets import get_data
get_data()

Unnamed: 0,Dataset,Data Types,Default Task,Target Variable 1,Target Variable 2,# Instances,# Attributes,Missing Values
0,anomaly,Multivariate,Anomaly Detection,,,1000,10,N
1,france,Multivariate,Association Rule Mining,InvoiceNo,Description,8557,8,N
2,germany,Multivariate,Association Rule Mining,InvoiceNo,Description,9495,8,N
3,bank,Multivariate,Classification (Binary),deposit,,45211,17,N
4,blood,Multivariate,Classification (Binary),Class,,748,5,N
5,cancer,Multivariate,Classification (Binary),Class,,683,10,N
6,credit,Multivariate,Classification (Binary),default,,24000,24,N
7,diabetes,Multivariate,Classification (Binary),Class variable,,768,9,N
8,electrical_grid,Multivariate,Classification (Binary),stabf,,10000,14,N
9,employee,Multivariate,Classification (Binary),left,,14999,10,N


Unnamed: 0,Dataset,Data Types,Default Task,Target Variable 1,Target Variable 2,# Instances,# Attributes,Missing Values
0,anomaly,Multivariate,Anomaly Detection,,,1000,10,N
1,france,Multivariate,Association Rule Mining,InvoiceNo,Description,8557,8,N
2,germany,Multivariate,Association Rule Mining,InvoiceNo,Description,9495,8,N
3,bank,Multivariate,Classification (Binary),deposit,,45211,17,N
4,blood,Multivariate,Classification (Binary),Class,,748,5,N
5,cancer,Multivariate,Classification (Binary),Class,,683,10,N
6,credit,Multivariate,Classification (Binary),default,,24000,24,N
7,diabetes,Multivariate,Classification (Binary),Class variable,,768,9,N
8,electrical_grid,Multivariate,Classification (Binary),stabf,,10000,14,N
9,employee,Multivariate,Classification (Binary),left,,14999,10,N


Se selecciona trabajar con la tabla `diabetes`

In [2]:
from pycaret.datasets import get_data
data = get_data('diabetes')
print('Dimensiones de la tabla:', data.shape)

Unnamed: 0,Number of times pregnant,Plasma glucose concentration a 2 hours in an oral glucose tolerance test,Diastolic blood pressure (mm Hg),Triceps skin fold thickness (mm),2-Hour serum insulin (mu U/ml),Body mass index (weight in kg/(height in m)^2),Diabetes pedigree function,Age (years),Class variable
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Dimensiones de la tabla: (768, 9)


**Diccionario de variables**
1. **Número de embarazos**: Número de veces que la paciente ha estado embarazada.
2. **Glucosa en plasma**: Concentración de glucosa en plasma a 2 horas en una prueba de tolerancia a la glucosa oral.
3. **Presión arterial diastólica**: Presión arterial diastólica (mm Hg).
4. **Grosor del pliegue cutáneo del tríceps**: Grosor del pliegue de la piel del tríceps (mm).
5. **Insulina sérica de 2 horas**: Insulina sérica a las 2 horas (mu U/ml).
6. **Índice de masa corporal (IMC)**: Peso en kg/(altura en m)^2.
7. **Función del pedigrí de la diabetes**: Función que representa la influencia genética esperada de los familiares y la historia de la enfermedad.
8. **Edad**: Edad del paciente (años).
9. **Clase**: Variable de resultado, indica si la paciente tiene diabetes (1) o no (0).



## 2. Análisis Descriptivo Exploratorio (EDA)

Es obligatorio entender los datos antes que cualquier otra cosa. Responder preguntas como:
1. Las variables tiene valores nulos?
2. Cuál es el comportamiento de cada variable? Tienen sesgo?
3. Cómo se relaciona cada variable frente a la variable objetivo?
4. Cómo se relacionan entre sí las variables? Mapa de correlación

In [3]:
import sweetviz as sv

reporte = sv.analyze(data, target_feat='Class variable')
reporte.show_notebook()
# reporte.show_html('mi_reporte.html')  # Guarda el reporte

                                             |          | [  0%]   00:00 -> (? left)

**Análisis**:

Se observa que la tabla no tiene valores nulos, la variable objetivo tiene un ligero desbalance (65% de los pacientes no tienen diabetes frente a 35% que si lo tienen). La variable objetivo se relaciona más con las variables: concentración de glucosa, índice de masa corporal, edad y número de veces embarazada.

En seguida el análisis específico para cada variable explicativa de la diabetes:

1. `Número de veces embarazada`: Entre más veces la mujer haya sido embarazada aumenta la tasa de casos de diabetes. Lo más común es que una mujer no haya tenido embarazos, sin embargo, observamos que hay un caso con 17 embarazos (esta mujer tiene diabetes).
2. `Concentración de glucosa`: blablablabla

### Ejercicio 1 (10 puntos)

> a. Continúe el análisis univariado para las demás variables

> b. Realice un análisis de acuerdo a la correlación

Escriba su análisis aquí

## 3. Configuración PyCaret

Esta función inicializa el entorno de entrenamiento y crea la canalización de transformación. La función de configuración debe llamarse antes de ejecutar cualquier otra función. Toma dos parámetros obligatorios: `data` y `target`. Todos los demás parámetros son opcionales.

Puede especificar el session_id para que la división de los datos en entrenamiento y testeo permanezca fijo.

In [4]:
from pycaret import classification

s = classification.setup(
    data,
    target = 'Class variable',
    session_id=1234,
    normalize=True
)

Unnamed: 0,Description,Value
0,Session id,1234
1,Target,Class variable
2,Target type,Binary
3,Original data shape,"(768, 9)"
4,Transformed data shape,"(768, 9)"
5,Transformed train set shape,"(537, 9)"
6,Transformed test set shape,"(231, 9)"
7,Numeric features,8
8,Preprocess,True
9,Imputation type,simple


Cuando se ejecuta la configuración, el algoritmo de inferencia de PyCaret inferirá automáticamente los tipos de datos para todas las variables en función de ciertas propiedades.

El tipo de datos debe inferirse correctamente, pero no siempre es así.

Asegurarse de que los tipos de datos sean correctos es realmente importante en PyCaret, ya que realiza automáticamente múltiples tareas de preprocesamiento específicas del tipo que son imprescindibles para los modelos de aprendizaje automático.


Alternativamente, también puede usar los parámetros `numeric_features` y `categorical_features` en la configuración para predefinir los tipos de datos.

### Ejercicio 2 (10 puntos)

1. Cuál es el tamaño de los datos de entrenamiento y testeo?
2. Consulte para qué sirve dividir los datos de esta manera?


Escriba la respuesta a las dos preguntas aquí
1. blablabla
2. blablabla

In [5]:
# Para ver como quedaron transformados los datos, use esto:
X_train = classification.get_config('X_train_transformed')
X_train.head(5)

Unnamed: 0,Number of times pregnant,Plasma glucose concentration a 2 hours in an oral glucose tolerance test,Diastolic blood pressure (mm Hg),Triceps skin fold thickness (mm),2-Hour serum insulin (mu U/ml),Body mass index (weight in kg/(height in m)^2),Diabetes pedigree function,Age (years)
618,1.592314,-0.257406,0.645185,0.214474,-0.68244,-0.451845,2.274028,1.377543
422,-1.152213,-0.573281,-0.251101,1.562955,-0.002047,1.111058,0.031868,-1.029872
683,0.067577,0.153232,0.545597,-1.256596,-0.68244,0.064921,0.145972,-0.531786
609,-0.847266,-0.288993,-0.350688,-0.459766,0.905144,-0.981215,-0.989371,-0.863843
200,-1.152213,-0.225818,0.545597,-0.275883,-0.68244,-0.098931,1.110159,-1.029872


In [None]:
# Para ver como quedaron transformados los datos, use esto:
X_test = classification.get_config('X_test_transformed')
X_test.head(5)

Unnamed: 0,Number of times pregnant,Plasma glucose concentration a 2 hours in an oral glucose tolerance test,Diastolic blood pressure (mm Hg),Triceps skin fold thickness (mm),2-Hour serum insulin (mu U/ml),Body mass index (weight in kg/(height in m)^2),Diabetes pedigree function,Age (years)
610,-0.237371,-0.446931,-0.749037,0.03059,0.695792,-0.111535,-0.550067,-0.780829
399,-0.237371,2.301182,0.047661,0.643536,-0.68244,0.392627,-0.695551,-0.697815
653,-0.542318,-0.004706,-0.749037,-1.256596,-0.68244,-0.628302,-0.08509,-0.531786
421,-0.542318,-0.825981,-0.051926,-0.153294,-0.019493,-0.729134,0.217288,-1.029872
79,-0.542318,-0.257406,-0.151514,0.091885,-0.68244,-0.855175,-0.507278,-0.780829


### Ejercicio 3 (10 puntos)

1. Verifique que las variables de entrenamiento (X_train) quedaron correctamente normalizadas. Su media debería ser cero y la varianza 1
2. Por qué no sucede lo mismo con X_test. Qué puede estar pasando?

In [None]:
# ------------------------------------------
# Verifique media 0 y var 1 para X_train (aprox. entre 1 a 5 líneas de código)

# ------------------------------------------

In [None]:
# ------------------------------------------
# calcule media y var para X_test (aprox. entre 1 a 5 líneas de código)

# ------------------------------------------

Realice su análisis aquí

## 4. Comparar modelos

Esta función entrena y evalúa el rendimiento de todos los estimadores (modelos) disponibles en la biblioteca de modelos mediante validación cruzada.

El resultado de esta función es una tabla de puntuación con puntuaciones medias validadas de forma cruzada. Se puede acceder a las métricas evaluadas durante CV mediante la función `get_metrics`. Las métricas personalizadas se pueden agregar o eliminar mediante las funciones `add_metric` y `remove_metric`.

In [None]:
mejor_modelo_auc = classification.compare_models(sort='AUC')

In [None]:
print(mejor_modelo_auc)

## 5. Analizar el mejor modelo

Esta función analiza el rendimiento de un modelo entrenado en los datos de testeo

In [None]:
classification.evaluate_model(mejor_modelo_auc)

### Ejercicio 4 (10 puntos)

El método anterior nos permite obtener el mejor modelo, sin embargo algunas veces necesitamos tomar el modelo por su simplicidad más que por su rendimiento. Para esto debemos utilizar el método `classification.create_model`.

Por ejemplo para el modelo `randomforest` utilizamos:
`model_rf = classification.create_model('rf')`

1. Del listado tome el modelo de regresión logística y asígnelo a `modelo_regresion_logistica`
2. Luego evalúe con el botón `Learning Curve` frente al modelo `mejor_modelo` realizado anteriormente. Consulte el significado de esta curva y SOLO TENIENDO EN CUENTA ESTO, explique cual modelo es considerado mejor.

In [None]:
# ------------------------------------------
# 1. Cree el modelo y evalúelo (2 líneas de código)

# ------------------------------------------

2. Analice la learning curve del mejor modelo auc vs el modelo de regresión logística. Explique cual es mejor aqui

## 6. Predicciones

In [None]:
data_test_pred = classification.predict_model(modelo_regresion_logistica, raw_score=True)
data_test_pred

In [None]:
modelo_regresion_logistica = classification.predict_model(modelo_regresion_logistica, data=data, raw_score=True)
data_pred

## Ejercicio 5 (10 puntos)

Calcule la probabilidad y la predicción que una persona tenga diabetes con las siguientes características:

1. **Número de embarazos**: 2
2. **Glucosa en plasma**: 100
3. **Presión arterial diastólica**: 50
4. **Grosor del pliegue cutáneo del tríceps**: 50
5. **Insulina sérica de 2 horas**: 100
6. **Índice de masa corporal (IMC)**: 50
7. **Función del pedigrí de la diabetes**: 1
8. **Edad**: 40

In [None]:
# ------------------------------------------
# 1. Calcule la probabilidad (~2 líneas de código)

# ------------------------------------------

## 7. Guardar y cargar modelo

In [None]:
classification.save_model(mejor_modelo, 'mi_mejor_modelo')

In [None]:
modelo_cargado = classification.load_model('mi_mejor_modelo')
print(modelo_cargado)

* Documentación Pycaret: https://pycaret.gitbook.io/docs/get-started/preprocessing
* Otra herramienta para hacer EDA: pandas profiling