# Pandas y Altair: Declarative Visualization in Python

## Taller **Evaluado**.

**Profesor:** Hernán Valdivieso.

**Ayudante**: Francisca Ibarra y Pablo Araneda.

**Estudiante:** `Sebastián Latorre Diaz`.

-----

El siguiente _jupyter notebook_ tiene como fin ser una guía de cómo utilizar las librerías de Python [Pandas](https://pandas.pydata.org/) y [Altair](https://altair-viz.github.io/index.html) para:

1. Explorar un _dataset_ de interés: [clasificación de vinos](https://www.kaggle.com/datasets/shelvigarg/wine-quality-dataset).  
2. Construir visualizaciones en el contexto de crear un modelo de _machine learning_ (ML) que clasifique vinos en función de sus otros parámetros (pH, nivel de alcohol, tipo de vino, etc.).
3. Construir visualizaciones para explorar un _dataset_ de seguros médicos.

Para facilitar la instalación de esta librería, este archivo fue entregado en un [Google Colab](https://colab.research.google.com/) para poder ejecutarlo en los servidores de Google, los cuales ya disponen de todos los recursos necesarios para ejecutar los códigos que implementarás y únicamente requerirá de internet para trabajar con este archivo.


Este  _jupyter notebook_ se compone de 7 actividades, las cuales se dividen en 2 partes:

1. Explorar los datos del _dataset_ entregado y aprender algunos usos de la librería [`pandas`](https://pandas.pydata.org/) para preprocesar los datos.

2. Entregar diversos ejemplos de algunos _idioms_ (sinónimo de gráficos), junto con una explicación detallada de qué hace cada línea. Luego, para cada _idiom_ explicado, se solicitará que ustedes intenten crear otro gráfico.

Cada actividad **puede ponderar distinto**, es decir, no asuman que cada actividad presentará el mismo puntaje.


### Importante

En caso de hacer el práctico en parejas, **solo 1 debe entregar o se aplicará un descuento de 10 décimas**. Tienen hasta el **Viernes 13 de Septiembre 23:59 para entregar**, luego se aplicará un descuento de hasta 10 décimas por entregas de atraso. Solo se acepta hasta 24 horas de atraso.

Adicionalmente, **solo se acepta 1 respuesta/visualización por ejercicio. En caso de entregar más de una respuesta, se revisará la primera.**

Indique aquí los integrantes:
- Su nombre
- Nombre de su compañero/a (en caso de hacerlo en parejas).

## Descargar _dataset_
En primer lugar, como estaremos ocupando un servidor externo, es necesario descargar los [_datasets_](https://drive.google.com/file/d/1tWK0KVWJpjl7P9IvNVfOgz4wbG1h72uo/view?usp=share_link) en dicho servidor. Para esto ocuparemos una función encargada de bajar un archivo desde google drive.

In [None]:
import pandas as pd
import requests

def download_file_without_authenticate(id, destination):
    def get_confirm_token(response):
        for key, value in response.cookies.items():
            if key.startswith("download_warning"):
                return value

    URL = "https://docs.google.com/uc?export=download"
    response = requests.get(URL, params={"id": id, "confirm": 1}, stream=True)

    CHUNK_SIZE = 32768
    with open(destination, "wb") as f:
        for i, chunk in enumerate(response.iter_content(CHUNK_SIZE)):
            if chunk:  # filter out keep-alive new chunks
                f.write(chunk)

    return None


download_file_without_authenticate("1tWK0KVWJpjl7P9IvNVfOgz4wbG1h72uo", "taller-altair.zip")
!unzip -o -q taller-altair.zip

Ls _datasets_ han sido descargado, si ahora utilizamos el comando `ls` podremos observar qué archivos están actualmente en el servidor y que podrás utilizar desde este _jupyter notebook_.

In [None]:
ls

numerical_mlp.py  [0m[01;34m__pycache__[0m/  [01;34msample_data[0m/  seguro_salud.csv  taller-altair.zip  winequalityN.csv


## A explorar el _dataset_


## Manipulación básica de los datos.

Para poder describir el _dataset_ se introducirá el uso de la librería [`pandas`](https://pandas.pydata.org/), el cual es un paquete de Python que provee de una serie de funciones, métodos y estructuras de datos para trabajar los _dataset_ de forma fácil e intuitiva.



### `numpy` y `pandas`.
Primero, es necesario saber existe una librería para Python llamada [`numpy`](http://www.numpy.org/) la cual  permite crear arreglos y matrices multidimensionales que contienen datos genéricos. Dichos arreglos y matrices son operados de forma eficiente en memoria e incrementa en gran medida la velocidad de las operaciones realizadas con cada uno de sus elementos. `pandas` está construido sobre la librería de `numpy`. Esto produce que algunos métodos o funciones de `pandas` no retornen tipos de datos creados en la propia librería, como los [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) o [`Series`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html), sino que retorne estructuras de ``numpy`` como el  [``numpy.ndarray``](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.ndarray.html). Al mismo tiempo, ``pandas`` puede cargar fácilmente matrices que provengan de `numpy`.





### Funciones de resumen

Lo primero que necesitamos es poder cargar el _dataset_ con `pandas` y luego lograr obtener alguna información sobre sus columnas. Para esto se enseñará cómo abrir y obtener algún dato mínimo para luego solicitar que hagas acciones similares con otras columnas.

- **Abrir un archivo CSV** Para realizar tal acción se utiliza la función [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) que retorna un `DataFrame` con la información del archivo. A continuación vamos a cargar el archivo y guardarlo en la variable `wine`.





In [None]:
wine = pd.read_csv("winequalityN.csv", sep=",")

Ahora utilizaremos los métodos `head` y `tail` para ver las primeras y últimas filas respectivamente del _dataset_.

In [None]:
wine.head(5)

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,white,7.0,0.27,0.36,high,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,white,6.3,0.3,0.34,low,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,white,8.1,0.28,0.4,medium,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,white,7.2,0.23,0.32,medium,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,white,7.2,0.23,0.32,medium,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [None]:
wine.tail(5)

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
6492,red,6.2,0.6,0.08,low,0.09,32.0,44.0,0.9949,3.45,0.58,10.5,5
6493,red,5.9,0.55,0.1,low,0.062,39.0,51.0,0.99512,3.52,,11.2,6
6494,red,6.3,0.51,0.13,low,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6
6495,red,5.9,0.645,0.12,low,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5
6496,red,6.0,0.31,0.47,medium,0.067,18.0,42.0,0.99549,3.39,0.66,11.0,6


También podemos ver filas de forma aleatoria con el método `sample`.

In [None]:
wine.sample(5)

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
2142,white,7.5,0.26,0.52,high,0.047,64.0,179.0,0.9982,3.1,0.46,9.0,5
1909,white,7.6,0.13,0.34,high,0.062,40.0,126.0,0.9966,3.21,0.39,9.6,5
3835,white,6.2,0.31,0.23,medium,0.052,34.0,113.0,0.99429,3.16,0.48,8.4,5
3813,white,7.0,0.3,0.28,low,0.042,21.0,177.0,0.99166,3.2,0.57,11.4,5
3128,white,5.0,0.24,0.21,low,0.039,31.0,100.0,0.99098,3.69,0.62,11.7,6


- **Obtener información de resumen:** a veces es necesario explorar los datos, como saber cuáles son los valores posibles de alguna columna categórica o saber el valor mínimo de una columna numérica. A continuación vamos a ver cuál es la calidad mínima que ha sido evaluado un vino. Para lo primero, se seleccionará la columna `quality` ejecutando `wine.quality` y luego se aplicará el método [`min`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.min.html) que retorna el valor mínimo de la columna seleccionada.

In [None]:
wine.quality.min()

3

Aquí podemos notar que la calidad mínima ha sido 3.

Ahora, si queremos obtener que tipos de vinos hay en este _dataset_, necesitamos combinar 2 pasos. Primero vamos a encontrar los valores únicos de la columna `type` y luego contar la cantidad de países. El código para obtener tal información es:

In [None]:
unique_types = wine.type.unique()
unique_types.shape

(2,)

La respuesta es que existen 2 tipos de vinos distintos en este _dataset_. Para obtener este resultado se realizaron 2 líneas de código:
1. `unique_types = wine.type.unique()`:   en esta línea se realizan 2 acciones. Primero se le indica al `DataFrame` `wine` que seleccione la columna `type` mediante el código `wine.type` y a dicha columna se le aplica el método [`unique`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.unique.html) el cual retorna un `numpy.ndarray` con todos los valores diferentes de esa columna.
2. `unique_types.shape`:  con el atributo [`shape`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html), se obtiene la dimensión de la matriz (filas, columnas).  En este caso, hay solo 2 elementos en una lista (no hay columnas). Por lo tanto, el método lo entiende como filas sin ninguna columna. Probemos imprimir `unique_types` para verificar esa información.



In [None]:
print(unique_types)

['white' 'red']


Efectivamente, solo hay 2 tipos de vinos: `white` y `red`.

Ahora, utilizaremos la librería ``pandas`` para responder las siguientes preguntas

1. ¿Cuántos valores distintos de calidad (`quality`) hay en este _dataset_?
2. ¿Cómo son columnas numéricas del _dataset_? Vamos a describir cada columna numérica con: la cantidad de datos, promedio, desviación estándar, mínimo, máximo y los diferentes cuartiles.

**Respuesta pregunta 1**




In [None]:
wine.quality.unique().shape

(7,)

**Respuesta pregunta 2**

In [None]:
wine.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,6487.0,6489.0,6494.0,6495.0,6497.0,6497.0,6497.0,6488.0,6493.0,6497.0,6497.0
mean,7.216579,0.339691,0.318722,0.056042,30.525319,115.744574,0.994697,3.218395,0.531215,10.491801,5.818378
std,1.29675,0.164649,0.145265,0.035036,17.7494,56.521855,0.002999,0.160748,0.148814,1.192712,0.873255
min,3.8,0.08,0.0,0.009,1.0,6.0,0.98711,2.72,0.22,8.0,3.0
25%,6.4,0.23,0.25,0.038,17.0,77.0,0.99234,3.11,0.43,9.5,5.0
50%,7.0,0.29,0.31,0.047,29.0,118.0,0.99489,3.21,0.51,10.3,6.0
75%,7.7,0.4,0.39,0.065,41.0,156.0,0.99699,3.32,0.6,11.3,6.0
max,15.9,1.58,1.66,0.611,289.0,440.0,1.03898,4.01,2.0,14.9,9.0


**¿Hay algo raro con la descripción?** ¿Por qué el count en cada columna no es igual si se supone que tenemos la misma cantidad de filas? Esto pasa porque tenemos datos `null` o `Nan` que no son considerados cuando se hace `count`. Todos estos datos siempre se exigen filtrar para realizar una visualización que no falle por la presencia de los `null`.

A continuación usaremos el método `dropna` para eliminar esos valores nulos. Luego volveremos a hacer `describe` para ver la descripción de los datos pero sin la existencia de los nulos.

In [None]:
wine = wine.dropna()
wine.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,6465.0,6465.0,6465.0,6465.0,6465.0,6465.0,6465.0,6465.0,6465.0,6465.0,6465.0
mean,7.217626,0.339527,0.318764,0.056053,30.525445,115.709899,0.994697,3.218357,0.531159,10.492503,5.818716
std,1.297776,0.164652,0.14523,0.035071,17.764791,56.531216,0.003001,0.160645,0.148894,1.193111,0.873278
min,3.8,0.08,0.0,0.009,1.0,6.0,0.98711,2.72,0.22,8.0,3.0
25%,6.4,0.23,0.25,0.038,17.0,77.0,0.99234,3.11,0.43,9.5,5.0
50%,7.0,0.29,0.31,0.047,29.0,118.0,0.99489,3.21,0.51,10.3,6.0
75%,7.7,0.4,0.39,0.065,41.0,156.0,0.997,3.32,0.6,11.3,6.0
max,15.9,1.58,1.66,0.611,289.0,440.0,1.03898,4.01,2.0,14.9,9.0


**Extra**

También podemos describir las columnas categóricas. Podemos agregar `include=["object"]` para generar la descripción de variables categóricas.

In [None]:
wine.describe(include=["object"])

Unnamed: 0,type,residual sugar
count,6465,6465
unique,2,3
top,white,low
freq,4872,3207


### Filtros
En muchos casos, se requiere filtrar por uno o más datos. A continuación se mostrará cómo obtener la cantidad de vinos cuya calidad es un valor específico y luego que la calidad esté contenida en una lista de posibles calidades. En particular, queremos saber la cantidad de vinos con calidad 4 y luego con calidad 4 o 5.

In [None]:
wine[wine["quality"] == 4].shape

(214, 13)

En este caso,  con el código `wine[wine["quality"] == 4]`, le estamos indicando al DataFrame que solo retorne aquellas filas donde la columna `quality` sea igual a `4`. Posteriormente, estamos aplicando el método [`shape`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html) para saber la dimensión de la matriz resultante. Para más información de cómo seleccionar información, pueden revisar esta [página](https://pandas.pydata.org/pandas-docs/stable/indexing.html).

Ahora, para obtener la cantidad de vinos cuya calidad esté contenida en una lista de calidades, hay dos formas:
1. Realizar una búsqueda similar a la anterior, pero agregando `or` o
2. Utilizar el método [`isin`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.isin.html).

En este caso ocuparemos la segunda opción:


In [None]:
wine[wine["quality"].isin([4, 5])].shape

(2342, 13)

En este caso, disponemos de 2342 vinos cuya calidad es 4 o 5.



Ahora vamos a aplicar los filtros para resolver 2 incognitas

1. ¿Cuántos vinos tienen pH sea menor a 3.32?
2. ¿Cuántos vinos tien pH sea menor a 3.32 y que su calidad sea distinta de 5?


**Respuesta pregunta 1**


In [None]:
wine[wine.pH < 3.32].shape

(4773, 13)

**Respuesta pregunta 2**

**Hint:** investigue en google cómo se aplican múltiples filtros en `pandas`.

In [None]:
wine[(wine.pH < 3.32) & (wine.quality != 5)].shape

(3138, 13)

### Funciones de agregación

Finalmente, un uso práctico de ``pandas`` es agrupar columnas bajo 1 o más parámetros en común. Para esto se usa la función [`groupby`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html) que recibe una lista de las columnas y genera grupos donde todas las filas de cada uno comparten con la misma combinación de valores en las comunas indicadas. Por ejemplo, vamos a contar la cantidad de filas por tipo de vino.



**Nota adicional**: Más información de `groupby` [aquí](https://pandas.pydata.org/pandas-docs/stable/groupby.html).

In [None]:
wine.groupby(["type"]).size()

Unnamed: 0_level_0,0
type,Unnamed: 1_level_1
red,1593
white,4872


Con esto podemos ver que tenemos 1599 vinos `red` y 4898 vino `white`.

**Ojo**: en este caso no usamos `shape` porque cuando hacemos `groupby` tenemos otro tipo de DataFrame, a este le podemos aplicar métodos como `size()` para obtener el tamaño de cada grupo o `mean()` para calcular el valor promedio de cada columna en cada grupo.

Ahora, si queremos que el resultado anterior del groupby se vea como un `DataFrame` de 2 columnas (uno para el atributo con el que agrupaste y otro con el valor obtenido). Agregamos un `as_index=False` al momento de agrupar.

In [None]:
wine.groupby(["type"], as_index=False).size()

Unnamed: 0,type,size
0,red,1593
1,white,4872


Ahora, utilizaremos esta función y todo lo aprendido anteriormente para obtener los vinos con pH menor a 3, agruparlos por su tipo y calidad, y finalmente entregar el valor promedio de cada columna para cada grupo generado.

In [None]:
filter_wine = wine[wine["pH"] < 3]
filter_wine.groupby(["type", "quality"]).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,fixed acidity,volatile acidity,citric acid,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
type,quality,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
red,4,9.2,0.52,1.0,0.61,32.0,69.0,0.9996,2.74,2.0,9.4
red,5,12.0,0.531923,0.410769,0.095,12.0,49.153846,0.999083,2.936154,0.9,10.492308
red,6,9.99,0.416,0.434,0.1203,16.3,71.7,0.996506,2.913,1.028,10.05
red,7,13.2,0.488333,0.613333,0.082333,13.0,35.333333,0.9996,2.95,0.673333,10.533333
red,8,11.3,0.285,0.63,0.0775,24.0,51.5,0.996605,2.93,0.725,10.8
white,3,9.85,0.32,0.4,0.088,44.25,147.75,0.996463,2.8975,0.4875,9.85
white,4,8.007692,0.293846,0.430769,0.041692,23.384615,102.153846,0.993791,2.936154,0.425385,10.246154
white,5,7.785926,0.29363,0.422148,0.054807,32.088889,137.655556,0.995447,2.938,0.473704,9.880741
white,6,7.380928,0.25451,0.353093,0.046515,34.069588,126.0,0.993976,2.936701,0.464588,10.513574
white,7,7.243056,0.225903,0.329722,0.041181,31.958333,130.388889,0.99451,2.943333,0.4425,10.476389


### Bonus: [`dask`](https://docs.dask.org/en/latest/) y [`joblib`](https://joblib.readthedocs.io/en/latest/)

Anteriormente, mostramos métodos para el filtro y agregación de datos, pero ¿qué pasa si el _dataset_ pesa 4GB o más? ¿Se podrá filtrar de forma eficiente? ¿Sigo usando pandas?

Para estos casos, no se recomienda utilizar pandas porque este intentará dejar en memoria RAM todo el _dataset_ cargado, y podría ocurrir que no tienes suficiente memoria en tu computador. Es por ello que te contamos de 2 librerías de Python que buscan entregar una forma rápida  e intuitiva para trabajar con grandes volúmenes de datos. En particular, `dask` utiliza los mismos métodos y funciones de pandas, pero por detrás posee un sistema capaz de, entre otras cosas: a) procesar archivos que no caben en memoria, y b) paralelizar todas las acciones que deseas realizar (filtrar, seleccionar, agrupar, etc.) en diferentes _cores_ de tus CPU. Si bien no es el alcance de este práctico, tenlos en cuenta cuando quieras procesar datos en el futuro.

## Altair - Visualizando información de vinos

### Gráficos de barra


Queremos observar visualmente la cantidad de vinos que tenemos por calidad. Con esto podemos determinar si el dataset está balanceado en todas sus clases a predecir o no.

Para esto, primero generamos los datos deseados con `groupby`.

In [None]:
datos = wine.groupby("quality", as_index=False).size()

Luego, generamos la visualización.

In [None]:
import altair as alt

alt.Chart(datos).mark_bar().encode(
    x = "quality:O",
    y = "size",
    opacity=alt.value(0.7),
)

**Explicación código**

1. **Entregar los datos e indicar la visualización a realizar**
```python
alt.Chart(data).mark_bar().encode(
```
En esta línea se hacen 2 acciones:
   1. Se entrega el  ``DataFrame``  `data` al objeto [`chart`](https://altair-viz.github.io/user_guide/API.html#altair.Chart). Así se le indica a la visualización de donde se obtendrán los datos.
   2. Se setea el tipo de marca para representar el _dataset_ con el método `mark_bar`. Este método indica que se representará mediante barras. Si quieres ver diferentes marcas, en esta [página](https://altair-viz.github.io/user_guide/marks.html) puedes encontrar más.
       * Todos los métodos de marcas pueden recibir argumentos para personalizar dichas marcas, uno que veremos más adelante es el _stroke_ para editar el borde de las barras.
    
   Adicionalmente, se agrega el `.encode(` para indicar que ahora se comenzará a entregar líneas de código de cómo será el _encoding_ de los datos en el gráfico.

2. **Indicar cómo estará formada la visualización**
```python
    x='quality:N',
    y='size',
```
Estamos indicando las columnas del `DataFrame` a utilizar para cada eje. En el caso de `quality` originalmente es un número cuantitativo, por lo que Altair asumirá que pueden existir valores intermedios (por ejemplo 3.2), pero en este caso son categorías, así que le ponemos `:N` para decir que es un dato nominal.


3. **Personalización adicional**
```python
opacity=alt.value(0.7),
```

   Con esta línea, se personaliza el gráfico. En particular, le bajamos la opacidad a la visualización.

#### Actividad 1: _Bar chart_

Se cree que los vinos con un `pH > 3` y `alcohol > 9` siempre van a estar mal evaluados, es decir, su calidad es menor a 4. Por lo tanto, es mejor retirar esa información del _dataset_ antes de construir un modelo de ML. Para validar esa información, filtre por aquellos vinos con `pH > 3` y `alcohol > 9`. Finalmente, construya un gráfico de barra que indique la cantidad de vinos por calidad.

Con esta información seremos capaces de responder a la pregunta ¿hay vinos bien evaluados con este filtro o efectivamente todos presentan un valor muy bajo de calidad?. **debes responder a esta pregunta despues de hacer el gráfico**

Un posible gráfico resultante es:


<center>

![AC04](https://res.cloudinary.com/hernan4444/image/upload/v1653921485/Diplomado/ML/Pandas_Altair_AC04.png)

</center>

In [None]:
# Completar con su respuesta
vinos_filtrados = wine[(wine.pH > 3) & (wine.alcohol > 9)]

datos_filtrados = vinos_filtrados.groupby("quality", as_index=False).size()




In [None]:
alt.Chart(datos_filtrados).mark_bar().encode(
    x = "quality:O",  # Eje X: la calidad de los vinos
    y = "size",       # Eje Y: el número de vinos con esa calidad
    opacity=alt.value(0.7)  # Barra con opacidad del 70%
)

In [None]:
# Filtrar por vinos con pH > 3 y alcohol > 9
vinos_filtrados = wine[(wine['pH'] > 3) & (wine['alcohol'] > 9)]

# Agrupar por calidad y contar cuántos vinos hay en cada categoría
cantidad_por_calidad = vinos_filtrados.groupby("quality", as_index=False).size()

# Mostrar el resultado
print(cantidad_por_calidad)


   quality  size
0        3    22
1        4   170
2        5  1741
3        6  2431
4        7   961
5        8   163
6        9     5


**Respuesta:** [Complete este cuadro con la respuesta la pregunta que incluye el enunciado]

`A pesar de que existe la creencia de que los vinos con pH > 3 y alcohol > 9 estarán mal evaluados (calidad menor a 4), los resultados muestran que sí hay vinos con buenas calificaciones. De hecho, una gran mayoría de los vinos están en la categoría de calidad 5 a 7, y algunos alcanzan incluso una calidad de 8 (163 vinos) y 9 (5 vinos), lo que contradice la hipótesis de que todos los vinos en este rango de pH y alcohol tienen una calidad baja.`

### Gráfico de barra agrupado

Otro aspecto de interés es visualizar si el dataset sigue estando balanceado cuando se segmenta en alguna categoría. En particular, queremos observar si el dataset está balanceado para cada tipo de vino distinto. Primero utilizamos `groupby` para generar los datos.

In [None]:
datos = wine.groupby(["type", "quality"], as_index=False).size()
datos.head()

Unnamed: 0,type,quality,size
0,red,3,10
1,red,4,52
2,red,5,680
3,red,6,634
4,red,7,199


Luego construimos la visualización.

In [None]:
alt.Chart(datos).mark_bar(stroke='gray').encode(
    x = alt.X('type:N', axis=alt.Axis(title='')),
    y = alt.Y('size:Q', axis=alt.Axis(title='Cantidad de vinos', grid=True)),
    color = alt.Color('type:N', scale=alt.Scale(range=["red", "white"])),
    column = 'quality:O'
).configure(background='#D9E9F0')

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


**Explicación código**

1. **Entregar los datos e indicar la visualización a realizar**

   ```python
alt.Chart(data).mark_bar(stroke='gray').encode(
```
En esta línea se hacen 2 acciones ya vistas (entregar el _dataset_ y setear el tipo de marca), pero se agrega el uso de argumentos dentro del método `mark_bar`. En este caso,  se está seteando una propiedad a la marca con `stroke='gray'`. Esto hace que el borde de las barras sean de un color en específico, en particular, gris.

2. **Indicar cómo estará formada la visualización**

   ```python
alt.X('type:N', axis=alt.Axis(title='')),
```
En esta línea, se describe el _encoding_ del eje X, como queremos indicar más propiedades de dicho eje, ya no basta con hacer `x='type:N'`, sino que utilizar [`alt.X`](https://altair-viz.github.io/user_guide/API.html?#altair.X) para indicar más propiedades.

   Para este ejemplo, se indica que el eje X será la columna `type` que es un dato nominal, eso justifica el `":N"`. Puedes revisar los otros típos de datos en el siguiente [link](https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types).

   Junto a indicar el _encoding_, se utiliza `axis=...` para personalizar como será el eje X. Este argumento recibe un objeto [`Axis`](https://altair-viz.github.io/user_guide/API.html?#altair.Axis) que permite describir dicho eje, en este caso, este objeto solo está describiendo que el título del eje será vacío.

   ```python
y = alt.Y('size:Q', axis=alt.Axis(title='Cantidad de vinos', grid=True)),
```
    
   En esta línea, se describe el _encoding_ del eje Y. En este caso se dice que será la columna `size` el cual es un dato cuantitativo, eso justifica el `":Q"`.

   Junto a indicar el _encoding_, se utiliza `axis=...` para personalizar como será el eje Y. En esta ocasión se hace para indicar que el título del eje será `'Cantidad de vinos'`. Además, se indica que debe existir una grilla, es decir, que aparezcan líneas de fondo para poder ubicar más rápido el valor de alguna barra.

   ```python
color = alt.Color('type:N', scale=alt.Scale(range=["red", "white"])),
```

   Esta línea indica que el color de las barras será representado bajo el objeto [`alt.Color`](https://altair-viz.github.io/user_guide/generated/core/altair.Color.html#altair.Color) cuyo color  será definido según el valor  de la columna _type_ y de _scale_ le indicamos que el rango de colores serán los 2 proporcionados ("red" y "white")

   ```python
column='quality:O'
```
Esta última columna dentro de _encode_ indica que la columna _quality_ será la utilizada para separar cada grupo de columnas. En caso de omitir este dato, estaremos generando un gráfico de barra simple porque no estamos separando en diferentes grupos.

3. **Personalización adicional**

   ```python
).configure(background='#D9E9F0')
```
Finalmente, agregamos una configuración al gráfico. En particular, le indicamos que el fondo (`background`) será de color `'#D9E9F0'`.


### _Heatmap_

Otro aspecto de interés es visualizar la correlación de los atributos. A veces ocurre que hay 2 o más atributos tan correlacionados (por ejemplo, cuando uno aumenta, el otro también lo hace o viceversa) que es suficiente mantener uno de estos atributos para describir la información.

In [None]:
# Hacer una copia del dataset y eliminar la columna "quality"
data = wine.copy().drop(columns=["quality"])

# Sacar la correlación con el método .corr de los atributos
# y resetear index para ver la tabla como corresponde
data = data.corr(numeric_only=True).reset_index()
data.head()

Unnamed: 0,index,fixed acidity,volatile acidity,citric acid,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,fixed acidity,1.0,0.22114,0.323713,0.299116,-0.283364,-0.330414,0.459704,-0.251234,0.30127,-0.096031
1,volatile acidity,0.22114,1.0,-0.377477,0.37802,-0.35371,-0.414841,0.272162,0.259822,0.225535,-0.039169
2,citric acid,0.323713,-0.377477,1.0,0.039397,0.132276,0.194392,0.097049,-0.327795,0.059077,-0.010094
3,chlorides,0.299116,0.37802,0.039397,1.0,-0.195481,-0.279618,0.363129,0.044597,0.396206,-0.257538
4,free sulfur dioxide,-0.283364,-0.35371,0.132276,-0.195481,1.0,0.721607,0.02491,-0.145028,-0.188667,-0.179686


Ahora usaremos la función [`melt`](https://pandas.pydata.org/docs/reference/api/pandas.melt.html) de pandas para transformar el _dataset_ a una tabla de 3 filas: el index (atributo 1), la variable (atributo 2) y la correlación entre los 2 atributos.

In [None]:
data = data.melt(id_vars="index", value_name="correlation")
data.head()

Unnamed: 0,index,variable,correlation
0,fixed acidity,fixed acidity,1.0
1,volatile acidity,fixed acidity,0.22114
2,citric acid,fixed acidity,0.323713
3,chlorides,fixed acidity,0.299116
4,free sulfur dioxide,fixed acidity,-0.283364


Finalmente, creamos la visualización.

In [None]:
alt.Chart(data).mark_rect().encode(
    x='index:O',
    y='variable:O',
    color=alt.Color('correlation:Q', scale=alt.Scale(scheme='Oranges'))
).properties(width=500, height=500)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


**Explicación código**

1. **Entregar los datos e indicar la visualización a realizar**

   ```python
alt.Chart(data).mark_rect().encode(
```
En esta línea se hacen 2 acciones ya vistas (entregar el _dataset_ y setear el tipo de marca). En este caso, la marca a utilizar son rectángulos (áreas).

2. **Indicar cómo estará formada la visualización**

   ```python
    x='index:O',
    y='variable:O',
```
En esta línea, se describe el _encoding_ del eje X e Y. En particular, decir que el eje X será la columna `index` y el eje Y será la columna `variable`. A ambos se le agregan `:O` para que Altair lo interprete como datos ordinales.

   ```python
color = alt.Color('correlation:Q', scale=alt.Scale(scheme='Oranges'))
```
Esta línea indica que el color de las barras será representado bajo el objeto [`alt.Color`](https://altair-viz.github.io/user_guide/generated/channels/altair.Color.html#altair.Color) cuyo color  será definido según el valor  de la columna _correlation_ y de _scale_ le indicamos que la escala de colores a utilizar sea una llamada `Oranges`.

3. **Personalización adicional**

   ```python
).properties(width=500, height=500)
```
Finalmente, agregamos una propiedad al gráfico. En particular, le indicamos que el ancho y el largo sea de 500 píxeles.


## Caso ML con el dataset

A continuación vamos a entrenar diversos MLP (_multilayer perceptron_) donde vamos a cambiar el tamaño de la capa oculta. Con estos modelos vamos a clasificar los vinos en función de sus atributos y exploraremos algunos casos más de visualizaciones. Para esto, primero descargaremos e importaremos un archivo de Python que viene listo con una MLP implementada. De este modo, lo podemos utilizar como un medio para enfrentar nuevos casos de visualizaciones.

In [None]:
import urllib.request
url = "https://raw.githubusercontent.com/Hernan4444/diplomado-codigos-publicos/master/numerical_mlp.py"

def download_file(download_url, filename):
    response = urllib.request.urlopen(download_url)
    with open(filename, 'wb') as file:
        file.write(response.read())

download_file(url, "numerical_mlp.py")

`numerical_mlp.py` contiene la clase `MLP`. Lo importante de esta clase es:

- Parámetros
    - `num_input_size`: número que indica la cantidad de datos que tendrá cada fila del set de entrenamiento.
    - `hidden_size`: tamaño de la capa oculta de la MLP. Debe ser un número entero mayor a 1.
    - `target_size`: número que indica el tamaño del vector de salida. En otras palabras, es el número de clases posibles. Para efectos de este taller, este número será 10.

- Atributos
    - `error`: lista de números que se genera cada vez que se ocupa el método `fit`. Estos números representan el error que tuvo el modelo en cada época durante el proceso de entrenamiento.
    - `accuracy`: lista de números que se genera cada vez que se ocupa el método `fit`. Estos números representan el rendimiento que tuvo el modelo en cada época durante el proceso de entrenamiento.

- Metodos
    - `fit(X, Y, lr=0.01, epochs=100, batch_size=64`: método encargado de entrenar el modelo. Recibe un DataFrame en X y una lista de clases posibles en Y. Opcionalmente puedes definir el _learning rate_ del modelo (`lr`), la cantidad de épocas (`epochs`) y el tamaño del batch (`batch_size`).
    - `predict(X)`: método encargado de predecir los datos. Recibe un DataFrame en X y retorna una lista con las clases posibles para cada fila de X.


Lo primero a realizar es importar las librerías necesarias y setear una semilla para que en cada ejecución obtengamos el mismo resultado.

In [None]:
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
import torch
import random
from numerical_mlp import MLP

SEED = 4444

# Setear semilla para obtener el mismo resultado.
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

Luego, vamos a transformar los datos para dejarlos todo como atributos numéricos.

In [None]:
data = wine.copy().dropna()
data['type'] = LabelEncoder().fit_transform(data['type'])
data['residual sugar'] = LabelEncoder().fit_transform(data['residual sugar'])

features = ['type', 'fixed acidity', 'volatile acidity', 'citric acid',
            'residual sugar', 'chlorides', 'free sulfur dioxide',
            'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol']

training, test = train_test_split(data, test_size=0.3)

Definimos la cantidad de épocas.

In [None]:
EPOCH = 25

Entrenamos el modelo 1 con una capa oculta de 20 neuronas.

In [None]:
model_1 = MLP(num_input_size=len(features), hidden_size=20, target_size=10)
model_1.fit(training[features], training['quality'], epochs=EPOCH, lr=0.01)

Época 25/25

Entrenamos el modelo 2 con una capa oculta de 50 neuronas.

In [None]:
model_2 = MLP(num_input_size=len(features), hidden_size=50, target_size=10)
model_2.fit(training[features], training['quality'], epochs=EPOCH, lr=0.01)

Época 25/25

Entrenamos el modelo 3 con una capa oculta de 100 neuronas.

In [None]:
model_3 = MLP(num_input_size=len(features), hidden_size=100, target_size=10)
model_3.fit(training[features], training['quality'], epochs=EPOCH, lr=0.01)

Época 25/25

### Series de tiempo

A continuación vamos a visualizar cómo fue cambiando el error de cada modelo por época. Para esto primero construimos nuestro _dataset_ usando el atributo `error`.

In [None]:
df_loss = pd.DataFrame({"epoch": range(EPOCH),
                        "model_1": model_1.error,
                        "model_2": model_2.error,
                        "model_3": model_3.error})
df_loss.head()

Unnamed: 0,epoch,model_1,model_2,model_3
0,0,1.397687,1.310469,1.244794
1,1,1.252117,1.140448,1.117144
2,2,1.170011,1.115186,1.095094
3,3,1.140174,1.111519,1.08618
4,4,1.123604,1.092054,1.081201


Es importante destacar que podríamos hacer lo mismo que la celda anterior, pero con el atributo `accuracy` si es que buscamos visualizar cómo fue cambiando el rendimiento de cada modelo por época.

Volviendo a nuestro _dataset_ con el error por modelo y época, ahora usaremos la función [`melt`](https://pandas.pydata.org/docs/reference/api/pandas.melt.html) de pandas para transformar el _dataset_ a una tabla de 3 filas: la epoca, el modelo de donde se obtuve el dato y el valor del error que tenía el modelo en dicha época.

In [None]:
df_loss = df_loss.melt(id_vars="epoch", var_name="model", value_name="loss")
df_loss.head()

Unnamed: 0,epoch,model,loss
0,0,model_1,1.397687
1,1,model_1,1.252117
2,2,model_1,1.170011
3,3,model_1,1.140174
4,4,model_1,1.123604


Ahora construimos la visualización. La única diferencia con las funciones anteriores es que cambiamos la marca (`mark_line`) para decir que será un gráfico de línea. Luego se indica qué columna corresponde al eje X, eje Y y para el color.

In [None]:
alt.Chart(df_loss).mark_line().encode(
    x='epoch:N',
    y='loss',
    color='model'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


## Actividad 2, 3 y 4

#### Actividad 2: _Line chart_

Haga un gráfico de línea para visualizar el rendimiento (_accuracy_) de cada modelo. Para esto, ocupe el atributo `accuracy` que tiene cada modelo (por ejemplo `modelo_1.accuracy`).

Un posible gráfico resultante es:

<center>

![AC05](https://res.cloudinary.com/hernan4444/image/upload/v1653921485/Diplomado/ML/Pandas_Altair_AC05.png)

</center>

In [None]:
df_acc = pd.DataFrame({"epoch": range(EPOCH),
                        "model_1": model_1.accuracy,
                        "model_2": model_2.accuracy,
                        "model_3": model_3.accuracy})

df_acc.head()

Unnamed: 0,epoch,model_1,model_2,model_3
0,0,0.412818,0.438453,0.479558
1,1,0.445967,0.502099,0.520884
2,2,0.48884,0.51779,0.529945
3,3,0.51116,0.515138,0.527956
4,4,0.521105,0.533039,0.536796


In [None]:
# Crear visualización utilizando el dataframe "df_acc"

In [None]:
import altair as alt

# Crear el DataFrame para el accuracy
df_acc = pd.DataFrame({
    "epoch": range(EPOCH),
    "model_1": model_1.accuracy,
    "model_2": model_2.accuracy,
    "model_3": model_3.accuracy
})

# Crear visualización utilizando el DataFrame "df_acc"
alt.Chart(df_acc).mark_line().encode(
    x='epoch:N',
    y='value:Q',
    color='variable:N'
).transform_fold(
    fold=['model_1', 'model_2', 'model_3'],
    as_=['variable', 'value']
).properties(
    title='Rendimiento (Accuracy) de cada Modelo'
)


#### Actividad 3: _Grouped bar chart_

Un ejercicio tradicional cuando entrenamos múltiples modelos es comparar cómo distribuyen las predicciones de cada uno para las distintas categorías posibles. A continuación se construyó el _dataset_ `df_summary` que contiene la cantidad de predicciones realizadas por el modelo 1 y 3 para cada valor posible de calidad. Además, se incluyó las predicciones esperadas.

Usando el _dataset_ `df_summary`, genera un gráfico del tipo _Grouped bar chart_ que permita ver la cantidad de predicciones segmentadas por modelo y por valor distinto de calidad.

Un posible gráfico resultante es:

<center>

![AC06](https://res.cloudinary.com/hernan4444/image/upload/v1653921485/Diplomado/ML/Pandas_Altair_AC06.png)

</center>

In [None]:
# NO TOCAR ESTA CELDA - SOLO EJECUTAR
all_predictions = []
for model in [model_1, model_3]:
    pred_model = [0 for x in range(10)]
    for prediction in model.predict(test[features]):
        pred_model[prediction] += 1
    all_predictions.append(pred_model)

pred_model = [0 for x in range(10)]
for y_true in test["quality"].values:
    pred_model[y_true] += 1
all_predictions.append(pred_model)

df_summary = pd.DataFrame({"quality": range(10),
                           "model_1": all_predictions[0],
                           "model_3": all_predictions[1],
                           "esperadas": all_predictions[2]})

df_summary = df_summary.melt(id_vars="quality", var_name="model", value_name="count")
df_summary.sample(10)

Unnamed: 0,quality,model,count
22,2,esperadas,0
18,8,model_3,0
14,4,model_3,11
1,1,model_1,0
26,6,esperadas,839
24,4,esperadas,68
12,2,model_3,0
16,6,model_3,600
2,2,model_1,0
21,1,esperadas,0


In [None]:
# Crear visualización utilizando el dataframe "df_summary"

In [None]:
import altair as alt
import pandas as pd

# Usamos df_summary para las instrucciones
df_summary = pd.DataFrame({
    "quality": range(10),
    "model_1": all_predictions[0],
    "model_3": all_predictions[1],
    "esperadas": all_predictions[2]
})

# Reformateamos el DataFrame para que los valores se conviertan en categorías
df_summary_melted = df_summary.melt(id_vars="quality", var_name="domain", value_name="count")

# Creamos una visualización utilizando el DataFrame reformateado
chart = alt.Chart(df_summary_melted).mark_bar().encode(
    x=alt.X('domain:N', axis=alt.Axis(title='Modelo', labelAngle=-90), sort=['model_1', 'model_3', 'esperadas']),
    y=alt.Y('count:Q', axis=alt.Axis(title='Cantidad de Predicciones')),
    color=alt.Color('domain:N', title='Modelo', scale=alt.Scale(domain=['model_1', 'model_3', 'esperadas'], range=['#1f77b4', '#ff7f0e', '#2ca02c'])),
    column=alt.Column('quality:N', title='Calidad')
).configure(background='#D9E9F0').properties(
    title='Comparación de Predicciones por Calidad y Modelo'
).configure_axis(
    labelAngle=0
)

chart


  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


#### Actividad 4: _Heatmap_

Finalmente, un típico gráfico a realizar después de entrenar un modelo es la [matriz de confusión](https://es.wikipedia.org/wiki/Matriz_de_confusi%C3%B3n). Esta permite ver un resumen de las predicciones realizadas por el modelo en comparación a las esperadas. Utilice la variable `confusion_df` para construir la matriz de confusión. _Hint_: verifique la similitud de formato entre `confusion_df` y el _dataset_ utilizado cuando se enseñó cómo construir un _heatmap_.

Un posible gráfico resultante es:

<center>

![AC07](https://github.com/PUC-Infovis/Syllabus-2023-2/assets/15641721/5817543e-f19c-4e6a-be79-40a1986ad02d)

</center>

In [None]:
modelo_elegido = model_1 # Puede cambiarlo por "model_2" o "model_3"

# NO TOCAR LO DE ABAJO DE ESTA CELDA - SOLO EJECUTAR
from sklearn.metrics import confusion_matrix
predictions = modelo_elegido.predict(test[features])
labels = sorted(test["quality"].unique())

confusion_data = confusion_matrix(test["quality"], predictions, normalize='pred', labels=labels)

data = []
for i in range(len(confusion_data)):
    for j in range(len(confusion_data[i])):
        data.append([labels[i], labels[j], confusion_data[i][j]*100])

df_confusion = pd.DataFrame(data, columns=["Calidad Real", "Calidad Predicha", "Porcentaje"])
df_confusion.head(10)

Unnamed: 0,Calidad Real,Calidad Predicha,Porcentaje
0,3,3,0.0
1,3,4,0.0
2,3,5,1.295642
3,3,6,0.646552
4,3,7,0.0
5,3,8,0.0
6,3,9,0.0
7,4,3,0.0
8,4,4,0.0
9,4,5,5.535925


In [None]:
# Crear visualización utilizando el dataframe "df_confusion"

In [None]:
# Crear visualización utilizando el DataFrame "df_confusion"
alt.Chart(df_confusion).mark_rect().encode(
    x='Calidad Real:O',
    y='Calidad Predicha:O',
    color=alt.Color('Porcentaje:Q', scale=alt.Scale(scheme='Blues')),
    tooltip=['Calidad Real', 'Calidad Predicha', 'Porcentaje']
).properties(
    width=500,
    height=500,
    title='Matriz de Confusión'
)


## Altair - Visualizando información de seguros de salud

En este segundo caso, explorarmos otras visualizaciones con un _dataset_ se seguros de salud.

In [None]:
import pandas as pd

seguros = pd.read_csv("seguro_salud.csv", sep=",")
seguros.head()

Unnamed: 0,edad,sexo,indice_masa_corporal,cantidad_hijos,fumador,region,costo_seguro
0,19,female,27,0,yes,southwest,16884
1,18,male,33,1,no,southeast,1725
2,28,male,33,3,no,southeast,4449
3,33,male,22,0,no,northwest,21984
4,32,male,28,0,no,northwest,3866


Este _dataset_ fue elaborado para una [competencia en Kaggle](https://www.kaggle.com/competitions/ml-21-22-p1/overview) en donde se buscaba diseñar un modelo de ML capaz de predecir el costo del seguro de cada persona en función de su otra información (edad, sexo, si es fumador, cantidad de hijos, etc). Para esta sección, usaremos las visualizaciones como un medio de exploración del _dataset_.

## Scatterplot

Queremos explorar si existe una correlación entre el índica masa corporal y la edad de las personas. Para esto vamos a construir un gráfico de dispersión (_scatterplot_).

In [None]:
import altair as alt

alt.Chart(seguros).mark_circle().encode(
    x=alt.X('indice_masa_corporal', scale=alt.Scale(zero=False)),
    y='edad',
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


**Explicación código**

Al igual que el gráfico de línea, solo es necesario cambiar el tipo de marca y asegurar que los ejes posean columnas con variables adecuadas para este gráfico.

- **Entregar los datos e indicar la visualización a realizar**

    ```python
alt.Chart(seguros).mark_circle().encode(
    ```

    En esta línea, lo importante es el método `mark_circle` el cual indica que los datos deben ser representados mediante circulos.


- **Indicar cómo estará formada la visualización**

    ```python
   x=alt.X('indice_masa_corporal', scale=alt.Scale(zero=False)),
    ```

    En esta línea, se describe el _encoding_ del eje X, como queremos indicar más propiedades de dicho eje, ya no basta con hacer `x='indice_masa_corporal'`, sino que utilizar [`alt.X`](https://altair-viz.github.io/user_guide/API.html?#altair.X) para indicar más propiedades.

    Para este ejemplo, se indica que el eje X será la columna `Horsepower` y se setea una propiedad de dicho eje.
    - **`scale`**: este argumento permite indicar la escala a utilizar en dicho eje, en específico, con el `alt.Scale(zero=False)` le estamos indicando que no debe partir en 0 el eje X, sino que Altair determine el valor de inicio.

  ```python
   y=alt.Y('edad')
```
Finalemente, aquí indicamos que el eje Y será la edad.

### Actividad 5: _Scatterplot_

Construya un _scatterplot_ que permita ver la correlación entre el costo del seguro y la edad de la persona. Asegure que el eje X sea la edad y el eje Y sea el costo del seguro. Además, este gráfico **solo debe** considerar a las personas con un `indice_masa_corporal < 25`. Finamente, el eje correspondiente a la edad **no debe partir en 0**.

El resultado que debería llegar es:

![AC01](https://res.cloudinary.com/hernan4444/image/upload/v1652798003/Diplomado/ML/Altair_Matplotlib_AC01.png)



In [None]:
# Completar con su respuesta


In [None]:
import pandas as pd
import altair as alt

# Cargar el dataset
seguros = pd.read_csv("seguro_salud.csv", sep=",")

# Filtrar los datos para incluir solo personas con índice de masa corporal < 25
seguros_filtrados = seguros[seguros['indice_masa_corporal'] < 25]

# Crear el gráfico de dispersión
chart = alt.Chart(seguros_filtrados).mark_circle(size=60).encode(
    x=alt.X('edad:Q', scale=alt.Scale(zero=False), title='Edad'),
    y=alt.Y('costo_seguro:Q', title='Costo del Seguro'),
    tooltip=['edad', 'costo_seguro']  # Agrega tooltips para visualizar los datos al pasar el cursor
).properties(
    title='Relación entre Costo del Seguro y Edad (IMC < 25)'
)

chart


  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


## BubbleChart

En el ejemplo anterior de índica de masa corpolar VS edad no encontramos ninguna correlación visible, pero tal vez esto puede pasar porque nos falta segmentar más los datos. En esta ocasión vamos a incluir el canal de color y de tamaño para codificar información adicional. En particular, haremos que el color codifique el sexo de la persona (masculino o femenino) y el tamaño codifique la cantidad de hijos. Con esto tal vez podamos encontrar algún patrón adicional.

In [None]:
import altair as alt

alt.Chart(seguros).mark_circle().encode(
    x=alt.X('indice_masa_corporal', scale=alt.Scale(zero=False)),
    y='edad',
    size='cantidad_hijos',
    color='sexo'
).properties(title='Índice masa Corporar VS Edad')

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


**Explicación código**

Este gráfico se construye de forma similar al _scatterplot_, la diferencia es que se agregan nuevas codificaciones que son **el tamaño y el color**.  


```python
    size='cantidad_hijos',
```
Con esta línea de código se indica que el tamaño de los circulos será definido en función del valor que tenga la columna _cantidad\_hijos_.


```python
    color='sexo'
```
Con esta línea de código se indica que el color de los circulos será definido en función del valor que tenga la columna _sexo_.

**Personalización adicional**

```python
    ).properties(title='Índice masa Corporar VS Edad')
```
Con esta línea de código se indica el título del gráfico.

### Actividad 6: Bubblechart

En la actividad 5 se apreció una clara segmentación de los puntos. Tal vez estos grupos se deben a algún otro atributo que no estamos visualizando. Por este motivo, **usando el mismo _dataset_ de la actividad anterior** (es decir, el filtrado),  genere un _scatterplot_ donde el eje X sea la edad y el eje Y sea el costo del seguro, pero ahora incluya el canal de color para codificar si la persona es fumadora y el canal del tamaño para codificar el índice de masa corporal.

Finalmente, agregue un título a la visualización.

El resultado que debería llegar es:

![AC02](https://res.cloudinary.com/hernan4444/image/upload/v1652798873/Diplomado/ML/Altair_Matplotlib_AC02.png)

In [None]:
# Completar con su respuesta


In [None]:
import pandas as pd
import altair as alt

# Cargar el dataset
seguros = pd.read_csv("seguro_salud.csv", sep=",")

# Filtrar los datos para incluir solo personas con índice de masa corporal < 25
seguros_filtrados = seguros[seguros['indice_masa_corporal'] < 25]

# Verificar los valores únicos en la columna 'fumador'
print(seguros_filtrados['fumador'].unique())

# Crear el gráfico de burbujas
chart = alt.Chart(seguros_filtrados).mark_circle().encode(
    x=alt.X('edad:Q', scale=alt.Scale(zero=False), title='Edad'),
    y=alt.Y('costo_seguro:Q', title='Costo del Seguro'),
    size=alt.Size('indice_masa_corporal:Q', scale=alt.Scale(range=[20, 200]), title='Índice de Masa Corporal'),
    color=alt.Color('fumador:N', scale=alt.Scale(domain=['no', 'yes'], range=['#1f77b4', '#ff7f0e']), title='Fumador'),
    tooltip=['edad', 'costo_seguro', 'indice_masa_corporal', 'fumador']  # Agrega tooltips para visualizar los datos al pasar el cursor
).properties(
    title='Relación entre Costo del Seguro y Edad con Fumador e IMC'
)

chart


['no' 'yes']


  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


## Histograma

Otro gráfico a revisar con Altair es el histograma. Este gráfico se codifica de forma similar a un gráfico de barra. La principal diferencia es que en el eje Y no se indica una columna con valor numérico, sino que se utiliza la función de agregación `count`.

In [None]:
import altair as alt

alt.Chart(seguros).mark_bar().encode(
    alt.X("edad:Q", bin=False),
    y='count()',
    color='sexo'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


**Explicación código**

- **Entregar los datos e indicar la visualización a realizar**

  ```python
alt.Chart(seguros).mark_bar().encode(
  ```

  Al igual que un gráfico de barra, se utiliza `mark_bar` para indicar que los datos deben estar codificados como barras.

- **Indicar cómo estará formada la visualización**

  ```python
alt.X("edad:Q", bin=False),
  ```

  Con esta línea de código se indica que el eje X será definido en función de la columna _edad_. Un argumento importante aquí es `bin=False` el cual se encarga de **generar una barra por cada dato diferente del eje X**. Si usamos `bin=True`, el histograma agrupará barras en un rango de valores con el fin de reducir la cantidad de barras presentes en la visualización. Se recomienda cambiarlo a `True` para ver como es el gráfico cuando Altair agrupa las barras.

  ```python
    y='count()',
```
Con esta línea de código se indica que el valor del eje Y será la cantidad de filas que coinciden con el dato del eje X.

  ```python
    color='sexo',
```
Con esta línea de código se indica que la barra se divida en diferentes colores según cuanta gente tiene sexo masculino o femenino.



### Actividad 7: Histograma

Construya un histograma para analizar como distribuye el costo del seguro en este _dataset_ y que segmente cada barra en si es fumador o no. Para este histograma **debe agrupar las barras con el parámetro `bin`** y debes usar **el _dataset original_** (es decir, el sin filtrar).

Un resultado posible a llegar es:

![AC03](https://res.cloudinary.com/hernan4444/image/upload/v1652802385/Diplomado/ML/Altair_Matplotlib_AC03.png)




In [None]:
# Completar con su respuesta


In [None]:
import altair as alt
import pandas as pd

# Cargar el dataset original
seguros = pd.read_csv("seguro_salud.csv", sep=",")

# Crear el histograma
histograma = alt.Chart(seguros).mark_bar().encode(
    alt.X("costo_seguro:Q", bin=alt.Bin(maxbins=10), title='Costo del Seguro'),  # Agrupar las barras con bin
    y='count()',  # Contar la cantidad de ocurrencias en cada bin
    color='fumador:N',  # Segmentar por si es fumador o no
    # tooltip=['costo_seguro:Q', 'fumador:N']  # Opcional: Podemos agregar tooltips para visualizar información adicional
).properties(
    title='Distribución del Costo del Seguro por Estado de Fumador'
)

histograma


  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


## Gráfico de Torta

Un último gráfico a revisar con Altair es el gráfico de torta. Este gráfico puede codifica la misma información que un gráfico de barra, pero en vez de utilizar barras, utiliza segmentos circulares. Esto último hace que sea un poco más díficil comparar y que la cantidad de datos a mostrar deba ser menos.

In [None]:
import altair as alt

alt.Chart(seguros).mark_arc().encode(
    theta="count()",
    color="sexo"
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


**Explicación código**

- **Entregar los datos e indicar la visualización a realizar**

  ```python
alt.Chart(seguros).mark_arc().encode(
  ```

  En este caso, para el gráfico de torta se utiliza `mark_arc` para indicar que los datos deben estar codificados como arcos (segmentos circulares).

- **Indicar cómo estará formada la visualización**

  ```python
theta="count()",
  ```

  Con esta línea de código se indica que el angulo de cada segmento circular estará dado por la cantidad de datos.

  ```python
color='sexo'
  ```
  Con esta línea de código se indica que cada segmento circular se divida en diferentes colores según el sexo masculino o femenino.

