# Visualizando con Altair

Si bien aprendimos a hacer visualizaciones con la librería `matplotlib`, existen varias otras librerías famosas para hacer visualizaciones, entre las que me gustaría destacar `seaborn` y `altair`. Ahora vamos a aprender lo básico de esta última librería, que nos permite hacer visulizaciones a partir de `DataFrames` de `pandas`.

Altair es un _wrapper_ en Python de Vega-Lite. Vega-Lite es "lenguaje de alto nivel para hacer visualizaciones" que está desarrollado en JavaScript. Para ver todas las posibilidades que ofrece Altair, puedes mirar [su documentación oficial](https://altair-viz.github.io/). 

En este ejemplo vamos a retomar el _scatter plot_ del _dataset_ de _Iris_, pero ahora con Altair. Primero recordemos los nombres de las features:

In [45]:
from sklearn import datasets
import pandas as pd

iris = datasets.load_iris()
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

Y ahora para cada una de las muestras, creemos un arreglo que nos dice el tipo de flor. Esto lo usaremos después para hacer un scatter plot de todas las flores.

In [46]:
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [47]:
iris['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [48]:
l = []

for element in iris['target']:
    l.append(iris['target_names'][element])
    
target_names = pd.DataFrame(l)
target_names

Unnamed: 0,0
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa
...,...
145,virginica
146,virginica
147,virginica
148,virginica


Ahora vamos a cargar el el _dataset_ como `DataFrame`.

In [49]:
features = pd.DataFrame(iris['data'])
features

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


Ahora vamos a juntar las features con el nombre de la flor.

In [50]:
features_target = pd.merge(features, target_names, left_index=True, right_index=True)
features_target 

Unnamed: 0,0_x,1,2,3,0_y
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Y vamos a darle nombre a las columnas

In [51]:
columns_names = iris['feature_names'] + ['target']
features_target.columns = columns_names
features_target

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [52]:
import altair as alt

scatter_plot = alt.Chart(features_target).mark_circle(size=60).encode(
    x='sepal width (cm)',
    y='sepal length (cm)',
    color='target'
).interactive()
scatter_plot

Ahora si queremos hacer pasar la recta de nuestra regresión por los puntos que equivalen a la flor _Iris Setosa_, podemos hacer lo siguiente.

In [53]:
import numpy as np

x = np.arange(10)

# Obtenemos los coeficientes de la regresión
regression = pd.DataFrame({
  'x': x,
  'y': (0.74126268*x + 2.45976003)
})

line_plot = alt.Chart(regression).mark_line().encode(
    x='x',
    y='y'
)
line_plot

In [54]:
scatter_plot + line_plot

### Visualización de los datos comunales

Vamos a hacer una visualización con `Altair` y los datos comunales. Primero vamos a cargar un `DataFrame` con el nombre, región, presupuesto y población de cada comuna. Recordemos que debemos limpiar los datos "no recepcionado" en presupuesto.

In [55]:
import pandas as pd

df_codigos = pd.read_csv("codigos.csv", delimiter=';')
df_codigos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Código Región       346 non-null    int64 
 1   Nombre Región       346 non-null    object
 2   Abreviatura Región  346 non-null    object
 3   Código Provincia    346 non-null    int64 
 4   Nombre Provincia    346 non-null    object
 5   Código Comuna 2018  346 non-null    int64 
 6   Nombre Comuna       346 non-null    object
dtypes: int64(3), object(4)
memory usage: 19.0+ KB


In [56]:
df_poblacion = pd.read_csv("poblacion.csv", delimiter=';')
df_poblacion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 345 entries, 0 to 344
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   CODIGO     345 non-null    int64 
 1   MUNICIPIO  345 non-null    object
 2   POBLACIÓN  345 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 8.2+ KB


In [57]:
df_presupuesto = pd.read_csv("presupuesto_2019.csv", delimiter=';')
df_presupuesto = df_presupuesto.replace('No Recepcionado', 0)
df_presupuesto['PRESUPUESTO'] = df_presupuesto['PRESUPUESTO'].astype(int)
df_presupuesto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 345 entries, 0 to 344
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   CODIGO       345 non-null    int64 
 1   MUNICIPIO    345 non-null    object
 2   PRESUPUESTO  345 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 8.2+ KB


Las siguientes líneas nos van a servir para hacer `merge` entre los _datasets_.

In [58]:
df_extended = df_codigos.merge(df_poblacion, left_on='Código Comuna 2018', right_on='CODIGO')
df_extended.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 345 entries, 0 to 344
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Código Región       345 non-null    int64 
 1   Nombre Región       345 non-null    object
 2   Abreviatura Región  345 non-null    object
 3   Código Provincia    345 non-null    int64 
 4   Nombre Provincia    345 non-null    object
 5   Código Comuna 2018  345 non-null    int64 
 6   Nombre Comuna       345 non-null    object
 7   CODIGO              345 non-null    int64 
 8   MUNICIPIO           345 non-null    object
 9   POBLACIÓN           345 non-null    int64 
dtypes: int64(5), object(5)
memory usage: 29.6+ KB


In [59]:
df_extended = df_extended.merge(df_presupuesto, left_on='CODIGO', right_on='CODIGO')
df_extended.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 345 entries, 0 to 344
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Código Región       345 non-null    int64 
 1   Nombre Región       345 non-null    object
 2   Abreviatura Región  345 non-null    object
 3   Código Provincia    345 non-null    int64 
 4   Nombre Provincia    345 non-null    object
 5   Código Comuna 2018  345 non-null    int64 
 6   Nombre Comuna       345 non-null    object
 7   CODIGO              345 non-null    int64 
 8   MUNICIPIO_x         345 non-null    object
 9   POBLACIÓN           345 non-null    int64 
 10  MUNICIPIO_y         345 non-null    object
 11  PRESUPUESTO         345 non-null    int64 
dtypes: int64(6), object(6)
memory usage: 35.0+ KB


Y finalmente nos quedamos con las columnas que necesitamos.

In [60]:
df_extended = df_extended[['Nombre Comuna', 'POBLACIÓN', 'PRESUPUESTO', 'Nombre Región']]
df_extended

Unnamed: 0,Nombre Comuna,POBLACIÓN,PRESUPUESTO,Nombre Región
0,Iquique,216514,59072234,Tarapacá
1,Alto Hospicio,124150,13984411,Tarapacá
2,Pozo Almonte,16683,7613962,Tarapacá
3,Camiña,1345,1584008,Tarapacá
4,Colchane,1556,2500000,Tarapacá
...,...,...,...,...
340,San Carlos,55935,10459691,Ñuble
341,Coihueco,28147,5001190,Ñuble
342,Ñiquén,11556,3386698,Ñuble
343,San Fabián,4607,1798500,Ñuble


Y ahora vamos a hacer un gráfico interactivo donde se vea el presupuesto en función de la población.

In [70]:
import altair as alt

alt.Chart(df_extended).mark_circle(size=60).encode(
    x='POBLACIÓN',
    y='PRESUPUESTO',
    color='Nombre Región',
    tooltip=['Nombre Comuna', 'Nombre Región']
).interactive()

Ahora Haremos un gráfico mucho más interactivo.

In [71]:
import altair as alt

selection = alt.selection_multi(fields=['Nombre Región'])
color = alt.condition(selection,
                      alt.Color('Nombre Región:N', legend=None),
                      alt.value('lightgray'))

scatter = alt.Chart(df_extended).mark_circle(size=60).encode(
    x='POBLACIÓN:Q',
    y='PRESUPUESTO:Q',
    color=color,
    tooltip=['Nombre Comuna', 'Nombre Región']
).interactive()


legend = alt.Chart(df_extended).mark_point().encode(
    y=alt.Y('Nombre Región:N', axis=alt.Axis(orient='right')),
    color=color
).add_selection(
    selection
)

scatter | legend