# Visualizando con Altair

Si bien aprendimos a hacer visualizaciones con la librería `matplotlib`, existen varias otras librerías famosas para hacer visualizaciones, entre las que me gustaría destacar `seaborn` y `altair`. Ahora vamos a aprender lo básico de esta última librería, que nos permite hacer visulizaciones a partir de `DataFrames` de `pandas`.

Altair es un _wrapper_ en Python de Vega-Lite. Vega-Lite es "lenguaje de alto nivel para hacer visualizaciones" que está desarrollado en JavaScript. Para ver todas las posibilidades que ofrece Altair, puedes mirar [su documentación oficial](https://altair-viz.github.io/). 

En este ejemplo vamos a retomar el _scatter plot_ del _dataset_ de _Iris_, pero ahora con Altair. Primero recordemos los nombres de las features:

In [1]:
from sklearn import datasets
import pandas as pd

iris = datasets.load_iris()
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

Y ahora para cada una de las muestras, creemos un arreglo que nos dice el tipo de flor. Esto lo usaremos después para hacer un scatter plot de todas las flores.

In [2]:
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [3]:
iris['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [4]:
l = []

for element in iris['target']:
    l.append(iris['target_names'][element])
    
target_names = pd.DataFrame(l)
target_names

Unnamed: 0,0
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa
...,...
145,virginica
146,virginica
147,virginica
148,virginica


Ahora vamos a cargar el el _dataset_ como `DataFrame`.

In [5]:
features = pd.DataFrame(iris['data'])
features

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


Ahora vamos a juntar las features con el nombre de la flor.

In [6]:
features_target = pd.merge(features, target_names, left_index=True, right_index=True)
features_target 

Unnamed: 0,0_x,1,2,3,0_y
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Y vamos a darle nombre a las columnas

In [7]:
columns_names = iris['feature_names'] + ['target']
features_target.columns = columns_names
features_target

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [9]:
import altair as alt

scatter_plot = alt.Chart(features_target).mark_circle(size=60).encode(
    x='sepal width (cm)',
    y='sepal length (cm)',
    color='target'
).interactive()
scatter_plot

Ahora si queremos hacer pasar la recta de nuestra regresión por los puntos que equivalen a la flor _Iris Setosa_, podemos hacer lo siguiente.

In [10]:
import numpy as np

x = np.arange(10)

# Obtenemos los coeficientes de la regresión
regression = pd.DataFrame({
  'x': x,
  'y': (0.74126268*x + 2.45976003)
})

line_plot = alt.Chart(regression).mark_line().encode(
    x='x',
    y='y'
)
line_plot

In [37]:
scatter_plot + line_plot