## Librería Altair: Introducción

Durante este JN ilustraré como instalar, importar y manejar algunas herramientas básicas de la librería Altair.

 Vega-Altair es una librería de visualización dinámica, basada en Vega-Lite. Usa una gramática simplificada, que permite plotear gráficos complejos mediante un código bastante accesible. Se trabaja principalmente en conjunto con pandas Dataframe, con lo que se aconseja manejar superficialmente esta librería. La información de esta práctica se puede encontrar [aquí](https://altair-viz.github.io/).


 Este primer tutorial es básico, y espera servir como toma de contacto con la librería.

 Duración estimada: 1 hora.


Lo primero es instalar Altair:

In [None]:
!pip install altair



A continuación importamos las librerías necesarias.

In [None]:
import altair as alt
import pandas as pd
import numpy as np
# Esto es necesario para importar datasets de vega (para más adelante):

!pip install vega_datasets
# from vega_datasets import data
# movie_sample = data.movies()
# movie_sample.head()



# Uso de Chart

Chart es el objeto fundamental en Altair. Chart toma como argumento un dataframe, y posteriormente nos permite hacer ciertas operaciones con los datos.
Por sí solo, Chart no tiene utilidad, hay que usarlo junto con otros métodos que veremos a continuación.

In [None]:
ex_dataframe = pd.DataFrame({
    'a': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'],
    'b': [2, 7, 4, 1, 2, 6, 8, 4, 7]
})

first_chart = alt.Chart(ex_dataframe)

## Métodos mark y encode.

Vamos a comenzar hablando del método **mark**. La gramática de estos métodos es de la forma: ChartObject.mark.*()
Sirven para definir el tipo de gráfico que queremos crear. A continuación listo algunos de los más comunes:


*   mark_point() : Gráfico de puntos.
*   mark_line() : Gráfico de líneas.
*   mark_bar() : Gráfico de barras.
*   mark_area(): Gráfico de áreas.
*   mark_circle(): Similar a los puntos, pero con círculos.
*   mark_square(): Similar a los puntos, pero con cuadrados.

Complementario a estos recursos, encontramos el método **encode()**.

Este método mapea las columnas de un DataFrame a los ejes visuales, además de permitir modificar otros atributos visuales. Los principales parámetros que permiten son los siguientes:


*   x = 'Variable1' : Asigna la variable 1 al eje x.
*   y = 'Variable2' : Asigna la variable 2 al eje y.
*   color = 'Variable3' : Cambia el color de los elementos clasificandolos respecto a la variable 3.
*   size = 'Variable4' : Cambia el tamaño de los elementos clasificandolos respecto a la variable 4.
*   shape = 'Variable5' : Cambia la forma de los puntos clasificándolos respecto a la variable 5.

Para crear gráficos, ambos métodos se deben usar juntos. Veamos algunos ejemplos:





# Ejemplo: Análisis y visualización con Altair.

Vamos a usar un dataframe de ejemplo, el cual tendrá la información de ventas y gastos de una empresa a lo largo de 5 días consecutivos. Más adelante trabajaremos con df más complejos.

In [None]:
# Vamos a reducir la cantidad de datos para aligerar el proceso.

# Crear un DataFrame de ejemplo.
data = {
    'Fecha': pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05']),
    'Ventas': [100, 150, 120, 180, 200],
    'Gastos': [50, 60, 55, 70, 80],
    'Categoria': ['A', 'B', 'A', 'B', 'A']
}
df = pd.DataFrame(data)


# Vamos a plotear distintos gráficos usando altair:

ex_chart = alt.Chart(df)

# Gráfico mostrando las ventas por fecha, clasificándolas por categoría.
ex_chart.mark_point().encode(
    x='Fecha',
    y='Ventas',
    color='Categoria'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


In [None]:
# Veamos otro ejemplo, vamos a ver los beneficios de la empresa en función de las ventas:

# Agregar una columna calculada
df['Beneficio'] = df['Ventas'] - df['Gastos']

ex_chart.mark_bar().encode(
    x='Gastos',
    y='Beneficio',
    color='Fecha'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


# Algunas herramientas útiles.

## Modificar los ejes.

La librería Altair también permite alterar el formato de los ejes, como cambiarles el título, tamaño, ect.

Esto es posible usando: Alt.'eje', veamos algunos ejemplos con las gráficas anteriores:

In [None]:
ex_chart.mark_point().encode(
    alt.X('Fecha'),
    alt.Y('Ventas', axis = alt.Axis(title='Ventas de cada día'), scale= alt.Scale(domain=(100, 200), reverse=True)),
    alt.Color('Categoria', scale=alt.Scale(scheme='darkblue'))
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


En este ejemplo hemos alterado el eje y para cambiar el dominio en el que toman valores, y usamos reverse para invertir los valores, de forma que los valores de venta van de mayor a menor ascendentemente.

## Cambiar o definir el tipo de dato.

También es posible cambiar unos datos originales para que en nuestra gráfica sean tratados de distinta forma, por ejemplo, supongamos que tenemos el siguiente dataframe:

In [None]:
# Consideramos el df:

wrong_dataframe = pd.DataFrame({
    'Estudiante': ['Miguel', 'Gines', 'Alba', 'Ismael', 'Irene'],
    'Deporte favorito' : [1, 2, 2, 3, 1]
})


Donde cada número va asociado a un deporte. Si no alteramos nada, al plotear deporte favorito, será tomado como variable cuantitativa, cuando lo que nos interesa es considerarla una variable cualitativa (el número identificador en este caso solo nos interesa por la frecuencia en la que se repite), por lo que podríamos hacer:

In [None]:
# Primera forma, usando type=

alt.Chart(wrong_dataframe).mark_bar().encode(
    alt.X('Deporte favorito', type='nominal'),
    alt.Y('count()')
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


In [None]:
# Segunda forma, usando las abreviaturas:

alt.Chart(wrong_dataframe).mark_bar().encode(
    x='Deporte favorito:N',
    y='count()'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


En particular, podemos elegir entre: 'Quantitative' ('Q'), 'Nominal' ('N'), 'Ordinal' ('O'), 'Temporal' ('T'), 'geojson' ('G'), esta última hace referencia a figuras geométricas.

# Funciones de Agregación.

En el anterior ejemplo, hemos usado como variable para el eje Y count(), por lo que hemos adelantado otra herramienta útil de Altair. Esta librería nos permite usar funciones de agregación dentro del encoding, como por ejemplo mean(), median(), min() o max().

Se puede hacer de dos formas, si quisieramos simplemente usar una función de agregación sobre una columna en específico haríamos:

In [None]:
students_data = {
    'Estudiante': ['Ana', 'Juan', 'Pedro', 'Maria', 'Luis'] * 2,
    'Asignatura': ['Matematicas', 'Fisica'] * 5,
    'Nota': np.random.randint(0, 10, size=10)
}

students_df = pd.DataFrame(students_data)

alt.Chart(students_df).mark_point().encode(
    x='Asignatura',
    y='mean(Nota)',
)


  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


Si no se especifica nada dentro de agg_function(), se asume que se va a calcular sobre la otra variable ploteada.

## Método transform_aggregate.

Otra forma interesante de trabajar con funciones de agregación es usar el método transform_aggregate.

Este método nos permite especificar cómo se va a hacer la agregación, acepta los parámetros:



*   Aggregate= Array(AggregatedField): Array de los objetos que definen los campos a agregar
*   groupby=Array(Nombres de los campos): Los campos mediante los cuales se quiere agrupar (igual que SQL).

A su vez, el campo AggregatedField admite las siguientes opciones:



1.   as: Nombre que se le quiere dar a los outputs de las operaciones.
2.   field: Nombre del campo al que se le quiere aplicar la función.
3.   op: Operación a realizar. Esto es obligatorio especificarlo.






In [None]:
# Usamos un dataframe de ejemplo:

city_data = {
    'Fecha': pd.to_datetime(['2023-01-' + str(i) for i in range(1, 21)]),
    'Ciudad': np.random.choice(['Madrid', 'Barcelona', 'Valencia', 'Sevilla'], size=20),
    'Temperatura': np.random.randint(10, 30, size=20),
    'Humedad': np.random.randint(40, 90, size=20),
    'Viento': np.random.randint(0, 20, size=20)
}

city_df = pd.DataFrame(city_data)

alt.Chart(city_df).mark_bar().encode(
    x='Ciudad',
    y='mean_hum:Q'
).transform_aggregate(
    mean_hum='mean(Humedad)',
    groupby=['Ciudad']
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


En el siguiente Notebook veremos detenidamente más opciones para transformar datos y visualizarlos.

## Con respecto a más marks y métodos de transformación de datos.

Más allá de las herramientas de mark y transformación de datos que hemos introducido aquí y que estudiaremos en la siguiente práctica, hay muchas más opciones de visualización, algunas se incluirán en los ejercicios pero si el usuario tiene curiosidad, dejo por aquí todas ellas:

### Todos los métodos mark.

1.  **mark_area**: Crea un gráfico de área, ideal para mostrar la magnitud de cambios a lo largo de una variable continua.

2.  **mark_bar**: Dibuja barras verticales u horizontales, comúnmente usado para gráficos de barras o histograma.

3.  **mark_boxplot**: Genera un diagrama de caja y bigotes, útil para visualizar la distribución de los datos y detectar valores atípicos.

4.  **mark_circle**: Crea gráficos de dispersión con puntos en forma de círculos, generalmente para analizar correlaciones entre variables.

5.  **mark_errorband**: Dibuja bandas de error para representar incertidumbre o variabilidad en el valor medio.

6.  **mark_errorbar**: Añade barras de error en los gráficos, útiles para representar desviación o intervalo de confianza.

7.  **mark_geoshape**: Traza datos geoespaciales; ideal para mapas.

8.  **mark_image**: Inserta imágenes en lugar de marcas gráficas, útil en visualizaciones personalizadas.

9.  **mark_line**: Dibuja una línea que conecta puntos, especialmente útil para series temporales o gráficos de tendencias.

10. **mark_point**: Similar a mark_circle pero con opciones de diferentes formas (puntos, cruces, estrellas).

11. **mark_rect**: Crea un gráfico de rectángulos, útil para gráficos de calor o mapas de calor.

12. **mark_rule**: Dibuja líneas verticales u horizontales para representar límites, promedios, etc.

13. **mark_square**: Genera gráficos de dispersión con puntos en forma de cuadrado.

14. **mark_text**: Muestra etiquetas de texto en un gráfico, útil para resaltar valores específicos.

15. **mark_tick**: Dibuja pequeñas marcas o "ticks" en el gráfico, frecuentemente para gráficos de densidad o distribuciones.

16. **mark_trail**: Traza líneas que van incrementando su tamaño, comúnmente para mostrar movimiento o variación en el tiempo.

### Todas las formas de transformación de datos.

1. **aggregate**: Realiza operaciones de agregación (suma, promedio, conteo, etc.) sobre los datos, útil para agrupar y resumir información.

2.  **bin**: Agrupa datos en intervalos (bins), frecuentemente usado en histogramas.

3.  **calculate**: Realiza cálculos personalizados y añade los resultados como una nueva columna.

4.  **density**: Estima la densidad de probabilidad de una variable, útil para crear funciones de densidad.

5.  **filter**: Filtra datos que cumplan con una condición específica.

6.  **flatten**: Descompone listas o estructuras anidadas en columnas separadas, útil para trabajar con datos complejos.

7.  **fold**: Convierte datos de formato ancho a largo, ideal para trabajar con datos pivotados.

8.  **impute**: Completa valores faltantes en una columna, útil para rellenar datos incompletos.

9.  **joinaggregate**: Realiza agregaciones y combina los resultados en una nueva columna sin transformar la estructura original de los datos.

10. **lookup**: Realiza un emparejamiento entre dos tablas en función de una columna clave compartida.

11.  **pivot**: Transforma datos de largo a ancho, ideal para resumir múltiples columnas.

12. **quantile**: Calcula los cuantiles de una variable, útil en la creación de gráficos de distribución.

13.  **regression**: Calcula una regresión (lineal, cuadrática, etc.) sobre los datos para representar tendencias.

14.  **sample**: Toma una muestra de los datos, útil para trabajar con subconjuntos en bases de datos grandes.

15.  **stack**: Apila valores en una categoría de modo acumulado, común en gráficos de barras apiladas.

16.  **timeunit**: Transforma una fecha en componentes como año, mes, día, etc., útil para trabajar con series temporales.

17.  **window**: Realiza operaciones sobre ventanas móviles, como promedio móvil o clasificación.