Graficar, cualquiera; comunicar, algunos; impactar, pocos.

Necesitamos conocer y dominar las bases de la visualización para ser capaces de escoger la biblioteca adecuada para cada tarea. Además, cuando por fin tienes el insight que quieres compartir, ¿cómo diseñas tu gráfica para comunicar de la mejor manera?

La estructura de la charla es la siguiente:

- ¿Quién soy y a qué me dedico? 3 min.
    - Mi background técnico
    - Proyectos en que he colaborado
- Describir el Caso Práctico. 5 min
    - Vistazo al dataset
    - Algunas preguntas que podemos resolver
    - Definir nuestra pregunta de negocio.
- Marcas . 5 min.
    - Tipos
    - Ejemplos
- Canales 5 min.
    - Tipos
    - Ejemplos
- Armando nuestra gráfica 10 min
    - Escogiendo las marcas para nuestro output
    - Agregando canales, uno a uno.
    - Respondiendo a la pregunta inicial
    - ¿Y si cambiamos los canales/marcas?
- Sección de preguntas y respuestas. 7 min.

## Vistazo al dataset

El dataset con el que vamos a jugar contiene información con los resultados de los atletas que han participado en los Juegos Olímpicos de 1992 a la fecha.

In [1]:
# Carguemos las #bibliotecasNoLibrerias que vamos a utilizar
import pandas as pd
import altair as alt

In [3]:
# Un read_csv en pandas común y corriente
df_data = pd.read_csv("./01Datos/pylatam_olimpicos.csv")


In [4]:
# Ahora sí un vistazo
df_data

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
1,12,Jyri Tapani Aalto,M,31.0,172.0,70.0,Finland,FIN,2000 Summer,2000,Summer,Sydney,Badminton,Badminton Men's Singles,
2,13,Minna Maarit Aalto,F,34.0,159.0,55.5,Finland,FIN,2000 Summer,2000,Summer,Sydney,Sailing,Sailing Women's Windsurfer,
3,18,Timo Antero Aaltonen,M,31.0,189.0,130.0,Finland,FIN,2000 Summer,2000,Summer,Sydney,Athletics,Athletics Men's Shot Put,
4,21,Ragnhild Margrethe Aamodt,F,27.0,163.0,,Norway,NOR,2008 Summer,2008,Summer,Beijing,Handball,Handball Women's Handball,Gold
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67469,135565,Fernando scar Zylberberg,M,23.0,168.0,76.0,Argentina,ARG,2000 Summer,2000,Summer,Sydney,Hockey,Hockey Men's Hockey,
67470,135565,Fernando scar Zylberberg,M,27.0,168.0,76.0,Argentina,ARG,2004 Summer,2004,Summer,Athina,Hockey,Hockey Men's Hockey,
67471,135567,Aleksandr Viktorovich Zyuzin,M,24.0,183.0,72.0,Russia,RUS,2000 Summer,2000,Summer,Sydney,Rowing,Rowing Men's Lightweight Coxless Fours,
67472,135567,Aleksandr Viktorovich Zyuzin,M,28.0,183.0,72.0,Russia,RUS,2004 Summer,2004,Summer,Athina,Rowing,Rowing Men's Lightweight Coxless Fours,


Con este dataset se me ocurre preguntar:
- ¿En qué Juegos Olímpicos asistieron más atletas?
- ¿Qué país ha ganado más medallas?
- ¿Qué atleta ha ganado más medallas?
- ¿Quién ha sido el atleta más joven o más longevo que ha asistido a unos JJOO?
- ¿Cuál es la proporción entre hombres y mujeres que asisten a cada JJOO?

## Tomemos la primer pregunta 

¿Qué gráfica se les ocurre? ¿Barras, dispersión, lollipop, sankey?

Primero analicemos qué tipos de variables usaremos para esa respuesta:
- Juegos Olímpicos - Nominal
- Suma de Atletas - Cuantitativo

Parece que la respuesta es ...

![alt text](./02Imagenes/vieja-confiable.jpg)



Las gráficas de barras son fáciles de hacer, **¿verdad?**

## ¿Se acuerdan de las Marcas?

La gráfica de barras usa líneas como Marcas. Hagamos una.

In [9]:
# Por default, Altair permite usar dataset de 5k registros. Para usar más, podemos usar la data como url
url = './01Datos/olimpicos.json'

df_data.to_json(url, orient='records')

In [74]:
# Crear una marca  y quitar axis, labels, etc., para dejarla limpia
alt.Chart(url,
          title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q', axis=None),
).configure_view(
    strokeWidth=0
)

## Ahora recordemos los Canales

Toca codificar los canales. Al tener una variable cuantitativa la posición es el primer canal

- Canal Posición Vertical: Número de Atletas
- Canal Posición Horizontal: JJOO

In [79]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('City:N',
         axis=alt.Axis(title="Ciudad Sede"))
).configure_view(
    strokeWidth=0
).properties(width=600)


¿Y si lo ordenamos por año?

In [80]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('City:N',
          sort=alt.EncodingSortField(field='Year'),
         axis=alt.Axis(title="Ciudad Sede"
                      ))
).configure_view(
    strokeWidth=0
).properties(width=600)


¿O por cantidad de atletas?

In [81]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('City:N',
          sort="-y",
         axis=alt.Axis(title="Ciudad Sede"
                      ))
).configure_view(
    strokeWidth=0
).properties(width=600)

**¿Cómo creen que se comunica mejor el mensaje?**

Metamos un tercer canal:

- Canal Color (Hue): JJOO 

In [82]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('City:N',
          sort=alt.EncodingSortField(field='Year'),
         axis=alt.Axis(title="Ciudad Sede"
                      )),
    alt.Color('City:N')
).configure_view(
    strokeWidth=0
).properties(width=600)


¿Les parece que codificar la variable "City" al canal de Color ayuda a transmitir el mensaje?