## Vistazo al dataset

El dataset con el que vamos a jugar contiene información con los resultados de los atletas que han participado en los Juegos Olímpicos del año 2000 a la 2014.

In [1]:
# Carguemos las #bibliotecasNoLibrerias que vamos a utilizar
import pandas as pd
import altair as alt
from altair import datum


In [2]:
# Un read_csv en pandas común y corriente
df_data = pd.read_csv("./01Datos/pylatam_olimpicos.csv")


In [3]:
# Ahora sí un vistazo
df_data

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,Game
0,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,,London-2012
1,12,Jyri Tapani Aalto,M,31.0,172.0,70.0,Finland,FIN,2000 Summer,2000,Summer,Sydney,Badminton,Badminton Men's Singles,,Sydney-2000
2,13,Minna Maarit Aalto,F,34.0,159.0,55.5,Finland,FIN,2000 Summer,2000,Summer,Sydney,Sailing,Sailing Women's Windsurfer,,Sydney-2000
3,18,Timo Antero Aaltonen,M,31.0,189.0,130.0,Finland,FIN,2000 Summer,2000,Summer,Sydney,Athletics,Athletics Men's Shot Put,,Sydney-2000
4,21,Ragnhild Margrethe Aamodt,F,27.0,163.0,,Norway,NOR,2008 Summer,2008,Summer,Beijing,Handball,Handball Women's Handball,Gold,Beijing-2008
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67469,135565,Fernando scar Zylberberg,M,23.0,168.0,76.0,Argentina,ARG,2000 Summer,2000,Summer,Sydney,Hockey,Hockey Men's Hockey,,Sydney-2000
67470,135565,Fernando scar Zylberberg,M,27.0,168.0,76.0,Argentina,ARG,2004 Summer,2004,Summer,Athina,Hockey,Hockey Men's Hockey,,Athina-2004
67471,135567,Aleksandr Viktorovich Zyuzin,M,24.0,183.0,72.0,Russia,RUS,2000 Summer,2000,Summer,Sydney,Rowing,Rowing Men's Lightweight Coxless Fours,,Sydney-2000
67472,135567,Aleksandr Viktorovich Zyuzin,M,28.0,183.0,72.0,Russia,RUS,2004 Summer,2004,Summer,Athina,Rowing,Rowing Men's Lightweight Coxless Fours,,Athina-2004


Con este dataset se me ocurre preguntar:

- ¿En qué Juegos Olímpicos asistieron más atletas?
- ¿Qué país ha ganado más medallas?
- ¿Quién ha sido el atleta más joven o más longevo que ha asistido a unos JJOO?
- ¿Cuál es la proporción entre hombres y mujeres que asisten a cada JJOO?
- ¿Qué edad suelen tener los atletas cuadno participan en los JJOO?

## Tomemos la primer pregunta : ¿en qué JJOO asistieron más atletas?

¿Qué gráfica se les ocurre? ¿Barras, dispersión, lollipop, sankey, heatmap?

Primero analicemos qué tipos de variables usaremos para esa respuesta:
- Juegos Olímpicos - Categórica: Nominal
- Suma de Atletas - Cuantitativa: Discreta

Parece que la respuesta es ...

![alt text](./02Imagenes/vieja-confiable.jpg)



Las gráficas de barras son fáciles de hacer, **¿verdad?**

¡Hagamos una!

## ¿Se acuerdan de las Marcas?

La gráfica de barras usa líneas como Marcas. Hagamos una.

In [4]:
# Por default, Altair permite usar dataset de 5k registros. Para usar más, podemos usar la data como url
url = './01Datos/olimpicos.json'

df_data.to_json(url, orient='records')

In [5]:
# Pintar una marca
alt.Chart(url,
          title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar()

## Ahora recordemos los Canales

Toca codificar los canales. Al tener una variable cuantitativa la posición es el primer canal

- Canal Posición Vertical: Número de Atletas

Tendremos **una marca** y **un canal** 

In [6]:
# Crear una marca  y quitar axis, labels, etc., para dejarla limpia
alt.Chart(url,
          title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y(
        'count(ID):Q', 
        axis=None),
).configure_view(
    strokeWidth=0
)

Ahora codifiquemos el canal de la posición Horizontal. 

- Canal Posición Horizontal: JJOO

Tendremos una **marca** y **otro canal**

In [7]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.X('Game:N',
         axis=alt.Axis(title="Ciudad Sede"))
).configure_view(
    strokeWidth=0
).properties(width=600)



Esto ya se va pareciendo a las gráficas que haciamos en la primaria. Podemos ver las ciudades en la gráfica pero no podemos ver el número de atletas. **¿Por qué?**

Juntemos la marca y los dos canales.


In [8]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
        axis=alt.Axis(title="Número de Atletas")),
    alt.X('Game:N',
         axis=alt.Axis(title="Ciudad Sede"))
).configure_view(
    strokeWidth=0
).properties(width=600)


La gráfica se ordenó alfabéticamente así que no nos dice mucho ya que no respeta ni el orden de celebración ni tampoco  por número de atletas.

¿Y si lo ordenamos por año?

In [9]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('Game:N',
          sort=alt.EncodingSortField(field='Year'),
         axis=alt.Axis(title="Ciudad Sede"
                      ))
).configure_view(
    strokeWidth=0
).properties(width=600)


Ya lo tenemos bien ordenado de una forma que esperamos: por año de celebración pero siendo díficil saber en qué JJOO asistieron mas atletas

¿Lo ordenamos por cantidad de atletas?

In [10]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('Game:N',
          sort="-y",
         axis=alt.Axis(title="Ciudad Sede"
                      ))
).configure_view(
    strokeWidth=0

).properties(width=600)

Ahora ya sabemos que fue en Sidney pero lamentablemente perdimos el orden que nos daban los años. Esa era información importante. Además, nuestro cerebro esta acostumbrado a ver el tiempo, gráficamente, acomodado de izquierda a derecha ascendentemente.

**¿Cómo creen que se comunica mejor el mensaje? ¿Se les ocurre algo?** 



Metamos un tercer canal:

- Canal Color (Hue): JJOO 

**¿Qué decía nuestra tabla de efectividad?**

In [11]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('Game:N',
          sort=alt.EncodingSortField(field='Year'),
         axis=alt.Axis(title="Ciudad Sede"
                      )
         ),
    alt.Color('City:N')
).configure_view(
    strokeWidth=0
).properties(width=600)


Volvimos a acomodar las barras por año. ¿Les parece que codificar la variable "City" al canal de Color ayuda a transmitir el mensaje?

¿Alguien aquí usa Tableau?


¿Y si metemos una variable cuantitativa al  tercer canal?

- Canal Color (Hue): Número de Atletas 



In [12]:

alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('Game:N',
          sort=alt.EncodingSortField(field='Year'),
         axis=alt.Axis(title="Ciudad Sede"
                      )),
    alt.Color('count(ID):Q')
).configure_view(
    strokeWidth=0
).properties(width=600)


¿Se acuerdan de la saturación como canal para Magnitudes?

Ahora podemos ver fácilmente en cuáles JJOO asistieron más y menos atletas.

**Pro Tip:** Una gran forma de transmitir un mensaje es quitar lo que puede distraer. Es decir, quitar el ruido visual, la basura gráfica.

![alt text](./02Imagenes/gestalt.png)

In [13]:

chart = alt.Chart(url,
         title="Asistencia de Atletas por Juegos Olímpicos"
         ).mark_bar().encode(    
    alt.Y('count(ID):Q',
         axis=alt.Axis(title="Número de Atletas")),
    alt.X('Game:N',
          sort=alt.EncodingSortField(field='Year'),
         axis=alt.Axis(title="Ciudad Sede"
                      )),
    color=alt.condition(
        alt.datum.Game == "Sydney-2000",
        alt.value("steelblue"),
        alt.value("#E8EAED")
    )
).configure_view(
    strokeWidth=0
).properties(width=600)


chart.configure_title(
    fontSize=20,
    color='#2A313C'
)

## Subamos un poco la dificultad

Me gusta el triatlón. Mucho. Si hubiera podido participar en los JJOO, ¿qué tan probable hubiera sido ganar con mi peso y mi estatura?

Hagamos un scatter plot para ver si existe alguna correlación entre esas dos variables y los atletas que ganaron medallas.

En las gráficas de dispersión hay, al menos, dos variables cuantitativas y la **marca** usualmente es un círculo. 

In [14]:
alt.Chart(url,
         title="Correlación entre Peso y Estatura en Medallistas de Triatlón").mark_point()

Codifiquemos un primer canal:

- Canal Posición Horizontal: Altura de los Atletas


In [15]:
alt.Chart(url,
         title="Correlación entre Peso y Estatura en Medallistas de Triatlón"
         ).mark_point(
).encode(
    x='Height:Q',
).transform_filter(
   (datum.Sport == 'Triathlon')
)

Codifiquemos un segundo canal canal:

- Canal Posición Vertical: Peso de los Atletas


In [16]:
alt.Chart(url,
         title="Correlación entre Peso y Estatura en Medallistas de Triatlón"
         ).mark_point(
).encode(
    alt.X('Height:Q',
         axis=alt.Axis(title="Estatura")),
    alt.Y('Weight:Q',
         axis=alt.Axis(title="Peso"))
).transform_filter(
     (datum.Sport == 'Triathlon')  #Esta es una forma sencilla de filtrar usando datum.variable
)

Ya tenemos a los atletas que han participado en Triatlón pero no sabemos quién ganó medallas.

**¿Cómo se les ocurre meter esa información en la gráfica?**


In [17]:
alt.Chart(url,
         title="Correlación entre Peso y Estatura en Medallistas de Triatlón"
         ).mark_point(
).encode(
    alt.X('Height:Q',
         axis=alt.Axis(title="Estatura (cm)")),
    alt.Y('Weight:Q',
         axis=alt.Axis(title="Peso (kg)")),
    alt.Color('Medal:N',
             scale = alt.Scale(range=[ "#FEE101", "#A7A7AD","#D6AF36"]), 
             legend = alt.Legend(title="Medalla"),
             sort = ["Gold","Silver","Bronze"]
             )
   # Esta es otra forma de filtrar usando Predicados.  
).transform_filter(   
   { 'and': [ alt.FieldOneOfPredicate(field='Medal', oneOf=['Gold','Silver','Bronze']),
             alt.FieldEqualPredicate(field='Sport', equal="Triathlon"),
#             alt.FieldEqualPredicate(field='Sex', equal="M"),            
            ] }
)

In [None]:
df_data[:3]

In [18]:
alt.Chart(url,
         title="Correlación entre Peso y Estatura en Medallistas de Triatlón"
         ).mark_point(
).encode(
    alt.X('Height:Q',
         axis=alt.Axis(title="Estatura (cm)")),
    alt.Y('Weight:Q',
         axis=alt.Axis(title="Peso (kg)")),
    alt.Color('Medal:N',
             #scale = alt.Scale(range=[ "#FEE101", "#A7A7AD","#D6AF36"]), 
             legend = alt.Legend(title="Medalla"),
             sort = ["Gold","Silver","Bronze"]
             ),
    alt.Shape('Sex:O')
   # Esta es otra forma de filtrar usando Predicados.  
    ).transform_filter(   
       { 'and': [ alt.FieldOneOfPredicate(field='Medal', oneOf=['Gold','Silver','Bronze']),
                 alt.FieldEqualPredicate(field='Sport', equal="Triathlon"),
    #             alt.FieldEqualPredicate(field='Sex', equal="M"),            
                ] }
    ).interactive()

**Protip**: No siempre hay que empezar los ejes en cero. Se suele aconsejar que se incluya el cero, especialmente en el eje vertical, cuando se trabajan con gráficas que implican variaciones en el tiempo. Sin embargo, a veces, como en este caso, sólo dificultan la lectura.

In [19]:
chart = alt.Chart(url,
         title="Correlación entre Peso y Estatura en Medallistas de Triatlón"
         ).mark_point(
).encode(
    alt.X('Height:Q',
         axis=alt.Axis(title="Estatura (cm)"),
         scale = alt.Scale(zero=False)),
    alt.Y('Weight:Q',
         axis=alt.Axis(title="Peso (kg)"),
         scale = alt.Scale(zero=False,padding=10)),
    alt.Color('Medal:N',
             #scale = alt.Scale(range=[ "#FEE101", "#A7A7AD","#D6AF36"]), 
             legend = alt.Legend(title="Medalla"),
             sort = ["Gold","Silver","Bronze"]
             ),
    alt.Shape('Sex:O')
   # Esta es otra forma de filtrar usando Predicados.  
).transform_filter(   
   { 'and': [ alt.FieldOneOfPredicate(field='Medal', oneOf=['Gold','Silver','Bronze']),
             alt.FieldEqualPredicate(field='Sport', equal="Triathlon")
            ] }
)

chart.configure_title(
    fontSize=20,
    color='#2A313C'
)

## Veamos otras gráficas un poco más interesantes

### Slope graph

![alt text](./02Imagenes/slope-ejemplo.jpg)

In [42]:
# Slope Graph
alt.Chart(url
         ).mark_line(
).encode(
    alt.Y('count(ID):Q'),
    alt.X('Year:O'),
    alt.Color('Team:N')
).transform_filter(   
   { 'and': [ alt.FieldOneOfPredicate(field='Medal', oneOf=['Gold','Silver','Bronze']),
             alt.FieldOneOfPredicate(field='Team', oneOf=['China','Germany','United States',"Rusia","Japan"]),
             alt.FieldOneOfPredicate(field='Year', oneOf=['2004','2008'])
            ] }).configure_view(
    strokeWidth=0
).properties(width=300)


### Stripplot

In [44]:
stripplot =  alt.Chart(url, 
                       width=40,
                      title="Altura de Atletas por País"
                      ).mark_circle(size=15,
                                   fillOpacity=.3).encode(
    x=alt.X(
        'jitter:Q',
        title=None,
        axis=alt.Axis(values=[0], 
                      ticks=True, 
                      grid=False, 
                      labels=False,
                      ),
        scale=alt.Scale(),
    ),
    y=alt.Y('Height:Q',
            axis = alt.Axis(title="Altura (cm)"),
            scale = alt.Scale(zero=False)
           ),
    color=alt.Color('Team:N', legend=None),
    column=alt.Column(
        'Team:N',
        header=alt.Header(
            labelAngle=0,
            titleOrient='bottom',
            labelOrient='bottom',
            labelAlign='center',
            labelPadding=10,
            title="Equipo"
        ),
    ),
).transform_calculate(
    # Generate Gaussian jitter with a Box-Muller transform
    jitter='sqrt(-2*log(random()))*cos(2*PI*random())'
).transform_filter(   
   { 'and': [ 
       #alt.FieldOneOfPredicate(field='Medal', oneOf=['Gold','Silver','Bronze']),
             alt.FieldOneOfPredicate(field='Team', oneOf=['China','Germany','United States',"Russia","Japan"])
             
            ] }).configure_facet(
    spacing=0
).configure_view(
    stroke=None
).properties(width=100)

stripplot

### Heatmap

In [27]:
alt.Chart(
    url,
    title="Distribución de Edades por País en los JJOO"
).mark_rect(
).encode(
    x='Team:N',
    y='Age:N',
    color=alt.Color('count(ID):Q', scale=alt.Scale(scheme="inferno")),
    tooltip=[
        alt.Tooltip('count(ID):Q', title='Atletas'),
        alt.Tooltip('Team:N', title='Equipo')
    ]
).transform_filter(   
   { 'and': [ # alt.FieldOneOfPredicate(field='Year', oneOf=['2012']),
              alt.FieldOneOfPredicate(field='Team', oneOf=['China','Germany','United States',"Russia","Japan","France",""]),
              alt.FieldRangePredicate(field='Age', range=[15,35])] }
).configure_view(
    strokeWidth=0
).properties(width=400)
