# Visualización de Datos con Python

## Proyecto Final: Creación de un Tablero de Datos Interactivo con Dash

El objetivo de este proyecto es desarrollar un tablero de datos interactivo utilizando la biblioteca [Dash](https://dash.plotly.com/) en Python. Para ello se pone a disposición un conjunto de datos histórico sobre los Juegos Olímpicos modernos para construir visualizaciones significativas y permitir interacciones con el usuario.


### Dataset

El archivo `juegos_olimpicos.csv` contiene información sobre atletas que compitieron en los Juegos Olímpicos modernos desde Atenas 1896 hasta Río de Janeiro 2016. Este dataset ha sido obtenido de [www.sports-reference.com](http://www.sports-reference.com).


### Diccionario de Datos

| Nombre de columna | Descripción |
|-------------------|-------------|
| ID                | Identificador único para cada atleta |
| Name              | Nombre del atleta |
| Sex               | Sexo |
| Age               | Edad |
| Height            | Altura en centímetros |
| Weight            | Peso en kilogramos |
| Team              | Equipo |
| NOC               | Comité Olímpico Nacional (código de tres letras) |
| Games             | Año y temporada de los juegos |
| Season            | Temporada (invierno o verano) |
| City              | Ciudad |
| Sport             | Deporte |
| Event             | Evento |
| Medal             | Medalla (Oro, Plata, Bronce o NaN si no ganó medalla) |


### Requisitos del Dashboard

1. **Gráfico de Barras**:
   - Mostrar los top *K* países por número de medallas.
   - El usuario debe poder seleccionar el número *k* con un menú desplegable para introducir números enteros, el tipo de medalla (*oro*, *plata*, *bronce*) mediante *checkboxes*, y la disciplina mediante otro menú desplegable, el cual debe incluir la opción "Todas" para contabilizar medallas de todas las disciplinas.

2. **Participación por Sexo**:
   - Visualización de la participación de mujeres versus hombres, graficando con un scatter plot, donde cada punto representará la cantidad de hombres en el eje horizontal, y la cantidad de mujeres en el eje vertical, para cada país. Los puntos correspondientes a cada año deberán tener colores distintos.
   - Incluir una barra deslizante para seleccionar un rango de años.
   - Bonus: Incluir una regresión lineal para ajustar los puntos correspondientes a cada año (Ayuda: Usar `seaborn.regplot`).

3. **Representación Geográfica**:
   - Graficar un planisferio que muestre la distribución de número de atletas (de todas las disciplinas) por país.
   - Implementar callbacks para permitir interactividad para filtrar por año mediante un menú desplegable.
   - Ayuda: Pueden usar la función `choropleth` de Plotly

4. **Distribución de Edad por Sexo**:
   - Realizar dos histogrames en un mismo gráfico mostrando la distribución de edad para cada sexo y para cada disciplina.
   - Utilizar callbacks para permitir al usuario seleccionar diferentes deportes mediante un menú desplegable que incluya la opción "Todos", y filtrar por rango de años mediante una barra deslizante.

5. **Bonus (Opcional)**:
   - Añadir características adicionales al dashboard que mejoren la visualización o interactividad. Esto puede incluir gráficos adicionales, filtros avanzados, etc.
   - Si bien es opcional, suma puntos.


### Evaluación

Se valorará especialmente:

1. **Selección y Presentación de Gráficos**:
   - Asegurarse de que los gráficos sean claros y bien etiquetados (tamaño adecuado, ejes, títulos, etc.).

2. **Implementación de Callbacks**:
   - Uso correcto de callbacks para la interactividad del tablero.

3. **Usabilidad**:
   - El tablero debe ser responsive, asegurando una buena visualización en dispositivos móviles.
   - Disposición lógica y estética de los componentes.


### Entregables

- **Notebook**: Debe contener todo el código necesario para generar el dashboard.
- Instrucciones claras para la instalación de paquetes y ejecución del código.
- El profesor debe poder ejecutar todas las celdas del notebook y visualizar el dashboard, ya sea inline o en una pestaña aparte.


### Implmentacion

0. **Carga de librerias, datos y tratamiento de datos**:

In [1]:
# Dash app original

import plotly.io as pio
import dash_bootstrap_components as dbc
import numpy as np

import pandas as pd
import plotly.express as px
from dash import Dash
from dash import dcc
from dash import html
from dash.dependencies import Input, Output

stylesheet = [dbc.themes.BOOTSTRAP]

In [2]:
# Carga inicial de datos
competidores = pd.read_csv("juegos_olimpicos.csv",index_col=0, parse_dates=True,date_format='mixed')
competidores.head()

Unnamed: 0_level_0,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


In [3]:
competidores.info()

<class 'pandas.core.frame.DataFrame'>
Index: 271116 entries, 1 to 135571
Data columns (total 14 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Name    271116 non-null  object 
 1   Sex     271116 non-null  object 
 2   Age     261642 non-null  float64
 3   Height  210945 non-null  float64
 4   Weight  208241 non-null  float64
 5   Team    271116 non-null  object 
 6   NOC     271116 non-null  object 
 7   Games   271116 non-null  object 
 8   Year    271116 non-null  int64  
 9   Season  271116 non-null  object 
 10  City    271116 non-null  object 
 11  Sport   271116 non-null  object 
 12  Event   271116 non-null  object 
 13  Medal   39783 non-null   object 
dtypes: float64(3), int64(1), object(10)
memory usage: 31.0+ MB


In [4]:
competidores.describe()

Unnamed: 0,Age,Height,Weight,Year
count,261642.0,210945.0,208241.0,271116.0
mean,25.556898,175.33897,70.702393,1978.37848
std,6.393561,10.518462,14.34802,29.877632
min,10.0,127.0,25.0,1896.0
25%,21.0,168.0,60.0,1960.0
50%,24.0,175.0,70.0,1988.0
75%,28.0,183.0,79.0,2002.0
max,97.0,226.0,214.0,2016.0


In [5]:
competidores.duplicated(keep='first').unique()

array([False,  True])

In [6]:
#  Listado de los valores duplicados
competidores[competidores.duplicated(keep="first")]

Unnamed: 0_level_0,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
704,Dsir Antoine Acket,M,27.0,,,Belgium,BEL,1932 Summer,1932,Summer,Los Angeles,Art Competitions,"Art Competitions Mixed Painting, Unknown Event",
2449,William Truman Aldrich,M,48.0,,,United States,USA,1928 Summer,1928,Summer,Amsterdam,Art Competitions,"Art Competitions Mixed Painting, Drawings And ...",
2449,William Truman Aldrich,M,48.0,,,United States,USA,1928 Summer,1928,Summer,Amsterdam,Art Competitions,"Art Competitions Mixed Painting, Drawings And ...",
2777,Hermann Reinhard Alker,M,43.0,,,Germany,GER,1928 Summer,1928,Summer,Amsterdam,Art Competitions,"Art Competitions Mixed Architecture, Designs F...",
2777,Hermann Reinhard Alker,M,43.0,,,Germany,GER,1928 Summer,1928,Summer,Amsterdam,Art Competitions,"Art Competitions Mixed Architecture, Architect...",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
135072,Anna Katrina Zinkeisen (-Heseltine),F,46.0,,,Great Britain,GBR,1948 Summer,1948,Summer,London,Art Competitions,"Art Competitions Mixed Painting, Paintings",
135072,Anna Katrina Zinkeisen (-Heseltine),F,46.0,,,Great Britain,GBR,1948 Summer,1948,Summer,London,Art Competitions,"Art Competitions Mixed Painting, Paintings",
135072,Anna Katrina Zinkeisen (-Heseltine),F,46.0,,,Great Britain,GBR,1948 Summer,1948,Summer,London,Art Competitions,"Art Competitions Mixed Painting, Unknown Event",
135073,Doris Clare Zinkeisen (-Johnstone),F,49.0,,,Great Britain,GBR,1948 Summer,1948,Summer,London,Art Competitions,"Art Competitions Mixed Painting, Unknown Event",


In [7]:
# Eliminamos los duplicados, que coinciden en toda la fila
competidores.drop_duplicates(keep="first", inplace=True)
competidores.shape

(269731, 14)

In [8]:
# Verificacion de nulos
competidores.isna().sum()

Name           0
Sex            0
Age         9315
Height     58814
Weight     61527
Team           0
NOC            0
Games          0
Year           0
Season         0
City           0
Sport          0
Event          0
Medal     229959
dtype: int64

*Tratamientos de nulos correspondientes*

In [9]:
# Columna Age
#Tratamos de obtener la mejor media posible
competidores['Age'] = competidores['Age'].fillna(competidores.groupby(['Sex', 'Year','Season','Sport','Event'],observed = True)['Age'].transform('mean'))
# Quitamos algunas restricciones para poder disminuir los nulos
competidores['Age'] = competidores['Age'].fillna(competidores.groupby([ 'Year', 'Season','Sport','Event'],observed = True)['Age'].transform('mean'))
# Asignamos valores a todos los na de edad
competidores['Age'] = competidores['Age'].fillna(competidores.groupby([ 'Year', 'Season', 'Sport'],observed = True)['Age'].transform('mean'))

In [10]:
# Columna Height
# Tratamos de obtener la mejor media posible
competidores['Height'] = competidores['Height'].fillna(competidores.groupby(['Sex', 'Year', 'Season', 'Sport', 'Event'], observed = True)['Height'].transform('mean'))
# Quitamos algunas restricciones para poder disminuir los nulos
competidores['Height'] = competidores['Height'].fillna(competidores.groupby(['Sex'], observed = True)['Height'].transform('mean'))

In [11]:
# Columna Weight
# Tratamos de obtener la mejor media posible
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex', 'Year', 'Season', 'Sport', 'Event'], observed=True)['Weight'].transform('mean'))
# Quitamos algunas restricciones para poder disminuir los nulos
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex', 'Year', 'Season', 'Sport'], observed=True)['Weight'].transform('mean'))
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex', 'Year', 'Season'], observed=True)['Weight'].transform('mean'))
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex', 'Year'], observed=True)['Weight'].transform('mean'))
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex'], observed=True)['Weight'].transform('mean'))

In [12]:
# Columna Medal
# Tratamos de obtener la mejor media posible
competidores['Medal'] = competidores['Medal'].fillna(value='Ninguna')

*Transformacion de tipos de datos de columnas*

In [13]:
# Columna Name
competidores['Name'] = str(competidores['Name'])

In [14]:
# Columna Sex
competidores['Sex'] = competidores['Sex'].astype('category')

In [15]:
# Columna Age
competidores['Age'] = np.floor(competidores['Age']).astype('int')

In [16]:
# Columna Team
competidores['Team'] = competidores['Team'].astype('category')

In [17]:
# Columna NOC
competidores['NOC'] = str(competidores['NOC'])

In [18]:
# Columna Year
competidores['Year'] = competidores['Year'].astype('int')

In [19]:
# Columna Season
competidores['Season'] = competidores['Season'].astype('category')

In [20]:
# Columna City
competidores['City'] = competidores['City'].astype('category')

In [21]:
# Columna Sport
competidores['Sport'] = competidores['Sport'].astype('category')

In [22]:
# Columna Event
competidores['Event'] = competidores['Event'].astype('category')

In [23]:
# Columna Medal
competidores['Medal'] = competidores['Medal'].astype('category')

***Creacion del dash ***

In [33]:
# stylesheet = ['https://codepen.io/chriddyp/pen/bWLwgP.css']
# external JavaScript files
external_scripts = [
    'https://www.google-analytics.com/analytics.js',
    {'src': 'https://cdn.polyfill.io/v2/polyfill.min.js'},
    {
        'src': 'https://cdnjs.cloudflare.com/ajax/libs/lodash.js/4.17.10/lodash.core.js',
        'integrity': 'sha256-Qqd/EfdABZUcAxjOkMi8eGEivtdTkh3b65xCZL4qAQA=',
        'crossorigin': 'anonymous'
    }
]

# external CSS stylesheets
external_stylesheets = [
    'https://codepen.io/chriddyp/pen/bWLwgP.css',
    {
        'href': 'https://stackpath.bootstrapcdn.com/bootstrap/4.1.3/css/bootstrap.min.css',
        'rel': 'stylesheet',
        'integrity': 'sha384-MCw98/SFnGE8fJT3GXwEOngsV7Zt27NXFoaoApmYm81iuXoPkFOJwJ8ERdknLPMO',
        'crossorigin': 'anonymous'
    }
]

def div_con_tamaño(children=[], font_size: int = 14, id: str = "undefined"):
    return html.Div(children=children, id=id, style={"fontSize": f"{font_size}px"})


cat_medallas = competidores['Medal'].unique().tolist()
cat_medallas.remove('Ninguna')
cat_medallas = sorted(cat_medallas)
cat_medallas

cat_deporte = competidores['Sport'].unique().tolist()
cat_deporte.append('Todas')
cat_deporte = sorted(cat_deporte)
cat_deporte



cant_paises= []
i=1
while(i<=competidores['Team'].nunique()):
    cant_paises.append(str(i))
    i=i+1
    
app_dash = Dash(__name__, external_scripts=external_scripts,
                external_stylesheets=external_stylesheets)




app_dash.layout = html.Div(
    
    children=[
        html.Div(
            children=[
                html.H1('Datos de los juegos olimpicos'),
                dcc.Tabs(id="tabs", value='Datos 1', children=[                    
                        dcc.Tab(label='Medallas por paises', value='Punto1',
                                children=[                                    
                                    dcc.Checklist(id='chk_cat_medalla',options=cat_medallas,value=cat_medallas, inline= True,labelStyle={'padding':'3px'}),
                                    dcc.Dropdown(options=cant_paises, value='5', id='cmb_cant_pais'),
                                    dcc.Dropdown(options=cat_deporte, value='Todas', id='cmb_deportes')
                                    
                                ]),
                    dcc.Tab(label='Pestaña_2', value='Punto2'),
                    
                ])
            ]
        ),
        html.Div(id='contenido')
    ]
)


@app_dash.callback(Output('contenido', 'children'), 
                   [
                       Input('tabs', 'value'),
                       Input('chk_cat_medalla', 'value'),
                       Input('cmb_cant_pais', 'value'),
                       Input('cmb_deportes', 'value'),
                   ]                   
                   )
def render_content(tab,cat_medalla,cantidad,deporte,data=competidores):
    print(f"Deporte = {deporte}")
    if (tab == 'Punto1'):
        if(len(cat_medalla)!=0):
            data = None
            for m in cat_medalla:
                if(deporte=='Todas'):
                    data = pd.concat(
                        [
                            data,
                            competidores.loc[competidores['Medal']==m].groupby(['Team', "Medal"], observed=True).agg(Cantidad=('Medal', 'count')).reset_index().sort_values(by='Cantidad', ascending=False).head(int(cantidad))
                        ])
                else:
                    data = pd.concat(
                        [
                            data,
                            competidores.loc[((competidores['Medal'] == m) & (competidores['Sport']==deporte))].groupby(['Team', "Medal"], observed=True).agg(Cantidad=(
                                'Medal', 'count')).reset_index().sort_values(by='Cantidad', ascending=False).head(int(cantidad))
                        ])
            fig = px.bar(data_frame=data, x="Team",y='Cantidad', color='Medal', height=400)
            return html.Div([
                html.H3(f"Los primeros {cantidad} paises con medallas de categoria: {', '.join(
                    cat_medalla)}, para {deporte}."),
                dcc.Graph(figure=fig)
            ])        
        else:
            return html.Div([
                html.H6("Seleccione una categoria de medalla")
            ])

if __name__ == '__main__':
    app_dash.run_server(debug=True, jupyter_mode="external")

Dash app running on http://127.0.0.1:8050/


Deporte = Todas
Deporte = Todas
Deporte = Todas
Deporte = Todas
Deporte = Table Tennis
Deporte = Table Tennis
Deporte = Table Tennis


In [25]:
k=2

tmp = competidores.groupby(['Team',"Medal"],observed = True)[['Team',"Medal"]].agg(Cantidad_de_Medallas=('Medal','count')).reset_index().sort_values(by='Cantidad_de_Medallas', ascending=False).head(k)
# competidores.groupby(['Team', "Medal",'Cantidad_de_Medallas'], observed = True).apply(lambda x: x.iloc[0])
tmp.groupby(['Team', "Medal", 'Cantidad_de_Medallas'],observed=True)[
    ['Team', "Medal", 'Cantidad_de_Medallas']].nth(2)

Unnamed: 0,Team,Medal,Cantidad_de_Medallas


In [26]:
competidores.loc[competidores['Medal'] == 'Gold'].groupby(['Team',"Medal"], observed=True).agg(Cantidad=('Medal', 'count')).reset_index().sort_values(by='Cantidad', ascending=False).head(3)

Unnamed: 0,Team,Medal,Cantidad
224,United States,Gold,2474
200,Soviet Union,Gold,1058
87,Germany,Gold,679
