# Visualización de Datos con Python

## Proyecto Final: Creación de un Tablero de Datos Interactivo con Dash

El objetivo de este proyecto es desarrollar un tablero de datos interactivo utilizando la biblioteca [Dash](https://dash.plotly.com/) en Python. Para ello se pone a disposición un conjunto de datos histórico sobre los Juegos Olímpicos modernos para construir visualizaciones significativas y permitir interacciones con el usuario.


### Dataset

El archivo `juegos_olimpicos.csv` contiene información sobre atletas que compitieron en los Juegos Olímpicos modernos desde Atenas 1896 hasta Río de Janeiro 2016. Este dataset ha sido obtenido de [www.sports-reference.com](http://www.sports-reference.com).


### Diccionario de Datos

| Nombre de columna | Descripción |
|-------------------|-------------|
| ID                | Identificador único para cada atleta |
| Name              | Nombre del atleta |
| Sex               | Sexo |
| Age               | Edad |
| Height            | Altura en centímetros |
| Weight            | Peso en kilogramos |
| Team              | Equipo |
| NOC               | Comité Olímpico Nacional (código de tres letras) |
| Games             | Año y temporada de los juegos |
| Season            | Temporada (invierno o verano) |
| City              | Ciudad |
| Sport             | Deporte |
| Event             | Evento |
| Medal             | Medalla (Oro, Plata, Bronce o NaN si no ganó medalla) |


### Requisitos del Dashboard

1. **Gráfico de Barras**:
   - Mostrar los top *K* países por número de medallas.
   - El usuario debe poder seleccionar el número *k* con un menú desplegable para introducir números enteros, el tipo de medalla (*oro*, *plata*, *bronce*) mediante *checkboxes*, y la disciplina mediante otro menú desplegable, el cual debe incluir la opción "Todas" para contabilizar medallas de todas las disciplinas.

2. **Participación por Sexo**:
   - Visualización de la participación de mujeres versus hombres, graficando con un scatter plot, donde cada punto representará la cantidad de hombres en el eje horizontal, y la cantidad de mujeres en el eje vertical, para cada país. Los puntos correspondientes a cada año deberán tener colores distintos.
   - Incluir una barra deslizante para seleccionar un rango de años.
   - Bonus: Incluir una regresión lineal para ajustar los puntos correspondientes a cada año (Ayuda: Usar `seaborn.regplot`).

3. **Representación Geográfica**:
   - Graficar un planisferio que muestre la distribución de número de atletas (de todas las disciplinas) por país.
   - Implementar callbacks para permitir interactividad para filtrar por año mediante un menú desplegable.
   - Ayuda: Pueden usar la función `choropleth` de Plotly

4. **Distribución de Edad por Sexo**:
   - Realizar dos histogrames en un mismo gráfico mostrando la distribución de edad para cada sexo y para cada disciplina.
   - Utilizar callbacks para permitir al usuario seleccionar diferentes deportes mediante un menú desplegable que incluya la opción "Todos", y filtrar por rango de años mediante una barra deslizante.

5. **Bonus (Opcional)**:
   - Añadir características adicionales al dashboard que mejoren la visualización o interactividad. Esto puede incluir gráficos adicionales, filtros avanzados, etc.
   - Si bien es opcional, suma puntos.


### Evaluación

Se valorará especialmente:

1. **Selección y Presentación de Gráficos**:
   - Asegurarse de que los gráficos sean claros y bien etiquetados (tamaño adecuado, ejes, títulos, etc.).

2. **Implementación de Callbacks**:
   - Uso correcto de callbacks para la interactividad del tablero.

3. **Usabilidad**:
   - El tablero debe ser responsive, asegurando una buena visualización en dispositivos móviles.
   - Disposición lógica y estética de los componentes.


### Entregables

- **Notebook**: Debe contener todo el código necesario para generar el dashboard.
- Instrucciones claras para la instalación de paquetes y ejecución del código.
- El profesor debe poder ejecutar todas las celdas del notebook y visualizar el dashboard, ya sea inline o en una pestaña aparte.


### Implmentacion

0. **Carga de librerias, datos y tratamiento de datos**:

In [None]:
# Dash app original

import plotly.io as pio
import dash_bootstrap_components as dbc
import numpy as np

import pandas as pd
import plotly.express as px
from dash import Dash
from dash import dcc
from dash import html
from dash import ctx,callback
from dash.dependencies import Input, Output

stylesheet = [dbc.themes.BOOTSTRAP]

In [None]:
# Carga inicial de datos
competidores = pd.read_csv("juegos_olimpicos.csv",index_col=0, parse_dates=True,date_format='mixed')
competidores.head()

In [None]:
competidores.info()

In [None]:
competidores.describe()

In [None]:
competidores.duplicated(keep='first').unique()

In [None]:
#  Listado de los valores duplicados
competidores[competidores.duplicated(keep="first")]

In [None]:
# Eliminamos los duplicados, que coinciden en toda la fila
competidores.drop_duplicates(keep="first", inplace=True)
competidores.shape

In [None]:
# Verificacion de nulos
competidores.isna().sum()

*Tratamientos de nulos correspondientes*

In [None]:
# Columna Age
#Tratamos de obtener la mejor media posible
competidores['Age'] = competidores['Age'].fillna(competidores.groupby(['Sex', 'Year','Season','Sport','Event'],observed = True)['Age'].transform('mean'))
# Quitamos algunas restricciones para poder disminuir los nulos
competidores['Age'] = competidores['Age'].fillna(competidores.groupby([ 'Year', 'Season','Sport','Event'],observed = True)['Age'].transform('mean'))
# Asignamos valores a todos los na de edad
competidores['Age'] = competidores['Age'].fillna(competidores.groupby([ 'Year', 'Season', 'Sport'],observed = True)['Age'].transform('mean'))

In [None]:
# Columna Height
# Tratamos de obtener la mejor media posible
competidores['Height'] = competidores['Height'].fillna(competidores.groupby(['Sex', 'Year', 'Season', 'Sport', 'Event'], observed = True)['Height'].transform('mean'))
# Quitamos algunas restricciones para poder disminuir los nulos
competidores['Height'] = competidores['Height'].fillna(competidores.groupby(['Sex'], observed = True)['Height'].transform('mean'))

In [None]:
# Columna Weight
# Tratamos de obtener la mejor media posible
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex', 'Year', 'Season', 'Sport', 'Event'], observed=True)['Weight'].transform('mean'))
# Quitamos algunas restricciones para poder disminuir los nulos
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex', 'Year', 'Season', 'Sport'], observed=True)['Weight'].transform('mean'))
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex', 'Year', 'Season'], observed=True)['Weight'].transform('mean'))
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex', 'Year'], observed=True)['Weight'].transform('mean'))
competidores['Weight'] = competidores['Weight'].fillna(competidores.groupby(['Sex'], observed=True)['Weight'].transform('mean'))

In [None]:
# Columna Medal
# Tratamos de obtener la mejor media posible
competidores['Medal'] = competidores['Medal'].fillna(value='Ninguna')

*Transformacion de tipos de datos de columnas*

In [None]:
# Columna Name
competidores['Name'] = str(competidores['Name'])

In [None]:
# Columna Sex
competidores['Sex'] = competidores['Sex'].astype('category')

In [None]:
# Columna Age
competidores['Age'] = np.floor(competidores['Age']).astype('int')

In [None]:
# Columna Team
competidores['Team'] = competidores['Team'].astype('category')

In [None]:
# Columna Year
competidores['Year'] = competidores['Year'].astype('int')

In [None]:
# Columna Season
competidores['Season'] = competidores['Season'].astype('category')

In [None]:
# Columna City
competidores['City'] = competidores['City'].astype('category')

In [None]:
# Columna Sport
competidores['Sport'] = competidores['Sport'].astype('category')

In [None]:
# Columna Event
competidores['Event'] = competidores['Event'].astype('category')

In [None]:
# Columna Medal
competidores['Medal'] = competidores['Medal'].astype('category')

**Creacion del dash**

In [None]:
# stylesheet = ['https://codepen.io/chriddyp/pen/bWLwgP.css']
# external JavaScript files
external_scripts = [
    'https://www.google-analytics.com/analytics.js',
    {'src': 'https://cdn.polyfill.io/v2/polyfill.min.js'},
    {
        'src': 'https://cdnjs.cloudflare.com/ajax/libs/lodash.js/4.17.10/lodash.core.js',
        'integrity': 'sha256-Qqd/EfdABZUcAxjOkMi8eGEivtdTkh3b65xCZL4qAQA=',
        'crossorigin': 'anonymous'
    }
]

# external CSS stylesheets
external_stylesheets = [
    'https://codepen.io/chriddyp/pen/bWLwgP.css',
    {
        'href': 'https://stackpath.bootstrapcdn.com/bootstrap/4.1.3/css/bootstrap.min.css',
        'rel': 'stylesheet',
        'integrity': 'sha384-MCw98/SFnGE8fJT3GXwEOngsV7Zt27NXFoaoApmYm81iuXoPkFOJwJ8ERdknLPMO',
        'crossorigin': 'anonymous'
    }
]


    
app_dash = Dash(__name__, external_scripts=external_scripts,
                external_stylesheets=external_stylesheets, suppress_callback_exceptions=True)


def run_server(self,
               port=8050,
               debug=True,
               threaded=True,
               **flask_run_options):
    self.server.run(port=port, debug=debug, **flask_run_options)

def div_con_tamaño(children=[], font_size: int = 14, id: str = "undefined"):
    return html.Div(children=children, id=id, style={"fontSize": f"{font_size}px"})






app_dash.layout = html.Div(
    
    children=[
        html.Div(
            children=[
                html.H1('Datos de los juegos olimpicos'),
                dcc.Tabs(id="tabs", value='Datos 1', children=[                    
                        dcc.Tab(label='Medallas por paises', value='Punto1'),
                        dcc.Tab(label='Participaciones por genero', value='Punto2'),
                        dcc.Tab(label='Representacion geografica', value='Punto3'),
                        dcc.Tab(label='Pestaña_4', value='Punto4')                    
                ])
            ]
        ),
        html.Div(id='contenido')
    ]
)


@app_dash.callback(Output('contenido', 'children'), 
                   [Input('tabs', 'value')]                   
                   )
def render_tabs_content(tab):    
    if (tab == 'Punto1'):        
        return html.Div(
            [
                html.H3(f"Medallas por paises."),
                dcc.Checklist(id='chk_cat_medalla',options=cat_medallas,value=cat_medallas, inline= False,labelStyle={'padding':'3px'}),
                dcc.Dropdown(options=cant_paises, value='5', id='cmb_cant_pais'),
                dcc.Dropdown(options=cat_deporte, value='Todas', id='cmb_deportes'),
                dcc.Graph(id='figura1')
            ]
        )
    elif(tab == 'Punto2'):        
        return html.Div(
            [
                html.H3(f"Participantes por sexo de cada pais, segun el año."),
                dcc.RangeSlider(min=año_minimo, max=año_maximo, step=1,  value=[
                                año_minimo, año_maximo], id='rang_Slider_años', updatemode='drag',marks=años, tooltip={
                    "always_visible": True,
                    "template": "{value}"
                }),
                dcc.Graph(id='figura2')
            ]
        )
    elif (tab == 'Punto3'):        
        return html.Div(
            [
                html.H3(f"Representacion geografica."),
                dcc.Dropdown(options=años_3, value=año_minimo_3, id='cmb_años3'),
                dcc.Graph(id='figura3')
            ]
        )
    else:
        return html.Div([
            html.H6("Seleccione una categoria de medalla")
        ])

In [None]:
# Operaciones para punto 1
cat_medallas = competidores['Medal'].unique().tolist()
cat_medallas.remove('Ninguna')
cat_medallas = sorted(cat_medallas)
cat_medallas

cat_deporte = competidores['Sport'].unique().tolist()
cat_deporte.append('Todas')
cat_deporte = sorted(cat_deporte)
cat_deporte


cant_paises = []
i = 1
while (i <= competidores['Team'].nunique()):
    cant_paises.append(str(i))
    i = i+1
@app_dash.callback(Output('figura1', 'figure'),
                   [
                       Input('chk_cat_medalla', 'value'),
                       Input('cmb_cant_pais', 'value'),
                       Input('cmb_deportes', 'value'),
                   ]
                   )
def actualizar_tab_1(cat_medalla,cantidad,deporte,data=competidores):
    data = None
    
    if (len(cat_medalla) != 0) and (cantidad!=None):        
        for m in cat_medalla:
            if (deporte == 'Todas'):
                data = pd.concat(
                    [
                        data,
                        competidores.loc[competidores['Medal'] == m].groupby(['NOC', "Medal"], observed=True).agg(Cantidad=('Medal', 'count')).reset_index().sort_values(by='Cantidad', ascending=False).head(int(cantidad))
                    ])
            
            else:
                data = pd.concat(
                    [
                        data,competidores.loc[((competidores['Medal'] == m) & (competidores['Sport'] == deporte))].groupby(['NOC', "Medal"], observed=True).agg(Cantidad=('Medal', 'count')).reset_index().sort_values(by='Cantidad', ascending=False).head(int(cantidad))
                        
                    ])
        fig = px.bar(data_frame=data, y="NOC", x='Cantidad',
                     color='Medal', height=400, barmode='group', orientation='h')
        fig.update_traces(marker_color="yellow", selector={"name": "Gold"})
        fig.update_traces(marker_color="brown", selector={"name": "Bronze"})
        fig.update_traces(marker_color="silver", selector={"name": "Silver"})
    else:
        fig = px.bar(data_frame=data)
        #fig.update_layout(transition_duration=500)
    return fig

In [None]:
# operaciones Punt 2
#**Participación por Sexo**:
#   - Visualización de la participación de mujeres versus hombres, graficando con un scatter plot, donde cada punto representará la cantidad de hombres en el eje horizontal, y la cantidad de mujeres en el eje vertical, para cada país. Los puntos correspondientes a cada año deberán tener colores distintos.
#   - Incluir una barra deslizante para seleccionar un rango de años.
#   - Bonus: Incluir una regresión lineal para ajustar los puntos correspondientes a cada año (Ayuda: Usar `seaborn.regplot`).

año_minimo=competidores['Year'].min()
año_maximo = competidores['Year'].max()
años = dict()
for y in competidores['Year'].unique():
    años[str(y)] = str(y)

@app_dash.callback(Output('figura2', 'figure'),
                   [
                       Input('rang_Slider_años', 'value')
                    ])
def actualizar_tab_2(rango, data_a_procesar=competidores):
    data = None
    px.scatter(data)
    if (len(rango) != 0):
        data = data_a_procesar.loc[:, ['Year', 'NOC', 'Sex']]
        data['Male']=np.where(data['Sex']=='M',1,0)
        data['Female']=np.where(data['Sex']=='F',1,0)
        data = data.loc[((data['Year'] >= rango[0]) & (data['Year'] <= rango[1]))].groupby(['Year', "NOC"], observed=True).agg(
            Female=('Female', 'sum'),
            Male=('Male', 'sum'),
            ).reset_index().sort_values(by='Year', ascending=False)
        data['Year'] = data['Year'].astype('str')
        fig = px.scatter(data, x="Male", y="Female", color="Year", trendline="ols")
    return fig

In [None]:
# Operaciones Punto 3
año_minimo_3=competidores['Year'].min()
año_maximo_3 = competidores['Year'].max()
años_3=sorted(list(competidores['Year'].unique()))
@app_dash.callback(Output('figura3', 'figure'),
                   [
                       Input('cmb_años3', 'value')
])
def actualizar_tab_2(value, data_a_procesar=competidores):
    data = None
    fig = px.scatter(data)
    if (value != None):
        data = data_a_procesar.loc[:, ['Year', 'NOC']]
        data = data.loc[(data['Year'] == int(value))].groupby(['Year', "NOC"], observed=True).agg(
            Participantes=('NOC', 'count')
        ).reset_index().sort_values(by='Year', ascending=False)
        fig = px.choropleth(data, locations="NOC",
                            color="Participantes",  # lifeExp is a column of gapminder
                            hover_name="NOC",  # column to add to hover information
                            color_continuous_scale=px.colors.sequential.Plasma)
    return fig

In [None]:
if __name__ == '__main__':
    app_dash.run_server(debug=True,port=8051, jupyter_mode="inline")