In [9]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

eventos = pd.read_csv("eventos.csv")
locacion = pd.read_csv("locacion.csv")
categorias = pd.read_csv("categorias_deportivas.csv")


In [10]:
eventos.head()

Unnamed: 0,id_evento,fecha,id_locacion,nombre_evento,id_categoria_deportiva,cantidad_espectadores
0,100,01/02/19,A,nombre1,101,100
1,101,01/02/19,B,nombre2,102,120
2,102,01/02/19,C,nombre3,103,300
3,103,01/02/19,D,nombre4,104,200
4,104,01/03/19,E,nombre5,105,120


In [11]:
locacion.head()

Unnamed: 0,locacion,nombre,capacidad,capacidad_extendida,sede
0,A,stream,200,210,1
1,B,karma,300,330,2
2,C,love,400,450,3
3,D,fear,500,610,4
4,E,marina,200,250,5


In [8]:
pd.merge(eventos, locacion, left_on = 'id_locacion', how = 'inner')

Unnamed: 0,id_evento,fecha,id_locacion,nombre_evento,id_categoria_deportiva,cantidad_espectadores,nombre,capacidad,capacidad_extendida,sede
0,100,01/02/19,A,nombre1,101,100,stream,200,210,1
1,109,01/03/19,A,nombre10,101,201,stream,200,210,1
2,112,01/04/19,A,nombre13,104,102,stream,200,210,1
3,116,01/04/19,A,nombre17,105,122,stream,200,210,1
4,122,01/05/19,A,nombre23,105,460,stream,200,210,1
5,101,01/02/19,B,nombre2,102,120,karma,300,330,2
6,110,01/03/19,B,nombre11,102,500,karma,300,330,2
7,111,01/03/19,B,nombre12,103,151,karma,300,330,2
8,117,01/04/19,B,nombre18,104,152,karma,300,330,2
9,123,01/05/19,B,nombre24,102,153,karma,300,330,2


In [39]:
categorias.head()

Unnamed: 0,id_categoria_deportiva,nombre,anio_de_adopcion
0,101,salto en largo,2015
1,102,salto en alto,2014
2,103,salto en salto,2018
3,104,salto en largo y alto,2016
4,105,saltos variados,2012


In [40]:
# Nombre de la sede que acumuló la mayor cantidad de espectadores en eventos durante
# el certamen del 2 al 3 de enero inclusive. Esto es de vital importancia para distribuir
# el merchandising oficial del evento, para las fechas finales.

#Paso a datetime
eventos['fecha'] = pd.to_datetime(eventos['fecha'])

#Primero filtro los eventos a aquellos que fueron el 2 y el 3 de enero

eventos_filtrado = eventos.loc[(eventos['fecha'].dt.month == 1) & 
                               ((eventos['fecha'].dt.day == 2) | (eventos['fecha'].dt.day == 3))]
eventos_filtrado.head(20)                    
                                                                   

Unnamed: 0,id_evento,fecha,id_locacion,nombre_evento,id_categoria_deportiva,cantidad_espectadores
0,100,2019-01-02,A,nombre1,101,100
1,101,2019-01-02,B,nombre2,102,120
2,102,2019-01-02,C,nombre3,103,300
3,103,2019-01-02,D,nombre4,104,200
4,104,2019-01-03,E,nombre5,105,120
5,105,2019-01-03,E,nombre6,105,150
6,106,2019-01-03,D,nombre7,104,101
7,107,2019-01-03,E,nombre8,103,121
8,108,2019-01-03,C,nombre9,102,301
9,109,2019-01-03,A,nombre10,101,201


In [41]:
espectadores_por_sede = eventos_filtrado.groupby('id_locacion').agg({'cantidad_espectadores' : sum}).reset_index()
espectadores_por_sede.sort_values('cantidad_espectadores', ascending = False, inplace = True)
espectadores_por_sede

Unnamed: 0,id_locacion,cantidad_espectadores
1,B,771
2,C,601
4,E,391
0,A,301
3,D,301


In [42]:
nombres_locacion = locacion.loc[:, {'id_locacion', 'nombre'}]
locaciones_populares = pd.merge(espectadores_por_sede, nombres_locacion, on = 'id_locacion', how = 'inner')
locaciones_populares.head()

Unnamed: 0,id_locacion,cantidad_espectadores,nombre
0,B,771,karma
1,C,601,love
2,E,391,marina
3,A,301,stream
4,D,301,fear


In [43]:
locaciones_populares.iloc[0,:]

id_locacion                  B
cantidad_espectadores      771
nombre                   karma
Name: 0, dtype: object

In [44]:
eventos.head()

Unnamed: 0,id_evento,fecha,id_locacion,nombre_evento,id_categoria_deportiva,cantidad_espectadores
0,100,2019-01-02,A,nombre1,101,100
1,101,2019-01-02,B,nombre2,102,120
2,102,2019-01-02,C,nombre3,103,300
3,103,2019-01-02,D,nombre4,104,200
4,104,2019-01-03,E,nombre5,105,120


In [46]:
capacidad_por_locacion = locacion.loc[:, {'id_locacion', 'capacidad_extendida'}]


df = pd.merge(eventos, capacidad_por_locacion, on = 'id_locacion', how = 'left')
df.head()

Unnamed: 0,id_evento,fecha,id_locacion,nombre_evento,id_categoria_deportiva,cantidad_espectadores,capacidad_extendida
0,100,2019-01-02,A,nombre1,101,100,210
1,101,2019-01-02,B,nombre2,102,120,330
2,102,2019-01-02,C,nombre3,103,300,450
3,103,2019-01-02,D,nombre4,104,200,610
4,104,2019-01-03,E,nombre5,105,120,250


In [48]:
eventos_excedidos = df.loc[ df['cantidad_espectadores'] > df['capacidad_extendida']]
eventos_excedidos.head()

Unnamed: 0,id_evento,fecha,id_locacion,nombre_evento,id_categoria_deportiva,cantidad_espectadores,capacidad_extendida
10,110,2019-01-03,B,nombre11,102,500,330
22,122,2019-01-05,A,nombre23,105,460,210


In [52]:
nombres_categoria = categorias.loc[:, {'id_categoria_deportiva', 'nombre'}]

nombres_excedidos = pd.merge(eventos_excedidos, nombres_categoria, on= 'id_categoria_deportiva',
                                how = 'left')

nombres_excedidos.rename(columns = {'nombre' : 'nombre_categoria'}, inplace = True)

nombres_excedidos.head()

Unnamed: 0,id_evento,fecha,id_locacion,nombre_evento,id_categoria_deportiva,cantidad_espectadores,capacidad_extendida,nombre_categoria
0,110,2019-01-03,B,nombre11,102,500,330,salto en alto
1,122,2019-01-05,A,nombre23,105,460,210,saltos variados


In [53]:
nombres_excedidos.loc[:, {'nombre_evento', 'nombre_categoria'}]

Unnamed: 0,nombre_evento,nombre_categoria
0,nombre11,salto en alto
1,nombre23,saltos variados
