# Trabajo final

En cada celda de código se explica mediante comentarios qué hacer y cómo. 

Respetad los huecos entre comentarios para rellenar con código lo que se pide justo debajo de cada comentario. 

1. Consulta y filtrado de valores nulos (1 puntos)
2. Consultas con Query (2.5 puntos)
3. Consultas indexación booleana (1 punto)
3. Discretización y Variables dummies (1.5 puntos)
4. Union de datasets, agrupamiento y más consultas con grupos (3 puntos)
6. Consultas libres (1 puntos)

## 1 Carga modificación y filtrado de nulos

In [5]:
import pandas as pd

# importar medallas_jjoo.csv
medallas = pd.read_csv("medallas_jjoo.csv")

# muestra el tamaño del dataset
print(medallas.shape)   

# mostrar las primeras filas de medallas para comprender su estructura y comprobar la importación
medallas.head()

(1344, 8)


Unnamed: 0,Year,Host_country,Host_city,Country_Name,Country_Code,Gold,Silver,Bronze
0,1896,Greece,Athens,Great Britain,GBR,2,3,2
1,1896,Greece,Athens,Hungary,HUN,2,1,3
2,1896,Greece,Athens,France,FRA,5,4,2
3,1896,Greece,Athens,United States,USA,11,7,2
4,1896,Greece,Athens,Germany,GER,6,5,2


In [6]:
# comprobar los si existen valores nulos, cuántos son y en qué columnas
medallas.isnull().sum()

Year             0
Host_country     0
Host_city        0
Country_Name     0
Country_Code    86
Gold             0
Silver           0
Bronze           0
dtype: int64

In [7]:
# Vamos a eliminar la columna country_code que además es la que tiene nulos
medallas = medallas.drop(columns=['Country_Code'])


# Las columnas son renombradas a españo: año, host_pais, host_ciudad, pais, oro, plata bronce
# host se refiere a la ciudad o pais organizador de los juegos
medallas.columns = ['año', 'host_pais', 'host_ciudad', 'pais', 'oro', 'plata', 'bronce']


# mostramos las primeras filas para comprobar que la eliminación y renombrado de columnas ha sido correcto
medallas.head()

Unnamed: 0,año,host_pais,host_ciudad,pais,oro,plata,bronce
0,1896,Greece,Athens,Great Britain,2,3,2
1,1896,Greece,Athens,Hungary,2,1,3
2,1896,Greece,Athens,France,5,4,2
3,1896,Greece,Athens,United States,11,7,2
4,1896,Greece,Athens,Germany,6,5,2


In [8]:
# Comprueba si existen filas duplicadas
medallas.duplicated().sum()

np.int64(0)

## 2. Consultas query 
Realiza las consultas de cada comentario utilizando query. 

Algunas necesitarán alguna acción más, como filtrar una columna y alguna operación, ordenar valores, etc. 

 

In [9]:
# Consulta 1: Mostrar el número y tipo de medallas España en los JJOO de Barcelona 1992
medallas.query("año == 1992 and host_ciudad == 'Barcelona' and pais == 'Spain'")

Unnamed: 0,año,host_pais,host_ciudad,pais,oro,plata,bronce
711,1992,Spain,Barcelona,Spain,13,7,2


In [10]:
# Consulta 2: Mostrar cuántas medallas de oro ha ganado españa en toda la historia
medallas.query("pais == 'Spain'")['oro'].sum()

np.int64(48)

In [11]:
# Consulta 3: Mostrar el medallero de Atenas 2004 de forma descendente en columna medallas de oro.
medallas_atenas_2004 = medallas.query("año == 2004 and host_ciudad == 'Athens'")
medallas_atenas_2004_sorted = medallas_atenas_2004.sort_values(by='oro', ascending=False)
medallas_atenas_2004_sorted

Unnamed: 0,año,host_pais,host_ciudad,pais,oro,plata,bronce
939,2004,Greece,Athens,United States,36,39,26
942,2004,Greece,Athens,China,32,17,14
941,2004,Greece,Athens,Russia,28,26,36
936,2004,Greece,Athens,Australia,17,16,17
935,2004,Greece,Athens,Japan,16,9,12
...,...,...,...,...,...,...,...
960,2004,Greece,Athens,Mexico,0,3,1
964,2004,Greece,Athens,Colombia,0,0,2
965,2004,Greece,Athens,India,0,1,0
966,2004,Greece,Athens,Paraguay,0,1,0


In [12]:
# Consulta 4: ¿Cuántas veces se han celebrado los JJOO en Francia? Mostrar solamente el número con un mensaje.
num_jjoo_francia = medallas.query("host_pais == 'France'")['año'].nunique()
print(f"Los JJOO se han celebrado en Francia {num_jjoo_francia} veces.")

Los JJOO se han celebrado en Francia 2 veces.


In [13]:
# Consulta 5: Mostrar las filas de los paises 'Spain', 'France', 'Germany', 'Italy',  que han ganado más de 10 medallas de oro
medallas_europa_oro = medallas[medallas['pais'].isin(['Spain', 'France', 'Germany', 'Italy'])]
medallas_europa_oro_filtered = medallas_europa_oro[medallas_europa_oro['oro'] > 10]
medallas_europa_oro_filtered

Unnamed: 0,año,host_pais,host_ciudad,pais,oro,plata,bronce
16,1900,France,Paris,France,27,38,37
102,1920,Belgium,Antwerp,Italy,13,5,5
112,1924,France,Paris,France,13,15,10
174,1932,United States,Los Angeles,Italy,12,12,12
203,1936,Germany,Berlin,Germany,33,26,30
355,1960,Italy,Rome,Italy,13,10,13
608,1984,United States,Los Angeles,Italy,14,6,12
711,1992,Spain,Barcelona,Spain,13,7,2
718,1992,Spain,Barcelona,Germany,33,21,28
780,1996,United States,Atlanta,Italy,13,10,12


## 3. Indexación booleana

Replica las consultas 3 y 5 del apartado 2, pero usando indexación booleana en lugar de usar query.

In [None]:
# Consulta 3 Mostrar el medallero de Atenas 2004 de forma descendente en columna medallas de oro.
print("Medallero de Atenas 2004 ordenado por medallas de oro:")
medallas_atenas_2004 = medallas[(medallas['año'] == 2004) & (medallas['host_ciudad'] == 'Athens')]
medallas_atenas_2004_sorted = medallas_atenas_2004.sort_values(by='oro', ascending=False)
print(medallas_atenas_2004_sorted)

Medallero de Atenas 2004 ordenado por medallas de oro:
      año host_pais host_ciudad                 pais  oro  plata  bronce
939  2004    Greece      Athens        United States   36     39      26
942  2004    Greece      Athens                China   32     17      14
941  2004    Greece      Athens               Russia   28     26      36
936  2004    Greece      Athens            Australia   17     16      17
935  2004    Greece      Athens                Japan   16      9      12
..    ...       ...         ...                  ...  ...    ...     ...
960  2004    Greece      Athens               Mexico    0      3       1
964  2004    Greece      Athens             Colombia    0      0       2
965  2004    Greece      Athens                India    0      1       0
966  2004    Greece      Athens             Paraguay    0      1       0
967  2004    Greece      Athens  Trinidad and Tobago    0      0       1

[74 rows x 7 columns]


In [None]:
# Consulta 5 Mostrar las filas de los paises 'Spain', 'France', 'Germany', 'Italy',  que han ganado más de 10 medallas de oro.
print("Países europeos con más de 10 medallas de oro:")
medallas_europa_oro = medallas[medallas['pais'].isin(['Spain', 'France', 'Germany', 'Italy'])]
medallas_europa_oro_filtered = medallas_europa_oro[medallas_europa_oro['oro'] > 10]
print(medallas_europa_oro_filtered)

Países europeos con más de 10 medallas de oro:
       año      host_pais     host_ciudad     pais  oro  plata  bronce
16    1900         France           Paris   France   27     38      37
102   1920        Belgium         Antwerp    Italy   13      5       5
112   1924         France           Paris   France   13     15      10
174   1932  United States     Los Angeles    Italy   12     12      12
203   1936        Germany          Berlin  Germany   33     26      30
355   1960          Italy            Rome    Italy   13     10      13
608   1984  United States     Los Angeles    Italy   14      6      12
711   1992          Spain       Barcelona    Spain   13      7       2
718   1992          Spain       Barcelona  Germany   33     21      28
780   1996  United States         Atlanta    Italy   13     10      12
783   1996  United States         Atlanta   France   15      7      15
787   1996  United States         Atlanta  Germany   20     18      27
856   2000      Australia     

## 4. Discretización y variable dummy 


In [18]:
# Copia el dataframe medallas en medallas2 para trabajar con el
medallas2 = medallas.copy()

In [19]:
# Genera una nueva columna que sea "puntuacion" asignando:
    # 3 puntos a cada medalla de oro
    # 2 puntos a cada medalla de plata
    # 1 punto a cada medalla de bronce
medallas2['puntuacion'] = (medallas2['oro'] * 3) + (medallas2['plata'] * 2) + (medallas2['bronce'] * 1)




# muestra las primeras filas para comprobar que la nueva columna ha sido creada correctamente
print(medallas2.head())


    año host_pais host_ciudad           pais  oro  plata  bronce  puntuacion
0  1896    Greece      Athens  Great Britain    2      3       2          14
1  1896    Greece      Athens        Hungary    2      1       3          11
2  1896    Greece      Athens         France    5      4       2          25
3  1896    Greece      Athens  United States   11      7       2          49
4  1896    Greece      Athens        Germany    6      5       2          30


In [20]:
# Discretización: Crea una nueva columna "puntuacion_categoria" que divida la puntuación en 3 categorías: baja, media y alta
# Puedes utilizar qcut para generar intervalos de forma equitativa
medallas2['puntuacion_categoria'] = pd.qcut(medallas2['puntuacion'], q=3, labels=['baja', 'media', 'alta'])



# muestra las primeras filas para comprobar que la nueva columna ha sido creada correctamente
print(medallas2.head())

    año host_pais host_ciudad           pais  oro  plata  bronce  puntuacion  \
0  1896    Greece      Athens  Great Britain    2      3       2          14   
1  1896    Greece      Athens        Hungary    2      1       3          11   
2  1896    Greece      Athens         France    5      4       2          25   
3  1896    Greece      Athens  United States   11      7       2          49   
4  1896    Greece      Athens        Germany    6      5       2          30   

  puntuacion_categoria  
0                media  
1                media  
2                 alta  
3                 alta  
4                 alta  


In [21]:
# Crea un dataframe "dummydf" con variables dummies para la columna puntuacion_categoria con el prefijo "puntos"
dummydf = pd.get_dummies(medallas2['puntuacion_categoria'], prefix='puntos')



# añade las variables dummy al dataframe medallas2 con join 
medallas2 = medallas2.join(dummydf)


# Muestra las primeras filas para comprobar que las variables dummies han sido creadas correctamente
print(medallas2.head())

    año host_pais host_ciudad           pais  oro  plata  bronce  puntuacion  \
0  1896    Greece      Athens  Great Britain    2      3       2          14   
1  1896    Greece      Athens        Hungary    2      1       3          11   
2  1896    Greece      Athens         France    5      4       2          25   
3  1896    Greece      Athens  United States   11      7       2          49   
4  1896    Greece      Athens        Germany    6      5       2          30   

  puntuacion_categoria  puntos_baja  puntos_media  puntos_alta  
0                media        False          True        False  
1                media        False          True        False  
2                 alta        False         False         True  
3                 alta        False         False         True  
4                 alta        False         False         True  


## 5. Union de datasets y consultas con agrupamiento

+ Cada consulta es 0.6 puntos. 
+ La unión de ambos datasets es 1.2 puntos.

In [25]:
# Consulta 1: Usando agrupamiento, mostrar el número total de medallas de oro, plata y bronce de cada país
medallero_total = medallas.groupby('pais')[['oro', 'plata', 'bronce']].sum()
print(medallero_total)


                oro  plata  bronce
pais                              
Afghanistan       0      0       2
Algeria           5      4       8
Argentina        21     26      30
Armenia           2      8       8
Australasia       3      4       5
...             ...    ...     ...
Virgin Islands    0      1       0
West Germany     56     67      81
Yugoslavia       28     31      31
Zambia            0      1       1
Zimbabwe          3      4       1

[157 rows x 3 columns]


In [26]:
# Importa el dataset paises.csv en el dataframe paises
# Este csv contiene información sobre la población y el PIB per capita de paises, 
    # además del continente y subregion al que pertenecen. 
paises = pd.read_csv("paises.csv")


# muestra las primeras filas para comprender su estructura y comprobar la importación
print(paises.head())

             pais continente           region  poblacion      PIB
0     Afghanistan       Asia    Southern Asia   31056997    700.0
1         Albania     Europe  Southern Europe    3581655   4500.0
2         Algeria     Africa  Northern Africa   32930091   6000.0
3  American Samoa    Oceania        Polynesia      57794   8000.0
4         Andorra     Europe  Southern Europe      71201  19000.0


In [None]:
# Comprueba que no haya nulos es el dataframe paises. 
paises.isnull().sum()

pais          0
continente    0
region        0
poblacion     0
PIB           0
dtype: int64

In [None]:
# Consulta 2: Con agrupamiento, a partir de dataset paises, consultar la media del PIB y poblacición de cada región
medios_region = paises.groupby('region')[['PIB', 'poblacion']].mean()
print(medios_region)


                                          PIB     poblacion
region                                                     
Australia and New Zealand        25300.000000  1.217011e+07
Central Asia                      3280.000000  1.202360e+07
Eastern Asia                     17440.000000  2.948492e+08
Eastern Europe                    9080.000000  2.982461e+07
Latin America and the Caribbean   7851.351351  1.513438e+07
Melanesia                         5520.000000  1.511409e+06
Micronesia                        7480.000000  7.414780e+04
Northern Africa                   4866.666667  3.372842e+07
Northern America                 30900.000000  8.291632e+07
Northern Europe                  23785.714286  6.910313e+06
Polynesia                         6157.142857  9.617029e+04
South-eastern Asia                6750.000000  6.663549e+07
Southern Asia                     2766.666667  1.732683e+08
Southern Europe                  16807.692308  1.091443e+07
Sub-Saharan Africa                2420.5

In [41]:
# Une los dataframes medallas y paises en un nuevo dataframe llamado medallas_paises usando la columna pais
# Debes hacer un merge interno.
medallas_paises = pd.merge(medallas, paises, on='pais', how='inner')


# muestra las primeras filas para comprobar que la unión ha sido correcta
medallas_paises.head()

Unnamed: 0,año,host_pais,host_ciudad,pais,oro,plata,bronce,continente,region,poblacion,PIB
0,1896,Greece,Athens,Hungary,2,1,3,Europe,Eastern Europe,9981334,13900.0
1,1896,Greece,Athens,France,5,4,2,Europe,Western Europe,60876136,27600.0
2,1896,Greece,Athens,United States,11,7,2,Americas,Northern America,298444215,37800.0
3,1896,Greece,Athens,Germany,6,5,2,Europe,Western Europe,82422299,27600.0
4,1896,Greece,Athens,Austria,2,1,2,Europe,Western Europe,8192880,30000.0


In [42]:
# Comprueba que no existan nulos en el dataframe medallas_paises. Si los hay, quizás tienes el ejercicio mal.
medallas_paises.isnull().sum()

año            0
host_pais      0
host_ciudad    0
pais           0
oro            0
plata          0
bronce         0
continente     0
region         0
poblacion      0
PIB            0
dtype: int64

In [43]:
# Consulta 3: Mostrar el número total de medallas de oro, plata y bronce de cada región, 
    # pero solamente de las regiones con más de 300 medallas de oro
    # La salida debe ser ordenada de forma descentende según el número de medallas de oro
medallero_region = medallas_paises.groupby('region')[['oro', 'plata', 'bronce']].sum()
medallero_region_filtered = medallero_region[medallero_region['oro'] > 300]
medallero_region_sorted = medallero_region_filtered.sort_values(by='oro', ascending=False)
print(medallero_region_sorted)

                   oro  plata  bronce
region                               
Northern America  1132    941     885
Western Europe     642    736     821
Eastern Europe     623    656     817
Eastern Asia       435    363     372
Northern Europe    390    429     479
Southern Europe    335    344     355


## 6. Consultas libres

Realiza 2 consultas adicionales y diferentes a las anteriores, usando query o indexación booleana, que tengan además el uso de  agrupamiento y funciones de agregación y/o creación de intervalos. 

Las consultas se deben hacer sobre el dataset resultante de la unión de ambos csv realizada en el punto 4.

La nota dependerá de la complejidad de la consulta.

In [44]:
# Consulta 1
# Usando el dataframe medallas_paises, mostrar los 5 paises con mayor PIB que hayan ganado más de 50 medallas de oro en total
medallero_paises = medallas_paises.groupby('pais').agg({'oro': 'sum', 'PIB': 'first'})
medallero_paises_filtered = medallero_paises[medallero_paises['oro'] > 50]
medallero_paises_sorted = medallero_paises_filtered.sort_values(by='PIB', ascending=False).head(5)
print(medallero_paises_sorted)

                oro      PIB
pais                        
Norway           62  37800.0
United States  1060  37800.0
Switzerland      54  32700.0
Canada           71  29800.0
Australia       164  29000.0


In [47]:
# Consulta 2
# Usando el dataframe medallas_paises, mostrar la población total de los países que han ganado más de 100 medallas en total
medallero_paises_total = medallas_paises.groupby('pais').agg({'oro': 'sum', 'plata': 'sum', 'bronce': 'sum', 'poblacion': 'first'})
medallero_paises_total['total_medallas'] = medallero_paises_total['oro'] + medallero_paises_total['plata'] + medallero_paises_total['bronce']
medallero_paises_total_filtered = medallero_paises_total[medallero_paises_total['total_medallas'] > 100]
poblacion_total = medallero_paises_total_filtered['poblacion'].sum()
print(f"La población total de los países que han ganado más de 100 medallas en total es: {poblacion_total}")
print(f"Y los países son: {medallero_paises_total_filtered.index.tolist()}")

La población total de los países que han ganado más de 100 medallas en total es: 2680936748
Y los países son: ['Australia', 'Belgium', 'Brazil', 'Bulgaria', 'Canada', 'China', 'Cuba', 'Denmark', 'Finland', 'France', 'Germany', 'Greece', 'Hungary', 'Italy', 'Japan', 'Kenya', 'Netherlands', 'New Zealand', 'Norway', 'Poland', 'Romania', 'Russia', 'Spain', 'Sweden', 'Switzerland', 'Turkey', 'Ukraine', 'United States']
