EJERCICIOS DE BEAUTIFUL SOUP

1. Usa la [siguiente](https://es.wikipedia.org/wiki/Anexo:Medallero_de_los_Juegos_Ol%C3%ADmpicos_de_Tokio_2020) página web.

2. Extrae la tabla de las medallas olímpicas que tenéis en la página web.

3. Mete todo el código de la extracción de datos en una función.

4. Los resultados deben estar en un *DataFrame* y hacer una exploración básica con los métodos aprendidos en la lección. 

In [78]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re

In [79]:
url_medallero = "https://es.wikipedia.org/wiki/Anexo:Medallero_de_los_Juegos_Ol%C3%ADmpicos_de_Tokio_2020"

res_medallero = requests.get(url_medallero)

def extraer_tabla_medallero(url):
    
    soup = BeautifulSoup(res_medallero.text, 'html.parser')
  
    tabla = soup.find('table', {'class': 'wikitable'})
 
    filas = tabla.find_all('tr')

    paises = []
    oros = []
    platas = []
    bronces = []
    total = []
  
    for fila in filas[1:]:
        columnas = fila.find_all('td')
        paises.append(columnas[1].text.strip())
        oros.append(int(columnas[2].text.strip()))
        platas.append(int(columnas[3].text.strip()))
        bronces.append(int(columnas[4].text.strip()))
        total.append(int(columnas[5].text.strip()))

    df_medallero = pd.DataFrame({
        'País': paises,
        'Oros': oros,
        'Platas': platas,
        'Bronces': bronces,
        'Total': total
    })
    return df_medallero

medallero_tokio_2020 = extraer_tabla_medallero(url_medallero)

print(medallero_tokio_2020)

                    País  Oros  Platas  Bronces  Total
0   Estados Unidos (USA)    39      41       33    113
1            China (CHN)    38      32       19     89
2            Japón (JPN)    27      14       17     58
3      Reino Unido (GBR)    22      20       22     64
4              ROC (ROC)    20      28       23     71
..                   ...   ...     ...      ...    ...
89         Granada (GRN)     0       0        1      1
90          Kuwait (KUW)     0       0        1      1
91        Moldavia (MDA)     0       0        1      1
92           Siria (SYR)     0       0        1      1
93             93 países   340     338      402   1080

[94 rows x 5 columns]


In [80]:
df_medallero.tail()

Unnamed: 0,País,Oros,Platas,Bronces,Total
89,Granada (GRN),0,0,1,1
90,Kuwait (KUW),0,0,1,1
91,Moldavia (MDA),0,0,1,1
92,Siria (SYR),0,0,1,1
93,93 países,340,338,402,1080


In [69]:
df_medallero.shape

print("Número de filas y columnas:", tabla_medallero.shape)

Número de filas y columnas: (94, 6)


In [81]:
df_medallero.dtypes

País       object
Oros        int64
Platas      int64
Bronces     int64
Total       int64
dtype: object

In [82]:
df_medallero.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 94 entries, 0 to 93
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   País     94 non-null     object
 1   Oros     94 non-null     int64 
 2   Platas   94 non-null     int64 
 3   Bronces  94 non-null     int64 
 4   Total    94 non-null     int64 
dtypes: int64(4), object(1)
memory usage: 3.8+ KB


In [72]:
df_medallero.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Oros,94.0,7.234043,35.387388,0.0,0.0,1.0,3.0,340.0
Platas,94.0,7.191489,35.106988,0.0,0.25,1.0,4.0,338.0
Bronces,94.0,8.553191,41.481857,0.0,1.0,2.0,5.0,402.0
Total,94.0,22.978723,111.822053,1.0,2.0,4.5,11.0,1080.0


In [84]:
df_medallero.describe()

Unnamed: 0,Oros,Platas,Bronces,Total
count,94.0,94.0,94.0,94.0
mean,7.234043,7.191489,8.553191,22.978723
std,35.387388,35.106988,41.481857,111.822053
min,0.0,0.0,0.0,1.0
25%,0.0,0.25,1.0,2.0
50%,1.0,1.0,2.0,4.5
75%,3.0,4.0,5.0,11.0
max,340.0,338.0,402.0,1080.0


In [85]:
df_medallero.isnull().sum()

País       0
Oros       0
Platas     0
Bronces    0
Total      0
dtype: int64

In [86]:
df_medallero.duplicated().sum()

0

In [87]:
df_medallero["País"].unique()

array(['Estados Unidos\xa0(USA)', 'China\xa0(CHN)', 'Japón\xa0(JPN)',
       'Reino Unido\xa0(GBR)', 'ROC (ROC)', 'Australia\xa0(AUS)',
       'Países Bajos\xa0(NED)', 'Francia\xa0(FRA)', 'Alemania\xa0(GER)',
       'Italia\xa0(ITA)', 'Canadá\xa0(CAN)', 'Brasil\xa0(BRA)',
       'Nueva Zelanda\xa0(NZL)', 'Cuba\xa0(CUB)', 'Hungría\xa0(HUN)',
       'Corea del Sur\xa0(KOR)', 'Polonia\xa0(POL)',
       'República Checa\xa0(CZE)', 'Kenia\xa0(KEN)', 'Noruega\xa0(NOR)',
       'Jamaica\xa0(JAM)', 'España\xa0(ESP)', 'Suecia\xa0(SWE)',
       'Suiza\xa0(SUI)', 'Dinamarca\xa0(DEN)', 'Croacia\xa0(CRO)',
       'Irán\xa0(IRI)', 'Serbia\xa0(SRB)', 'Bélgica\xa0(BEL)',
       'Bulgaria\xa0(BUL)', 'Eslovenia\xa0(SLO)', 'Uzbekistán\xa0(UZB)',
       'Georgia\xa0(GEO)', 'China Taipéi\xa0(TPE)', 'Turquía\xa0(TUR)',
       'Grecia\xa0(GRE)', 'Uganda\xa0(UGA)', 'Ecuador\xa0(ECU)',
       'Irlanda\xa0(IRL)', 'Israel\xa0(ISR)', 'Catar\xa0(QAT)',
       'Bahamas\xa0(BAH)', 'Kosovo\xa0(KOS)', 'Ucrania\xa0(UKR