## Beautiful Soup Summary

Proceso de Web scrapping: 

1. Importar librerías
    - requests (nos trae el HTML en bruto)
    - BeautifulSoup (traducimos el HTML en algo mas entendible --> la "sopa")
         ```python
         import requests
         from bs4 import BeautifulSoup
         ```

2. Explorar la web y buscar los elementos del HTML que queremos extraer (etiquetas, clases, identificadores, etc.)

3. Usamos los métodos de BeautifulSoup .find() y .find_all() y los elementos HTML definidos, obteniendo un objeto como resultado

4. Usamos el atributo .text o .getText() para extraer solo el texto


# Ejercicios

1. Usa la [siguiente](https://es.wikipedia.org/wiki/Anexo:Medallero_de_los_Juegos_Ol%C3%ADmpicos_de_Tokio_2020) página web.

2. Extrae la tabla de las medallas olímpicas que tenéis en la página web.

3. Mete todo el código de la extracción de datos en una función.

4. Los resultados deben estar en un *DataFrame* y hacer una exploración básica con los métodos aprendidos en la lección. 

In [1]:
# como siempre...primero las librerias!

import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
# armo mi funcion en base a lo que se pidio:

def extraer_medallas(url):
    # Realizar la solicitud HTTP
    response = requests.get(url)
    
    # Verificar si la solicitud fue exitosa
    if response.status_code == 200:
        # Parsear el contenido HTML
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # Encontrar la tabla de medallas por su clase CSS
        table = soup.find('table', class_='wikitable')
        
        # Extraer los datos de la tabla y almacenarlos en una lista de listas
        data = []
        for row in table.find_all('tr'):
            row_data = [cell.get_text(strip=True) for cell in row.find_all(['th', 'td'])]
            data.append(row_data)
        
        # Crear un DataFrame a partir de los datos
        df = pd.DataFrame(data[1:], columns=data[0])
        
        return df
    else:
        print("Error al realizar la solicitud HTTP.")
        return None

In [None]:
# URL de la página web
url = "https://es.wikipedia.org/wiki/Anexo:Medallero_de_los_Juegos_Ol%C3%ADmpicos_de_Tokio_2020"

# Extraer la tabla de medallas olímpicas y almacenarla en un DataFrame
medals_df = extract_medals_table(url)

# Mostrar las primeras filas del DataFrame
medals_df.head()

Unnamed: 0,Núm.,País,Unnamed: 3,Unnamed: 4,Unnamed: 5,Total
0,1,Estados Unidos(USA),39,41,33,113
1,2,China(CHN),38,32,19,89
2,3,Japón(JPN),27,14,17,58
3,4,Reino Unido(GBR),22,20,22,64
4,5,ROC(ROC),20,28,23,71


## Solución de Maíra para extraer los encabezados 

In [2]:
response = requests.get("https://es.wikipedia.org/wiki/Anexo:Medallero_de_los_Juegos_Ol%C3%ADmpicos_de_Tokio_2020")
soup = BeautifulSoup(response.text, 'html.parser')
soup

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-enabled vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-available" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Anexo:Medallero de los Juegos Olímpicos de Tokio 2020 - Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-client

In [3]:
tabla_med = soup.find("table", {"class":"wikitable"})
tabla_med

<table class="wikitable striped sortable col1cen col2izq col3der col4der col5der col6der">
<tbody><tr>
<th>Núm.
</th>
<th>País
</th>
<th><span typeof="mw:File"><a class="mw-file-description" href="/wiki/Archivo:Gold_medal_olympic.svg" title="Oro"><img alt="Oro" class="mw-file-element" data-file-height="300" data-file-width="300" decoding="async" height="18" src="//upload.wikimedia.org/wikipedia/commons/thumb/4/4f/Gold_medal_olympic.svg/18px-Gold_medal_olympic.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/4/4f/Gold_medal_olympic.svg/27px-Gold_medal_olympic.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/4/4f/Gold_medal_olympic.svg/36px-Gold_medal_olympic.svg.png 2x" width="18"/></a></span>
</th>
<th><span typeof="mw:File"><a class="mw-file-description" href="/wiki/Archivo:Silver_medal_olympic.svg" title="Plata"><img alt="Plata" class="mw-file-element" data-file-height="300" data-file-width="300" decoding="async" height="18" src="//upload.wikimedia.org/wiki

In [4]:
# Extraer encabezados
lista_encabezados = tabla_med.find_all("th")
    # Extraer y limpiar el texto de cada elemento <th>
headers = []
for th in lista_encabezados:
        # Verificar si hay imágenes dentro del th
    img = th.find('img')
    if img and img.get('alt'):  # Si hay una imagen con atributo alt, usar su valor
        text = img.get('alt')
    else:
        text = th.get_text(strip=True)  # De lo contrario, usar el texto dentro del th
    headers.append(text)

In [5]:
headers

['Núm.', 'País', 'Oro', 'Plata', 'Bronce', 'Total']