# Práctica de Web Scraping

### Importar librerías

El primer paso que hay que dar es importar la libreria [requests](https://docs.python-requests.org/en/latest/) ya que nos facilita el trabajo con peticiones HTTP. Como el objetivo principal de este juego es extraer información de una web, esto nos será de gran utilidad. 

In [35]:
import requests

El segundo paso será importar de la libreria [bs4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) `BeautifulSoup`. Pero ¿para que sirve? En concreto, para extraer contenido de ficheros HTML y XML. 

In [36]:
from bs4 import BeautifulSoup

### Variables

Como este juego trata sobre los Juegos Olímpicos, lo que vamos a reflejar es cuántas medallas adquirieron los primero 20 países que participaron en 2020 y de qué tipo. Por lo tanto, las variables que especificaremos más adelante seran `paises`, `oros`, `platas`, `bronces` y  `totales`. 

### Definimos URL

Es necesario definir la URL para poder llevar a cabo la práctica del Web Scraping, sin ella no obtendríamos ningún dato. 

In [37]:
URL = "https://resultados.elpais.com/deportivos/juegos-olimpicos/medallero/"

### Realizamos la petición a la web

Una de las tareas más comunes cuando estamos trabajando con la librería `request`es hacer una solicitud HTTP con el método GET. Lo que hacemos con esta función es solicitar un archivo HTML al servidor web donde está alojado para que nuestro navegador lo pueda rederizar y mostrar correctamente. ¿Cómo realizamos esta solicitud? Empleando `requests.get ()`

Al ejecutar la solicitud GET, el servidor nos devuelve una respuesta (response) que tiene el código 200. Por lo tanto, si el estatus code de nuestra petición es `200` significará que la misión se ha completado con éxito. Por el contario, si no lo es, no podrá leer la página.

In [38]:
req = requests.get(URL)
if (req.status_code != 200):
    raise Exception("No se puede hacer Web Scraping en"+ URL)

### De requests a Beautiful Soupe

El siguiente paso es convertir el contenido HTML de la web a un objeto `BeautifulSoup()`. La clase `html.parser` sirve para identificar etiquetas, datos, comentarios y otros elementos HTML.

In [39]:
 html = BeautifulSoup(req.text, "html.parser")

### Variables de datos

Una vez localizadas en el HTML estas varaibles: `paises`, `oros`, `platas`, `bronces` y  `totales`, las identificamos con la función `find_all()`. Esta nos devolverá en forma de texto todas las coincidencias encontradas. 

In [40]:
paises = html.find_all("th",{"class":"pais"})
oros = html.find_all("td",{"class":"m_oro"})
platas = html.find_all("td",{"class":"m_plata"})
bronces = html.find_all("td",{"class":"m_bronce"})
totales = html.find_all("td",{"class":"m_total"})

### Hacemos la pregunta

Gracias a la función `input` podemos hacer que el usuario interactue. Le preguntaremos que si quiere conocer los 20 países que han obtenido más medallas y si la respuesta es 's', el programa le responderá con el mensaje: 'Vale, vamos a ello'. 

En el caso de que responda con otra letra o palabra, el juego no se podrá llevar a cabo.


In [None]:
respuesta=input('¿QUIERES CONOCER LOS 20 PAÍSES QUE HAN OBTENIDO MÁS MEDALLAS EN 2020?\n \n Si tu respuesta es Sí, presiona "s" \n')
if(respuesta == 's'): 
    print('Vale, vamos a ello')

### Bucle para todos

Los bucles sirven para alterar el flujo normal de un programa. En esta ocasión, utilizaremos el bucle `for` para repetir el bloque de código indexado tantas veces como le hayamos indicado gracias al operador `in`.  un número X de veces. Por lo tanto, se ejecutará tantas veces como elementos tenga en est

In [None]:
print('\nRESULTADOS DE LOS DATOS DE LOS JUEGOS OLÍMPICOS 2020\n')
print ('PAÍSES')
for i in range (20):
    # Con el método "getText()" no nos devuelve el HTML
    print("%d. %s \nOro: %s Plata: %s Bronce: %s \n Total: %s \n " % (i+1, paises[i+1].text.strip(),oros[i].text.strip(),platas[i].text.strip(),bronces[i].text.strip(), totales[i].text.strip()))

else:
    print('Qué lástima, y...')

[El enlace a la Actividad AD2](https://github.com/nebrijas/periodismodedatos-marialucia11/blob/main/AD2/ad2.md)