# Practica de Web Scrapping

## Importar librería 

Para comenzar con esta actividad de web scrapping procedemos a importar la librería [requests](https://docs.python-requests.org/en/latest/). Esta librería es una biblioteca HTTP para el lenguaje Python, con ello la integración con la web es mucho más cómoda.

In [2]:
import requests

Importamos la libreria [bs4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) `BeautifulSoup`. La biblioteca `BeautifulSoup` está enfocada al análisis de documentos HTML, por lo que es útil para extraer información y realizar web scrapping. Esta librería nos permite obtener información en formato HTML.

In [3]:
from bs4 import BeautifulSoup

## Variables

A continuación definimos las variables que vamos a utilizar. Las variables son etiquetas en el lenguaje de programación Python, hacen referencia a los datos seleccionados. Gracias a estas etiquetas podemos clasificar los datos de cada país. Las variables utilizadas han sido las siguientes: `paises`, `oros`, `platas`, `bronces` y `totales`

### Definimos URL

Al definir la URL realizaremos el web scrapping a la dirección web deseada.

In [4]:
URL = "https://resultados.elpais.com/deportivos/juegos-olimpicos/medallero/"

### Realizamos la petición a la web


Al realizar la petición mediante `request.get` se envía esta petición al servidor mediante la etiqueta `get`. Con esta solicitud obtenemos los datos de la web en formato HTML. Obtenemos respuesta gracias a que el status code es igual a 200. Si el estatus code no es `200` no se puede leer la página. Para leer la página es necesario que el estatus code sea `200`, sino será imposible realizar el web scrapping

In [5]:
req = requests.get(URL)

Como he mencionado si el status code es 200 se realizará el web scrapping. Por lo que si falla la petición a la página aparecerá el mensaje ("No se puede hacer Web Scraping en"+ URL). 

In [6]:
if (req.status_code != 200):
    raise Exception("No se puede hacer Web Scraping en"+ URL)

### De request a beautifulsoup

Convertimos el contenido HTML de la web a un contenido `BeautifulSoup()`. La clase `html.parser` tiene el objetivo de analizar el contenido HTML como las etiquetas o las clases.

In [7]:
html = BeautifulSoup(req.text, "html.parser")

#### Variables de datos

Los pasos anteriores nos han ayudado a identificar las variables utilizadas para este juego. Definimos las variables `paises`, `oros`, `platas`, `bronces` y `totales` y las identificamos con la función find_all(). Con esta acción localizaremos las coincidencias con el código analizado. La función .find_all recoge los datos de las variables.

In [8]:
paises = html.find_all("th",{"class":"pais"})
oros = html.find_all("td",{"class":"m_oro"})
platas = html.find_all("td",{"class":"m_plata"})
bronces = html.find_all("td",{"class":"m_bronce"})
totales = html.find_all("td",{"class":"m_total"})

### Hacemos la pregunta

El input recoge los datos introducidos por pantalla.

In [9]:
respuesta=input('¿QUIERES CONOCER LOS 20 PAÍSES QUE HAN OBTENIDO MÁS MEDALLAS EN 2020?\n \n Si tu respuesta es Sí, presiona "s" \n')

¿QUIERES CONOCER LOS 20 PAÍSES QUE HAN OBTENIDO MÁS MEDALLAS EN 2020?
 
 Si tu respuesta es Sí, presiona "s" 
s


Si introducimos `s`,la variable respuesta recogerá la s y mostrará el listado de los JJOO de 2020. Al presionar 's' mostrará en pantalla la siguiente frase "RESULTADOS DE LOS DATOS DE LOS JUEGOS OLÍMPICOS 2020". Si se escribe una letra o palabra distinta no se mostrará la lista de los datos de los Juegos Olímpicos de 2020.

In [10]:
if(respuesta == 's'): 
  print('\nRESULTADOS DE LOS DATOS DE LOS JUEGOS OLÍMPICOS 2020\n')


RESULTADOS DE LOS DATOS DE LOS JUEGOS OLÍMPICOS 2020



#### Bucle para datos

Al realizar el bucle se imprimirá por pantalla los resultados de cada país que participí en los Juegos Olímpicos de 2020; y esto se repetirá tantas veces como le hayamos indicado. El bucle for es una estrucutura de control que nos ayuda a identificar el número deseado de iteraciones, en este caso 20.

In [11]:
print('\nRESULTADOS DE LOS DATOS DE LOS JUEGOS OLÍMPICOS 2020\n')
print ('PAÍSES')


RESULTADOS DE LOS DATOS DE LOS JUEGOS OLÍMPICOS 2020

PAÍSES


La acción for i in range repetirá todo lo que hay dentro del `for` 20 veces, por lo que solo mostrará los 20 primeros países que hayamos recogido. Con esta acción extraemos la tabla en la que podemos ver diferentes variables como: `oro, plata, bronce` y `total`. En el bucle se le indica que imprima la operación `%s \nOro`.
Si no se realiza el bucle se imprimirá: 'Qué lástima, y...'.

In [12]:
for i in range (20):
    # Con el método "getText()" no nos devuelve el HTML
    print("%d. %s \nOro: %s Plata: %s Bronce: %s \n Total: %s \n " % (i+1, paises[i+1].text.strip(),oros[i].text.strip(),platas[i].text.strip(),bronces[i].text.strip(), totales[i].text.strip()))

else:
    print('Qué lástima, y...')


1. Estados Unidos 
Oro: 39 Plata: 41 Bronce: 33 
 Total: 113 
 
2. China 
Oro: 38 Plata: 32 Bronce: 18 
 Total: 88 
 
3. Japón 
Oro: 27 Plata: 14 Bronce: 17 
 Total: 58 
 
4. Reino Unido 
Oro: 22 Plata: 21 Bronce: 22 
 Total: 65 
 
5. ROC 
Oro: 20 Plata: 28 Bronce: 23 
 Total: 71 
 
6. Australia 
Oro: 17 Plata: 7 Bronce: 22 
 Total: 46 
 
7. Países Bajos 
Oro: 10 Plata: 12 Bronce: 14 
 Total: 36 
 
8. Francia 
Oro: 10 Plata: 12 Bronce: 11 
 Total: 33 
 
9. Alemania 
Oro: 10 Plata: 11 Bronce: 16 
 Total: 37 
 
10. Italia 
Oro: 10 Plata: 10 Bronce: 20 
 Total: 40 
 
11. Canadá 
Oro: 7 Plata: 6 Bronce: 11 
 Total: 24 
 
12. Brasil 
Oro: 7 Plata: 6 Bronce: 8 
 Total: 21 
 
13. Nueva Zelanda 
Oro: 7 Plata: 6 Bronce: 7 
 Total: 20 
 
14. Cuba 
Oro: 7 Plata: 3 Bronce: 5 
 Total: 15 
 
15. Hungría 
Oro: 6 Plata: 7 Bronce: 7 
 Total: 20 
 
16. Corea del Sur 
Oro: 6 Plata: 4 Bronce: 10 
 Total: 20 
 
17. Polonia 
Oro: 4 Plata: 5 Bronce: 5 
 Total: 14 
 
18. República Checa 
Oro: 4 Plata: 4 Bronc

[Enlace a la ad2](https://github.com/nebrijas/periodismodedatos-mariangeleshr/blob/main/AD2/ad2.md)