# Ejercicio 12

## Enunciado
Crea un programa que:

1. Acceda al [siguiente enlace](https://www.elmundo.es/ciencia-y-salud/salud/2020/03/30/5e817ba4fdddff906a8b4575.html) y obtenga los datos referentes al coronavirus en España.
2. Imprima la información por pantalla.

### ¿Qué cosas nuevas necesitamos saber?
- Instalar librerías con pip.
- Uso de las librerias **requests** y **bs4** para scraping de páginas web.

### Instalar librerías con pip.

Lo primero de todo, igual que hicimos con jupyterlab, necesitamos instalar un par de librerías adicionales con pip.

**Windows**:
Ejecutamos PowerShell como Administrados y ejecutamos la siguiente sentencia:
```consoles
pip install -U requests bs4
```

**Linux o MacOS**:
Abrimos una Terminal y ejecutamos la siguiente sentencia:
```console
sudo pip install -U requests bs4
```

Una vez hecho esto, estaremos en disposición de ejecutar las siguientes celdas de código:

In [1]:
import requests

In [2]:
from bs4 import BeautifulSoup

### Uso de las librerias **requests** y **bs4** para scraping de páginas web.

Una vez realizado los imports, veamos como pedir el contenido de una página web.

Utilizaremos [Wikipedia - Don Quijote De La Mancha](https://es.wikipedia.org/wiki/Don_Quijote_de_la_Mancha) como referencia.

In [3]:
url = "https://es.wikipedia.org/wiki/Don_Quijote_de_la_Mancha" # guardamos en una variable el enlace web

In [4]:
req = requests.get(url) # con el método get, solicitamos la web como cuando hacemos clic en el enlace (más o menos)

In [5]:
source = req.text # mediante el atributo text, obtenemos el código fuente de la página

In [6]:
# veamos que pinta tiene
# como el código es muy grande, veremos solo un fragmento...
print(source[:300])


<!DOCTYPE html>
<html class="client-nojs" lang="es" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>Don Quijote de la Mancha - Wikipedia, la enciclopedia libre</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t."," \t,"],"wgD


Este código es el mismo que se obtiene pulsando botón derecho en cualquier parte de la página web y haciendo clic sobre **Ver código fuente de la página" o **CTRL + U**.

De manera adicional, si lo que nos interesa es algún elemento en especial de la página web, podemos hacer clic en **Inspeccionar** en lugar de la opción previamente comentada para localizar esa parte del código en el codigo fuente.

Os animo a buscar algún video en YouTube que os explique esto de una manera un poco más visual.

In [7]:
# Ahora veamos como obtener información del codigo fuente, por ejemplo el título
soup = BeautifulSoup(source, "html") # creamos una variable con la clase BeautifulSoup indicando que nuestro código es html

In [8]:
# supongamos por un momento que una página web tiene más de un título.
# como hemos visto un par de celdas mas arriba, lo que queremos se encuentra en la etiqueta title

titles = soup.find_all('title') # utilizamos la función find_all para encontrar todos los títulos

In [9]:
type(titles)

bs4.element.ResultSet

In [10]:
# ahora, para cada título obtenido, imprimamos su valor
for title in titles:
    print(title.text) # con el atributo text, recuperamos aquello que sea texto (lo que va entre las etiquetas <title></title>)

Don Quijote de la Mancha - Wikipedia, la enciclopedia libre


In [11]:
print(source[7400:7710])


	<h1 id="firstHeading" class="firstHeading" lang="es">Don Quijote de la Mancha</h1>
	
	<div id="bodyContent" class="mw-body-content">
		<div id="siteSub" class="noprint">De Wikipedia, la enciclopedia libre</div>
		<div id="contentSub"></div>
		
		
		<div id="jump-to-nav"></div>
		<a class="mw-jump-link" href


In [12]:
# ahora por ejemplo, hagamos lo mismo para obtener el titulo del artículo y no el de la página wweb.
# si hacemos uso de Inspeccionar, veremos que este lo podemos encontrar bajo la etiqueta h1
# ademas podemos restringir más la búsqueda para encontrar aquellos atributos pertenecientes a una clase 
# en particular de la siguiente manera

h1s = soup.find_all('h1', attrs={'class': 'firstHeading'})
for h1 in h1s:
    print(h1.text)

Don Quijote de la Mancha


Eso es todo por hoy, a por ello!

## Solución

1. Utiliza requests para pedir la página.

In [13]:
url = "https://www.elmundo.es/ciencia-y-salud/salud/2020/03/30/5e817ba4fdddff906a8b4575.html"

In [14]:
req = requests.get(url)

In [15]:
source = req.text

2. Inspecciona la página para obtener los resultados con BeautifulSoup e imprímelos.

**NOTA**: Dispones de información adicional [aquí](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

**NOTA 2**: Es probable que alguna línea tenga espacios por delante o por detrás. Busca una función de la clase [str](https://docs.python.org/3/library/stdtypes.html#text-sequence-type-str) que te ayude a limpiar los espacios del inicio y del final.

In [16]:
soup = BeautifulSoup(source, "html")

In [19]:
for each in soup.find_all('ul', attrs={'class': 'ue-c-article_list ue-c-article_list--unordered'}):
    for li in each.find_all('li'):
        print(li.text.strip())       

27.509 en Madrid (3.603 muertos)
18.773 en Cataluña (1.672 muertos)
6.320 en País Vasco (352 muertos)
6.424 en Castilla-La Mancha (708 muertos)
6.211 en Castilla y León (516 muertos)
5.818 en Andalucía (248 muertos)
5.508 en la Comunidad Valenciana (339 muertos)
4.039 en Galicia (84 muertos)
2.305 en Navarra (113 muertos)
2.272 en Aragón (138 muertos)
1.810 en La Rioja (85 muertos)
1.628 en Extremadura (133 muertos)
1.262 en Canarias (55 muertos)
1.236 en Asturias (55 muertos)
1.171 en Cantabria (37 muertos)
1.069 en Baleares (42 muertos)
974 en Murcia (34 muertos)
54 en Melilla (1 muerto)
34 en Ceuta (1 muerto)
