# Prgramación literaria con Jupyter (ad3)
## Web Scraping con Python
Este programa se encarga de hacer **web scraping** en varias URLs de una misma web. Los resultados son almacenados y clasificados por palabras clave para imprimirlos al final del programa por consola.

### Librerías utilizadas
+ requests: [requests es una librería Python que facilita enormemente el trabajo con peticiones HTTP.](https://j2logo.com/python/python-requests-peticiones-http/)
+ bs4: [Beautiful Soup es una librería Python que permite extraer información de contenido en formato HTML o XML.](https://j2logo.com/python/web-scraping-con-python-guia-inicio-beautifulsoup/)
+ pandas: [Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos.](https://aprendeconalf.es/docencia/python/manual/pandas/)
+ termcolor: [formato de color ANSII para salida en terminal.](https://pypi.org/project/termcolor/)

### Módulos utilizados
+ time: [El módulo time de la biblioteca estándar de Python proporciona un conjunto de funciones para trabajar con fechas y/o horas.](https://python-para-impacientes.blogspot.com/2017/03/el-modulo-time.html)
+ csv: [El módulo csv implementa clases para leer y escribir datos tabulares en formato CSV.](https://docs.python.org/es/3/library/csv.html)
+ re: [Este módulo proporciona operaciones de coincidencia de expresiones regulares similares a las encontradas en Perl.](https://docs.python.org/es/3/library/re.html)
+ os: [Este módulo provee una manera versátil de usar funcionalidades dependientes del sistema operativo.](https://docs.python.org/es/3.10/library/os.html)

### Instalar las librerías necesarias
+ pandas: `pip3 install pandas`
+ requests: `python -m pip install requests`
+ bs4: `pip install bs4`
+ termcolor: `pip3 install termcolor`

### Descripción del programa
El primer paso, como en cualquier programa, es importar las librerías que va a necesitar el script.

In [None]:
import requests
import time
import csv
import re
from bs4 import BeautifulSoup
import os
import pandas as pd
from termcolor import colored

Se declara la variable `resultados` y se inicializa como un array vacío. En ella se van almacenando los resultados de cada una de las URLs.

In [None]:
resultados = []

#### Extraer los resultados de las URLs

Después, se realiza una petición **HTTP GET** a la URL de la web donde se quiere hacer web scraping. Esta petición devuelve una respuesta que se almacena en una variable llamada `req`. Esta variable es de tipo objeto y contiene tanto atributos como funciones.

In [None]:
req = requests.get("https://resultados.elpais.com")

Para comprobar que la petición se ha realizado con éxito, se utiliza uno de los atributos disponibles en el objeto `req` llamado `status_code`. Si el valor es igual a **200**, la petición se ha realizado con éxito. En caso contrario, se lanza una excepción para avisar cual ha sido la URL que ha fallado.

In [None]:
if (req.status_code != 200):
    raise Exception("No se puede hacer Web Scraping en"+ URL)

Una vez se comprueba que la petición ha sido exitosa, se extrae todo el texto HTML de la página web con ayuda de una de las funciones de la librería **bs4**: `BeautifulSoup`. En esta función se le pasan dos parámetros: el texto obtenido de la petición HTTP a la web, y el tipo de texto que tiene que extraer. El resultado se almacena en una variable llamada `soup`.

In [None]:
soup = BeautifulSoup(req.text, 'html.parser')

Como el objetivo es obtener los titulares de cada URL, tan solo es necesario el texto de las etiqueteas **<h2>**. Para hacer el filtrado, se utiliza una de las funciones que contiene el objeto `soup` llamada `findAll`. De esta manera solo se almacenan en la variable `tags` el texto de los titulares de la web.

In [None]:
tags = soup.findAll("h2")

La variable `tags` almacena todos los titulares obtenidos en un array. Para almacenarlos individualmente en la variable `resultados`, se recorren con una sentencia **for** y se añaden al final del array en cada iteración.

In [None]:
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Todo el proceso realizado hasta ahora se repite el número de veces necesario para extraer los titulares de las distintas URLs.

In [None]:
req2 = requests.get("https://elpais.com/internacional")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup2 = BeautifulSoup(req2.text, 'html.parser')

tags = soup2.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req3 = requests.get("https://elpais.com/opinion")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup3 = BeautifulSoup(req3.text, 'html.parser')

tags = soup3.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req4 = requests.get("https://elpais.com/espana/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup4 = BeautifulSoup(req4.text, 'html.parser')

tags = soup4.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req5 = requests.get("https://elpais.com/economia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup5 = BeautifulSoup(req5.text, 'html.parser')

tags = soup5.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req6 = requests.get("https://elpais.com/sociedad/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup6 = BeautifulSoup(req6.text, 'html.parser')

tags = soup6.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req7 = requests.get("https://elpais.com/educacion/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup7 = BeautifulSoup(req7.text, 'html.parser')

tags = soup7.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req8 = requests.get("https://elpais.com/clima-y-medio-ambiente/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup8 = BeautifulSoup(req8.text, 'html.parser')

tags = soup8.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req9 = requests.get("https://elpais.com/ciencia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup9 = BeautifulSoup(req9.text, 'html.parser')

tags = soup9.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req10 = requests.get("https://elpais.com/cultura/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup10 = BeautifulSoup(req10.text, 'html.parser')

tags = soup10.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req11 = requests.get("https://elpais.com/babelia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup11 = BeautifulSoup(req11.text, 'html.parser')

tags = soup11.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req12 = requests.get("https://elpais.com/deportes/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup12 = BeautifulSoup(req12.text, 'html.parser')

tags = soup12.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req13 = requests.get("https://elpais.com/tecnologia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup13 = BeautifulSoup(req13.text, 'html.parser')

tags = soup13.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req14 = requests.get("https://elpais.com/tecnologia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup14 = BeautifulSoup(req14.text, 'html.parser')

tags = soup14.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req15 = requests.get("https://elpais.com/gente/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup15 = BeautifulSoup(req15.text, 'html.parser')

tags = soup15.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req16 = requests.get("https://elpais.com/television/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup16 = BeautifulSoup(req16.text, 'html.parser')

tags = soup16.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

req17 = requests.get("https://elpais.com/eps/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup17 = BeautifulSoup(req17.text, 'html.parser')

tags = soup17.findAll("h2")

for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Antes de mostrar los resultados por la termial, se envía el comando `clear` al sistema para que la consola quede limpia y se puedan apreciar bien los titulares extraídos.

In [None]:
os.system("clear")

Se muestran por consola las categorías por las que se van a clasificar los titulares extraídos.

In [None]:
print(colored("A continuación se muestran los titulares de las páginas principales del diario El País que contienen las siguientes palabras:", 'blue', attrs=['bold']))


#### Mostrar los titulares extraídos por categoría

Se muestra el título de la categoría en la consola.

In [None]:
print(colored("Feminismo", 'green', attrs=['bold']))

Para filtrar los titulares por categoría se utiliza un bucle `for`. Este en cada interacción comprueba si el titular contiene la palabra clave, y si es así, guarda el titular en la variable `str_match`.

In [None]:
str_match = [s for s in resultados if "feminismo" in s]

Por último, se muestran todos los titulares de la categoría en concreto.

In [None]:
print("\n".join(str_match))

Al igual que antes, este último bloque de código se repite tantas veces como categorías se definan.

In [None]:
print(colored("Igualdad", 'green', attrs=['bold']))

str_match = [s for s in resultados if "igualdad" in s]
print("\n".join(str_match))

print(colored("Mujeres", 'green', attrs=['bold']))

str_match = [s for s in resultados if "mujeres" in s]
print("\n".join(str_match))

print(colored("Mujer", 'green', attrs=['bold']))

str_match = [s for s in resultados if "mujer" in s]
print("\n".join(str_match))

print(colored("Brecha salarial", 'green', attrs=['bold']))

str_match = [s for s in resultados if "brecha salarial" in s]
print("\n".join(str_match))

print(colored("Machismo", 'green', attrs=['bold']))

str_match = [s for s in resultados if "machismo" in s]
print("\n".join(str_match))

print(colored("Violencia", 'green', attrs=['bold']))

str_match = [s for s in resultados if "violencia" in s]
print("\n".join(str_match))

print(colored("Maltrato", 'green', attrs=['bold']))

str_match = [s for s in resultados if "maltrato" in s]
print("\n".join(str_match))

print(colored("Homicidio", 'green', attrs=['bold']))

str_match = [s for s in resultados if "homicidio" in s]
print("\n".join(str_match))

print(colored("Género", 'green', attrs=['bold']))

str_match = [s for s in resultados if "género" in s]
print("\n".join(str_match))

print(colored("Asesinato", 'green', attrs=['bold']))

str_match = [s for s in resultados if "asesinato" in s]
print("\n".join(str_match))

print(colored("Sexo", 'green', attrs=['bold']))

str_match = [s for s in resultados if "sexo" in s]
print("\n".join(str_match))