# Prgramación literaria con Juputer (ad3)
## Web Scraping con Python
Este programa se encarga de hacer **web scraping** en varias URLs de una misma web. Los resultados son almacenados y clasificados por palabras clave para imprimirlos al final del programa por consola.

### Librerías utilizadas
+ requests: [requests es una librería Python que facilita enormemente el trabajo con peticiones HTTP.](https://j2logo.com/python/python-requests-peticiones-http/)
+ bs4: [Beautiful Soup es una librería Python que permite extraer información de contenido en formato HTML o XML.](https://j2logo.com/python/web-scraping-con-python-guia-inicio-beautifulsoup/)
+ pandas: [Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos.](https://aprendeconalf.es/docencia/python/manual/pandas/)
+ termcolor: [formato de color ANSII para salida en terminal.](https://pypi.org/project/termcolor/)

### Módulos utilizados
+ time: [El módulo time de la biblioteca estándar de Python proporciona un conjunto de funciones para trabajar con fechas y/o horas.](https://python-para-impacientes.blogspot.com/2017/03/el-modulo-time.html)
+ csv: [El módulo csv implementa clases para leer y escribir datos tabulares en formato CSV.](https://docs.python.org/es/3/library/csv.html)
+ re: [Este módulo proporciona operaciones de coincidencia de expresiones regulares similares a las encontradas en Perl.](https://docs.python.org/es/3/library/re.html)
+ os: [Este módulo provee una manera versátil de usar funcionalidades dependientes del sistema operativo.](https://docs.python.org/es/3.10/library/os.html)

### Descripción del programa
El primer paso, como en cualquier lenguaje de programación, es importar las librerías que va a necesitar el script.

In [None]:
import requests
import time
import csv
import re
from bs4 import BeautifulSoup
import os
import pandas as pd
from termcolor import colored

Se declara la variable **resultados** y se inicializa como un array vacío. En ella se van almacenando los resultados de cada una de las URLs.

In [None]:
resultados = []

Después, se realiza una petición **HTTP GET** a la URL de la web donde se quiere hacer web scraping. Esta petición devuelve una respuesta que se almacena en una variable llamada `req`. Esta variable es de tipo objeto y contiene tanto atributos como funciones.

In [None]:
req = requests.get("https://resultados.elpais.com")

Para comprobar que la petición se ha realizado con éxito, se utiliza uno de los atributos disponibles en el objeto `req` llamado `status_code`. Si el valor es igual a **200**, la petición se ha realizado con éxito. En caso contrario, se lanza una excepción para avisar cual ha sido la URL que ha fallado.

In [None]:
if (req.status_code != 200):
    raise Exception("No se puede hacer Web Scraping en"+ URL)

Una vez se comprueba que la petición ha sido exitosa, se extrae todo el texto HTML de la página web con ayuda de una de las funciones de la librería **bs4**: `BeautifulSoup`. En esta función se le pasan dos parámetros: el texto obtenido de la petición HTTP a la web, y el tipo de texto que tiene que extraer. El resultado se almacena en una variable llamada `soup`.

In [None]:
soup = BeautifulSoup(req.text, 'html.parser')

Como el objetivo es obtener los titulares de cada URL, tan solo es necesario el texto de las etiqueteas `<h2>`. Para hacer el filtrado, se utiliza una de las funciones que contiene el objeto `soup` llamada `findAll`. De esta manera solo se almacenan en la variable `tags` el texto de los titulares de la web.

In [None]:
tags = soup.findAll("h2")