###  <span style="color:orange"> WEB SCRAPING </span>
___
La función de *web scraping* es una técnica de recuperación de información web. La recuperación automática sigue el protocolo habitual de acceso a cualquier web, y se realiza a través de una petición al servidor del contenido de una URL siguiendo el **protocolo HTTP**.
Lo que vamos a hacer con Python es automatizar esta petición y recibir el código fuente de nuestra página y, gracias a las funciones de la librería **BeautifulSoup**, analizar el etiquetado HTML para extraer las partes que nos interesan. Como se muestra en la función, es necesario haber inspeccionado con anterioridad la página que se quiere rastrear, y haber identificado la etiqueta *html* que nos interesa recoger (en el ejemplo de función más abajo, se buscan los párrafos: `<p>`)


In [None]:
# Importamos nuestras dos librerías previamente instaladas
import requests
from bs4 import BeautifulSoup

In [None]:
# Función general para hacer web scraping

def url_periodico(url):

    '''Recupera el texto de la URL facilitada por una petición HTTP'''
    pagina = requests.get(url).text
    
    '''BeautifulSoup acepta dos argumentos: el marcado actual, y el parser que se quiere usar.
    En nuestro caso escogemos el parser "lxml", ya que también funciona para versiones antiguas de Python y es muy rápido. 
    Para ello, es preciso instalarlo antes en nuestro equipo'''
    soup = BeautifulSoup(pagina, "lxml")
    
    '''Esta operación recupera el texto dentro de las etiquetas <p> de clase "article-text" (recordemos que la clase se hereda)'''
    text = [p.text for p in soup.find_all('p')]
    
    print(url , "recuperado")
    
    return text

Una vez aplicamos la función a la lista de URLs que nos interesan, almacenamos el resultado de tipo cadena de texto como una lista.

`periodico = [variable_primerPeriodico, variable_segundoPeriodico, ... ]`
        
Deberemos valorar si para la obtención del contenido que nos interesa es preciso definir nuevas funciones (por ejemplo, si no solo nos interesa recoger los párrafos `<p`, sino también los encabezados `<h1>`).

Para poder guardar en distintos archivos de texto el material recogido, crearemos una nueva lista con los nombres que queremos para cada archivo.

`nombrePeriodicos = ['Nombre del primer periódico', 'Nombre del segundo periódico', ... ]`

###  <span style="color:orange"> ARCHIVOS PICKLE </span>
___

Para almacenar este raspado utilizamos el módulo Pickle de Python, que nos permite representar nuestros objetos como cadenas de bytes sin necesidad de realizar ninguna conversión especial. Estos archivos pickles nos permitirán, gracias a su serialización, almacenar los resultados para próximos programas Python.


In [None]:
# Importamos el módulo previamente instalado
import pickle

In [None]:
#Guardamos los archivos

'''Fíjate en que a cada variable dentro de la lista "periodico" le corresponda su nombre'''

for i, c in enumerate(nombrePeriodicos):
    
    '''Previamente hemos creado una carpeta llamada "corpus" donde guardaremos nuestros objetos serializados'''
    '''El indicador wb nos sirve para crear el archivo de escritura en modo binario'''

    with open("corpus/" + c + ".txt", "wb") as file:
        pickle.dump(periodico[i], file)