# Miniproyecto PLN (Web scraping)

## Problema 7

### Autores:
- Moisés Barrios Torres
- Cecilia Diana Albelda
- Elena Marrero Castellano
- Irina Filimonova Sevcenco

### Carga de librerías

In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

### Función para extraer artículos

In [None]:
def extraer_articulos(mis_categorias):
  '''
  Esta función tiene como argumento una lista de categorías.

  Mediante técnicas de webscraping extrae artículos de las categorías escogidas 
  del periódico digital "EL PAÍS" y genera un archivo csv con el nombre de la 
  categoría, el enlace al artículo y el texto de la noticia.
  '''
  # Solicitamos conexión a la página web de "EL PAÍS"
  r = requests.get("https://elpais.com/estaticos/mapa-web")  # Página principal
  soup = BeautifulSoup(r.text, "html.parser")
 
  # Obtenemos todas las columnas de temáticas
  columna = soup.find_all("div", class_="col")
  
  # Obtenemos todos los enlaces a las subcategorías de las categorías que nos 
  # interesan y las categorías a las que pertenecen
  links = []
  categorias = []
  for col in columna:
    if col.find("h2").text in mis_categorias:
      for li in col.find_all("li"):
        categorias.append(col.find("h2").text)
        links.append(li.a['href'])
        categorias.append(col.find("h2").text)
        links.append(li.a['href']+'1/')
        categorias.append(col.find("h2").text)
        links.append(li.a['href']+'2/')
        categorias.append(col.find("h2").text)
        links.append(li.a['href']+'3/')
        categorias.append(col.find("h2").text)
        links.append(li.a['href']+'4/')
 
  lista_categorias = []
  lista_noticias = []
  lista_enlaces = []
  for l,c in zip(links, categorias):  # Link de la subcategoría
    # Solicitamos conexión a la página web de "EL PAÍS"
    r2 = requests.get(l)
    soup2 = BeautifulSoup(r2.text, "html.parser")
 
    # Obtenemos todos los artículos de cada subcategoría
    articulos = soup2.find_all("article")
 
    # Obtenemos los enlaces de los artículos
    enlaces = []
    print('LINK', l)
    for a in articulos:  # Cada artículo de cada subcategoría
      # Obtenemos el link de cada artículo
      link = a.find_all('h2')[0].a
      if link != None and not link['href'].startswith('https://'):
        enlaces.append('https://elpais.com' + link['href'])
 
    for e in enlaces:
      print(e)
      soup3 = BeautifulSoup(requests.get(e).text, "html.parser")
      for t in soup3.find_all("div", class_ = "a_b article_body | color_gray_dark"):
        s = ''
        for texto in t.find_all("p"):
          s += texto.text
        if s != '':
          lista_noticias.append(s)
          lista_categorias.append(c)
          lista_enlaces.append(e)
  df = pd.DataFrame({'CATEGORÍA': lista_categorias, 'ENLACE': lista_enlaces, 'TEXTO': lista_noticias})
  return df

### Aplicamos la función

Definimos una lista de categorías

In [None]:
# Lista de las categorías que nos interesan
mis_cat = ['ECONOMÍA', 'INTERNACIONAL', 'DEPORTES', 'POLÍTICA', 'SOCIEDAD', 'CIENCIA']

Usamos la función con esa lista

In [None]:
df = extraer_articulos(mis_cat)

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
https://elpais.com/internacional/2021-05-16/de-centennials-a-pandemials-el-futuro-truncado-de-los-jovenes-en-america.html
https://elpais.com/opinion/2021-05-15/una-convencion-constitucional-paritaria-para-un-nuevo-pacto-social-en-chile.html
https://elpais.com/mexico/2021-05-15/el-templo-del-virreinato-sumergido-que-la-sequia-devolvio-a-la-luz.html
https://elpais.com/elpais/2021/05/15/album/1621098517_751494.html
LINK https://elpais.com/noticias/latinoamerica/3/
https://elpais.com/mexico/2021-05-15/briseida-acosta-toma-el-relevo-a-maria-del-rosario-espinoza-en-el-taekwondo-para-los-juegos-olimpicos.html
https://elpais.com/internacional/2021-05-15/de-las-barricadas-de-plaza-italia-a-las-urnas-asi-es-la-vispera-la-votacion-en-chile-desde-la-zona-cero-de-las-protestas.html
https://elpais.com/internacional/2021-05-15/academicos-feministas-exministros-indigenas-los-perfiles-que-pueden-definir-el-futuro-politico-de-chi

Creamos un archivo csv con toda la información extraída

In [None]:
df.to_csv("articulos3.csv")