# Ejercicio de programación literaria con Python
Esta tercera actividad dirigida consiste en realizar un ejercicio de programación literaria haciendo uso de un código de programación con Python ya existente, en el que llevamos a cabo web scraping. El archivo de documento trabajado en el cuaderno Jupyter también [está colgado dentro de la carpeta "docs"](docs/ad3).

## Librerías
Para comenzar, tal y como hemos visto en clases, tendremos que asegurarnos de que todas las librerias necesarias para comenzarla tarea de web scraping estén correctamente instaladas. Para ello, vamos a intentar llamarlas utilizando una serie de variables.

In [1]:
import requests
import time
import csv
import re
from bs4 import BeautifulSoup
import os
import pandas as pd
from termcolor import colored

ModuleNotFoundError: No module named 'termcolor'

En caso de percibir errores, es probable que estemos ante un problema que denota que las bibliotecas no han sido instaladas. Si no se cono la naturaleza de cada librería, y por lo tanto no se sabe cómo instalar, tendríamos que acudir al navegador web a buscarlo.

### Requests
Según la página web especializada en Python [J2logo](j2logo.com), esta es una librería que facilita el trabajo con peticiones HTTP. 
En caso de querer instalar esta librería, habrá que utilizar la siguiente función valiendose del gestor de paquetes pip:

In [2]:
!pip install requests



En caso de querer hacer una petición, habrá que invocar la función get(), tal y como vemos en el bloque de código del que hablabamos al comienzo del ejercicio.

### Time
La [página web de Python](https://docs.python.org/es/3/library/time.html) señala que se trata de un "módulo (que) proporciona varias funciones relacionadas con el tiempo". Esta permitiría acceder a conversiones horarias. 
Al formar parte de la librería estandar del lenguaje de programación, no es necesario instalarla. 

### CVS
Según la [página web de Python](https://docs.python.org/es/3/library/cvs.html), este es "el formato más común de importación y exportación de hojas de cálculo y bases de datos". Este módulo del lenguaje de programación "implementa clases para leer y escribir datos tabulares en formato CSV".
Al formar parte de la librería estandar del lenguaje de programación, no es necesario instalarla.

### Re
La [página web de Python](https://docs.python.org/es/3/library/re.html) señala que este módulo "proporciona operaciones de coincidencia de expresiones regulares similares a las encontradas en Perl". Todas ellas utilizarán el carácter de barra inversa para indicar formas especiales o permitir el uso de carácteres especiales.
Al formar parte de la librería estandar del lenguaje de programación, no es necesario instalarla. 

### BS4
Tal y como indica la página web especializada en Python [J2logo](https://j2logo.com/python/web-scraping-con-python-guia-inicio-beautifulsoup/), la librería BS4 también es conocida como Beautiful Soup. Es muy utilizada para realizar web scraping, técnica que se puede utilizar en proyectos de Big Data o Machine Learning.
En caso de querer instalar esta librería, habrá que utilizar la siguiente función valiendose del gestor de paquetes pip:

In [3]:
!pip install beautifulsoup4



Además, también se podría instalar a la vez el parser "lxml" utilizando a su vez el mismo gestor de paquetes. 

In [4]:
!pip install lxml



### Pandas
La [página web de Hubspot](https://blog.hubspot.es/website/que-es-pandas-python) señala que esta es una de las librerías más utilizadas para el manejo, anális y procesamiento de datos. Se basa en las estructuras de datos que mantiene la librería NumPy, y dispone de tres estructuras distintas: Series, DataFrame y Panel.
En caso de querer instalar esta librería, habrá que utilizar la siguiente función valiendose del gestor de paquetes pip:

In [5]:
!pip install pandas



### Termcolor
Según indica [la página web Replit](https://replit.com/talk/learn/How-to-Use-Termcolor-In-Python/24684), el módulo termcolor permite imprimir texto con colores. 
En caso de querer instalar esta librería, habrá que utilizar la siguiente función valiendose del gestor de paquetes pip:

In [6]:
!pip install --upgrade termcolor

Collecting termcolor
  Downloading termcolor-2.1.1-py3-none-any.whl (6.2 kB)
Installing collected packages: termcolor
Successfully installed termcolor-2.1.1


## Comienzo del ejercicio
Como primer paso, volvemos a importar las librerías necesarias, ahora que tenemos todas las necesarias. Para ello utilizaremos la siguiente función, tal y como hicimos al comienzo del documento:

In [7]:
import requests
import time
import csv
import re
from bs4 import BeautifulSoup
import os
import pandas as pd
from termcolor import colored

Posteriormente llamamos a la página de resultados con la siguiente variable.

In [8]:
resultados = []

Para poder organizar correctamente los datos, utilizaremos la función "type".

In [10]:
type(resultados)

list

## Acceder a los datos de El País
Es en este momento cuando realizamos la primera petición de obtención de datos a través de la variable "req". Tal y como se muestra en la siguiente función, esto marcaría el uso de la librería requests.

In [12]:
req = requests.get("https://resultados.elpais.com")

A continuación haremos uso de un condicional, con el que conoceremos si el valor es igual a 200, y lanzará un error en caso de que sea otro.

In [13]:
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup = BeautifulSoup(req.text, 'html.parser')

Tras realizar esta acción, comenzará a trabajar la librería BS4 o Beautiful Soup. Este comando es el encargado de comenzar con el web scraping. Comenzamos buscando todas las etiquetas posibles con la función "tags", lo que dará una serie de tutulares que cumplan la condición de ser "h2".

In [14]:
tags = soup.findAll("h2")

Es entonces cuando utilizaremos "print" para imprimir la información que le estamos solicitando.

In [15]:
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Última hora
El calendario
Universo Mundial
Las predicciones
La ‘newsletter’
La policía interceptó en  La Moncloa un sobre con material pirotécnico dirigido a Sánchez
La censura del Congreso a Marlaska por Melilla deja su futuro en manos de la Fiscalía
La Eurocámara presionará para que el ministro dé explicaciones sobre la tragedia 
Superviviente de una mara hondureña: “No me enteré de que a mi hija la violaron a punta de pistola hasta que llegué a España”
Cómo detectar una crisis de ansiedad y qué hacer
‘As bestas’, de Rodrigo Sorogoyen, lidera la carrera a los Goya con 17 nominaciones
Empecinamiento sobre Melilla 
Abolir la prostitución
Bildu como ‘síntoma’ generacional
Carta de socorro
Las píldoras de Enzensberger
España se ve lanzada  
Joshua Kimmich bajo vigilancia
Marruecos, ante el mayor desafío histórico desde el 86
¿Qué opciones tiene cada selección de pasar a octavos?
La pensión máxima subirá un 3% hasta 2050 y la cotización más alta lo hará un 35%
Malestar en el Gobierno y el

## El trabajo continúa con otras secciones
Este trabajo explora otras secciones de la página web de el diario El País. Por lo tanto, repetiremos este proceso con la url de la sección de internacional. 
Una vez más, limitaremos el valor a 200 y solicitaremos el acceso a través de la librería requests. La variable pasa a ser "req2".

In [16]:
req2 = requests.get("https://elpais.com/internacional")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup2 = BeautifulSoup(req2.text, 'html.parser')

De nuevo, buscaremos todas las etiquetas "h2" y las imprimimos.

In [17]:
tags = soup2.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

El historiador Serhii Plokhy: “El destino de la guerra ya está claro: Ucrania será independiente y Rusia queda tremendamente debilitada”
Hungría evita la confrontación con Bruselas y confía en desbloquear los fondos europeos en 2023 
Bruselas promueve un tribunal especial para juzgar a la cúpula de Putin por sus crímenes en Ucrania
Una globalización centrada en los seres humanos
Autocracia en crisis
“¿De qué color es el hambre, mamá?”
China: una protesta nacional
Publicar no es un delito
Bruselas exige congelar fondos europeos a Hungría por las violaciones del Estado de derecho
Hungría acelera las medidas anticorrupción para rebajar la magnitud del castigo europeo
China relaja las medidas anticovid en Guangzhou para frenar nuevas protestas
Nicolás Maduro condiciona la celebración de elecciones libres al levantamiento de sanciones 
Muere el expresidente de China Jiang Zemin
La doble respuesta de China a las protestas: acelerar la vacunación de los mayores y descabezar las manifestacione

Realizaremos el mismo trabajo con las secciones de opinión, España, economía, sociedad, educación, clima y medio ambiente, ciencia, cultura, babelia, deportes, tecnología, gente, televisión y eps. Estas serian las funciones a lanzar. 

### Opinión

In [18]:
req3 = requests.get("https://elpais.com/opinion")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup3 = BeautifulSoup(req3.text, 'html.parser')

tags = soup3.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Empecinamiento sobre Melilla 
Proteger al Constitucional
República federal laica
Abolir la prostitución
‘A compás’
Las píldoras de Enzensberger
Bildu como ‘síntoma’ generacional
Pedro Sánchez pasará a la historia
Autocracia en crisis
Las sombras de TikTok
Carta de socorro
Planes para frenar el suicidio
Brasil en transición
La celebración de dar gracias
Cadáveres exquisitos
El Roto
Flavita Banana
Riki Blanco
Peridis
Sciammarella
Envía tu carta
La salud es más importante que la báscula
Así funciona la corrupción
Mucho texto
Noticias positivas en tiempos caóticos
Bomba nuclear en Barcelona
Una maldita lista en tiempos airados
El defensor del lector contesta


### España

In [19]:
req4 = requests.get("https://elpais.com/espana/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup4 = BeautifulSoup(req4.text, 'html.parser')

tags = soup4.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

La censura del Congreso a Marlaska por la tragedia de Melilla deja su futuro en manos de la Fiscalía
La Eurocámara presionará para que Marlaska dé explicaciones sobre la tragedia de Melilla
Malestar en el Gobierno y el PSOE con Montero por acusar al PP de promover la cultura de la violación
Alberto Núñez Feijóo, nacionalista
La caverna
Aunque nos tiemble la barbilla
Orfandad representativa
Otra forma de violencia política
El número de españoles en cárceles extranjeras repunta un 15% tras el fin de la pandemia
Defensa invertirá 80 millones en su futuro Sistema de Combate en el Ciberespacio
Temporeros de Jaén duermen a la intemperie aunque los albergues están semivacíos
Todos los partidos coinciden en acusar a Marlaska de mentir y engañar en su versión sobre la tragedia de Melilla el 24-J
Nueva trifulca en el Congreso: Irene Montero pasa de atacada a provocadora
El embajador de Ucrania y una empresa de armas reciben sendas cartas con sustancias deflagrantes
Acnur cuestiona la legalidad d

### Economía

In [20]:
req5 = requests.get("https://elpais.com/economia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup5 = BeautifulSoup(req5.text, 'html.parser')

tags = soup5.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

La pensión máxima subirá un 3% hasta 2050 y la cotización más alta, un 35%
El euríbor cierra noviembre en su mayor nivel desde 2008: la cuota de los que revisen ahora su pago crecerá un 44%
Cepsa invertirá 3.000 millones en el mayor proyecto de hidrógeno verde de Europa
Transportes reforzará en 2023 la inspecciones para garantizar que los camioneros no trabajen a pérdidas
Los desafíos al proceso de transición ecológica
La moda de la sostenibilidad
Impuesto erróneo a la banca
Sufrimientos evitables
El coste de la vida
Cosecha de ingresos en las constructoras y concesionarias: facturan 6.000 millones más hasta septiembre
Arabia Saudí encarga otros cinco buques de guerra a Navantia 
Los ingresos tributarios hasta octubre ya superan lo recaudado en todo 2021
Prisa presenta el plan para redoblar su apuesta por la sostenibilidad
Estos picos han enamorado al chef José Andrés y están hasta en las mesas de Corea del Sur
El BBVA gana a Merlin el arbitraje sobre la Operación Chamartín
Breton exig

### Sociedad

In [21]:
req6 = requests.get("https://elpais.com/sociedad/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup6 = BeautifulSoup(req6.text, 'html.parser')

tags = soup6.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

El retraso en resolver contratos predoctorales deja en el limbo a cientos de jóvenes: “Es la desesperación” 
Condenada por hurto en supermercados: “Lo mejor que me podía haber pasado fue entrar en prisión”
Así fue el ataque con ácido sulfúrico de ‘El Melillero’: “Perra, mongola, tonta”
Qué es la cultura de la violación de la que habla Irene Montero
La caja de resonancia de la angustia vital
Para acabar con la violencia de género, necesitamos más mujeres en posiciones de poder 
Los secretos atronadores del secretario general
PSOE y Unidas Podemos aplazan el debate sobre la autodeterminación de género en la ‘ley trans’
Un plan de choque de 356 millones para intentar salvar Doñana de su creciente declive 
España gana medio millón de habitantes en una década, pero siete de cada 10 municipios pierden población 
El Senado de Estados Unidos aprueba una ley para blindar el matrimonio homosexual
Solo el 44% de los adolescentes con conductas suicidas ha recibido tratamiento psicológico en los úl

### Educación

In [22]:
req7 = requests.get("https://elpais.com/educacion/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup7 = BeautifulSoup(req7.text, 'html.parser')

tags = soup7.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

El retraso en resolver contratos predoctorales deja en el limbo a cientos de jóvenes: “Es la desesperación” 
El estrés académico lastra el aprendizaje de los niños de nivel socioeconómico bajo
‘Phishing’, ‘malware’ o ‘ransomware’: el reto de formar en ciberseguridad tras la pandemia
La escuela concertada matricula a la mitad del alumnado desfavorecido que le correspondería
El Gobierno dará un subsidio de 400 euros anuales a los alumnos con necesidades especiales
La expulsión de una clase en un colegio de Palma tras colocar una bandera de España deriva en graves amenazas a una profesora 
Pobreza en el Olimpo académico de EE UU: la huelga en la Universidad de California es ya una de las más grandes del país
El primer Mundial en horario lectivo y con ‘smartphones’ se juega también en los institutos
El cabecilla de los cánticos machistas del Elías Ahuja vuelve al colegio mayor pese a anunciarse su expulsión definitiva
La nueva ley de enseñanzas artísticas endurecerá los requisitos para ser

### Clima y medio ambiente

In [23]:
req8 = requests.get("https://elpais.com/clima-y-medio-ambiente/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup8 = BeautifulSoup(req8.text, 'html.parser')

tags = soup8.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Un plan de choque de 356 millones para intentar salvar Doñana de su creciente declive 
La deforestación de la Amazonia cae un 11% en el último balance anual de la era Bolsonaro
Portugal, el secreto de un país sin bicicletas que se convirtió en el mayor fabricante europeo
Bruselas quiere que todos los embalajes de la UE sean reciclables para 2030
La misteriosa llegada del pájaro parecido a un pingüino que preocupa en las costas mediterráneas
Alex Rafalowicz, abogado: “Los combustibles fósiles son una amenaza existencial como las armas nucleares”
El problema con los suelos: un mundo vivo, desconocido y muy desprotegido
Los agujeros legales de las finanzas sostenibles: así acaba el dinero de los fondos de inversión más verdes en empresas contaminantes
Gobierno y Junta chocan por Doñana mientras se agrava el deterioro ecológico 
Linces y águilas imperiales se refugian en fincas privadas que se alían con conservacionistas  
¿Podré matar a una rata que entre en mi casa? Claves de la reforma 

### Ciencia

In [24]:
req9 = requests.get("https://elpais.com/ciencia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup9 = BeautifulSoup(req9.text, 'html.parser')

tags = soup9.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

75 años de la muerte de G.H. Hardy, un matemático excéntrico y brillante
Elon Musk asegura que en seis meses se implantará el primer chip en un cerebro humano con Neuralink
El desafío de envejecer con VIH: “Las personas de largo recorrido sufrimos depresión, ansiedad y deterioro cognitivo”
Un meteorito provoca un fuerte estruendo sentido en toda Gran Canaria
Hallan en Transilvania una nueva especie de dinosaurio enano herbívoro que vivió hace 70 millones de años
La primera simulación cuántica de un agujero de gusano abre una nueva puerta para entender el universo
Un fármaco experimental contra el alzhéimer confirma efectos positivos, pero puede estar detrás de la muerte de dos pacientes 
Escrito en las estrellas, ¿qué hemos aprendido de ellas?
El problema con los suelos: un mundo vivo, desconocido y muy desprotegido
Los hogares más pobres reducen su consumo de refrescos casi 11 litros en un año por la subida del IVA
Ronna, ronto, quetta y quecto, los nuevos prefijos para magnitudes ext

### Cultura

In [25]:
req10 = requests.get("https://elpais.com/cultura/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup10 = BeautifulSoup(req10.text, 'html.parser')

tags = soup10.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

‘As bestas’, de Rodrigo Sorogoyen, lidera la carrera a los Premios Goya 2023 con 17 nominaciones
Todas las nominaciones a los Premios Goya 2023
Muere Christine McVie, cantante y teclista de la legendaria banda Fleetwood Mac, a los 79 años
¿Cómo empezó?
‘Company’ y el olor de la gran manzana
Charlie Watts: el bicho más raro de The Rolling Stones
Meter la mano en la vaca 
La respuesta a la guerra en Ucrania también es literaria
Juana Dolores, la nueva ‘enfant terrible’ de la cultura catalana: “Hay mucho silencio y autocensura en la literatura”
Una investigación saca a la luz 170 escritos inéditos de Miguel Hernández
El Sónar 2023 anuncia a Richie Hawtin, Laurent Garnier o The Blessed Madonna entre sus primeros artistas invitados
Nace el Centro Nacional de la Fotografía: lo tenemos más fácil por ser los últimos
El arte reivindica la belleza y la fragilidad del vidrio
Daniel López Valle: “Nos da miedo pensar en el poder que tiene el azar en nuestras vidas”
El toque manual de campana españo

### Babelia

In [26]:
req11 = requests.get("https://elpais.com/babelia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup11 = BeautifulSoup(req11.text, 'html.parser')

tags = soup11.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Roe Ethridge, el fructífero intercambio entre el arte y el comercio
Lo nuevo de Rihanna, Bruce Springsteen, Niño de Elche (con Rosalía) y otras canciones de noviembre
‘La última vez’, de Guillermo Martínez: un laberinto con final milagrosamente imprevisible
La lección magistral de Bob Dylan sobre Elvis
Cuando la furia de Twitter empaña un (interesante) debate narrativo
La curva de la semana: sube Cristina Morales, está aquí Aldo Manucio, baja Rosalía
Las nuevas coordenadas culturales de Latinoamérica
Las más bellas cartas de amor en castellano, las memorias de Marguerite Duras y otros libros de la semana
Amor mío queridísimo: la delicadeza sentimental de Felisberto Hernández
Ellas fueron modernas: cuatro artistas alemanas en la vorágine del cambio de siglo
Anacrónicas y audaces: las cantautoras latinas que renuevan la música de raíz
Lo que jode es la respuesta: la diferencia entre crítica, cancelación y censura
Edmonia, Frida y Amrita: tres mestizas
La basura se lee con anteojos
Mi oto

### Deportes

In [27]:
req12 = requests.get("https://elpais.com/deportes/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup12 = BeautifulSoup(req12.text, 'html.parser')

tags = soup12.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Última hora
El calendario
Vídeo en directo
Las predicciones
La ‘newsletter’
Argentina se gana los octavos 
“Si Lewandowski fuera argentino, igual mete cinco”
México se queda a un gol del pase 
Sí, se puede ser feliz por una clasificación a octavos de final
Mi tío Ricardo y la antena de la tele
Jugar para tu país
El mejor Messi juega, no golea 
España se ve lanzada  
Morata encuentra su paz
Japón y el dios del pie buscan al mejor Kamada
Joshua Kimmich bajo vigilancia
Kevin de Bruyne, entre la frustración y el miedo ante el día decisivo de Bélgica contra Croacia
Marruecos, ante su mayor desafío histórico desde el 86
Olga Viza: “Llevé la copa del Mundial de España 82 de copiloto en mi coche con la L en el cristal”
Tata Martino lleva a México a su gran fracaso en el Mundial
¡Viva mi desgracia!
Túnez desnuda a los suplentes de Francia
Una indesmayable Australia acaba con la insustancial Dinamarca y se mete en octavos
Resumen de la jornada 11 del Mundial de Qatar 2022
Pelé se mantiene establ

### Tecnología

In [28]:
req13 = requests.get("https://elpais.com/tecnologia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup13 = BeautifulSoup(req13.text, 'html.parser')

tags = soup13.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Elon Musk asegura que en seis meses se implantará el primer chip en un cerebro humano con Neuralink
Del referéndum de Cataluña a #Cuéntalo: los archiveros guardan tuits que han hecho historia
La primera simulación cuántica de un agujero de gusano abre una nueva puerta para entender el universo
La Policía de San Francisco contará con robots con capacidad de matar
Ronna, ronto, quetta y quecto, los nuevos prefijos para magnitudes extraordinarias
El problema de la cultura ‘brogrammer’: “Se está excluyendo la mirada femenina de las soluciones tecnológicas que van a modelar el futuro”
Los ciberdelincuentes aprovechan el caos en Twitter para lanzar campañas de ‘phishing’
Damian Burns, director de Twitch Europa: “No me importaría que mi hija fuera ‘streamer’”
Adrian Hon, diseñador de videojuegos: “Las empresas y gobiernos usan juegos para controlarnos”
Mastodon: qué es y cómo funciona la red social en la que los usuarios deciden qué está permitido
Así serán las nuevas marcas de verificación e

In [29]:
req14 = requests.get("https://elpais.com/tecnologia/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup14 = BeautifulSoup(req14.text, 'html.parser')

tags = soup14.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Elon Musk asegura que en seis meses se implantará el primer chip en un cerebro humano con Neuralink
Del referéndum de Cataluña a #Cuéntalo: los archiveros guardan tuits que han hecho historia
La primera simulación cuántica de un agujero de gusano abre una nueva puerta para entender el universo
La Policía de San Francisco contará con robots con capacidad de matar
Ronna, ronto, quetta y quecto, los nuevos prefijos para magnitudes extraordinarias
El problema de la cultura ‘brogrammer’: “Se está excluyendo la mirada femenina de las soluciones tecnológicas que van a modelar el futuro”
Los ciberdelincuentes aprovechan el caos en Twitter para lanzar campañas de ‘phishing’
Damian Burns, director de Twitch Europa: “No me importaría que mi hija fuera ‘streamer’”
Adrian Hon, diseñador de videojuegos: “Las empresas y gobiernos usan juegos para controlarnos”
Mastodon: qué es y cómo funciona la red social en la que los usuarios deciden qué está permitido
Así serán las nuevas marcas de verificación e

### Gente

In [30]:
req15 = requests.get("https://elpais.com/gente/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup15 = BeautifulSoup(req15.text, 'html.parser')

tags = soup15.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Shakira y Piqué sellan su acuerdo de separación en Barcelona ante el juez
Spotify Wrapped, el selfi musical que monopoliza la conversación en Twitter y acaricia el ego
Los príncipes de Gales emulan en su viaje a Boston la visita que la reina Isabel II hizo a la ciudad en 1976
Buckingham fuerza la dimisión de una asistente de la reina Camila por sus comentarios racistas
Los actores de ‘Love Actually’ se reencuentran: ¿qué ha sido de ellos 19 años después?
El último desfile de Antonio Alvarado se expone en el Museo del Traje
Antonio Alvarado, el museo como pasarela: su restrospectiva, en fotos
Tres reinas, una princesa y dos primeras damas se reúnen en Buckingham contra la violencia de género
Acuerdo de divorcio entre Kim Kardashian y Kanye West: custodia compartida y 200.000 dólares de pensión
La ‘baguette’ francesa, declarada patrimonio inmaterial de la Unesco
Los chocolates y bombones de Jordi Roca ponen un pie en Barcelona con una tienda efímera de Casa Cacao en un hotel de lujo
¿Se 

### Televisión

In [31]:
req16 = requests.get("https://elpais.com/television/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup16 = BeautifulSoup(req16.text, 'html.parser')

tags = soup16.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

La SER se consolida como la radio más escuchada con 4.161.000 oyentes
Series de diciembre de 2022: ‘Alice in Borderland’ en Netflix, ‘Fácil’ en Movistar Plus+ y otros estrenos
Lorena Castell, ganadora de ‘MasterChef Celebrity’: “Me gusta trabajar bajo presión, me pone las pilas”
Omar Montes y el experimento del gorila
‘El presidente: juego de la corrupción’, los entresijos del fútbol
‘No me gusta conducir’: en qué se parece hacer una serie a aprender a conducir
‘Ummo’, un guirigay intergaláctico
Borja Cobeaga: “Tardé más en sacarme el carné que en hacer esta serie”
Lorena Castell, ganadora de ‘MasterChef Celebrity 7’
Radiografía de ‘El hormiguero’: entretenimiento blanco de éxito… y polémicas por machismo
Eliseo, ‘el encargado’ corrupto que seduce y repele en Argentina 
‘Masterchef Celebrity’ ya tiene a sus dos finalistas, tras la “rendición” de Patricia Conde
‘The Peripheral’, realidad, ficción y un futuro ciberpunk con los creadores de ‘Westworld’
El ‘bon vivant’ acorralado de la FIF

### Eps

In [32]:
req17 = requests.get("https://elpais.com/eps/")
# Si el estatus code no es 200 no se puede leer la página
if (req.status_code != 200):
 raise Exception("No se puede hacer Web Scraping en"+ URL)
soup17 = BeautifulSoup(req17.text, 'html.parser')

tags = soup17.findAll("h2")
for h2 in tags:
    print(h2.text)
    resultados.append(h2.text)

Felix Klieser: un virtuoso de la trompa (sin brazos)
Anna Lluch, experta en cáncer de mama: “El sistema público de salud se decide en las urnas”
¿A qué sabe un vino de 160 años? Apuntes de una cata histórica en Marqués de Riscal
Las abuelas que han viralizado el arte de elaborar la pasta italiana 
David LaChapelle, en busca de Dios
El lugar en el que convergen moda, arte y arquitectura
Muchos hombres, una sola mujer
El misterio de Manuel Carrasco: cómo salir de una barriada de pescadores y acabar siendo un cantante que llena estadios
Ishida, los ‘dioses’ de la cocina japonesa: “Tenemos que dejar de desear tantas cosas, y hay que hacerlo ya”  
Los guardianes de la ensaladilla rusa, la tapa popular que subió a los altares ‘gourmet’ 
Humaredas mediáticas, monotonía, discursos vacíos y otras amenazas y retos de la gastronomía 
Narcisistas, ansiosos, pasivo-agresivos… Cinco claves para tratar con personas difíciles
Al fondo, invisibles, las pirámides
El coche que se anticipa al declive de l

### Estilo de El País
Nada más acabar con el trabajo de impresión, será necesario limpiar los resultados para obtener una visualización optima tras haber realizado el web scrapping. Para ello, se utilizará la siguiente función.

In [33]:
os.system("clear")

1

El uso del siguiente atributo nos ayudará a dar una distinción de color a cada uno de los titulares que contengan la palabra "Feminismo". En este caso, pasarán a ser verdes y tendrán estilo de negrita.

In [34]:
print(colored("A continuación se muestran los titulares de las páginas principales del diario El País que contienen las siguientes palabras:", 'blue', attrs=['bold']))
print(colored("Feminismo", 'green', attrs=['bold']))

A continuación se muestran los titulares de las páginas principales del diario El País que contienen las siguientes palabras:
Feminismo


Gracias a la siguiente función, podremos asegurarnos gracias al condicional "if" que todos los resultados que concuerden con esa palabra repintan esta acción. Esto se hace a través de la variable "str_match".

In [35]:
str_match = [s for s in resultados if "feminismo" in s]
print("\n".join(str_match))




Este mismo proceso se repetirá con las siguientes palabras: igualdad, mujeres, mujer, brecha salarial, machismo, violencia, maltrato, homicidio, género, asesinato y sexo. 

In [36]:
print(colored("Igualdad", 'green', attrs=['bold']))
str_match = [s for s in resultados if "igualdad" in s]
print("\n".join(str_match))

Igualdad
La economía solidaria: un nuevo modelo financiero contra la desigualdad y la emergencia climática
El caso de Georgia, en EE UU: becar sin importar la renta agranda la desigualdad


In [37]:
print(colored("Mujeres", 'green', attrs=['bold']))
str_match = [s for s in resultados if "mujeres" in s]
print("\n".join(str_match))

Mujeres
Para acabar con la violencia de género, necesitamos más mujeres en posiciones de poder 


In [38]:
print(colored("Mujer", 'green', attrs=['bold']))
str_match = [s for s in resultados if "mujer" in s]
print("\n".join(str_match))

Mujer
Muchos hombres, una sola mujer
Para acabar con la violencia de género, necesitamos más mujeres en posiciones de poder 
Muchos hombres, una sola mujer


In [39]:
print(colored("Brecha salarial", 'green', attrs=['bold']))
str_match = [s for s in resultados if "brecha salarial" in s]
print("\n".join(str_match))

Brecha salarial



In [40]:
print(colored("Machismo", 'green', attrs=['bold']))
str_match = [s for s in resultados if "machismo" in s]
print("\n".join(str_match))

Machismo
Radiografía de ‘El hormiguero’: entretenimiento blanco de éxito… y polémicas por machismo
Radiografía de ‘El hormiguero’: entretenimiento blanco de éxito… y polémicas por machismo


In [41]:
print(colored("Violencia", 'green', attrs=['bold']))
str_match = [s for s in resultados if "violencia" in s]
print("\n".join(str_match))

Violencia
Otra forma de violencia política
Para acabar con la violencia de género, necesitamos más mujeres en posiciones de poder 
Tres reinas, una princesa y dos primeras damas se reúnen en Buckingham contra la violencia de género


In [42]:
print(colored("Maltrato", 'green', attrs=['bold']))
str_match = [s for s in resultados if "maltrato" in s]
print("\n".join(str_match))

Maltrato
¿Podré matar a una rata que entre en mi casa? Claves de la reforma del Código Penal para castigar más el maltrato animal


In [43]:
print(colored("Homicidio", 'green', attrs=['bold']))
str_match = [s for s in resultados if "homicidio" in s]
print("\n".join(str_match))

Homicidio



In [44]:
print(colored("Género", 'green', attrs=['bold']))
str_match = [s for s in resultados if "género" in s]
print("\n".join(str_match))

Género
Ayuso se compromete con Vox a borrar la autodeterminación de género de las leyes en Madrid
PSOE y Unidas Podemos aplazan el debate sobre la autodeterminación de género en la ‘ley trans’
Por primera vez un juez declara nulo un contrato de alquiler por aplicación de la perspectiva de género
Visitas a centros de acogida y muchas horas de estudio: así se forman los jueces en materia de género
Para acabar con la violencia de género, necesitamos más mujeres en posiciones de poder 
PSOE y Unidas Podemos aplazan el debate sobre la autodeterminación de género en la ‘ley trans’
Tres reinas, una princesa y dos primeras damas se reúnen en Buckingham contra la violencia de género


In [45]:
print(colored("Asesinato", 'green', attrs=['bold']))
str_match = [s for s in resultados if "asesinato" in s]
print("\n".join(str_match))

Asesinato



In [46]:
print(colored("Sexo", 'green', attrs=['bold']))
str_match = [s for s in resultados if "sexo" in s]
print("\n".join(str_match))

Sexo

