# Introducción al Web Scraping con Python

Hemos trabajado con ficheros que tienen datos estructurados (CSV, JSON, )

Pero, ¿qué pasa cuando los datos que queremos obtener están en una página web? ¿Cómo podemos extraerlos?

Para ello, podemos usar una técnica llamada Web Scraping, que consiste en analizar el código HTML de una página web para extraer los datos que nos interesan.



## Un ejemplo sencillo

In [None]:
# Instalación librerías
! pip install requests beautifulsoup4 lxml

In [None]:
import requests

url = "https://realpython.github.io/fake-jobs/"

r = requests.get(url)

r.status_code

In [None]:
print(r.content[:200])

In [None]:
# creación de la "sopa"
from bs4 import BeautifulSoup

soup = BeautifulSoup(r.content, 'html.parser')

In [None]:
# Buscando algunos elementos

soup.find('h1')

In [None]:
soup.find('h1').text

In [None]:
# limpiar cadena
soup.find('h1').text.strip()

In [None]:
# subtitulo: acceso por la clase del div
subtitulo = soup.find(class_='subtitle')
subtitulo.text

In [None]:
subtitulo.text.strip()

In [None]:
# ofertas de trabajo

ofertas = soup.find_all('h2', class_='title')
len(ofertas)

In [None]:
txt_ofertas = [o.text.strip() for o in ofertas]
print(txt_ofertas)

In [None]:
# imágenes Extacción atributo src

imagen = soup.select('.card img')[0]
imagen['src']

In [None]:
# links Extracción href
# primera oferta
oferta1 = soup.find(class_="card")
oferta1

In [None]:
## Enlace de Apply
enlace = [e['href'] for e in oferta1.select('a') if 'Apply' in e.text]
enlace

In [None]:
# podemos seguir el nuevo enlace (araña)
nuevo_enlace = requests.get(enlace[0])

soup2 = BeautifulSoup(nuevo_enlace.content, 'html.parser')


In [None]:
texto = soup2.select('.content p')[0]
texto.text.strip()

## Un ejemplo más complejo: Películas de IMDb

> En este caso la empresa está interesada en que no recojamos la información. Lo usamos como ejercicio para acceder a datos con `requests-html`

In [None]:
!pip install requests-html

In [None]:
from requests_html import HTMLSession

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
           "accept-language": "es-ES,es;q=0.9,en;q=0.8,gl;q=0.7,ca;q=0.6"}

session = HTMLSession()

url = "https://www.imdb.com/chart/top/"

# prueba con y sin headers
r = session.get(url)
#r = session.get(url, headers=headers)


In [None]:
r.status_code

In [None]:
titulo = r.html.find('h1', first=True)

titulo.text

In [None]:
subtitulo = r.html.find('.ipc-title__description', first=True)
subtitulo.text

In [None]:
titulos = r.html.find('.ipc-metadata-list-summary-item .ipc-title__text')

len(titulos)

In [None]:
titulostxt = [e.text for e in titulos]

In [None]:
links = r.html.find('.ipc-metadata-list-summary-item .ipc-title-link-wrapper')

len(links)

In [None]:
links_pelis = [l.attrs['href'] for l in links]
links_pelis[:10]

In [None]:
imagenes = r.html.find('.ipc-media img')
len(imagenes)

In [None]:
imagenes_src = [i.attrs['src'] for i in imagenes]

print(imagenes_src[:5])