# Web scraping con Python

Web scraping es una técnica utilizada para extraer información de sitios web. Se utiliza para recopilar datos de sitios web y luego analizarlos para obtener información útil. En Python, se pueden usar diversas librerías para realizar web scraping, como Beautiful Soup..

## Qué es BeautifulSoup

Beautiful Soup es una librería de Python diseñada para facilitar el análisis y la extracción de datos de sitios web. Permite navegar, buscar y modificar el árbol de elementos HTML o XML de una página web de manera sencilla. Con Beautiful Soup, se pueden seleccionar y extraer fácilmente los datos que se necesitan de una página web, lo que lo hace una herramienta ideal para el web scraping.

## Instalación

Para utilizar BeautifulSoup, necesitaremos su biblioteca llamada beautifulsoup4. Para instalarla podemos ejecutar esta línea

`$ pip install beautifulsoup4`

Si aparece un error, podríamos ejecutar

`$ pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org beautifulsoup4`

o bien:

`$ pip install --user --trusted-host pypi.org --trusted-host files.pythonhosted.org beautifulsoup4`



Comprobamos:

In [96]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.prettify())


<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


Podemos utilizar métodos de búsqueda de Beautiful Soup, como find() y find_all() para buscar y extraer información específica de la página web. También se pueden utilizar selectores de CSS y expresiones regulares para buscar elementos en el HTML.

Por ejemplo:

In [6]:
title_tag = soup.find('title')
title = title_tag.get_text()
print(title)

The Dormouse's story


Para encontrar todos los elementos de una clase determinada en Beautiful Soup, se puede utilizar el método find_all() y pasar como argumento el atributo class con el nombre de la clase deseada.

Por ejemplo, si desea encontrar todos los elementos a con la clase "sister" en una página HTML, puede hacerlo de la siguiente manera:

In [12]:

elements = soup.find_all( "a" , class_='sister')

print(elements)


[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


Para encontrar todos los elementos cuyas clases comienzan con un determinado string, puedes usar el método find_all() con una expresión regular como valor del atributo class_.
Esto es particularmente útil cuando 

In [14]:
import re

elements = soup.find_all('a', class_=re.compile("^sis"))

print(elements)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


In [36]:
import re

elements = soup.select('a', class_=re.compile("^sis"))

print(elements)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


Vamos a navegar por este archivo HTML antes de continuar con los ejemplos:

In [94]:
from bs4 import BeautifulSoup
with open("resources/example_html.html","r",encoding="utf-8") as html:
    soup = BeautifulSoup(html, 'html.parser')
    print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Ejemplo de web scraping
  </title>
  <style>
   .container {
      width: 80%;
      margin: 0 auto;
    }
    .title {
      font-size: 36px;
      font-weight: bold;
      text-align: center;
    }
    .subtitle {
      font-size: 24px;
      text-align: center;
    }
    .card {
      width: 30%;
      float: left;
      margin: 1%;
      padding: 2%;
      box-sizing: border-box;
    }
    .card img {
      width: 100%;
    }
    .card h3 {
      font-size: 18px;
      margin-top: 10px;
    }
    .card p {
      font-size: 14px;
      margin-top: 5px;
      line-height: 1.5;
    }
    .clearfix {
      clear: both;
    }
  </style>
 </head>
 <body>
  <div class="container">
   <div class="header">
    <h1 class="title">
     Título principal
    </h1>
    <h2 class="subtitle">
     Subtítulo
    </h2>
   </div>
   <div class="card-container">
    <div class="card">
     <img alt="Imagen 1" src="https://via.placeholder.com/151"/>
     <div

Para realizar peticiones a URLs utilizamos la biblioteca requests y selenium.

Para utilizarla, necesitaremos sus bibliotecas. Para instalarlas podemos ejecutar esta línea

`$ pip install requests`

`$ pip install selenium`

Si aparece un error, podríamos ejecutar

`$ pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org requests`

`$ pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org selenium`

o bien:

`$ pip install --user --trusted-host pypi.org --trusted-host files.pythonhosted.org requests`

`$ pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org selenium`

Lo probamos:

In [7]:
import requests

from bs4 import BeautifulSoup

url = 'http://localhost:8888/'
response = requests.get(url)
html = response.content

soup = BeautifulSoup(html, 'html.parser')

print(soup.prettify())


<!DOCTYPE html>
<html>
 <head>
  <link href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" rel="stylesheet"/>
  <script src="https://ajax.googleapis.com/ajax/libs/jquery/3.3.1/jquery.min.js">
  </script>
  <script src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/js/bootstrap.min.js">
  </script>
 </head>
 <body>
  <div class="container">
   <div class="row">
    <div class="col-xs-3">
     <img alt="Logo" class="img-responsive" src="/resources/business-logo.jpg" style="width:50%;"/>
    </div>
    <div class="col-xs-6 text-center">
     <h1>
      Compracoches.net
     </h1>
    </div>
   </div>
  </div>
  <nav class="navbar navbar-default">
   <div class="container-fluid">
    <div class="navbar-header">
     <a class="navbar-brand" href="">
      Inicio
     </a>
     <a class="navbar-brand" href="/html/about.html">
      Sobre nosotros
     </a>
    </div>
   </div>
  </nav>
  <div class="container">
   <div class="row">
    <div class="col-xs-12 text-ce

## Buscando información específica

Ya hemos visto como hacer una busqueda y encontrar secciones especificas de una web. Sin embargo, cómo lo ponemos en práctica?

Muchos sitios web requieren Javascript o el contenido se carga dinamicamente usando JavaScript, por lo que requests no será suficiente. Usaremos Selenium.

Para ello debemos investigar como se realizan las búsquedas en diferentes sitios web, por ejemplo:

In [25]:

from bs4 import BeautifulSoup
from selenium import webdriver
from time import sleep


url = 'https://www.printables.com/es/search/models?q=iphone'


options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=options)
driver.get(url)
sleep(5)
html = driver.page_source

soup = BeautifulSoup(html, 'html.parser')

with open("page.html", "w", encoding="utf-8") as f:
    f.write(soup.prettify())


  driver = webdriver.Chrome(chrome_options=options)


Una vez tengamos acceso a la web y sus elementos, podremos navegar por ellos y seleccionarlos

In [40]:
from bs4 import BeautifulSoup
from selenium import webdriver
from time import sleep

url = 'https://www.printables.com/es/search/models?q='+'iphone'

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=options)
driver.get(url)
sleep(5)
html = driver.page_source

soup = BeautifulSoup(html, 'html.parser')

items = soup.find_all("div",class_="result-item")

for item in items:
    itemName = item.find("a", class_="link clamp-two-lines")
    print(itemName.text)
    print('https://www.printables.com'+itemName['href'])
    itemImg = item.find("div",class_="card")
    itemImg = itemImg.find('img')
    print(itemImg['src'])

  driver = webdriver.Chrome(chrome_options=options)


 iPhone Stand / iPhone Holder 
https://www.printables.com/es/model/107744-iphone-stand-iphone-holder
https://media.printables.com/media/prints/107744/images/1070284_8348be92-9548-46b1-b781-7d62618cc3f6/thumbs/cover/320x240/jpg/img_3541.webp
 iPhone 12 Dummy Models (iPhone 12 Mini, iPhone 12, iPhone 12 Pro, iPhone 12 Pro Max) 
https://www.printables.com/es/model/43469-iphone-12-dummy-models-iphone-12-mini-iphone-12-ip
https://media.printables.com/media/prints/43469/images/432319_04ac6b50-4cdc-4bfc-8c14-2c260dd95de9/thumbs/cover/320x240/jpg/img_2897.webp
 iPhone Stand 
https://www.printables.com/es/model/176650-iphone-stand
https://media.printables.com/media/prints/176650/images/1657093_11a614e4-726b-414a-abd1-5c2222f415c5/thumbs/cover/320x240/jpg/20220422-dscf0619.webp
 iPhone SE (2020,2022) / iPhone 8 
https://www.printables.com/es/model/275162-iphone-se-20202022-iphone-8
https://media.printables.com/media/prints/275162/images/2444860_c457303b-1272-4f81-9bb9-cc0854cfba9d/thumbs/cover/3

Podemos hacer varias busquedas con el mismo término a varias webs

In [2]:
from bs4 import BeautifulSoup
from selenium import webdriver
from time import sleep
import re

url = 'https://www.thingiverse.com/search?q='+'iphone'+'&type=things&sort=relevant'

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get(url)
sleep(5)
html = driver.page_source

soup = BeautifulSoup(html, 'html.parser')

items = soup.find_all("div",class_=re.compile("^SearchResult__searchResultItem-"))

for item in items:

    itemName = item.find("span", class_=re.compile("ThingCardHeader__cardNameWrapper"))

    print(itemName['title'])

    itemLink = item.find("a", class_=re.compile("ThingCardBody__"))

    print(itemLink['href'])

    itemImg = itemLink.find("img")

    print(itemImg['src'])

iphone 6 cable protector!!!!
https://www.thingiverse.com/thing:742415
https://cdn.thingiverse.com/renders/9c/e3/3b/9a/44/i2_preview_card.jpg
iPhone hand
https://www.thingiverse.com/thing:31331
https://cdn.thingiverse.com/renders/44/bb/f6/98/b9/Hand_SUPERfinal_preview_card.jpg
Customizable iPhone Case
https://www.thingiverse.com/thing:40703
https://cdn.thingiverse.com/renders/e0/c8/11/89/06/iphone_case_customizer_thumbnail_preview_card.jpg
iPhone 6 stand
https://www.thingiverse.com/thing:654751
https://cdn.thingiverse.com/renders/64/bb/20/1f/6a/image_preview_card.jpg
Bat Signal for iPhone
https://www.thingiverse.com/thing:657146
https://cdn.thingiverse.com/renders/9c/72/a7/05/0b/Dalpek_BatSignal_image_01_preview_card.jpg
Moby iPhone Dock
https://www.thingiverse.com/thing:1100768
https://cdn.thingiverse.com/renders/59/6b/41/6d/65/Photo_Feb_26_9_54_19_AM_preview_card.jpg
iPhone stand
https://www.thingiverse.com/thing:938372
https://cdn.thingiverse.com/renders/4e/7b/15/9c/27/DSC_0068_previ

Podemos hacer varias consultas a la vez, tratarlas y, por ejemplo, generar un documento

In [95]:
from bs4 import BeautifulSoup
from selenium import webdriver
from time import sleep


query = "ipad"

url = 'https://www.thingiverse.com/search?q='+query+'&type=things&sort=relevant'

url2 = 'https://www.printables.com/es/search/models?q='+query

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=options)
driver2 = webdriver.Chrome(chrome_options=options)
driver.get(url)
driver2.get(url2)
sleep(5)
html = driver.page_source
html2 = driver2.page_source

soup = BeautifulSoup(html, 'html.parser')

searchItems = []

items = soup.find_all("div",class_=re.compile("^SearchResult__searchResultItem-"))

for item in items:

    itemName = item.find("span", class_=re.compile("ThingCardHeader__cardNameWrapper"))

    name = itemName['title']

    itemLink = item.find("a", class_=re.compile("ThingCardBody__"))

    link = itemLink['href']

    itemImg = itemLink.find("img")

    src = itemImg['src']


    searchItems.append({"name":name,"link":link,"src":src})

soup = BeautifulSoup(html2, 'html.parser')

items = soup.find_all("div",class_="result-item")

for item in items:
    itemName = item.find("a", class_="link clamp-two-lines")

    name = itemName.text

    link ='https://www.printables.com'+itemName['href']

    itemImg = item.find("div",class_="card")

    itemImg = itemImg.find('img')

    src = itemImg['src']

    searchItems.append({"name":name,"link":link,"src":src})

#print(searchItems)

html = '<!DOCTYPE html><html><head><title>Impresiones3D.com</title><link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css"><style>.card-width{width:33.33%;float:left}.card-title{overflow:hidden;text-overflow:ellipsis;white-space:nowrap}</style></head><body><div class="container-fluid"><div class="text-center"><h1>Impresiones3D.com</h1></div><nav class="navbar navbar-default"><div class="navbar-header"><a class="navbar-brand" href="#">Inicio</a></div></nav>'


for item in searchItems:
    
    html += '<div class="col-sm-3"><div class="card"><a href="'+ item['link'] +'"><img src="'+item['src']+'" class="img-responsive" alt="Card Image"><div class="card-body"><h4 class="card-title">'+ item['name'] +'</h4></div></a></div></div>'

html += '</div> </div> </body> </html>'



with open("page.html", "w", encoding="utf-8") as f:
    f.write(html)


  driver = webdriver.Chrome(chrome_options=options)
  driver2 = webdriver.Chrome(chrome_options=options)


Para hilar más fino, se necesita hacer más ingeniería inversa y descubrir el origen de los datos, en este caso si investigamos las peticiones de las webs podemos descubrir las peticiones POST a las webs, las cabeceras HTTP y capturar estos mensajes, por ejemplo:

In [90]:
import json

url = 'https://api.printables.com/graphql/'
data = {
  "operationName": "SearchPrints",
  "variables": {
    "query": "iphone",
    "categoryId": None,
    "featured": False,
    "hasMake": False,
    "competitionAwarded": False,
    "publishedDateLimitDays": None,
    "ordering": None,
    "limit": 36,
    "offset": 0
  },
  "query": "query SearchPrints($query: String, $limit: Int, $offset: Int, $categoryId: ID, $materialIds: [Int], $printerIds: [Int], $featured: Boolean, $printDuration: IntervalObject, $weight: IntervalObject, $nozzleDiameters: [Float], $filesType: [FilterPrintFilesTypeEnum], $usedMaterial: IntervalObject, $licenses: [ID], $hasMake: Boolean, $publishedDateLimitDays: Int, $competitionAwarded: Boolean, $ordering: SearchChoicesEnum) {\n  result: searchPrints(\n    query: $query\n    printType: print\n    limit: $limit\n    offset: $offset\n    categoryId: $categoryId\n    materialIds: $materialIds\n    printerIds: $printerIds\n    featured: $featured\n    printDuration: $printDuration\n    weight: $weight\n    nozzleDiameters: $nozzleDiameters\n    filesType: $filesType\n    usedMaterial: $usedMaterial\n    licenses: $licenses\n    hasMake: $hasMake\n    publishedDateLimitDays: $publishedDateLimitDays\n    competitionAwarded: $competitionAwarded\n    ordering: $ordering\n  ) {\n    items {\n      ...SearchPrintsFragment\n      __typename\n    }\n    __typename\n  }\n}\n\nfragment SearchPrintsFragment on SearchPrintType {\n  id\n  score\n  eduProject {\n    language {\n      id\n      name\n      __typename\n    }\n    __typename\n  }\n  explanation\n  image {\n    filePath\n    rotation\n    __typename\n  }\n  ratingAvg\n  ratingCount\n  filesType\n  hasModel\n  nsfw\n  name\n  ...LatestCompetitionResultSearch\n  downloadCount\n  displayCount\n  dateFeatured\n  datePublished\n  slug\n  liked\n  likesCount\n  user {\n    ...AvatarSearchFragment\n    __typename\n  }\n  __typename\n}\n\nfragment LatestCompetitionResultSearch on SearchPrintType {\n  latestCompetitionResult {\n    placement\n    competitionId\n    __typename\n  }\n  __typename\n}\n\nfragment AvatarSearchFragment on SearchUserType {\n  id\n  slug\n  publicUsername\n  company\n  verified\n  handle\n  avatarFilePath\n  badgesProfileLevel {\n    profileLevel\n    __typename\n  }\n  __typename\n}\n"
}

headers = {'Content-type': 'application/json'}

response = requests.post(url, json=data, headers=headers)

print(response.status_code)

responsejson = json.loads(response.text)

items = responsejson['data']['result']['items']

for item in items:

    print("https://www.printables.com/es/model/"+item['id']+" "+item['name'])


200
https://www.printables.com/es/model/107744 iPhone Stand / iPhone Holder
https://www.printables.com/es/model/43469 iPhone 12 Dummy Models (iPhone 12 Mini, iPhone 12, iPhone 12 Pro, iPhone 12 Pro Max)
https://www.printables.com/es/model/176650 iPhone Stand
https://www.printables.com/es/model/99335 IPHONE STAND
https://www.printables.com/es/model/157404 iPhone Stand
https://www.printables.com/es/model/275162 iPhone SE (2020,2022) / iPhone 8
https://www.printables.com/es/model/128413 iPhone Stand
https://www.printables.com/es/model/267329 İphone 13
https://www.printables.com/es/model/182712 iPhone 5 iPhone SE Case
https://www.printables.com/es/model/253385 iPhone holder
https://www.printables.com/es/model/267829 iPhone Holder
https://www.printables.com/es/model/75019 iPhone XR Flexible Case (iPhone 12 wannabe)
https://www.printables.com/es/model/106635 Iphone hand
https://www.printables.com/es/model/131718 iPhone dock
https://www.printables.com/es/model/99974 Iphone Vault
https://www.p

Las soluciones como Selenium son ineficientes y escalan mal, por lo que es conveniente intentar hilar fino y encontrar el origen de los datos.

Muchas veces con buscar en las peticiones recibidas por la web desde el navegador será suficiente para encontrar el mensaje POST enviado. Otras veces no será posible y habrá que usar Selenium u otras soluciones.

En este caso Thingiverse no dispone de una API libre y necesitamos una clave para hacer las peticiones.