# Web Scraping con Requests y Beautiful Soup

**Relator: Felipe Mesa Abraham** 

Correo: femesa@udec.cl


En esta actividad se trabajará con la librería [Requests](https://docs.python-requests.org/en/latest/) y la libreria [Beautiful Soup](https://beautiful-soup-4.readthedocs.io/en/latest/) para extraer información de distintas páginas de ecommerce. La actividad consiste en un ejemplo sobre el funcionamiento de la librería y un ejercicio guiado.

## "Cargando" la pagina

In [None]:
import requests
import pprint

# Definimos el link de la página
URL = 'https://listado.mercadolibre.cl/computacion/notebooks/#menu=categories'

# Hacemos una solicitud HTTP y obtenemos el codigo fuente de la pagina
page = requests.get(URL)
pprint.pprint(page.content)

## Extrayendo _UN SOLO_ elemento

In [None]:
from bs4 import BeautifulSoup

# Convertimos el codigo de la pagina en un objeto de tipo BeautifulSoup
soup = BeautifulSoup(page.content, 'html.parser')

# Guardamos en contenedores cada uno de los productos de la pagina, es decir, cada div que tenga la clase ui-search-result__wrapper
contenedores = soup.find_all('div',class_='ui-search-result__wrapper')
print("Numero de productos:", len(contenedores))

In [None]:
# Notar que el resultado del objeto contenedores es un objeto iterable
print(contenedores[0])

**Extraemos el titulo de un producto**

In [4]:
# Creamos otra variable para guardar el primer elemento, luego extraemos el texto del titulo
element = contenedores[0] 
titulo_producto = element.find('h2', class_="ui-search-item__title")
print(titulo_producto.text)

Macbook Air 13'' Procesador Apple M1 (8 Gb Ram, 256 Gb Ssd)


**Obteniendo el Precio**

Aveces el elemento que buscamos esta anidado dentro de otro, por lo que hay que capturar un elemento superior antes de extraer el elemento deseado.

In [None]:
# Precio original
element.find('span', class_='price-tag-fraction').text
# Precio con descuento
element.find('div',class_='ui-search-price__second-line').find('span', class_='price-tag-fraction').text

'929.990'

**Obteniendo Atributos**

In [None]:
element.find('a', class_='ui-search-item__group__element').get('href')

'https://articulo.mercadolibre.cl/MLC-611219774-macbook-air-13-procesador-apple-m1-8-gb-ram-256-gb-ssd-_JM?searchVariation=83880292084#searchVariation=83880292084&position=13&search_layout=stack&type=item&tracking_id=de5670e3-7ee2-4456-80c3-c97241b989a0'

**Obteniendo el link para pasar a la siguiente pagina del listado**

In [None]:
soup.find('a', class_='andes-pagination__link').get('href')

'https://listado.mercadolibre.cl/computacion/notebooks/_Desde_51_NoIndex_True'

## Extrayendo varios elemento

**Iteramos la lista de contenedores y extraemos la información deseada.**



In [None]:
# Creamos 3 listas vacias que guardarán la información
nombre = []
precio = []
link = []


# Iteramos la lista de contenedores y extraemos nombre, precio y link para cada contenedor
for contenedor in contenedores:
  nombre.append(contenedor.find('h2', class_="ui-search-item__title").text)
  precio.append(contenedor.find('div',class_='ui-search-price__second-line').find('span', class_='price-tag-fraction').text)
  link.append(contenedor.find('a', class_='ui-search-item__group__element').get('href'))

In [None]:
# Convertimos las listas en un dataframe
import pandas as pd
data = {'nombre' : nombre, 'precio':precio, 'link':link}
df = pd.DataFrame(data)
df.head()

Unnamed: 0,nombre,precio,link
0,Macbook Air 13'' Procesador Apple M1 (8 Gb Ram...,929.99,https://articulo.mercadolibre.cl/MLC-611219774...
1,Notebook Lenovo Amd Athlon Gold 4gb 128gb Ssd ...,329.99,https://articulo.mercadolibre.cl/MLC-596842246...
2,Notebook Gaming Hp Pavilion I5-10300h 8gb 256gb,649.99,https://articulo.mercadolibre.cl/MLC-620358521...
3,Notebook Chromebook Hp Pentium N5000 4gb 64gb ...,209.99,https://articulo.mercadolibre.cl/MLC-595310698...
4,Notebook Hp Amd Athlon Silver 4gb Ram 128ssd W...,289.99,https://articulo.mercadolibre.cl/MLC-536933681...


In [None]:
# Guardamos la información en un archivo
df.to_csv('datos_mercadolibre.csv', index=False)



---



# Práctica Beautiful Soup

Tomando en cuenta el ejemplo anterior, se le pide que realice webscraping para extraer información de la siguiente página:

https://www.linio.cl/c/computacion/pc-portatil

En particular, se desea extraer:


*   Nombre del producto
*   Precio final del producto (incluye descuento si está en oferta)
*   Link de la página del producto
*   Marca

Se le pide que extraiga los resultados de a lo menos 3 páginas.
Tambien se le pide que guarde sus resultados en un archivo .csv en caso de tener que hacer análisis porsteriores.



In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Definimos el link de la página


# Hacemos una solicitud HTTP y obtenemos el codigo fuente de la pagina


# Convertimos el codigo de la pagina en un objeto de tipo BeautifulSoup


# Guardamos en contenedores cada uno de los productos de la pagina


# Creamos listas vacias que guardarán la información


# Iteramos la lista de contenedores y extraemos nombre, precio y link para cada contenedor


# Convertimos las listas en un dataframe


# Guardamos la información en un archivo

## Solución

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Creamos listas vacias que guardarán la información
nombre = []
precio = []
link = []
marca = []

#Recorremos las paginas
for i in range(1,4):

  # Definimos el link de la página
  URL = 'https://www.linio.cl/c/computacion/pc-portatil?page={}'.format(i)

  # Hacemos una solicitud HTTP y obtenemos el codigo fuente de la pagina
  page = requests.get(URL)

  # Convertimos el codigo de la pagina en un objeto de tipo BeautifulSoup
  soup = BeautifulSoup(page.content, 'html.parser')


  # Guardamos en contenedores cada uno de los productos de la pagina
  contenedores = soup.find_all('div',class_='catalogue-product')
  # Iteramos la lista de contenedores y extraemos nombre, precio y link para cada contenedor
  for contenedor in contenedores:
    nombre.append(contenedor.find('span', class_='title-section').text)
    precio.append(contenedor.find('div',class_='price-section').find('span', class_='price-main-md').text)
    link.append(contenedor.find('a').get('href'))
    marca.append(contenedor.find('meta', itemprop='brand').get('content'))


# Convertimos las listas en un dataframe
data = {'nombre' : nombre, 'precio':precio, 'link':link, 'marca': marca}   
df = pd.DataFrame(data)

# Guardamos la información en un archivo
df.to_csv('datos_linio.csv', index=False)

## Ejercicio propuesto
Repita el ejercicio anterior para que se pueda hacer web scraping de todas las paginas de la categoria entregada. Guarde sus resultados en un archivo .csv

## Solución

In [23]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Creamos listas vacias que guardarán la información
nombre = []
precio = []
link = []
marca = []

# Creamos un acumulador para cambiar de pagina
i = 1

#Recorremos las paginas
while True:

  # Definimos el link de la pagina a cargar
  URL = "https://www.linio.cl/c/computacion/pc-portatil?page={}".format(i)

  # Hacemos una solicitud HTTP y obtenemos el codigo fuente de la pagina
  page = requests.get(URL)
  i+=1

  # Convertimos el codigo de la pagina en un objeto de tipo BeautifulSoup
  soup = BeautifulSoup(page.content, 'html.parser')
  
  # Guardamos en contenedores cada uno de los productos de la pagina
  contenedores = soup.find_all('div',class_='catalogue-product') 
  # Verificamos el resultado de los contenedore. Si no nos devuelve nada, terminamos el proceso de web scraping
  if not contenedores:
    break

  # Iteramos la lista de contenedores y extraemos nombre, precio y link para cada contenedor
  for contenedor in contenedores:
    nombre.append(contenedor.find('span', class_='title-section').text)
    precio.append(contenedor.find('div',class_='price-section').find('span', class_='price-main-md').text)
    link.append(contenedor.find('a').get('href'))
    marca.append(contenedor.find('meta', itemprop='brand').get('content')) 
 

# Convertimos las listas en un dataframe
data = {'nombre' : nombre, 'precio':precio, 'link':link, 'marca': marca}   
df = pd.DataFrame(data)
df.head()

# Un pequeño detalle de Linio, el texto del precio viene con algunos caracteres innecesarios 
#Por ejemplo:  '\n      $298.990\n    '
#Vamos a borrar estos caracteres
df['precio'] = df['precio'].str.strip()

# Guardamos la información en un archivo
df.to_csv('datos_linio.csv', index=False)