In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import regex as re
import numpy as np

### 1. From HTML

*Using only beautiful soap*

Save in a dataframe the next information using web scraping. Each row of the dataframe must have in different columns:

- The name of the title
- The id of the div where is the value scraped. If there is not id, then the value is must be numpy.nan
- The name of the tag where is the value scraped.
- The next scraped values in different rows: 
    - The value: "Este es el segundo párrafo"  --> Row 1
    - The url https://pagina1.xyz/ --> Row 2
    - The url https://pagina4.xyz/ --> Row 3
    - The url https://pagina5.xyz/ --> Row 4
    - The value "links footer-links" --> Row 5
    - The value "Este párrafo está en el footer" --> Row 6

In [2]:
html = """<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo</p>
    <p>Este es el segundo párrafo</p>
    <div id="innerDiv">
        <div class="links">
            <a href="https://pagina1.xyz/">Enlace 1</a>
            <a href="https://pagina2.xyz/">Enlace 2</a>
        </div>
        <div class="right">
            <div class="links">
                <a href="https://pagina3.xyz/">Enlace 3</a>
                <a href="https://pagina4.xyz/">Enlace 4</a>
            </div>
        </div>
    </div>
    <div id="footer">
        <!-- El footer -->
        <p>Este párrafo está en el footer</p>
        <div class="links footer-links">
            <a href="https://pagina5.xyz/">Enlace 5</a>
        </div>
    </div>
</div>
</body>
</html>"""

In [3]:
with open ("index.html", "w") as f:
    f.write(html) 

In [4]:
soup = BeautifulSoup(html)

Creamos un diccionario donde guardaremos los valores del futuro dataframe.

In [5]:
wb_dict = {"Title": [], "Id": [], "Tag": [], "Value": []}

Puesto que salvo para la columna `Title`, el resto de procesos para acceder a los datos requeridos es independiente y por tanto, no parametrizable, resolveremos el ejercicio, fila a fila.

### Fila 1

In [6]:
# Cómo encontramos el título es común a todas las filas. Lo obtenemos y metemos en la lista contenida 
# como value del diccionario vacío creado anteriormente
title_content = soup.find('title')
title_content_str = title_content.string
wb_dict["Title"].append(title_content_str)
print("title", wb_dict["Title"])

# Obtenemos el 'Id', en este caso 'main'
result = []
for tag in soup.findAll(True,{'id':True}) :
    result.append(tag['id'])

wb_dict["Id"].append(result[0])
print("id", wb_dict["Id"])

# Para obtener el tag accedemos a `p` y seleccionamos el nombre de este que es lo que 
# añadiremos al diccionario 
soup.find("p").name
wb_dict["Tag"].append(soup.find("p").name)

print("tag", wb_dict["Tag"])

# Obtenemos el contenido en el tag `p` y lo guardamos en `wb_dict`
soup.find("p").contents
wb_dict["Value"].append(soup.find("p").contents[0])
print("value", wb_dict["Value"])

title ['Página de prueba']
id ['main']
tag ['p']
value ['Este es el primer párrafo']


### Fila 2

In [7]:
# Repetimos la acción para obtener `Title`
title_content = soup.find('title')
title_content_str = title_content.string
wb_dict["Title"].append(title_content_str)
print(wb_dict["Title"])

# Vemos que https://pagina1.xyz/ no está en ningún `div` con `id` y por esto añadimos 
# np.nan o None como valor a la lista del diccionario `wb_dict`
result = soup.find("div", {"class":"links"})
wb_dict["Id"].append(np.nan)
print(wb_dict["Id"])

# Buscamos el nombre del tag, en este caso de `a` y lo guardamos en el diccionario
soup.find('a').name
wb_dict["Tag"].append(soup.find('a').name)
print(wb_dict["Tag"])

# Busco el contenido que es el link y lo añado
link1 = soup.find("a")
content = link1.get('href')
wb_dict["Value"].append(content)
print(wb_dict["Value"])


['Página de prueba', 'Página de prueba']
['main', nan]
['p', 'a']
['Este es el primer párrafo', 'https://pagina1.xyz/']


### Fila 3

In [8]:
# Repetimos la acción para obtener `Title`
title_content = soup.find('title')
title_content_str = title_content.string
wb_dict["Title"].append(title_content_str)
print(wb_dict["Title"])

# Vuelve a no haber `id` en el `div` y por eso añadimos np.nan 
result = soup.find("div", {"class":"links"})
wb_dict["Id"].append(np.nan)
print(wb_dict["Id"])

# Repetimos la acción de buscar el nombre
soup.find('a').name
wb_dict["Tag"].append(soup.find('a').name)
print(wb_dict["Tag"])

# Procuramos llegar hasta el enlace de esta fila, y una vez lo tenemos, lo añadimos al diccionario
links = soup.findAll("a")
for pos, link in enumerate(links):
    if pos == 3:
        href = link.get('href')
        wb_dict["Value"].append(href)

print(wb_dict["Value"])

['Página de prueba', 'Página de prueba', 'Página de prueba']
['main', nan, nan]
['p', 'a', 'a']
['Este es el primer párrafo', 'https://pagina1.xyz/', 'https://pagina4.xyz/']


### Fila 4

In [9]:
# Repetimos la acción para obtener `Title`
title_content = soup.find('title')
title_content_str = title_content.string
wb_dict["Title"].append(title_content_str)
print(wb_dict["Title"])

# Vuelve a no haber `id` en el `div` y por eso añadimos np.nan 
result = soup.find("div", {"class":"links"})
wb_dict["Id"].append(np.nan)
print(wb_dict["Id"])

# Repetimos la acción de buscar el nombre
soup.find('a').name
wb_dict["Tag"].append(soup.find('a').name)
print(wb_dict["Tag"])

# Reutilizamos el código de la anterior fila para acceder al link y lo añadimos al diccionario
links = soup.findAll("a")
for pos, link in enumerate(links):
    if pos == 4:
        href = link.get('href')
        wb_dict["Value"].append(href)

print(wb_dict["Value"])

['Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba']
['main', nan, nan, nan]
['p', 'a', 'a', 'a']
['Este es el primer párrafo', 'https://pagina1.xyz/', 'https://pagina4.xyz/', 'https://pagina5.xyz/']


### Fila 5

In [10]:
# Repetimos la acción para obtener `Title`
title_content = soup.find('title')
title_content_str = title_content.string
wb_dict["Title"].append(title_content_str)
print(wb_dict["Title"])

# El `id` de este `div` es footer  
result = []
for tag in soup.findAll(True,{'id':True}) :
    result.append(tag['id'])

wb_dict["Id"].append(result[2])
print(wb_dict["Id"])

# Repetimos la acción de buscar el nombre, en este caso de `div`
soup.find("div").name
wb_dict["Tag"].append(soup.find("div").name)
print(wb_dict["Tag"])

# En este caso queremos sacar 'links footer-links' como valor
all_div =  soup.find("div", id="footer")
all_div_1 = all_div.find("div")
result = all_div_1.get_attribute_list('class')
final_result = [str(result[0])+ " " + str(result[1])]
wb_dict["Value"].append(final_result[0])
print(wb_dict["Value"])

['Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba']
['main', nan, nan, nan, 'footer']
['p', 'a', 'a', 'a', 'div']
['Este es el primer párrafo', 'https://pagina1.xyz/', 'https://pagina4.xyz/', 'https://pagina5.xyz/', 'links footer-links']


### Fila 6

In [11]:
# Repetimos la acción para obtener `Title`
title_content = soup.find('title')
title_content_str = title_content.string
wb_dict["Title"].append(title_content_str)
print(wb_dict["Title"])

# El `id` de este `div` es footer 
result = []
for tag in soup.findAll(True,{'id':True}) :
    result.append(tag['id'])

wb_dict["Id"].append(result[2])
print(wb_dict["Id"])

# Repetimos la acción de buscar el nombre
soup.find("p").name
wb_dict["Tag"].append(soup.find("p").name)

print(wb_dict["Tag"])

# Reutilizamos parte del código usado para esta misma columna en las filas 3 y 4
content_p = soup.findAll("p")
for pos, elem in enumerate(content_p):
    if pos == 2:
        content_value = elem.contents
        wb_dict["Value"].append(content_value[0])
        
print(wb_dict["Value"])

['Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba']
['main', nan, nan, nan, 'footer', 'footer']
['p', 'a', 'a', 'a', 'div', 'p']
['Este es el primer párrafo', 'https://pagina1.xyz/', 'https://pagina4.xyz/', 'https://pagina5.xyz/', 'links footer-links', 'Este párrafo está en el footer']


Mostramos el diccionario resultante:

In [12]:
print(wb_dict)

{'Title': ['Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba', 'Página de prueba'], 'Id': ['main', nan, nan, nan, 'footer', 'footer'], 'Tag': ['p', 'a', 'a', 'a', 'div', 'p'], 'Value': ['Este es el primer párrafo', 'https://pagina1.xyz/', 'https://pagina4.xyz/', 'https://pagina5.xyz/', 'links footer-links', 'Este párrafo está en el footer']}


In [14]:
df = pd.DataFrame(wb_dict)

In [15]:
df

Unnamed: 0,Title,Id,Tag,Value
0,Página de prueba,main,p,Este es el primer párrafo
1,Página de prueba,,a,https://pagina1.xyz/
2,Página de prueba,,a,https://pagina4.xyz/
3,Página de prueba,,a,https://pagina5.xyz/
4,Página de prueba,footer,div,links footer-links
5,Página de prueba,footer,p,Este párrafo está en el footer


1. From Amazon
Using beautiful soap and/or regex

Save in a dataframe the next information using web scraping. Using product pages from Amazon, do the following:

Get the product name from the web and save it in a column called "item_name"
Get the price from the web and save it in a column called "item_price"
While you are doing the exercise, document the steps you are doing. Try to do the program for generic pages. If you cannot do it generic, explain the reasons.

Example:

url = https://www.amazon.es/Tommy-Hilfiger-UM0UM00054-Camiseta-Hombre/dp/B01MYD0T1F/ref=sr_1_1?dchild=1&pf_rd_p=58224bec-cac9-4dd2-a42a-61b1db609c2d&pf_rd_r=VZQ1JTQXFVRZ9E9VSKX4&qid=1595364419&s=apparel&sr=1-1

item_name --> "Tommy Hilfiger Logo Camiseta de Cuello Redondo,Perfecta para El Tiempo Libre para Hombre"

item_price --> [18,99 € - 46,59 €] or one of the options.

In [22]:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

url = "https://www.amazon.es/Tommy-Hilfiger-UM0UM00054-Camiseta-Hombre/dp/B01MYD0T1F/ref=sr_1_1?dchild=1&pf_rd_p=58224bec-cac9-4dd2-a42a-61b1db609c2d&pf_rd_r=VZQ1JTQXFVRZ9E9VSKX4&qid=1595364419&s=apparel&sr=1-1"

response = requests.get(url, headers=headers)
soup1 = BeautifulSoup(response.content, features="lxml")

In [23]:
#Finding title from product and adding to item_name list.
title = soup1.select("#productTitle")[0].get_text().strip()
print(title)


Tommy Hilfiger Logo Camiseta de Cuello Redondo,Perfecta para El Tiempo Libre para Hombre


In [24]:
#Finding price from product and adding to item_price list.
price = soup1.select("#priceblock_ourprice")[0].get_text()
new_price = price.replace(u'\xa0', u' ')
print(new_price)

19,99 € - 34,95 €
