# Web Scraping - BeautifulSoup
En muchas oportunidades, no se tiene un archivo de base de datos o un REST API JSON o no es posible descargar información como XLM, CSV o JSON file: la información esta en la misma página web. Por lo tanto, será necesario leer y análizar el contenido de la web, "escarbando" el código HTML en busqueda de patrones de búsqueda, basado en las etiquetas HTML. A esta proceso se le conoce como Web Scraping

In [1]:
# pip install bs4
# pip install lxml
from bs4 import BeautifulSoup
import requests

Considere la siguiente pagina web de referencia (main.html):

<!DOCTYPE html>
<html class="no-js" lang="">
 <head>
  <title>
   Test - Pagina Web
  </title>
  <meta charset="utf-8"/>
  <link href="css/normalize.css" rel="stylesheet"/>
  <link href="css/main.css" rel="stylesheet"/>
 </head>
 <body>
  <h1 id="site_title">
   Test Website
  </h1>
  <hr/>
  <div class="article">
   <h2>
    <a href="article_1.html">
     Articulo 1 Encabezado
    </a>
   </h2>
   <p>
    Este es el resumen del articulo 1
   </p>
  </div>
  <hr/>
  <div class="article">
   <h2>
    <a href="article_2.html">
     Articulo 2 Encabezado
    </a>
   </h2>
   <p>
    Este es del resumen del articulo 2
   </p>
  </div>
  <hr/>
  <div class="footer">
   <p>
    Informacion de pie de pagina
   </p>
  </div>
  <script src="js/vendor/modernizr-3.5.0.min.js">
  </script>
  <script src="js/plugins.js">
  </script>
  <script src="js/main.js">
  </script>
 </body>
</html>

In [2]:
with open("main.html") as html_file:
    soup = BeautifulSoup(html_file, 'lxml')
    
#print(soup)
print(soup.prettify())

FileNotFoundError: [Errno 2] No such file or directory: 'main.html'

In [3]:
soup.title.text

NameError: name 'soup' is not defined

In [4]:
soup.body.text

NameError: name 'soup' is not defined

In [None]:
soup.body.p

In [None]:
soup.a['href']

In [None]:
soup.div

In [None]:
article = soup.find('div', attrs={'class':'article'})
print(article.p.text)

In [None]:
for article in soup.find_all('div', {'class':'article'}):
    print(article.p.text)

## Ejemplo de una script que utiliza la Web como parte de la aplicacion (eComerce)

In [4]:
from bs4 import BeautifulSoup
import requests

url = "https://www.plazavea.com.pe/frutas-y-verduras"
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')
    
data = soup.find('a', attrs={'class': 'Showcase__name'})
print(data.text.strip())

data = soup.find('div', attrs={'class': 'Showcase__priceBox__row'})
print(data.text.strip())

Mandarina HAPPY FRUT Malla 2Kg
S/ 4.99


## Aplicacion de Analisis de Precios en varias tiendas

In [5]:
url = "https://www.plazavea.com.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

data = []
for name, price in zip(soup.find_all('a', attrs={'class': 'Showcase__name'}), 
                       soup.find_all('div', attrs={'class': 'Showcase__salePrice'})):
    data.append([name.text, price.text])
    
pv_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
pv_df

NameError: name 'pd' is not defined

In [None]:
url = "https://www.wong.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

data = []
for name, price in zip(soup.find_all('a', class_="product-item__name"), 
                       soup.find_all('span', class_="product-prices__value product-prices__value--best-price")):
    data.append([name.text, price.text])
    
wong_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
wong_df

In [12]:
import pandas as pd
url = "https://www.metro.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

data = []
for name, price in zip(soup.find_all('a', class_="product-item__name"), 
                       soup.find_all('span', class_="product-prices__value product-prices__value--best-price")):
    data.append([name.text, price.text])
    
metro_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
metro_df

Unnamed: 0,Producto,Precio
0,Papaya Metro x kg,S/. 4.99
1,Cebolla Roja Especial x kg,S/. 3.39
2,Palta Fuerte Metro x kg,S/. 6.49
3,Limón x kg,S/. 3.49
4,Brócoli Metro x kg,S/. 6.49
5,Tomate Italiano Siembra Dorada Metro x kg,S/. 5.39
6,Papa Negra Andina Procesada Metro x kg,S/. 4.00
7,Camote Amarillo Especial x kg,S/. 2.29
8,Apio Metro x unid,S/. 2.79
9,Ajos sin Pelar x kg,S/. 21.99
