# Webscrapping
Comparando precios de frutas y verduras en las tiendas

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

## Plaza Vea

In [9]:
url = "https://www.plazavea.com.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'html')

names = []
for name in soup.find_all('a', attrs={"class":"Showcase__name"}):
    names.append(name.text)

# Los precios se repiten 3 veces porque la etiqueta div class="Showcase_salePrice"
# se repite como código y en forma de comentarios adicionales. Asi que se guardan
# todas las ocurrencias para luego barrer la lista en saltos de tres elementos
prices = []    
for price in soup.find_all('div', attrs={"class":"Showcase__salePrice"}):
    prices.append(price.text)
    
# Se barren todos los elementos de names y los de prices en saltos de tres
data = [[name, price] for name, price in zip(names, prices[::3])]    
    
plazavea_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
plazavea_df

Unnamed: 0,Producto,Precio
0,Palta Fuerte,S/ 8.99
1,Tomate Italiano,S/ 2.49
2,Naranja para Jugo,S/ 1.69
3,Limón Ácido,S/ 2.49
4,Plátano de Seda Paquete 5un,S/ 2.89
5,Limón Ácido Malla 500g,S/ 1.70
6,Zanahoria Entera Malla 1Kg,S/ 2.90
7,Papa Yungay BELL'S Malla 2Kg,S/ 3.20
8,Cebolla Roja BELL'S Bolsa 2Kg,S/ 3.60
9,Uva Verde sin Pepa,S/ 8.99


## Wong

In [3]:
url = "https://www.wong.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

data = []
for name, price in zip(soup.find_all('a', class_="product-item__name"), 
                       soup.find_all('span', class_="product-prices__value product-prices__value--best-price")):
    data.append([name.text, price.text])
    
wong_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
wong_df

Unnamed: 0,Producto,Precio
0,Tomate Italiano x kg,S/. 2.99
1,Limón x kg,S/. 3.09
2,Papaya x kg,S/. 4.79
3,Choclo Serrano x unid,S/. 2.29
4,Papa Amarilla Tumbay Procesada x kg,S/. 6.39
5,Zanahoria x kg,S/. 4.49
6,Pimiento x kg,S/. 5.39
7,Brócoli x kg,S/. 5.49
8,Plátano de Seda Tipo Exportación x kg,S/. 4.99
9,Piña Golden Premium x kg,S/. 5.89


## Metro

In [4]:
url = "https://www.metro.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

data = []
for name, price in zip(soup.find_all('a', class_="product-item__name"), 
                       soup.find_all('span', class_="product-prices__value product-prices__value--best-price")):
    data.append([name.text, price.text])
    
metro_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
metro_df

Unnamed: 0,Producto,Precio
0,Papaya Metro x kg,S/. 3.99
1,Tomate Italiano Siembra Dorada Metro x kg,S/. 3.49
2,Plátano de Seda Metro x kg,S/. 2.79
3,Naranja para Jugo Chanchamayo Metro x kg,S/. 1.49
4,Palta Fuerte Metro x kg,S/. 8.99
5,Limón x kg,S/. 2.49
6,Sandía Metro x kg,S/. 1.19
7,Brócoli Metro x kg,S/. 4.99
8,Papa Blanca x kg,S/. 0.99
9,Papa Canchán Procesada Especial x kg,S/. 1.49


## Comparación de precios por productos

In [5]:
plazavea_df[plazavea_df['Producto'].str.contains('papa', case=False)]    # case=False: No considera las may/min

Unnamed: 0,Producto,Precio
7,Papa Yungay BELL'S Malla 2Kg,S/ 3.20
13,Papaya,S/ 4.79


In [6]:
wong_df[wong_df['Producto'].str.contains('papa', case=False)]

Unnamed: 0,Producto,Precio
2,Papaya x kg,S/. 4.79
4,Papa Amarilla Tumbay Procesada x kg,S/. 6.39


In [7]:
metro_df[metro_df['Producto'].str.contains('papa', case=False)]

Unnamed: 0,Producto,Precio
0,Papaya Metro x kg,S/. 3.99
8,Papa Blanca x kg,S/. 0.99
9,Papa Canchán Procesada Especial x kg,S/. 1.49
