# Webscrapping
Comparando precios de frutas y verduras en las tiendas

In [2]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

## Plaza Vea

In [3]:
url = "https://www.plazavea.com.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'html')

names = []
for name in soup.find_all('a', attrs={"class":"Showcase__name"}):
    names.append(name.text)

# Los precios se repiten 3 veces porque la etiqueta div class="Showcase_salePrice"
# se repite como código y en forma de comentarios adicionales. Asi que se guardan
# todas las ocurrencias para luego barrer la lista en saltos de tres elementos
prices = []    
for price in soup.find_all('div', attrs={"class":"Showcase__salePrice"}):
    prices.append(price.text)
print(prices)
# Se barren todos los elementos de names y los de prices en saltos de tres
data = [[name, price] for name, price in zip(names, prices[::3])]    
    
plazavea_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
plazavea_df

['S/ 2.89', 'S/ 2.89', 'S/ 2.89', 'S/ 1.90', 'S/ 1.90', 'S/ 1.90', 'S/ 9.79', 'S/ 9.79', 'S/ 9.79', 'S/ 3.09', 'S/ 3.09', 'S/ 3.09', 'S/ 2.99', 'S/ 2.99', 'S/ 2.99', 'S/ 4.20', 'S/ 4.20', 'S/ 4.20', 'S/ 4.50', 'S/ 4.50', 'S/ 4.50', 'S/ 4.10', 'S/ 4.10', 'S/ 4.10', 'S/ 1.49', 'S/ 1.49', 'S/ 1.49', 'S/ 3.49', 'S/ 3.49', 'S/ 3.49', 'S/ 3.99', 'S/ 3.99', 'S/ 3.99', 'S/ 2.59', 'S/ 2.59', 'S/ 2.59', 'S/ 5.59', 'S/ 5.59', 'S/ 5.59', 'S/ 1.99', 'S/ 1.99', 'S/ 1.99', 'S/ 3.29', 'S/ 3.29', 'S/ 3.29', 'S/ 4.79', 'S/ 4.79', 'S/ 4.79', 'S/ 8.69', 'S/ 8.69', 'S/ 8.69', 'S/ 2.79', 'S/ 2.79', 'S/ 2.79', 'S/ 4.89', 'S/ 4.89', 'S/ 4.89', 'S/ 9.19', 'S/ 9.19', 'S/ 9.19', 'S/ 2.10', 'S/ 2.10', 'S/ 2.10', 'S/ 2.20', 'S/ 2.20', 'S/ 2.20', 'S/ 1.99', 'S/ 1.99', 'S/ 1.99', 'S/ 2.00', 'S/ 2.00', 'S/ 2.00']


Unnamed: 0,Producto,Precio
0,Plátano de Seda Paquete 5un,S/ 2.89
1,Limón Ácido Malla 500g,S/ 1.90
2,Palta Fuerte Malla 1Kg,S/ 9.79
3,Zanahoria Entera Malla 1Kg,S/ 3.09
4,Naranja para Jugo Malla 2Kg,S/ 2.99
5,Papa Yungay BELL'S Malla 2Kg,S/ 4.20
6,Cebolla Roja BELL'S Bolsa 2Kg,S/ 4.50
7,Papaya,S/ 4.10
8,Naranja para Jugo,S/ 1.49
9,Limón Ácido,S/ 3.49


## Wong

In [18]:
url = "https://www.wong.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

data = []
for name, price in zip(soup.find_all('a', class_="product-item__name"), 
                       soup.find_all('span', class_="product-prices__value product-prices__value--best-price")):
    data.append([name.text, price.text])
    
wong_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
wong_df

Unnamed: 0,Producto,Precio
0,Tomate Italiano x kg,S/. 3.49
1,Papaya x kg,S/. 5.29
2,Cebolla Roja Campo Lindo x kg,S/. 4.29
3,Choclo Serrano x unid,S/. 1.99
4,Papa Amarilla Tumbay Procesada x kg,S/. 5.79
5,Zanahoria x kg,S/. 3.49
6,Limón x kg,S/. 5.19
7,Plátano de Seda Tipo Exportación x kg,S/. 5.49
8,Palta Fuerte Verde x kg,S/. 10.99
9,Naranja para Jugo Chanchamayo x kg,S/. 2.49


## Metro

In [20]:
url = "https://www.metro.pe/frutas-y-verduras"
r = requests.get(url)

soup = BeautifulSoup(r.text, 'lxml')

data = []
for name, price in zip(soup.find_all('a', class_="product-item__name"), 
                       soup.find_all('span', class_="product-prices__value product-prices__value--best-price")):
    data.append([name.text, price.text])
    
metro_df = pd.DataFrame(data, columns=['Producto', 'Precio'])
metro_df

Unnamed: 0,Producto,Precio
0,Papaya Metro x kg,S/. 4.29
1,Papa Blanca x kg,S/. 1.99
2,Choclo Especial x unid,S/. 1.99
3,Plátano de Seda Metro x kg,S/. 2.89
4,Naranja para Jugo Chanchamayo Metro x kg,S/. 1.79
5,Zanahoria Especial x kg,S/. 3.29
6,Palta Fuerte Metro x kg,S/. 9.69
7,Zapallo Macre x kg,S/. 2.79
8,Limón x kg,S/. 5.19
9,Mandarina con Pepa Metro x kg,S/. 3.29


## Comparación de precios por productos

In [89]:
plazavea_df[plazavea_df['Producto'].str.contains('papa', case=False)]    # case=False: No considera las may/min

Unnamed: 0,Producto,Precio
3,Papa Yungay BELL'S Malla 2Kg,S/ 1.79
14,Papa Canchan BELL'S Malla 2Kg,S/ 4.79
15,Papa Amarilla Bells Malla 2Kg,S/ 8.69
19,Papaya,S/ 3.29


In [86]:
wong_df[wong_df['Producto'].str.contains('papa', case=False)]

Unnamed: 0,Producto,Precio
1,Papaya x kg,S/. 5.29
4,Papa Amarilla Tumbay Procesada x kg,S/. 5.79


In [87]:
metro_df[metro_df['Producto'].str.contains('papa', case=False)]

Unnamed: 0,Producto,Precio
0,Papaya Metro x kg,S/. 4.29
1,Papa Blanca x kg,S/. 1.99
10,Papa Canchán Procesada Especial x kg,S/. 2.59
