# **MERCADONA SCRAPING.**

## **Importación de librerías.**

In [1]:
import time

import warnings
warnings.filterwarnings('ignore')

### **Pandas.**

In [2]:
import pandas as pd

### **BeautifulSoup.**

In [3]:
import requests as req 
from bs4 import BeautifulSoup as bs

### **Selenium.**

In [4]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# sustituye al archivo
from webdriver_manager.chrome import ChromeDriverManager

# para buscar por tag, clase, id...
from selenium.webdriver.common.by import By

# para pulsar teclas
from selenium.webdriver.common.keys import Keys

# para esperar a que cargue
#from selenium.webdriver.support.ui import WebDriverWait

# condiciones esperadas
#from selenium.webdriver.support import expected_conditions as EC

In [5]:
# instala driver de chrome
PATH = ChromeDriverManager().install()

# driver configuration
opciones = Options()

# quita la bandera de ser robot
opciones.add_experimental_option('excludeSwitches', ['enable-automation'])
opciones.add_experimental_option('useAutomationExtension', False)

# si True, no aperece la ventana (headless=no visible)
opciones.headless = True

# comienza maximizado
opciones.add_argument('--start-maximized')

# mantiene las cookies
#opciones.add_argument('user-data-dir=selenium')

# adblocker
#opciones.add_extension('driver_folder/adblock.crx')

# modo incognito
opciones.add_argument('--incognito')

# guardar las cookies
#opciones.add_argument('user-data-dir=cookies')    # mantiene las coockies

## **Proceso de scraping.**

### **Acceso a la tienda.**

In [6]:
url = 'https://www.mercadona.es'
driver = webdriver.Chrome(PATH, options=opciones)
driver.get(url)

# acepta cookies
driver.find_element(By.XPATH, '//*[@id="root"]/div/div/div/button[2]').click()
time.sleep(3)

# escribo texto en "codigo postal"
cp = driver.find_element(By.XPATH, '//*[@id="root"]/header/div/div/form/div/input')
cp.send_keys('28045')

# entrar a la tienda
driver.find_element(By.XPATH, '//*[@id="root"]/header/div/div/form/input').click()
time.sleep(3)

# entrar a "categorias"
driver.find_element(By.XPATH, '//*[@id="root"]/header/div[1]/nav/a[1]').click()
time.sleep(3)

# entrar a "fruta y verdura"
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/button/span/label').click()
time.sleep(3)

### **Fruta scraping.**

In [7]:
# extraemos nombres de frutas
list_frutas = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
frutas = [fruta.text for fruta in list_frutas]

frutas

['Plátano de Canarias',
 'Banana',
 'Plátano macho',
 'Uva blanca sin semillas',
 'Uva roja sin semillas',
 'Manzana Golden',
 'Manzanas Golden',
 'Pera Conferencia',
 'Peras Conferencia',
 'Pera Ercolina',
 'Manzana Granny Smith',
 'Manzana Evelina',
 'Manzana Evelina',
 'Manzana Envy',
 'Manzanas Envy',
 '1/4 Sandía baja en semillas',
 'Media sandía baja en semillas',
 'Sandía baja en semillas',
 'Limones',
 'Limón',
 'Mandarina',
 'Mandarina',
 'Naranja para mesa',
 'Naranjas',
 'Naranjas',
 'Pomelo',
 'Limas',
 'Kiwi verde',
 'Kiwis verdes',
 'Aguacate',
 'Aguacates',
 'Piña',
 'Media piña',
 'Guacamole Hacendado',
 'Guacamole Hacendado',
 'Mango',
 'Piña natural a rodajas',
 'Papaya',
 'Media papaya',
 'Chirimoya',
 'Fresón',
 'Frambuesas',
 'Níspero',
 'Moras',
 'Arándanos',
 'Arándanos']

In [8]:
# extraemos nombres de formatos
list_form_frutas = driver.find_elements(By.CSS_SELECTOR, 'div.product-format.product-format__size--cell')
form_frutas = [form.text for form in list_form_frutas]

form_frutas


['Pieza 150 g aprox.',
 'Pieza 170 g aprox.',
 'Pieza 340 g aprox.',
 'Bandeja 500 g aprox.',
 'Bandeja 500 g aprox.',
 'Pieza 190 g aprox.',
 'Bolsa 1,5 kg aprox.',
 'Pieza 160 g aprox.',
 '1,5 kg aprox.',
 'Pieza 90 g aprox.',
 'Pieza 210 g aprox.',
 'Pieza 260 g aprox.',
 'Bolsa 1,5 kg aprox.',
 'Pieza 280 g aprox.',
 'Bolsa 1,5 kg aprox.',
 '1/4 Pieza 1,33 kg aprox.',
 '1/2 Pieza 2,56 kg aprox.',
 'Pieza 5,13 kg aprox.',
 'Malla 1 kg',
 'Pieza 210 g aprox.',
 'Pieza 170 g aprox.',
 'Malla 2 kg',
 'Pieza 380 g aprox.',
 'Malla 3 kg',
 'Malla 5 kg',
 'Pieza 350 g aprox.',
 '400 g aprox.',
 'Pieza 110 g aprox.',
 '1 kg aprox.',
 'Pieza 190 g aprox.',
 '550 g aprox.',
 'Pieza 2 kg aprox.',
 '1/2 Pieza 1,03 kg aprox.',
 'Tarrina 500 g',
 'Tarrina 200 g',
 'Pieza 500 g aprox.',
 'Bote 500 g aprox.',
 'Pieza 1,27 kg aprox.',
 '1/2 Pieza 650 g aprox.',
 'Pieza 370 g aprox.',
 'Bandeja 500 g aprox.',
 'Bandeja 170 g',
 'Bandeja 500 g aprox.',
 'Bandeja 125 g',
 'Vaso 225 g',
 'Tarrina 500 g

In [10]:
# extraemos nombres de subcategorias
list_sub_frutas = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_frutas = [sub.text for sub in list_sub_frutas]

sub_frutas

['Plátano y uva',
 'Manzana y pera',
 'Melón y sandía',
 'Cítricos',
 'Fruta tropical',
 'Otras frutas']

In [11]:
# extraemos nombre de categoria
cat_frutas = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_frutas

'Fruta'

### **Cambio de categoría.**

In [12]:
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/ul/li[2]/button').click()
time.sleep(3)

### **Ensaladas scraping.**

In [13]:
# extraemos nombres de ensaladas
list_ensaladas = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
ensaladas = [ensalada.text for ensalada in list_ensaladas]

ensaladas

['Lechuga iceberg',
 'Ensalada mezcla 4 estaciones',
 'Lechugas corazón romana',
 'Ensalada mezcla brotes tiernos',
 'Canónigos base para ensalada',
 'Lechuga iceberg base para ensalada',
 'Ensalada mezcla gourmet',
 'Cogollos de lechuga',
 'Lechuga corazón romana',
 'Endibias',
 'Ensalada mezcla brotes tiernos maxi',
 'Ensalada mezcla gourmet maxi',
 'Ensalada mezcla tierna',
 'Rúcula base para ensalada',
 'Cogollos corazón de lechuga',
 'Ensalada mezcla primavera',
 'Ensalada mezcla dúo canónigos y rúcula',
 'Ensalada mezcla fresca',
 'Lechuga hoja roble',
 'Escarola rizada base para ensalada',
 'Escarola rizada',
 'Espinaca baby base para ensalada',
 'Lechuga romana cortada',
 'Ensalada César',
 'Ensalada California',
 'Wraps Texas',
 'Ensalada de la casa',
 'Ensalada mil islas',
 'Ensalada ensatún',
 'Ensalada jamón',
 'Ensalada de pasta',
 'Ensalada queso de cabra',
 'Ensalada de pasta Listo para Comer']

In [14]:
# extraemos nombres de formatos
list_form_ensaladas = driver.find_elements(By.CSS_SELECTOR, 'div.product-format.product-format__size--cell')
form_ensaladas = [form.text for form in list_form_ensaladas]

form_ensaladas

['Pieza 1 ud.',
 'Paquete 250 g',
 'Paquete 2 ud.',
 'Paquete 100 g',
 'Paquete 125 g',
 'Paquete 250 g',
 'Paquete 175 g',
 'Paquete 3 ud.',
 'Paquete 1 ud.',
 'Bandeja 450 g',
 'Paquete 175 g',
 'Paquete 300 g',
 'Paquete 150 g',
 'Paquete 50 g',
 'Paquete 6 ud.',
 'Paquete 200 g',
 'Paquete 100 g',
 'Paquete 200 g',
 'Paquete 1 ud.',
 'Paquete 150 g',
 'Paquete 1 ud.',
 'Paquete 100 g',
 'Paquete 200 g',
 'Bol 210 g',
 'Bol 192 g',
 'Bol 300 g',
 'Bol 400 g',
 'Bol 330 g',
 'Bol 250 g',
 'Bol 215 g',
 'Bol 250 g',
 'Bol 135 g',
 'Bol 340 g']

In [15]:
# extraemos nombres de subcategorias
list_sub_ensaladas = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_ensaladas = [sub.text for sub in list_sub_ensaladas]

sub_ensaladas

['Lechuga', 'Ensalada preparada']

In [16]:
# extraemos nombre de categoria
cat_ensaladas = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_ensaladas

'Lechuga y ensalada preparada'

### **Cambio de categoría.**

In [17]:
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/ul/li[3]/button').click()
time.sleep(3)

### **Verduras scraping.**

In [18]:
# extraemos nombres de verduras
list_verduras = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
verduras = [verdura.text for verdura in list_verduras]

verduras

['Patata',
 'Patatas',
 'Patatas rojas',
 'Patatas',
 'Patatas guarnición',
 'Batata',
 'Patatas especial para freir',
 'Cebollas tiernas',
 'Cebollas',
 'Cebollas',
 'Ajos morados',
 'Cebollas dulces',
 'Ajo tierno',
 'Ajos morados',
 'Cebollas rojas',
 'Yuca',
 'Ajo negro dientes pelados',
 'Picada de ajo y Perejil',
 'Tomate ensalada',
 'Tomate canario',
 'Tomate pera',
 'Tomates pera',
 'Tomates cherry pera kumato',
 'Tomates cherry',
 'Tomates cherry en rama Dulcita',
 'Tomates kumato',
 'Tomates',
 'Tomate kumato negro',
 'Tomate rallado',
 'Rama de Tomates',
 'Tomate rosa',
 'Tomate ensalada',
 'Zanahorias',
 'Pepino',
 'Pepino holandés',
 'Zanahorias',
 'Pepinos',
 'Palitos de zanahoria',
 'Zanahoria rallada base para ensalada',
 'Pimiento rojo',
 'Calabacín verde',
 'Pimiento verde freír',
 'Calabacín blanco',
 'Pimiento verde',
 'Pimientos tricolor rojo, amarillo y verde',
 'Pimientos semipicantes',
 'Pimientos rojos picantes',
 'Coliflor',
 'Repollo liso',
 'Medio repollo li

In [19]:
# extraemos nombres de formatos
list_form_verduras = driver.find_elements(By.CSS_SELECTOR, 'div.product-format.product-format__size--cell')
form_verduras = [form.text for form in list_form_verduras]

form_verduras

['Pieza 220 g aprox.',
 'Malla 3 kg',
 'Malla 2 kg',
 'Malla 5 kg',
 'Malla 1 kg',
 'Pieza 330 g aprox.',
 'Malla 2 kg',
 'Manojo 3 ud.',
 'Malla 2 kg',
 'Malla 1 kg',
 'Malla 250 g',
 'Malla 1 kg',
 'Manojo 200 g',
 'Malla 400 g',
 'Malla 500 g',
 'Pieza 670 g aprox.',
 'Tarrina 85 g',
 'Bandeja 100 g',
 'Pieza 230 g aprox.',
 'Pieza 100 g aprox.',
 'Pieza 120 g aprox.',
 '1 kg aprox.',
 'Bandeja 300 g',
 'Bandeja 500 g',
 'Bandeja 200 g',
 '1 kg aprox.',
 'Malla 2 kg',
 'Pieza 140 g aprox.',
 'Tarrina 290 g',
 '720 g aprox.',
 'Pieza 530 g aprox.',
 '1 kg aprox.',
 'Paquete 1 kg',
 'Pieza 220 g aprox.',
 'Pieza 425 g aprox.',
 'Paquete 500 g',
 'Malla 1,25 kg',
 'Tarrina 180 g',
 'Paquete 150 g',
 'Pieza 370 g aprox.',
 'Pieza 370 g aprox.',
 'Pieza 80 g aprox.',
 'Pieza 350 g aprox.',
 'Pieza 290 g aprox.',
 '600 g',
 'Paquete 250 g',
 'Bandeja 100 g',
 'Pieza 1,28 kg aprox.',
 'Pieza 1,73 kg aprox.',
 '1/2 Pieza 910 g aprox.',
 'Pieza 1,39 kg aprox.',
 '1/2 Pieza 740 g aprox.',
 'P

In [20]:
# extraemos nombres de subcategorias
list_sub_verduras = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_verduras = [sub.text for sub in list_sub_verduras]

sub_verduras

['Patata',
 'Cebolla y ajo',
 'Tomate',
 'Pepino y zanahoria',
 'Calabacín y pimiento',
 'Repollo y col',
 'Setas y champiñones',
 'Hierbas aromáticas',
 'Otras verduras y hortalizas',
 'Verduras al vapor']

In [21]:
# extraemos nombre de categoria
cat_verduras = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_verduras

'Verdura'

### **Cierre del driver.**

In [22]:
#driver.quit()

## **Creación y exportación de tablas.**

### **Productos.**

In [23]:
# crear una tabla con la lista "frutas" y "form_frutas"
fruta_df = pd.DataFrame({'producto': frutas, 'formato': form_frutas})

fruta_df

Unnamed: 0,producto,formato
0,Plátano de Canarias,Pieza 150 g aprox.
1,Banana,Pieza 170 g aprox.
2,Plátano macho,Pieza 340 g aprox.
3,Uva blanca sin semillas,Bandeja 500 g aprox.
4,Uva roja sin semillas,Bandeja 500 g aprox.
5,Manzana Golden,Pieza 190 g aprox.
6,Manzanas Golden,"Bolsa 1,5 kg aprox."
7,Pera Conferencia,Pieza 160 g aprox.
8,Peras Conferencia,"1,5 kg aprox."
9,Pera Ercolina,Pieza 90 g aprox.


In [24]:
# crear una tabla con la lista "ensaladas" y "form_ensaladas"
ensalada_df = pd.DataFrame({'producto': ensaladas, 'formato': form_ensaladas})

ensalada_df

Unnamed: 0,producto,formato
0,Lechuga iceberg,Pieza 1 ud.
1,Ensalada mezcla 4 estaciones,Paquete 250 g
2,Lechugas corazón romana,Paquete 2 ud.
3,Ensalada mezcla brotes tiernos,Paquete 100 g
4,Canónigos base para ensalada,Paquete 125 g
5,Lechuga iceberg base para ensalada,Paquete 250 g
6,Ensalada mezcla gourmet,Paquete 175 g
7,Cogollos de lechuga,Paquete 3 ud.
8,Lechuga corazón romana,Paquete 1 ud.
9,Endibias,Bandeja 450 g


In [25]:
# crear una tabla con la lista "verduras" y "form_verduras"
verdura_df = pd.DataFrame({'producto': verduras, 'formato': form_verduras})

verdura_df

Unnamed: 0,producto,formato
0,Patata,Pieza 220 g aprox.
1,Patatas,Malla 3 kg
2,Patatas rojas,Malla 2 kg
3,Patatas,Malla 5 kg
4,Patatas guarnición,Malla 1 kg
...,...,...
93,Mix de verduras paisana para micro,Paquete 300 g
94,Sopa juliana para micro,Paquete 400 g
95,Patata para micro,Paquete 400 g
96,Batata para micro,Paquete 400 g


In [26]:
# exportamos las tablas resultantes a ".CSV"
fruta_df.to_csv('../data/frutas.csv', index=False)
ensalada_df.to_csv('../data/ensaladas.csv', index=False)
verdura_df.to_csv('../data/verduras.csv', index=False)

### **Subcategorías.**

In [27]:
# crear una tabla con la lista "sub_frutas"
sub_fruta_df = pd.DataFrame(sub_frutas, columns=['subcategoria'])

sub_fruta_df

Unnamed: 0,subcategoria
0,Plátano y uva
1,Manzana y pera
2,Melón y sandía
3,Cítricos
4,Fruta tropical
5,Otras frutas


In [28]:
# crear una tabla con la lista "sub_ensaladas"
sub_ensalada_df = pd.DataFrame(sub_ensaladas, columns=['subcategoria'])

sub_ensalada_df

Unnamed: 0,subcategoria
0,Lechuga
1,Ensalada preparada


In [29]:
# crear una tabla con la lista "sub_verduras"
sub_verdura_df = pd.DataFrame(sub_verduras, columns=['subcategoria'])

sub_verdura_df

Unnamed: 0,subcategoria
0,Patata
1,Cebolla y ajo
2,Tomate
3,Pepino y zanahoria
4,Calabacín y pimiento
5,Repollo y col
6,Setas y champiñones
7,Hierbas aromáticas
8,Otras verduras y hortalizas
9,Verduras al vapor


In [30]:
# exportamos las tablas resultantes a ".CSV"
sub_fruta_df.to_csv('../data/sub_frutas.csv', index=False)
sub_ensalada_df.to_csv('../data/sub_ensaladas.csv', index=False)
sub_verdura_df.to_csv('../data/sub_verduras.csv', index=False)

### **Categorías.**

In [31]:
# crear una tabla con la categoria "cat_frutas"
categoria_fruta = [cat_frutas]
cat_fruta_df = pd.DataFrame(categoria_fruta, columns=['categoria'])

cat_fruta_df

Unnamed: 0,categoria
0,Fruta


In [32]:
# crear una tabla con la categoria "cat_ensaladas"
categoria_ensalada = [cat_ensaladas]
cat_ensalada_df = pd.DataFrame(categoria_ensalada, columns=['categoria'])

cat_ensalada_df

Unnamed: 0,categoria
0,Lechuga y ensalada preparada


In [33]:
# crear una tabla con la categoria "cat_verduras"
categoria_verdura = [cat_verduras]
cat_verdura_df = pd.DataFrame(categoria_verdura, columns=['categoria'])

cat_verdura_df

Unnamed: 0,categoria
0,Verdura


In [34]:
# exportamos las tablas resultantes a ".CSV"
cat_fruta_df.to_csv('../data/cat_frutas.csv', index=False)
cat_ensalada_df.to_csv('../data/cat_ensaladas.csv', index=False)
cat_verdura_df.to_csv('../data/cat_verduras.csv', index=False)