# **SCRAPING.**

## **Importación de librerías.**

In [1]:
import time

import warnings
warnings.filterwarnings('ignore')

### **Pandas.**

In [2]:
import pandas as pd

### **BeautifulSoup.**

In [3]:
import requests as req 
from bs4 import BeautifulSoup as bs

### **Selenium.**

In [4]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# sustituye al archivo
from webdriver_manager.chrome import ChromeDriverManager

# para buscar por tag, clase, id...
from selenium.webdriver.common.by import By

# para pulsar teclas
from selenium.webdriver.common.keys import Keys

# para esperar a que cargue
#from selenium.webdriver.support.ui import WebDriverWait

# condiciones esperadas
#from selenium.webdriver.support import expected_conditions as EC

In [5]:
# instala driver de chrome
PATH = ChromeDriverManager().install()

# driver configuration
opciones = Options()

# quita la bandera de ser robot
opciones.add_experimental_option('excludeSwitches', ['enable-automation'])
opciones.add_experimental_option('useAutomationExtension', False)

# si True, no aperece la ventana (headless=no visible)
opciones.headless = True

# comienza maximizado
opciones.add_argument('--start-maximized')

# mantiene las cookies
#opciones.add_argument('user-data-dir=selenium')

# adblocker
#opciones.add_extension('driver_folder/adblock.crx')

# modo incognito
opciones.add_argument('--incognito')

# guardar las cookies
#opciones.add_argument('user-data-dir=cookies')    # mantiene las coockies

[WDM] - Downloading: 100%|██████████| 8.81M/8.81M [00:00<00:00, 14.9MB/s]


## **Proceso de scraping.**

### **Acceso a la tienda.**

In [6]:
url = 'https://www.mercadona.es'
driver = webdriver.Chrome(PATH, options=opciones)
driver.get(url)

# acepta cookies
driver.find_element(By.XPATH, '//*[@id="root"]/div/div/div/button[2]').click()
time.sleep(3)

# escribo texto en "codigo postal"
cp = driver.find_element(By.XPATH, '//*[@id="root"]/header/div/div/form/div/input')
cp.send_keys('28045')

# entrar a la tienda
driver.find_element(By.XPATH, '//*[@id="root"]/header/div/div/form/input').click()
time.sleep(3)

# entrar a "categorias"
driver.find_element(By.XPATH, '//*[@id="root"]/header/div[1]/nav/a[1]').click()
time.sleep(3)

# entrar a "fruta y verdura"
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/button/span/label').click()
time.sleep(3)

### **Fruta scraping.**

In [7]:
# extraemos nombres de frutas
list_frutas = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
frutas = [fruta.text for fruta in list_frutas]

frutas

['Plátano de Canarias',
 'Banana',
 'Plátano macho',
 'Uva blanca sin semillas',
 'Uva roja sin semillas',
 'Manzana Golden',
 'Manzanas Golden',
 'Pera Conferencia',
 'Peras Conferencia',
 'Pera Ercolina',
 'Manzana Granny Smith',
 'Manzana Evelina',
 'Manzana Evelina',
 'Manzana Envy',
 'Manzanas Envy',
 '1/4 Sandía baja en semillas',
 'Media sandía baja en semillas',
 'Sandía baja en semillas',
 'Limones',
 'Limón',
 'Mandarina',
 'Mandarina',
 'Naranja para mesa',
 'Naranjas',
 'Naranjas',
 'Pomelo',
 'Limas',
 'Kiwi verde',
 'Kiwis verdes',
 'Aguacate',
 'Aguacates',
 'Piña',
 'Media piña',
 'Guacamole Hacendado',
 'Guacamole Hacendado',
 'Mango',
 'Piña natural a rodajas',
 'Papaya',
 'Media papaya',
 'Chirimoya',
 'Fresón',
 'Frambuesas',
 'Níspero',
 'Moras',
 'Arándanos',
 'Arándanos']

In [8]:
# extraemos nombres de subcategorias
list_sub_fruta = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_fruta = [sub.text for sub in list_sub_fruta]

sub_fruta

['Plátano y uva',
 'Manzana y pera',
 'Melón y sandía',
 'Cítricos',
 'Fruta tropical',
 'Otras frutas']

In [9]:
# extraemos nombre de categoria
cat_fruta = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_fruta

'Fruta'

### **Cambio de categoría.**

In [10]:
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/ul/li[2]/button').click()
time.sleep(3)

### **Ensaladas scraping.**

In [11]:
# extraemos nombres de ensaladas
list_ensaladas = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
ensaladas = [ensalada.text for ensalada in list_ensaladas]

ensaladas

['Lechuga iceberg',
 'Ensalada mezcla 4 estaciones',
 'Lechugas corazón romana',
 'Ensalada mezcla brotes tiernos',
 'Canónigos base para ensalada',
 'Lechuga iceberg base para ensalada',
 'Ensalada mezcla gourmet',
 'Cogollos de lechuga',
 'Lechuga corazón romana',
 'Endibias',
 'Ensalada mezcla brotes tiernos maxi',
 'Ensalada mezcla gourmet maxi',
 'Ensalada mezcla tierna',
 'Rúcula base para ensalada',
 'Cogollos corazón de lechuga',
 'Ensalada mezcla primavera',
 'Ensalada mezcla dúo canónigos y rúcula',
 'Ensalada mezcla fresca',
 'Lechuga hoja roble',
 'Escarola rizada base para ensalada',
 'Escarola rizada',
 'Espinaca baby base para ensalada',
 'Lechuga romana cortada',
 'Ensalada César',
 'Ensalada California',
 'Wraps Texas',
 'Ensalada de la casa',
 'Ensalada mil islas',
 'Ensalada ensatún',
 'Ensalada jamón',
 'Ensalada de pasta',
 'Ensalada queso de cabra',
 'Ensalada de pasta Listo para Comer']

In [12]:
# extraemos nombres de subcategorias
list_sub_ensalada = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_ensalada = [sub.text for sub in list_sub_ensalada]

sub_ensalada

['Lechuga', 'Ensalada preparada']

In [13]:
# extraemos nombre de categoria
cat_ensalada = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_ensalada

'Lechuga y ensalada preparada'

### **Cambio de categoría.**

In [14]:
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/ul/li[3]/button').click()
time.sleep(3)

### **Verduras scraping.**

In [15]:
# extraemos nombres de verduras
list_verduras = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
verduras = [verdura.text for verdura in list_verduras]

verduras

['Patata',
 'Patatas',
 'Patatas rojas',
 'Patatas',
 'Patatas guarnición',
 'Batata',
 'Patatas especial para freir',
 'Cebollas tiernas',
 'Cebollas',
 'Cebollas',
 'Ajos morados',
 'Cebollas dulces',
 'Ajo tierno',
 'Ajos morados',
 'Cebollas rojas',
 'Yuca',
 'Ajo negro dientes pelados',
 'Picada de ajo y Perejil',
 'Tomate ensalada',
 'Tomate canario',
 'Tomate pera',
 'Tomates pera',
 'Tomates cherry pera kumato',
 'Tomates cherry',
 'Tomates cherry en rama Dulcita',
 'Tomates kumato',
 'Tomates',
 'Tomate kumato negro',
 'Tomate rallado',
 'Rama de Tomates',
 'Tomate rosa',
 'Tomate ensalada',
 'Zanahorias',
 'Pepino',
 'Pepino holandés',
 'Zanahorias',
 'Pepinos',
 'Palitos de zanahoria',
 'Zanahoria rallada base para ensalada',
 'Pimiento rojo',
 'Calabacín verde',
 'Pimiento verde freír',
 'Calabacín blanco',
 'Pimiento verde',
 'Pimientos tricolor rojo, amarillo y verde',
 'Pimientos semipicantes',
 'Pimientos rojos picantes',
 'Coliflor',
 'Repollo liso',
 'Medio repollo li

In [16]:
# extraemos nombres de subcategorias
list_sub_verdura = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_verdura = [sub.text for sub in list_sub_verdura]

sub_verdura

['Patata',
 'Cebolla y ajo',
 'Tomate',
 'Pepino y zanahoria',
 'Calabacín y pimiento',
 'Repollo y col',
 'Setas y champiñones',
 'Hierbas aromáticas',
 'Otras verduras y hortalizas',
 'Verduras al vapor']

In [17]:
# extraemos nombre de categoria
cat_verdura = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_verdura

'Verdura'

### **Cierre del driver.**

In [18]:
#driver.quit()

## **Creación y exportación de tablas.**

### **Productos.**

In [19]:
# crear una tabla con la lista "frutas"
frutas_df = pd.DataFrame(frutas, columns=['producto'])

frutas_df

Unnamed: 0,producto
0,Plátano de Canarias
1,Banana
2,Plátano macho
3,Uva blanca sin semillas
4,Uva roja sin semillas
5,Manzana Golden
6,Manzanas Golden
7,Pera Conferencia
8,Peras Conferencia
9,Pera Ercolina


In [20]:
# crear una tabla con la lista "ensaladas"
ensaladas_df = pd.DataFrame(ensaladas, columns=['producto'])

ensaladas_df

Unnamed: 0,producto
0,Lechuga iceberg
1,Ensalada mezcla 4 estaciones
2,Lechugas corazón romana
3,Ensalada mezcla brotes tiernos
4,Canónigos base para ensalada
5,Lechuga iceberg base para ensalada
6,Ensalada mezcla gourmet
7,Cogollos de lechuga
8,Lechuga corazón romana
9,Endibias


In [21]:
# crear una tabla con la lista "verduras"
verduras_df = pd.DataFrame(verduras, columns=['producto'])

verduras_df

Unnamed: 0,producto
0,Patata
1,Patatas
2,Patatas rojas
3,Patatas
4,Patatas guarnición
...,...
93,Mix de verduras paisana para micro
94,Sopa juliana para micro
95,Patata para micro
96,Batata para micro


In [22]:
# exportamos las tablas resultantes a ".CSV"
frutas_df.to_csv('../data/frutas.csv', index=False)
ensaladas_df.to_csv('../data/ensaladas.csv', index=False)
verduras_df.to_csv('../data/verduras.csv', index=False)

### **Subcategorías.**

In [23]:
# crear una tabla con la lista "sub_fruta"
sub_fruta_df = pd.DataFrame(sub_fruta, columns=['subcategoria'])

sub_fruta_df

Unnamed: 0,subcategoria
0,Plátano y uva
1,Manzana y pera
2,Melón y sandía
3,Cítricos
4,Fruta tropical
5,Otras frutas


In [24]:
# crear una tabla con la lista "sub_ensalada"
sub_ensalada_df = pd.DataFrame(sub_ensalada, columns=['subcategoria'])

sub_ensalada_df

Unnamed: 0,subcategoria
0,Lechuga
1,Ensalada preparada


In [25]:
# crear una tabla con la lista "sub_verdura"
sub_verdura_df = pd.DataFrame(sub_verdura, columns=['subcategoria'])

sub_verdura_df

Unnamed: 0,subcategoria
0,Patata
1,Cebolla y ajo
2,Tomate
3,Pepino y zanahoria
4,Calabacín y pimiento
5,Repollo y col
6,Setas y champiñones
7,Hierbas aromáticas
8,Otras verduras y hortalizas
9,Verduras al vapor


In [26]:
# exportamos las tablas resultantes a ".CSV"
sub_fruta_df.to_csv('../data/sub_frutas.csv', index=False)
sub_ensalada_df.to_csv('../data/sub_ensaladas.csv', index=False)
sub_verdura_df.to_csv('../data/sub_verduras.csv', index=False)

### **Categorías.**

In [29]:
# crear una tabla con la categoria "cat_fruta"
categoria_fruta = [cat_fruta]
cat_fruta_df = pd.DataFrame(categoria_fruta, columns=['categoria'])

cat_fruta_df

Unnamed: 0,categoria
0,Fruta


In [30]:
# crear una tabla con la categoria "cat_ensalada"
categoria_ensalada = [cat_ensalada]
cat_ensalada_df = pd.DataFrame(categoria_ensalada, columns=['categoria'])

cat_ensalada_df

Unnamed: 0,categoria
0,Lechuga y ensalada preparada


In [31]:
# crear una tabla con la categoria "cat_verdura"
categoria_verdura = [cat_verdura]
cat_verdura_df = pd.DataFrame(categoria_verdura, columns=['categoria'])

cat_verdura_df

Unnamed: 0,categoria
0,Verdura


In [32]:
# exportamos las tablas resultantes a ".CSV"
cat_fruta_df.to_csv('../data/cat_frutas.csv', index=False)
cat_ensalada_df.to_csv('../data/cat_ensaladas.csv', index=False)
cat_verdura_df.to_csv('../data/cat_verduras.csv', index=False)