# **SCRAPING.**

## **Importación de librerías.**

### **Pandas.**

In [1]:
import pandas as pd

### **BeautifulSoup.**

In [2]:
import requests as req 
from bs4 import BeautifulSoup as bs

### **Selenium.**

In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# sustituye al archivo
from webdriver_manager.chrome import ChromeDriverManager

# para buscar por tag, clase, id...
from selenium.webdriver.common.by import By

# para pulsar teclas
from selenium.webdriver.common.keys import Keys

# para esperar a que cargue
#from selenium.webdriver.support.ui import WebDriverWait

# condiciones esperadas
#from selenium.webdriver.support import expected_conditions as EC

In [4]:
# instala driver de chrome
PATH = ChromeDriverManager().install()

# driver configuration
opciones = Options()

# quita la bandera de ser robot
opciones.add_experimental_option('excludeSwitches', ['enable-automation'])
opciones.add_experimental_option('useAutomationExtension', False)

# si True, no aperece la ventana (headless=no visible)
opciones.headless = True

# comienza maximizado
opciones.add_argument('--start-maximized')

# mantiene las cookies
#opciones.add_argument('user-data-dir=selenium')

# adblocker
#opciones.add_extension('driver_folder/adblock.crx')

# modo incognito
opciones.add_argument('--incognito')

# guardar las cookies
#opciones.add_argument('user-data-dir=cookies')    # mantiene las coockies

  opciones.headless = True


In [5]:
import time

import warnings
warnings.filterwarnings('ignore')

## **Proceso de scraping.**

In [6]:
url = 'https://www.mercadona.es'
driver = webdriver.Chrome(PATH, options=opciones)
driver.get(url)

### **Acceso a la tienda.**

In [7]:
# acepta cookies
driver.find_element(By.XPATH, '//*[@id="root"]/div/div/div/button[2]').click()
time.sleep(3)

# escribo texto en "codigo postal"
cp = driver.find_element(By.XPATH, '//*[@id="root"]/header/div/div/form/div/input')
cp.send_keys('28045')

# entra a la tienda
driver.find_element(By.XPATH, '//*[@id="root"]/header/div/div/form/input').click()
time.sleep(3)

# entra a "categorias"
driver.find_element(By.XPATH, '//*[@id="root"]/header/div[1]/nav/a[1]').click()
time.sleep(3)

# entra a "fruta y verdura"
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/button/span/label').click()
time.sleep(3)

### **Fruta scraping.**

In [8]:
# extraemos nombres de frutas
list_frutas = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
frutas = [fruta.text for fruta in list_frutas]

frutas

['Plátano de Canarias',
 'Banana',
 'Plátano macho',
 'Uva blanca sin semillas',
 'Uva roja sin semillas',
 'Manzana Golden',
 'Pera Conferencia',
 'Peras Conferencia',
 'Pera Ercolina',
 'Manzana Granny Smith',
 'Manzana Evelina',
 'Manzana Evelina',
 'Manzana Envy',
 'Manzanas Envy',
 '1/4 Sandía baja en semillas',
 'Media sandía baja en semillas',
 'Sandía baja en semillas',
 'Limones',
 'Limón',
 'Mandarina',
 'Mandarina',
 'Naranja para mesa',
 'Naranjas',
 'Naranjas',
 'Pomelo',
 'Limas',
 'Kiwi verde',
 'Kiwis verdes',
 'Aguacate',
 'Aguacates',
 'Piña',
 'Media piña',
 'Guacamole Hacendado',
 'Guacamole Hacendado',
 'Mango',
 'Piña natural a rodajas',
 'Papaya',
 'Media papaya',
 'Chirimoya',
 'Fresón',
 'Frambuesas',
 'Níspero',
 'Moras',
 'Arándanos',
 'Arándanos']

In [9]:
# extraemos nombres de subcategorias
list_sub_fruta = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_fruta = [sub.text for sub in list_sub_fruta]

sub_fruta

['Plátano y uva',
 'Manzana y pera',
 'Melón y sandía',
 'Cítricos',
 'Fruta tropical',
 'Otras frutas']

In [10]:
# extraemos nombre de categoria
cat_fruta = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_fruta

'Fruta'

### **Cambio de categoría.**

In [11]:
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/ul/li[2]/button').click()
time.sleep(3)

### **Ensaladas scraping.**

In [12]:
# extraemos nombres de ensaladas
list_ensaladas = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
ensaladas = [ensalada.text for ensalada in list_ensaladas]

ensaladas

['Lechuga iceberg',
 'Ensalada mezcla 4 estaciones',
 'Lechugas corazón romana',
 'Ensalada mezcla brotes tiernos',
 'Canónigos base para ensalada',
 'Lechuga iceberg base para ensalada',
 'Ensalada mezcla gourmet',
 'Cogollos de lechuga',
 'Lechuga corazón romana',
 'Endibias',
 'Ensalada mezcla brotes tiernos maxi',
 'Ensalada mezcla gourmet maxi',
 'Ensalada mezcla tierna',
 'Rúcula base para ensalada',
 'Cogollos corazón de lechuga',
 'Ensalada mezcla primavera',
 'Ensalada mezcla dúo canónigos y rúcula',
 'Ensalada mezcla fresca',
 'Lechuga hoja roble',
 'Escarola rizada base para ensalada',
 'Escarola rizada',
 'Espinaca baby base para ensalada',
 'Lechuga romana cortada',
 'Ensalada César',
 'Ensalada California',
 'Wraps Texas',
 'Ensalada de la casa',
 'Ensalada mil islas',
 'Ensalada ensatún',
 'Ensalada jamón',
 'Ensalada de pasta',
 'Ensalada queso de cabra',
 'Ensalada de pasta Listo para Comer']

In [13]:
# extraemos nombres de subcategorias
list_sub_ensalada = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_ensalada = [sub.text for sub in list_sub_ensalada]

sub_ensalada

['Lechuga', 'Ensalada preparada']

In [14]:
# extraemos nombre de categoria
cat_ensalada = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_ensalada

'Lechuga y ensalada preparada'

### **Cambio de categoría.**

In [15]:
driver.find_element(By.XPATH, '//*[@id="root"]/div[2]/div[1]/ul/li[17]/div/ul/li[3]/button').click()
time.sleep(3)

### **Verduras scraping.**

In [16]:
# extraemos nombres de verduras
list_verduras = driver.find_elements(By.CSS_SELECTOR, 'h4.subhead1-r.product-cell__description-name[data-test="product-cell-name"]')
verduras = [verdura.text for verdura in list_verduras]

verduras

['Patata',
 'Patatas',
 'Patatas rojas',
 'Patatas',
 'Patatas guarnición',
 'Batata',
 'Patatas especial para freir',
 'Cebollas tiernas',
 'Cebollas',
 'Cebollas',
 'Ajos morados',
 'Cebollas dulces',
 'Ajo tierno',
 'Ajos morados',
 'Cebollas rojas',
 'Yuca',
 'Ajo negro dientes pelados',
 'Picada de ajo y Perejil',
 'Tomate ensalada',
 'Tomate canario',
 'Tomate pera',
 'Tomates pera',
 'Tomates cherry pera kumato',
 'Tomates cherry',
 'Tomates cherry en rama Dulcita',
 'Tomates kumato',
 'Tomates',
 'Tomate kumato negro',
 'Tomate rallado',
 'Rama de Tomates',
 'Tomate rosa',
 'Tomate ensalada',
 'Zanahorias',
 'Pepino',
 'Pepino holandés',
 'Zanahorias',
 'Pepinos',
 'Palitos de zanahoria',
 'Zanahoria rallada base para ensalada',
 'Pimiento rojo',
 'Calabacín verde',
 'Pimiento verde freír',
 'Calabacín blanco',
 'Pimiento verde',
 'Pimientos tricolor rojo, amarillo y verde',
 'Pimientos semipicantes',
 'Pimientos rojos picantes',
 'Coliflor',
 'Repollo liso',
 'Medio repollo li

In [17]:
# extraemos nombres de subcategorias
list_sub_verdura = driver.find_elements(By.CSS_SELECTOR, 'h2.section__header.headline1-b')
sub_verdura = [sub.text for sub in list_sub_verdura]

sub_verdura

['Patata',
 'Cebolla y ajo',
 'Tomate',
 'Pepino y zanahoria',
 'Calabacín y pimiento',
 'Repollo y col',
 'Setas y champiñones',
 'Hierbas aromáticas',
 'Otras verduras y hortalizas',
 'Verduras al vapor']

In [18]:
# extraemos nombre de categoria
cat_verdura = driver.find_element(By.XPATH, '//h1[@id="content" and contains(@class, "category-detail__title")]').text

cat_verdura

'Verdura'

### **Cierre del driver.**

In [19]:
driver.quit()

## **Creación y exportación de tablas.**

### **Productos.**

In [20]:
# crear una lista conjunta de todos los productos
list_fruta_verdura = frutas + ensaladas + verduras

# crear un diccionario con ids y nombres de producto
fruta_verdura_dic = {
    'fruta_verdura_id': list(range(1, len(list_fruta_verdura) + 1)),
    'nombre': list_fruta_verdura
}

# crear el DataFrame
fruta_verdura_df = pd.DataFrame(fruta_verdura_dic)

fruta_verdura_df

Unnamed: 0,fruta_verdura_id,nombre
0,1,Plátano de Canarias
1,2,Banana
2,3,Plátano macho
3,4,Uva blanca sin semillas
4,5,Uva roja sin semillas
...,...,...
171,172,Mix de verduras paisana para micro
172,173,Sopa juliana para micro
173,174,Patata para micro
174,175,Batata para micro


In [21]:
# exportamos a .CSV
fruta_verdura_df.to_csv('../data/productos.csv', index=False)

### **Subcategorías.**

In [22]:
# crear una lista conjunta de todas las subcategorias
list_subcat= sub_fruta + sub_ensalada + sub_verdura

# crear un diccionario con ids y nombres de subcategorias
subcat_dic = {
    'subcategoria_id': list(range(1, len(list_subcat) + 1)),
    'nombre': list_subcat
}

# crear el DataFrame
subcat_df = pd.DataFrame(subcat_dic)

subcat_df

Unnamed: 0,subcategoria_id,nombre
0,1,Plátano y uva
1,2,Manzana y pera
2,3,Melón y sandía
3,4,Cítricos
4,5,Fruta tropical
5,6,Otras frutas
6,7,Lechuga
7,8,Ensalada preparada
8,9,Patata
9,10,Cebolla y ajo


In [23]:
# exportamos a .CSV
subcat_df.to_csv('../data/subcategorias.csv', index=False)