In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Lista de URLs para las diferentes DOs de Galicia con sus nombres
urls = [
    {
        'url': 'https://www.labarricavinos.com/categoria-producto/galicia/barbanza-e-iria-galicia/',
        'do': 'Barbanza e Iria'
    },
    {
        'url': 'https://www.labarricavinos.com/categoria-producto/galicia/rias-baixas/',
        'do': 'Rías Baixas'
    },
    {
        'url': 'https://www.labarricavinos.com/categoria-producto/galicia/ribeiro/',
        'do': 'Ribeiro'
    },
    {
        'url': 'https://www.labarricavinos.com/categoria-producto/galicia/ribera-sacra/',
        'do': 'Ribera Sacra'
    },
    {
        'url': 'https://www.labarricavinos.com/categoria-producto/galicia/monterrei/',
        'do': 'Monterrei'
    },
    {
        'url': 'https://www.labarricavinos.com/categoria-producto/galicia/valdeorras/',
        'do': 'Valdeorras'
    }
]

# Lista para almacenar los datos de todas las páginas
wines_data = []

# Función para extraer datos de una página
def extract_wine_data(page_url, do_name):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(page_url, headers=headers)
    
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        # Encontrar todos los productos en la página
        wine_items = soup.find_all('li', class_='product')  # WooCommerce usa 'li.product' para productos
        for item in wine_items:
            try:
                # Extraer el nombre del vino
                name_tag = item.find('h2', class_='woocommerce-loop-product__title')
                name = name_tag.text.strip() if name_tag else 'N/A'
            except:
                name = 'N/A'

            try:
                # Extraer el precio
                price_tag = item.find('span', class_='woocommerce-Price-amount amount')
                price = price_tag.text.strip().replace(',', '.').strip() if price_tag else 'N/A'
            except:
                price = 'N/A'

            # Agregar los datos del vino con la DO de la URL
            wines_data.append({
                'Nombre del Vino': name,
                'Denominación de Origen': do_name,
                'Precio (€)': price
            })
    else:
        print(f'Error al acceder a la página: {response.status_code}')

# Extraer datos de todas las URLs
for entry in urls:
    print(f'Extrayendo datos de: {entry["url"]}')
    extract_wine_data(entry['url'], entry['do'])

# Crear un DataFrame con los datos combinados
df = pd.DataFrame(wines_data)

# Mostrar la tabla
print(df)

# Guardar los datos en un archivo CSV
df.to_csv('vinos_gallegos2.csv', index=False, encoding='utf-8')
print("Datos guardados en 'vinos_gallegos2csv'")


Extrayendo datos de: https://www.labarricavinos.com/categoria-producto/galicia/barbanza-e-iria-galicia/
Extrayendo datos de: https://www.labarricavinos.com/categoria-producto/galicia/rias-baixas/
Extrayendo datos de: https://www.labarricavinos.com/categoria-producto/galicia/ribeiro/
Extrayendo datos de: https://www.labarricavinos.com/categoria-producto/galicia/ribera-sacra/
Extrayendo datos de: https://www.labarricavinos.com/categoria-producto/galicia/monterrei/
Extrayendo datos de: https://www.labarricavinos.com/categoria-producto/galicia/valdeorras/
                       Nombre del Vino Denominación de Origen Precio (€)
0                  KOMOKABRAS Amarillo        Barbanza e Iria     15.55€
1                Albariño MARTIN CODAX            Rías Baixas     12.50€
2                Albariño TERRAS GAUDA            Rías Baixas     14.95€
3               Albariño MAR DE FRADES            Rías Baixas     16.70€
4                     BIENBEBIDO PULPO            Rías Baixas      4.95€
5   