# Scraping da https://www.alimentinutrizione.it/tabelle-nutrizionali/ricerca-per-categoria senza file excel

In [59]:
import requests
from bs4 import BeautifulSoup

# URL della pagina iniziale delle categorie di alimenti
base_url = "https://www.alimentinutrizione.it/tabelle-nutrizionali/ricerca-per-categoria"

# Funzione per ottenere il contenuto HTML di una pagina
def get_html(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        print(f"Errore {response.status_code} nella richiesta a {url}")
        return None

# Funzione per estrarre i link delle ricette
def get_recipe_links(html):
    soup = BeautifulSoup(html, 'html.parser')
    recipe_links = []
    for link in soup.find_all('a', href=True):
        href = link.get('href')
        if href.startswith('/tabelle-nutrizionali/'):
            recipe_links.append(href)
    return recipe_links[:3]  # Limita ai primi 3 risultati

# Funzione per estrarre i dati nutrizionali di un alimento
def extract_food_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    food_data = []

    # Modifica il selettore in base alla struttura della pagina
    table = soup.find('table')
    headers = []
    if table:
        headers = [header.text.strip() for header in table.find_all('th')]
        rows = table.find_all('tr')
        for row in rows[1:]:
            cells = row.find_all('td')
            food_data.append([cell.text.strip() for cell in cells])
    else:
        print("Nessuna tabella trovata.")

    return headers, food_data

# Ottieni i link delle categorie di alimenti
initial_html = get_html(base_url)
category_links = get_recipe_links(initial_html)

# Itera su ogni link di categoria per estrarre i dati nutrizionali degli alimenti
for link in category_links:
    category_url = f"https://www.alimentinutrizione.it{link}"
    category_html = get_html(category_url)
    if category_html:
        category_headers, food_data = extract_food_data(category_html)

        # Stampa headers e food_data per ciascuna categoria
        print(f"Headers per {link}: {category_headers}")
        print(f"Dati per {link}: {food_data}")

Headers per /tabelle-nutrizionali/120010: ['Acciuga o alice']
Dati per /tabelle-nutrizionali/120010: [['Categoria', 'Prodotti della pesca'], ['Codice Alimento', '120010'], ['Nome Scientifico', 'Engraulis enchrasicholus'], ['English Name', 'Anchovy, fresh, raw'], ['Parte Edibile', '75 %'], ['Porzione', '150 g']]
Headers per /tabelle-nutrizionali/120020: ["Acciuga o alice, sott'olio"]
Dati per /tabelle-nutrizionali/120020: [['Categoria', 'Prodotti della pesca'], ['Codice Alimento', '120020'], ['Nome Scientifico', 'Engraulis enchrasicholus'], ['English Name', 'Anchovy, in oil'], ['Parte Edibile', '100 %'], ['Porzione', '50 g']]
Headers per /tabelle-nutrizionali/120030: ['Acciuga o alice, sotto sale']
Dati per /tabelle-nutrizionali/120030: [['Categoria', 'Prodotti della pesca'], ['Codice Alimento', '120030'], ['Nome Scientifico', 'Engraulis enchrasicholus'], ['English Name', 'Anchovy, salted'], ['Parte Edibile', '50 %'], ['Porzione', '50 g']]
Headers per /tabelle-nutrizionali/005000: ['Agl

# Scraping da https://www.alimentinutrizione.it/tabelle-nutrizionali/ricerca-per-categoria con file excel, ma senza proteine ...

In [69]:
import requests
from bs4 import BeautifulSoup
import openpyxl

# URL della pagina iniziale delle categorie di alimenti
base_url = "https://www.alimentinutrizione.it/tabelle-nutrizionali/ricerca-per-ordine-alfabetico"

# Funzione per ottenere il contenuto HTML di una pagina
def get_html(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        print(f"Errore {response.status_code} nella richiesta a {url}")
        return None

# Funzione per estrarre i link delle ricette
def get_recipe_links(html):
    soup = BeautifulSoup(html, 'html.parser')
    recipe_links = []
    for link in soup.find_all('a', href=True):
        href = link.get('href')
        if href.startswith('/tabelle-nutrizionali/'):
            recipe_links.append(href)
    return recipe_links[:3]  # Limita ai primi 3 risultati

# Funzione per estrarre i dati nutrizionali di un alimento
def extract_food_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    food_data = []

    # Modifica il selettore in base alla struttura della pagina
    table = soup.find('table')
    headers = []
    if table:
        headers = [header.text.strip() for header in table.find_all('th')]
        rows = table.find_all('tr')
        for row in rows[1:]:
            cells = row.find_all('td')
            food_data.append([cell.text.strip() for cell in cells])
    else:
        print("Nessuna tabella trovata.")

    return headers, food_data

# Crea un nuovo workbook Excel
workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = "Dati Nutrizionali"

# Intestazioni del foglio Excel
sheet.append(["Link", "Nome Alimento", "Categoria", "Codice Alimento", "Nome Scientifico", "English Name", "Parte Edibile", "Porzione"])

# Ottieni i link delle categorie di alimenti
initial_html = get_html(base_url)
category_links = get_recipe_links(initial_html)

# Itera su ogni link di categoria per estrarre i dati nutrizionali degli alimenti
for link in category_links:
    category_url = f"https://www.alimentinutrizione.it{link}"
    category_html = get_html(category_url)
    if category_html:
        category_headers, food_data = extract_food_data(category_html)

        # Stampa headers e food_data per ciascuna categoria
        print(f"Headers per {link}: {category_headers}")
        print(f"Dati per {link}: {food_data}")

        # Aggiungi i dati al foglio Excel
        if food_data:
            row_data = [link, category_headers[0]]  # Link e Nome Alimento
            row_data.extend([item[1] for item in food_data])  # Aggiungi gli altri dati
            sheet.append(row_data)

# Salva il workbook Excel
workbook.save("dati_nutrizionali.xlsx")
print("Dati salvati in 'dati_nutrizionali.xlsx'")

Headers per /tabelle-nutrizionali/120010: ['Acciuga o alice']
Dati per /tabelle-nutrizionali/120010: [['Categoria', 'Prodotti della pesca'], ['Codice Alimento', '120010'], ['Nome Scientifico', 'Engraulis enchrasicholus'], ['English Name', 'Anchovy, fresh, raw'], ['Parte Edibile', '75 %'], ['Porzione', '150 g']]
Headers per /tabelle-nutrizionali/120020: ["Acciuga o alice, sott'olio"]
Dati per /tabelle-nutrizionali/120020: [['Categoria', 'Prodotti della pesca'], ['Codice Alimento', '120020'], ['Nome Scientifico', 'Engraulis enchrasicholus'], ['English Name', 'Anchovy, in oil'], ['Parte Edibile', '100 %'], ['Porzione', '50 g']]
Headers per /tabelle-nutrizionali/120030: ['Acciuga o alice, sotto sale']
Dati per /tabelle-nutrizionali/120030: [['Categoria', 'Prodotti della pesca'], ['Codice Alimento', '120030'], ['Nome Scientifico', 'Engraulis enchrasicholus'], ['English Name', 'Anchovy, salted'], ['Parte Edibile', '50 %'], ['Porzione', '50 g']]
Dati salvati in 'dati_nutrizionali.xlsx'


# IMPLEMENTAZIONI VARIE