# Lista dei siti web

## Teatri

* Teatro alla Scala
https://www.teatroallascala.org/it/stagione/2024-2025/index.html

* Piccolo Teatro di Milano
https://www.piccoloteatro.org/it/pages/prossimi-spettacoli?page=1

* Teatro Elfo Puccini
https://www.elfo.org/in-scena/stagione-2024-2025.htm

* Teatro Litta
https://biglietti.mtmteatro.it/categorie/stagione-teatrale.htm

## Musei

* MUDEC - Museo delle Culture
https://www.mudec.it/mostre-in-corso-2/

* Pinacoteca di Brera
https://www.accademiadibrera.milano.it/it/homepage

* Pirelli HangarBicocca
https://pirellihangarbicocca.org/exhibitions/in-corso/

## Concerti e Gare

* Autodromo Nazionale di Monza
https://www.monzanet.it/gare-eventi/categoria/gare/

* Concerti a Milano
https://www.rockol.it/concerti-milano-p-0jqrbm5nez7

# Import e funzioni necessarie

In [None]:
!pip install openai

Collecting openai
  Downloading openai-1.47.0-py3-none-any.whl.metadata (24 kB)
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.27.2-py3-none-any.whl.metadata (7.1 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.6 kB)
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.5-py3-none-any.whl.metadata (20 kB)
Collecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl.metadata (8.2 kB)
Downloading openai-1.47.0-py3-none-any.whl (375 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m375.6/375.6 kB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpx-0.27.2-py3-none-any.whl (76 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.4/76.4 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpcore-1.0.5-py3-none-any.whl (77 kB)
[2K   [90m━

In [None]:
import requests
from bs4 import BeautifulSoup
import os
import json
from openai import OpenAI

# OpenAI API key
os.environ["OPENAI_API_KEY"] = ""

# Inizializzo il client OpenAI
client = OpenAI()

# Funzione per ottenere il contenuto di un file
def read_file_content(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    return content

# Funzione per salvare i dati in JSON
def save_to_json(data, file_path):
    with open(file_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

# Teatro alla Scala


In [None]:
# URL della pagina principale degli eventi
url_principale = 'https://www.teatroallascala.org/it/stagione/2023-2024/index.html'

# Funzione per ottenere il contenuto di una pagina
def get_page_content(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.content

# Funzione per estrarre tutti i link agli eventi dalla pagina principale
def get_event_links(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')
    # Estrazione di tutti i link alle pagine degli eventi
    event_links = soup.find_all('a', class_='btn btn-link visually-hidden')
    return ['https://www.teatroallascala.org' + a['href'] for a in event_links]

# Funzione per estrarre le informazioni di un evento da una pagina dell'evento
def get_event_details(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')

    # Estrazione del titolo
    titolo_tag = soup.find('h1', class_='cnt__title text-uppercase')
    titolo = titolo_tag.text.strip() if titolo_tag else 'N/A'

    # Estrazione della durata
    durata_td = soup.find('td', string=lambda text: 'ora' in text or 'ore' in text or 'minuti' in text if text else False)
    durata = durata_td.get_text(strip=True) if durata_td else 'N/A'

    #Estrazione dell'anno
    anno_div = soup.find('div', class_='opera-runs')
    anno = anno_div.get_text(separator=' ', strip=True) if anno_div else 'N/A'

    #Estrazione della categoria
    cat_div = soup.find('div', class_='cnt__leaf')
    cat = cat_div.get_text(separator=' ', strip=True) if cat_div else 'N/A'

    # Estrazione delle info
    all_info_divs = soup.find_all('div', class_='swiper-wrapper')
    info_div = all_info_divs[1] if len(all_info_divs) > 1 else None
    event_info = info_div.get_text(separator=' ', strip=True) if info_div else 'N/A'

    # Estrazione della descrizione
    # all_text_divs = soup.find_all('div', class_='cnt__body')
    # text_div = all_text_divs[1] if len(all_text_divs) > 1 else None
    # description = text_div.get_text(separator=' ', strip=True) if text_div else 'N/A'

    return {
        'titolo': titolo,
        'durata': durata,
        'url': url,
        'anno': anno,
        'categoria': cat,
        'event_info': event_info
    }

# Funzione principale
def main():
    event_links = get_event_links(url_principale)
    eventi = []
    for link in event_links:
        try:
            dettagli_evento = get_event_details(link)
            eventi.append(dettagli_evento)
        except Exception as e:
            print(f"Errore nell'estrazione dei dettagli per l'evento {link}: {e}")

    # Scrittura dei dettagli degli eventi nel file input.txt
    with open('input_scala.txt', 'w', encoding='utf-8') as file:
        for evento in eventi:
            file.write(f"Title: {evento['titolo']}\n")
            file.write(f"Duration: {evento['durata']}\n")
            file.write(f"URL: {evento['url']}\n")
            file.write(f"Category: {evento['categoria']}\n")
            file.write(f"Event year: {evento['anno']}\n")
            file.write(f"Event date: {evento['event_info']}\n")
            file.write('---\n')

if __name__ == '__main__':
    main()
    print(read_file_content('input_scala.txt'))

Title: Don Carlo - Anteprima UNDER30
Duration: Direttore
URL: https://www.teatroallascala.org/it/stagione/2023-2024/opera/don-carlo-anteprima-under30.html
Category: Opera
Event year: 3 dicembre 2023
Event date: dom 3 dicembre Ore 18:00 Fuori Abb. U35
---
Title: Don Carlo - 7 dicembre Serata Inaugurale
Duration: 4 ore e 2 minuti ca. inclusi intervalli
URL: https://www.teatroallascala.org/it/stagione/2023-2024/opera/don-carlo-7-dicembre-serata-inaugurale.html
Category: Opera
Event year: 7 dicembre 2023
Event date: gio 7 dicembre Ore 18:00 PRIMA Fuori Abb.
---
Title: Don Carlo
Duration: 3 ore e 52 minuti ca. inclusi intervalli
URL: https://www.teatroallascala.org/it/stagione/2023-2024/opera/don-carlo.html
Category: Opera
Event year: Dal 10 dicembre 2023 al 2 gennaio 2024
Event date: dom 10 dicembre Ore 14:30 Turno Prime Opera GSA mer 13 dicembre Ore 19:00 Turno A sab 16 dicembre Ore 19:00 Turno B mar 19 dicembre Ore 19:00 Turno C GSA U35 ven 22 dicembre Ore 19:00 Turno D sab 30 dicembre O

In [None]:
def process_file(filename):
    # Leggi il contenuto del file
    with open(filename, 'r') as file:
        content = file.read()

    # Contare le occorrenze di ---
    delimiter = '---'
    occurrences = content.count(delimiter)

    if occurrences == 0:
        print("La stringa '---' non è presente nel file.")
        return

    # Calcolare la posizione in cui inserire ***
    insertion_index = (occurrences // 2) * len(delimiter)

    # Inserire *** dopo la metà delle occorrenze
    parts = content.split(delimiter)
    if len(parts) > (occurrences // 2):
        parts.insert(occurrences // 2 + 1, '***')
    new_content = delimiter.join(parts)

    # Scrivere il nuovo contenuto nello stesso file
    with open(filename, 'w') as file:
        file.write(new_content)

# Esempio di utilizzo
filename = 'input_scala.txt'
process_file(filename)

In [None]:
def read_file_content(file_path):
    with open(file_path, 'r') as file:
        return file.read()

def save_to_json(data, file_path):
    with open(file_path, 'w') as file:
        json.dump(data, file, indent=4)

def split_content(content, delimiter):
    return content.split(delimiter)

# Leggo il contenuto del file di input
file_content = read_file_content('input_scala.txt')

# Divido il contenuto del file usando il delimitatore '***'
segments = split_content(file_content, '***')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento, è sempre Teatro alla Scala
      "address": "string",  // Indirizzo della location dell'evento, è sempre Via Filodrammatici, 2, 20121 Milano
      "date": [{
        "date_day": "string",  // Giorno della data (formato: YYYY-MM-DD)
        "date_hour": "string"  // Ora della data (formato: HH:MM)
      }],
      "category": "string",  // Categoria dell'evento, è obbligatoria
      "duration": "string"  // Durata dell'evento (formato: HH:MM), solamente se presenti valori numerici altrimenti va segnata come N/A
    }

IMPORTANT: return only the json and nothing else.

"""

all_responses = []

# Creo il processo per ogni segmento
for segment in segments:
    completion = client.chat.completions.create(
        model="gpt-4o-mini",
        temperature=0,
        messages=[
            {"role": "system", "content": system_content},
            {"role": "user", "content": segment}
        ],
        response_format={ "type": "json_object" }
    )
    # Estraggo la risposta
    response = completion.choices[0].message.content
    print(response)
    # Analizzo la risposta JSON
    response_json = json.loads(response)
    all_responses.append(response_json)

# Salvo tutte le risposte JSON in un file
save_to_json(all_responses, 'output_scala.json')
print(all_responses)

{
  "events": [
    {
      "title": "Don Carlo - Anteprima UNDER30",
      "url": "https://www.teatroallascala.org/it/stagione/2023-2024/opera/don-carlo-anteprima-under30.html",
      "location": "Teatro alla Scala",
      "address": "Via Filodrammatici, 2, 20121 Milano",
      "date": [
        {
          "date_day": "2023-12-03",
          "date_hour": "18:00"
        }
      ],
      "category": "Opera",
      "duration": "N/A"
    },
    {
      "title": "Don Carlo - 7 dicembre Serata Inaugurale",
      "url": "https://www.teatroallascala.org/it/stagione/2023-2024/opera/don-carlo-7-dicembre-serata-inaugurale.html",
      "location": "Teatro alla Scala",
      "address": "Via Filodrammatici, 2, 20121 Milano",
      "date": [
        {
          "date_day": "2023-12-07",
          "date_hour": "18:00"
        }
      ],
      "category": "Opera",
      "duration": "04:02"
    },
    {
      "title": "Don Carlo",
      "url": "https://www.teatroallascala.org/it/stagione/2023-2024/op

# Piccolo Teatro di Milano


In [None]:
# Funzione per ottenere il contenuto di una pagina
def get_page_content(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.content

# Funzione per estrarre tutti i link agli eventi da una pagina
def get_event_links(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')
    # Trova tutti gli elementi <h2> con classe "title"
    event_titles = soup.find_all('h2', class_='title')
    # Estrae i link presenti all'interno del tag <a> contenuto in <h2>
    event_links = ['https://www.piccoloteatro.org' + title.find('a')['href'] for title in event_titles]
    return event_links

# Funzione per estrarre le informazioni di un evento da una pagina dell'evento
def get_event_details(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')

    # Estrazione del titolo
    titolo_tag = soup.find('h2', class_='title-h1')
    titolo = titolo_tag.text.strip() if titolo_tag else 'N/A'

    # Estrazione della durata
    durata_tag = soup.find('p', class_='duration-info')
    durata = durata_tag.text.strip() if durata_tag else 'N/A'

    # Estrazione del luogo
    luogo_tag = soup.find('h3', class_='field field--name-field-theatre field--type-entity-reference field--label-hidden field__item')
    luogo = luogo_tag.text.strip() if luogo_tag else 'N/A'

    # Estrazione delle info per la data
    info_div = soup.find('div', class_='show-performances') or soup.find('h3', class_='field date-display-range field--name-field-period field--type-daterange field--label-hidden field__item')
    event_info = info_div.get_text(separator=' ', strip=True) if info_div else 'N/A'

    # Estrazione della descrizione
    text_div = soup.find('div', class_='short-description')
    description = text_div.get_text(separator=' ', strip=True) if text_div else 'N/A'

    return {
        'titolo': titolo,
        'durata': durata,
        'url': url,
        'event_info': event_info,
        'luogo': luogo,
        'description': description
    }

# Funzione principale
def main(num_pagine):
    eventi = []

    # Itera sulle pagine
    for pagina in range(1, num_pagine + 1):
        url_pagina = f'https://www.piccoloteatro.org/it/pages/prossimi-spettacoli?page={pagina}'
        event_links = get_event_links(url_pagina)

        for link in event_links:
            try:
                dettagli_evento = get_event_details(link)
                eventi.append(dettagli_evento)
            except Exception as e:
                print(f"Errore nell'estrazione dei dettagli per l'evento {link}: {e}")

    # Scrittura dei dettagli degli eventi nel file input_piccolo.txt
    with open('input_piccolo.txt', 'w', encoding='utf-8') as file:
        for evento in eventi:
            file.write(f"Title: {evento['titolo']}\n")
            file.write(f"Duration: {evento['durata']}\n")
            file.write(f"URL: {evento['url']}\n")
            file.write(f"Event date: {evento['event_info']}\n")
            file.write(f"Location: Piccolo {evento['luogo']}\n")
            file.write(f"Description: {evento['description']}\n")
            file.write('---\n')

if __name__ == '__main__':
    # Numero di pagine da scansionare, impostato dall'utente
    num_pagine = 4  # Modifica questo valore per cambiare il numero di pagine da analizzare
    main(num_pagine)
    print(read_file_content('input_piccolo.txt'))

Title: La grande magia
Duration: Durata: spettacolo in allestimento
URL: https://www.piccoloteatro.org/it/2024-2025/la-grande-magia
Event date: Biglietti 5 Nov Ore 19:30 A partire da €20 Promo 6 Nov Ore 20:30 A partire da €26 7 Nov Ore 19:30 A partire da €26 8 Nov Ore 20:30 A partire da €23 Promo 9 Nov Ore 19:30 A partire da €26 10 Nov Ore 16:00 A partire da €26 Mostra altre date
Location: Piccolo Teatro Strehler
Description: Gabriele Russo dirige La grande magia , opera straordinaria di Eduardo De Filippo: «Fra tutte, quella più complessa e necessaria per i temi che affronta, per le relazioni che propone. Una commedia squilibrata, sospesa e caotica come il tempo in cui viviamo.»
---
Title: Il mostro di Belinda
Duration: Durata: spettacolo in allestimento
URL: https://www.piccoloteatro.org/it/2024-2025/il-mostro-di-belinda
Event date: Biglietti 7 Nov Ore 19:30 A partire da €17 Promo 9 Nov Ore 19:30 A partire da €20 Promo 10 Nov Ore 16:00 A partire da €17 Promo 12 Nov Ore 19:30 A partir

In [None]:
def process_file(filename):
    # Leggi il contenuto del file
    with open(filename, 'r') as file:
        content = file.read()

    # Contare le occorrenze di ---
    delimiter = '---'
    occurrences = content.count(delimiter)

    if occurrences == 0:
        print("La stringa '---' non è presente nel file.")
        return

    # Calcolare la posizione in cui inserire ***
    insertion_index = (occurrences // 2) * len(delimiter)

    # Inserire *** dopo la metà delle occorrenze
    parts = content.split(delimiter)
    if len(parts) > (occurrences // 2):
        parts.insert(occurrences // 2 + 1, '***')
    new_content = delimiter.join(parts)

    # Scrivere il nuovo contenuto nello stesso file
    with open(filename, 'w') as file:
        file.write(new_content)

# Esempio di utilizzo
filename = 'input_piccolo.txt'
process_file(filename)

In [None]:
def read_file_content(file_path):
    with open(file_path, 'r') as file:
        return file.read()

def save_to_json(data, file_path):
    with open(file_path, 'w') as file:
        json.dump(data, file, indent=4)

def split_content(content, delimiter):
    return content.split(delimiter)

# Leggo il contenuto del file di input
file_content = read_file_content('input_piccolo.txt')

# Divido il contenuto del file usando il delimitatore '***'
segments = split_content(file_content, '***')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento, identico a quello fornito
      "address": "string",  // Indirizzo della location, per il Piccolo Teatro Grassi è Via Rovello, 2, 20121 Milano MI, per il Piccolo Teatro Studio Melato è Via Rivoli, 6, 20121 Milano MI, per il Piccolo Teatro Strehler è Largo Greppi, 1, 20121 Milano MI
      "date": [{
        "date_day": "string",  // Giorno della data (formato: YYYY-MM-DD)
        "date_hour": "string"  // Ora della data (formato: HH:MM) se presente altrimenti va segnata come N/A
      }],
      "category": "string",  // Categoria dell'evento, è obbligatoria
      "duration": "string",  // Durata dell'evento (formato: HH:MM), solamente se presenti valori numerici altrimenti va segnata come N/A
      "description": "string"  // Descrizione dell'evento, identica alla descrizione originale fornita
    }

IMPORTANT: return only the json and nothing else.
"""

all_responses = []

# Creo il processo per ogni segmento
for segment in segments:
    completion = client.chat.completions.create(
        model="gpt-4o-mini",
        temperature=0,
        messages=[
            {"role": "system", "content": system_content},
            {"role": "user", "content": segment}
        ],
        response_format={ "type": "json_object" }
    )
    # Estraggo la risposta
    response = completion.choices[0].message.content
    print(response)
    # Analizzo la risposta JSON
    response_json = json.loads(response)
    all_responses.append(response_json)

# Salvo tutte le risposte JSON in un file
save_to_json(all_responses, 'output_piccolo.json')
print(all_responses)


{
  "events": [
    {
      "title": "La grande magia",
      "url": "https://www.piccoloteatro.org/it/2024-2025/la-grande-magia",
      "location": "Piccolo Teatro Strehler",
      "address": "Largo Greppi, 1, 20121 Milano MI",
      "date": [
        {
          "date_day": "2024-11-05",
          "date_hour": "19:30"
        },
        {
          "date_day": "2024-11-06",
          "date_hour": "20:30"
        },
        {
          "date_day": "2024-11-07",
          "date_hour": "19:30"
        },
        {
          "date_day": "2024-11-08",
          "date_hour": "20:30"
        },
        {
          "date_day": "2024-11-09",
          "date_hour": "19:30"
        },
        {
          "date_day": "2024-11-10",
          "date_hour": "16:00"
        }
      ],
      "category": "spettacolo",
      "duration": "N/A",
      "description": "Gabriele Russo dirige La grande magia , opera straordinaria di Eduardo De Filippo: «Fra tutte, quella più complessa e necessaria per i temi 

# Teatro Elfo Puccini


In [None]:
# URL della pagina principale degli eventi
url_principale = 'https://www.elfo.org/in-scena/stagione-2024-2025.htm'

# Funzione per ottenere il contenuto di una pagina
def get_page_content(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.content

# Funzione per estrarre tutti i link agli eventi dalla pagina principale
def get_event_links(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')
    # Estrazione di tutti i link alle pagine degli eventi
    event_links = soup.find_all('a', class_='MainLink')
    return ['https://www.elfo.org' + a['href'] for a in event_links]
    return event_links

# Funzione per estrarre le informazioni di un evento da una pagina dell'evento
def get_event_details(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')

    # Estrazione del titolo
    titolo_tag = soup.find('h1', class_='Titolo')
    titolo = titolo_tag.text.strip() if titolo_tag else 'N/A'

    # Estrazione della durata
    durata_tag = soup.find('p', class_='Note')
    durata = durata_tag.text.strip() if durata_tag else 'N/A'

    # Estrazione del luogo
    luogo_tag = soup.find('p', class_='Luogo')
    luogo = luogo_tag.text.strip() if luogo_tag else 'N/A'

    # Estrazione delle info per la data
    info_div = soup.find('div', class_='Programmazione')
    event_info = info_div.get_text(separator=' ', strip=True) if info_div else 'N/A'

    # Estrazione della descrizione
    text_div = soup.find('div', class_='TabsPagesContent')
    description = text_div.get_text(separator=' ', strip=True) if text_div else 'N/A'

    return {
        'titolo': titolo,
        'durata': durata,
        'url': url,
        'event_info': event_info,
        'luogo': luogo,
        'description': description
    }

# Funzione principale
def main():
    event_links = get_event_links(url_principale)
    eventi = []
    for link in event_links:
        try:
            dettagli_evento = get_event_details(link)
            eventi.append(dettagli_evento)
        except Exception as e:
            print(f"Errore nell'estrazione dei dettagli per l'evento {link}: {e}")

    # Scrittura dei dettagli degli eventi nel file input.txt
    with open('input_puccini.txt', 'w', encoding='utf-8') as file:
        for evento in eventi:
            file.write(f"Title: {evento['titolo']}\n")
            file.write(f"Duration: {evento['durata']}\n")
            file.write(f"URL: {evento['url']}\n")
            file.write(f"Event date: {evento['event_info']}\n")
            file.write(f"Location: Teatro Elfo Puccini, {evento['luogo']}\n")
            file.write(f"Description: {evento['description']}\n")
            file.write('---\n')

if __name__ == '__main__':
    main()
    print(read_file_content('input_puccini.txt'))

Title: Alice & Loris
Duration: DURATA: 1 ora e 15 minuti
URL: https://www.elfo.org/spettacoli/2024-2025/alice-e-loris.htm
Event date: Il calendario Martedì 15 Ottobre Ore 19:00 Acquista Mercoledì 16 Ottobre Ore 19:00 Acquista Giovedì 17 Ottobre Ore 20:00 Acquista Venerdì 18 Ottobre Ore 20:30 Acquista Sabato 19 Ottobre Ore 20:00 Acquista Domenica 20 Ottobre Ore 16:00 Acquista
Location: Teatro Elfo Puccini, Sala Bausch
Description: Alice e Loris, due comedian dallo stesso taglio di capelli, decidono di ascoltare chi dice «perché non lavorate insieme?». Ma è difficile. Perché, quando sono insieme, non fanno altro che discutere. Se uno si esibisce sul palco, l’altra ribatte dalla platea. È una stanD-UO comedy all’ultimo respiro. Nessuna quarta parete, nessuna maschera teatrale a salvarli. Solo loro due e il pubblico, che a turno cercano di portare dalla propria parte. Speriamo bene. Ma qualcosa già scricchiola.
---
Title: L'Isola di Arturo
Duration: DURATA: 1 ORA
URL: https://www.elfo

In [None]:
def process_file(filename):
    # Leggi il contenuto del file
    with open(filename, 'r') as file:
        content = file.read()

    # Contare le occorrenze di ---
    delimiter = '---'
    occurrences = content.count(delimiter)

    if occurrences == 0:
        print("La stringa '---' non è presente nel file.")
        return

    # Calcolare la posizione in cui inserire ***
    insertion_index = (occurrences // 2) * len(delimiter)

    # Inserire *** dopo la metà delle occorrenze
    parts = content.split(delimiter)
    if len(parts) > (occurrences // 2):
        parts.insert(occurrences // 2 + 1, '***')
    new_content = delimiter.join(parts)

    # Scrivere il nuovo contenuto nello stesso file
    with open(filename, 'w') as file:
        file.write(new_content)

# Esempio di utilizzo
filename = 'input_puccini.txt'
process_file(filename)

In [None]:
def read_file_content(file_path):
    with open(file_path, 'r') as file:
        return file.read()

def save_to_json(data, file_path):
    with open(file_path, 'w') as file:
        json.dump(data, file, indent=4)

def split_content(content, delimiter):
    return content.split(delimiter)

# Leggo il contenuto del file di input
file_content = read_file_content('input_puccini.txt')

# Divido il contenuto del file usando il delimitatore '***'
segments = split_content(file_content, '***')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento, identico a quello fornito
      "address": "string",  // Indirizzo della location, è sempre Corso Buenos Aires, 33, 20124 Milano MI
      "date": [{
        "date_day": "string",  // Giorno della data (formato: YYYY-MM-DD)
        "date_hour": "string"  // Ora della data (formato: HH:MM) se presente altrimenti va segnata come N/A
      }],
      "category": "string",  // Categoria dell'evento, è obbligatoria
      "duration": "string",  // Durata dell'evento (formato: HH:MM), solamente se presenti valori numerici altrimenti va segnata come N/A
      "description": "string"  // Descrizione dell'evento, identica alla descrizione originale fornita
    }

IMPORTANT: return only the json and nothing else.

"""

all_responses = []

# Creo il processo per ogni segmento
for segment in segments:
    completion = client.chat.completions.create(
        model="gpt-4o-mini",
        temperature=0,
        messages=[
            {"role": "system", "content": system_content},
            {"role": "user", "content": segment}
        ],
        response_format={ "type": "json_object" }
    )
    # Estraggo la risposta
    response = completion.choices[0].message.content
    print(response)
    # Analizzo la risposta JSON
    response_json = json.loads(response)
    all_responses.append(response_json)

# Salvo tutte le risposte JSON in un file
save_to_json(all_responses, 'output_puccini.json')
print(all_responses)


{
  "events": [
    {
      "title": "Alice & Loris",
      "url": "https://www.elfo.org/spettacoli/2024-2025/alice-e-loris.htm",
      "location": "Teatro Elfo Puccini, Sala Bausch",
      "address": "Corso Buenos Aires, 33, 20124 Milano MI",
      "date": [
        {
          "date_day": "2024-10-15",
          "date_hour": "19:00"
        },
        {
          "date_day": "2024-10-16",
          "date_hour": "19:00"
        },
        {
          "date_day": "2024-10-17",
          "date_hour": "20:00"
        },
        {
          "date_day": "2024-10-18",
          "date_hour": "20:30"
        },
        {
          "date_day": "2024-10-19",
          "date_hour": "20:00"
        },
        {
          "date_day": "2024-10-20",
          "date_hour": "16:00"
        }
      ],
      "category": "Spettacolo",
      "duration": "01:15",
      "description": "Alice e Loris, due comedian dallo stesso taglio di capelli, decidono di ascoltare chi dice «perché non lavorate insieme?».

# Teatro Litta


In [None]:
# URL della pagina principale degli eventi
url_principale = 'https://biglietti.mtmteatro.it/categorie/stagione-teatrale.htm'

# Funzione per ottenere il contenuto di una pagina
def get_page_content(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.content

# Funzione per estrarre tutti i link agli eventi dalla pagina principale
def get_event_links(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')
    # Estrazione di tutti i link all'interno del div con classe "Evento"
    event_links = soup.find_all('div', class_='Evento')
    # Estrazione degli href dagli elementi <a> dentro il div "Evento"
    links = ['https://biglietti.mtmteatro.it' + event.find('a')['href'] for event in event_links]
    return links

# Funzione per estrarre le informazioni di un evento da una pagina dell'evento
def get_event_details(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')

    # Estrazione del titolo
    titolo_tag = soup.find('h1', class_='PageTitle')
    titolo = titolo_tag.text.strip() if titolo_tag else 'N/A'

    # Estrazione del luogo
    luogo_tag = soup.find('p', class_='EventLocation')
    luogo = luogo_tag.text.strip() if luogo_tag else 'N/A'

    # Estrazione delle info per la data
    info_div = soup.find('div', class_='DatesTable')
    event_info = info_div.get_text(separator=' ', strip=True) if info_div else 'N/A'

    # Trovare il div che contiene il testo e la durata
    box_text = soup.find('div', class_='BoxText')

    # Estrarre solo i paragrafi <p> prima della linea <hr>
    description_parts = []
    for element in box_text.find_all('p', recursive=False):
        # Se incontriamo il tag <hr>, smettiamo di raccogliere la descrizione
        if element.find_previous_sibling('hr'):
            break
        description_parts.append(element.get_text(strip=True))

    # Unire le parti della descrizione in un'unica stringa
    description = ' '.join(description_parts)

    if box_text:
        # Trova tutte le occorrenze di <hr> nella div
        hr_tags = box_text.find_all('hr')

        # Verifica se ci sono almeno 2 tag <hr> per ignorare le prime due "righe"
        if len(hr_tags) > 1:
            # Prendi il secondo tag <hr>
            second_hr = hr_tags[1]

            # Trova tutti i paragrafi dopo il secondo <hr>
            paragraphs_after_second_hr = second_hr.find_all_next('p')

            # Unisce il testo di tutti i paragrafi trovati
            text_after_second_hr = ' '.join(p.get_text(strip=True) for p in paragraphs_after_second_hr)

            # Assegna il testo alla variabile
            duration = text_after_second_hr

    return {
        'titolo': titolo,
        'url': url,
        'event_info': event_info,
        'luogo': luogo,
        'descrizione': description,
        'durata': duration
    }

# Funzione principale
def main():
    event_links = get_event_links(url_principale)
    eventi = []
    for link in event_links:
        try:
            dettagli_evento = get_event_details(link)
            eventi.append(dettagli_evento)
        except Exception as e:
            print(f"Errore nell'estrazione dei dettagli per l'evento {link}: {e}")

    # Scrittura dei dettagli degli eventi nel file input.txt
    with open('input_litta.txt', 'w', encoding='utf-8') as file:
        for evento in eventi:
            file.write(f"Title: {evento['titolo']}\n")
            file.write(f"URL: {evento['url']}\n")
            file.write(f"Event date: {evento['event_info']}\n")
            file.write(f"Location and address: {evento['luogo']}\n")
            file.write(f"Description: {evento['descrizione']}\n")
            file.write(f"Duration: {evento['durata']}\n")
            file.write('---\n')

if __name__ == '__main__':
    main()
    print(read_file_content('input_litta.txt'))

Title: Mosca cieca - FESTIVAL HORS
URL: https://biglietti.mtmteatro.it/eventi/mosca-cieca.htm
Event date: Giorno Orario Prezzo da Giovedì 26/09/2024 20:30 Acquista
Location and address: Teatro Litta - corso Magenta 24, Milano
Description: Mosca ciecaè un atto di resistenza: quello delle sorelle Khachaturyan che dopo anni di abusi sessuali e psicologici uccidono il loro carnefice. Mosca ciecauna protesta contro l’ingiustizia subita dalle tre sorelle vittime del padre e al tempo stesso di una legge che non le protegge. Mosca ciecaè un insieme di puntini da unire tra un fatto di cronaca e l’operaTre sorelledi Cechov, tra tematiche oggi urgenti e trasversali con le quali non possiamo non confrontarci nella società in cui viviamo. A ricordare che a teatro le storie trovano giustizia.
Duration: durata: 75 minuti Biglietti:intero € 10, ridotto (partecipanti ai laboratori) € 5 Contattaci:Tel. 02 86 45 45 45Mailbiglietteria@mtmteatro.it 26/09/2024 Teatro Litta - corso Magenta 24, Milano è un pr

In [None]:
# Leggo il contenuto del file di input da passare a LLM
file_content = read_file_content('input_litta.txt')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento
      "address": "string",  // Indirizzo della location
      "date": [{
        "date_day": "string",  // Giorno della data (formato: YYYY-MM-DD)
        "date_hour": "string",  // Ora della data (formato: HH:MM) se presente altrimenti va segnata come N/A
        "date_price": "number"  // Prezzo della data se presente altrimenti va segnato come N/A
      }],
      "category": "string",  // Categoria dell'evento, è obbligatoria
      "duration": "string",  // Durata dell'evento (importante in formato: HH:MM), solamente se presenti valori numerici altrimenti va segnata come N/A
      "description": "string"  // Descrizione dell'evento, identica a quella fornita
    }

IMPORTANT: return only the json and nothing else.

"""

# Creo il processo
completion = client.chat.completions.create(
    model="gpt-4o-mini",
    temperature=0,
    messages=[
        {"role": "system", "content": system_content},
        {"role": "user", "content": file_content}
    ],
    response_format={ "type": "json_object" }
)

In [None]:
# Estraggo la risposta
response = completion.choices[0].message.content

# Analizzo la risposta JSON
response_json = json.loads(response)

# Salvo la risposta JSON in un file
save_to_json(response_json, 'output_litta.json')

print(response)

{
  "events": [
    {
      "title": "Mosca cieca - FESTIVAL HORS",
      "url": "https://biglietti.mtmteatro.it/eventi/mosca-cieca.htm",
      "location": "Teatro Litta",
      "address": "corso Magenta 24, Milano",
      "date": [
        {
          "date_day": "2024-09-26",
          "date_hour": "20:30",
          "date_price": 10
        }
      ],
      "category": "FESTIVAL HORS",
      "duration": "01:15",
      "description": "Mosca ciecaè un atto di resistenza: quello delle sorelle Khachaturyan che dopo anni di abusi sessuali e psicologici uccidono il loro carnefice. Mosca ciecauna protesta contro l’ingiustizia subita dalle tre sorelle vittime del padre e al tempo stesso di una legge che non le protegge. Mosca ciecaè un insieme di puntini da unire tra un fatto di cronaca e l’operaTre sorelledi Cechov, tra tematiche oggi urgenti e trasversali con le quali non possiamo non confrontarci nella società in cui viviamo. A ricordare che a teatro le storie trovano giustizia."
    },


# MUDEC - Museo delle Culture


In [None]:
# URL della pagina principale degli eventi
url_principale = 'https://www.mudec.it/mostre-in-corso-2/'

# Funzione per ottenere il contenuto di una pagina
def get_page_content(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.content

# Funzione per estrarre tutti i link agli eventi dalla pagina principale
def get_event_links(url):
    content = get_page_content(url)
    soup_raw = BeautifulSoup(content, 'html.parser')
    soup_raw_all = soup_raw.find_all('div', class_='e-con-inner')
    soup = soup_raw_all[1]
    # Rimuove tutti gli script dal div trovato
    for script in soup.find_all('script'):
        script.decompose()
    # Estrazione di tutti i link all'interno del div
    event_links = soup.find_all('div', class_='elementor-widget-container')
    # Estrazione degli href dagli elementi <a> dentro il div
    links = []
    for div in event_links:
        a_tag = div.find('a')  # Trova il primo tag <a> all'interno del div
        if a_tag and 'href' in a_tag.attrs:  # Controlla se esiste e ha l'attributo 'href'
            links.append(a_tag['href'])
    return set(links)

# Funzione per estrarre le informazioni di un evento da una pagina dell'evento
def get_event_details(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')

    # Estrazione del titolo
    titolo_tag = soup.find('h2', class_='elementor-heading-title elementor-size-default')
    titolo = titolo_tag.text.strip() if titolo_tag else 'N/A'

    # Estrazione della descrizione
    info_div = soup.find_all('div', class_='elementor-container')
    event_info = info_div[5].get_text(separator=' ', strip=True) if info_div else 'N/A'

    # Estrazione della data
    data_div = soup.find_all('div', class_='elementor-tab-content')
    data = data_div[1].get_text(separator=' ', strip=True) if data_div else 'N/A'

    return {
        'titolo': titolo,
        'url': url,
        'event_info': event_info,
        'data': data
    }

# Funzione principale
def main():
    event_links = get_event_links(url_principale)
    eventi = []
    for link in event_links:
        try:
            dettagli_evento = get_event_details(link)
            eventi.append(dettagli_evento)
        except Exception as e:
            print(f"Errore nell'estrazione dei dettagli per l'evento {link}: {e}")

    # Scrittura dei dettagli degli eventi nel file input.txt
    with open('input_mudec.txt', 'w', encoding='utf-8') as file:
        for evento in eventi:
            file.write(f"Title: {evento['titolo']}\n")
            file.write(f"URL: {evento['url']}\n")
            file.write(f"Date and timetables: {evento['data']}\n")
            file.write(f"Description: {evento['event_info']}\n")
            file.write('---\n')

if __name__ == '__main__':
    main()
    print(read_file_content('input_mudec.txt'))

In [None]:
# Leggo il contenuto del file di input da passare a LLM
file_content = read_file_content('input_mudec.txt')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento, è sempre Mudec
      "address": "string",  // Indirizzo della location, è sempre Via Tortona, 56, 20144 Milano MI
      "date_start": "string",  // Data di inizio dell'evento (formato: YYYY-MM-DD)
      "date_end": "string",  // Data di fine dell'evento (formato: YYYY-MM-DD)
      "category": "string",  // Categoria dell'evento (tipologia della Mostra), è obbligatoria
      "description": "string"  // Descrizione dell'evento, un riassunto di quella fornita
      "schedule": [{
        "day": "string",  // Giorno della settimana, in ordine lunedi martedi mercoledi giovedi venerdi sabato domenica (formato: YYYY-MM-DD)
        "open_time": "string",  // Ora di apertura (formato: HH:MM)
        "close_time": "string"  // Ora di chiusura (formato: HH:MM)
      }]
    }

IMPORTANT: return only the json and nothing else.

"""

# Creo il processo
completion = client.chat.completions.create(
    model="gpt-4o-mini",
    temperature=0,
    messages=[
        {"role": "system", "content": system_content},
        {"role": "user", "content": file_content}
    ],
    response_format={ "type": "json_object" }
)

In [None]:
# Estraggo la risposta
response = completion.choices[0].message.content

# Analizzo la risposta JSON
response_json = json.loads(response)

# Salvo la risposta JSON in un file
save_to_json(response_json, 'output_mudec.json')

print(response)

# Pinacoteca di Brera


In [None]:
# URL della pagina principale degli eventi
url_principale = 'https://www.accademiadibrera.milano.it/it/homepage'

# Funzione per ottenere il contenuto di una pagina
def get_page_content(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.content

# Funzione per estrarre tutti i link agli eventi dalla pagina principale
def get_event_links(url):
    content = get_page_content(url)
    soup_raw = BeautifulSoup(content, 'html.parser')
    soup = soup_raw.find('div', class_='owl-carousel filtr-container-news')
    # Rimuove tutti gli script dal div trovato
    for script in soup.find_all('script'):
        script.decompose()
    # Estrazione di tutti i link alle pagine degli eventi
    event_links = soup.find_all('a', class_='detail-page-No')
    return ['https://www.accademiadibrera.milano.it/' + a['href'] for a in event_links]
    return event_links

# Funzione per estrarre le informazioni di un evento da una pagina dell'evento
def get_event_details(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')

    # Estrazione del titolo
    titolo_tag = soup.find('h2', class_='display-3')
    titolo = titolo_tag.text.strip() if titolo_tag else 'N/A'

    # Estrazione della data
    data_tag = soup.find('p', class_='lead')
    data = data_tag.text.strip() if data_tag else 'N/A'

    # Estrazione della descrizione
    info_div = soup.find_all('div', class_='col-md-12')
    event_info = info_div[1].get_text(separator=' ', strip=True) if info_div else 'N/A'

    return {
        'titolo': titolo,
        'url': url,
        'data': data,
        'event_info': event_info,
    }

# Funzione principale
def main():
    event_links = get_event_links(url_principale)
    eventi = []
    for link in event_links:
        try:
            dettagli_evento = get_event_details(link)
            eventi.append(dettagli_evento)
        except Exception as e:
            print(f"Errore nell'estrazione dei dettagli per l'evento {link}: {e}")

    # Scrittura dei dettagli degli eventi nel file input.txt
    with open('input_brera.txt', 'w', encoding='utf-8') as file:
        for evento in eventi:
            file.write(f"Title: {evento['titolo']}\n")
            file.write(f"URL: {evento['url']}\n")
            file.write(f"Date: {evento['data']}\n")
            file.write(f"Description: {evento['event_info']}\n")
            file.write('---\n')

if __name__ == '__main__':
    main()
    print(read_file_content('input_brera.txt'))

In [None]:
# Leggo il contenuto del file di input da passare a LLM
file_content = read_file_content('input_brera.txt')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento, è sempre Pinacoteca di Brera
      "address": "string",  // Indirizzo della location, è sempre Via Brera, 28, 20121 Milano MI
      "date_start": "string",  // Data di inizio dell'evento (formato: YYYY-MM-DD)
      "date_end": "string",  // Data di fine dell'evento (formato: YYYY-MM-DD)
      "time_start": "string",  // Ora di inizio dell'evento (formato: HH:MM), se presente altrimenti segnare come N/A
      "time_end": "string",  // Ora di fine dell'evento (formato: HH:MM), se presente altrimenti segnare come N/A
      "category": "string",  // Categoria dell'evento (tipologia della Mostra), è obbligatoria
      "description": "string"  // Descrizione dell'evento, un riassunto di quella fornita
    }

IMPORTANT: return only the json and nothing else.

"""

# Creo il processo
completion = client.chat.completions.create(
    model="gpt-4o-mini",
    temperature=0,
    messages=[
        {"role": "system", "content": system_content},
        {"role": "user", "content": file_content}
    ],
    response_format={ "type": "json_object" }
)

In [None]:
# Estraggo la risposta
response = completion.choices[0].message.content

# Analizzo la risposta JSON
response_json = json.loads(response)

# Salvo la risposta JSON in un file
save_to_json(response_json, 'output_brera.json')

print(response)

# Pirelli HangarBicocca


In [None]:
# URL della pagina principale degli eventi
url_principale = 'https://pirellihangarbicocca.org/exhibitions/in-corso/'

# Funzione per ottenere il contenuto di una pagina
def get_page_content(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.content

# Funzione per estrarre tutti i link agli eventi dalla pagina principale
def get_event_links(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')
    # Rimuove tutti gli script
    for script in soup.find_all('script'):
        script.decompose()
    # Estrazione di tutti i link alle pagine degli eventi
    event_links = soup.find_all('a', class_='overlay')
    return [a['href'] for a in event_links]
    return event_links

# Funzione per estrarre le informazioni di un evento da una pagina dell'evento
def get_event_details(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')

    # Estrazione del titolo, data e categoria
    info_div = soup.find_all('div', class_='fl-html')
    event_info = info_div[4].get_text(separator=' ', strip=True) if info_div else 'N/A'

    # Estrazione della descrizione
    descr_div = soup.find_all('div', class_='text-column')
    description = ' '.join([div.get_text(separator=' ', strip=True) for div in descr_div]) if descr_div else 'N/A'

    return {
        'url': url,
        'descrizione': description,
        'event_info': event_info,
    }

# Funzione principale
def main():
    event_links = get_event_links(url_principale)
    eventi = []
    for link in event_links:
        try:
            dettagli_evento = get_event_details(link)
            eventi.append(dettagli_evento)
        except Exception as e:
            print(f"Errore nell'estrazione dei dettagli per l'evento {link}: {e}")

    # Scrittura dei dettagli degli eventi nel file input.txt
    with open('input_hangar.txt', 'w', encoding='utf-8') as file:
        for evento in eventi:
            file.write(f"Category, date and title: {evento['event_info']}\n")
            file.write(f"URL: {evento['url']}\n")
            file.write(f"Description: {evento['descrizione']}\n")
            file.write('---\n')

if __name__ == '__main__':
    main()
    print(read_file_content('input_hangar.txt'))

Category, date and title: Mostra In corso – SHED 12 Settembre 2024 - 12 Gennaio 2025 Saodat Ismailova A Seed Under Our Tongue
URL: https://pirellihangarbicocca.org/mostra/saodat-ismailova/
Description: L’ingresso alla mostra è gratuito e la prenotazione online garantisce l’accesso prioritario nella fascia oraria prescelta. I Member hanno diritto ad accesso prioritario anche senza prenotazione. Pirelli HangarBicocca presenta “A Seed Under Our Tongue”, la prima mostra antologica in Italia dedicata a Saodat Ismailova (Tashkent, Uzbekistan, 1981. Vive e lavora tra Parigi e Tashkent), una delle artiste contemporanee più innovative della sua generazione, che lavora all’intersezione tra cinema, suono e arte visiva. I suoi film e le sue installazioni, con la loro suggestiva iconografia e le loro narrazioni ipnotiche, riflettono sul potere della natura, l’eredità coloniale e il delicato rapporto tra umanità e ambiente. Esplorando la memoria collettiva, i saperi ancestrali e la rappresentazione 

In [None]:
# Leggo il contenuto del file di input da passare a LLM
file_content = read_file_content('input_hangar.txt')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito (non deve contenere la data, deve contenere l'autore)
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento, è sempre Pirelli HangarBicocca
      "address": "string",  // Indirizzo della location, è sempre Via Chiese, 2, 20126 Milano MI
      "date_start": "string",  // Data di inizio dell'evento (formato: YYYY-MM-DD)
      "date_end": "string",  // Data di fine dell'evento (formato: YYYY-MM-DD)
      "category": "string",  // Categoria dell'evento, è obbligatoria
      "description": "string"  // Descrizione dell'evento, un riassunto di quella fornita
    }

IMPORTANT: return only the json and nothing else.

"""

# Creo il processo
completion = client.chat.completions.create(
    model="gpt-4o-mini",
    temperature=0,
    messages=[
        {"role": "system", "content": system_content},
        {"role": "user", "content": file_content}
    ],
    response_format={ "type": "json_object" }
)

NameError: name 'read_file_content' is not defined

In [None]:
# Estraggo la risposta
response = completion.choices[0].message.content

# Analizzo la risposta JSON
response_json = json.loads(response)

# Salvo la risposta JSON in un file
save_to_json(response_json, 'output_hangar.json')

print(response)

{
  "events": [
    {
      "title": "Mostra In corso – SHED Saodat Ismailova A Seed Under Our Tongue",
      "url": "https://pirellihangarbicocca.org/mostra/saodat-ismailova/",
      "location": "Pirelli HangarBicocca",
      "address": "Via Chiese, 2, 20126 Milano MI",
      "date_start": "2024-09-12",
      "date_end": "2025-01-12",
      "category": "Mostra In corso",
      "description": "La prima mostra antologica in Italia dedicata a Saodat Ismailova, esplorando il potere della natura, l'eredità coloniale e il delicato rapporto tra umanità e ambiente."
    },
    {
      "title": "Mostra Futura – NAVATE Jean Tinguely",
      "url": "https://pirellihangarbicocca.org/mostra/jean-tinguely/",
      "location": "Pirelli HangarBicocca",
      "address": "Via Chiese, 2, 20126 Milano MI",
      "date_start": "2024-10-10",
      "date_end": "2025-02-02",
      "category": "Mostra Futura",
      "description": "La più estesa retrospettiva in Italia di Jean Tinguely, artista pionieristico 

# Autodromo Nazionale di Monza


In [None]:
# URL della pagina principale degli eventi
url_principale = 'https://www.monzanet.it/gare-eventi/categoria/gare/'

# Funzione per ottenere il contenuto di una pagina
def get_page_content(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.content

# Funzione per estrarre tutti i link agli eventi dalla pagina principale
def get_event_links(url):
    content = get_page_content(url)
    soup_raw = BeautifulSoup(content, 'html.parser')
    soup = soup_raw.find('div', class_='tribe-events-calendar-list')
    # Rimuove tutti gli script dal div trovato
    for script in soup.find_all('script'):
        script.decompose()
    # Trova tutti gli elementi <h3> con la classe specificata
    event_headers = soup.find_all('h3', class_='tribe-events-calendar-list__event-title tribe-common-h6 tribe-common-h4--min-medium')
    # Estrai i link all'interno dei tag <a> che si trovano dentro gli <h3>
    event_links = [header.find('a', class_='tribe-events-calendar-list__event-title-link tribe-common-anchor-thin')['href'] for header in event_headers]
    # Rimuovi duplicati considerando solo la parte comune del link
    unique_event_links = []
    seen_events = set()
    for link in event_links:
        # Identifica l'evento principale dal link rimuovendo la parte che cambia (la data finale)
        base_link = link.rsplit('/', 2)[0]  # Taglia l'URL fino alla parte comune prima della data
        if base_link not in seen_events:
            seen_events.add(base_link)
            unique_event_links.append(link)
    return unique_event_links

# Funzione per estrarre le informazioni di un evento da una pagina dell'evento
def get_event_details(url):
    content = get_page_content(url)
    soup = BeautifulSoup(content, 'html.parser')

    # Estrazione del titolo
    titolo_tag = soup.find('h1', class_='tribe-events-single-event-title')
    titolo = titolo_tag.text.strip() if titolo_tag else 'N/A'

    # Estrazione della data
    data_div = soup.find('div', class_='tribe-events-schedule tribe-clearfix')
    data = data_div.get_text(separator=' ', strip=True) if data_div else 'N/A'

    # Estrazione della descrizione
    text_div = soup.find('div', class_='tribe-events-single-event-description tribe-events-content')
    description = text_div.get_text(separator=' ', strip=True) if text_div else 'N/A'

    return {
        'titolo': titolo,
        'url': url,
        'event_data': data,
        'descrizione': description,
    }

# Funzione principale
def main():
    event_links = get_event_links(url_principale)
    eventi = []
    for link in event_links:
        try:
            dettagli_evento = get_event_details(link)
            eventi.append(dettagli_evento)
        except Exception as e:
            print(f"Errore nell'estrazione dei dettagli per l'evento {link}: {e}")

    # Scrittura dei dettagli degli eventi nel file input.txt
    with open('input_monza.txt', 'w', encoding='utf-8') as file:
        for evento in eventi:
            file.write(f"Title: {evento['titolo']}\n")
            file.write(f"URL: {evento['url']}\n")
            file.write(f"Event date: {evento['event_data']}\n")
            file.write(f"Description: {evento['descrizione']}\n")
            file.write('---\n')

if __name__ == '__main__':
    main()
    print(read_file_content('input_monza.txt'))

In [None]:
# Leggo il contenuto del file di input da passare a LLM
file_content = read_file_content('input_monza.txt')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento, è sempre Autodromo Nazionale Monza
      "address": "string",  // Indirizzo della location, è sempre Viale di Vedano, 5, 20900 Monza MB
      "date_start": "string",  // Data di inizio dell'evento (formato: YYYY-MM-DD)
      "date_end": "string",  // Data di fine dell'evento (formato: YYYY-MM-DD)
      "category": "string",  // Categoria dell'evento, è obbligatoria
      "description": "string"  // Descrizione dell'evento, identica a quella fornita
    }

IMPORTANT: return only the json and nothing else.

"""

# Creo il processo
completion = client.chat.completions.create(
    model="gpt-4o-mini",
    temperature=0,
    messages=[
        {"role": "system", "content": system_content},
        {"role": "user", "content": file_content}
    ],
    response_format={ "type": "json_object" }
)

In [None]:
# Estraggo la risposta
response = completion.choices[0].message.content

# Analizzo la risposta JSON
response_json = json.loads(response)

# Salvo la risposta JSON in un file
save_to_json(response_json, 'output_monza.json')

print(response)

# Concerti a Milano


In [None]:
import requests
from bs4 import BeautifulSoup

max_pages = 61  # Modificare questo numero per esplorare più o meno pagine

with open("input_concerti.txt", "w", encoding="utf-8") as file:
    # Ciclo per esplorare le pagine
    for page in range(1, max_pages + 1):
        # URL della pagina da cui effettuare il web scraping
        url = f"https://www.rockol.it/concerti-milano-p-0jqrbm5nez7?pag={page}"

        # Richiesta HTTP alla pagina web
        response = requests.get(url)

        if response.status_code == 200:
            # Parsing del contenuto HTML della pagina
            soup = BeautifulSoup(response.content, "html.parser")

            # Trova tutti i blocchi che contengono i dettagli dei concerti
            concert_blocks = soup.find_all("div", class_="flex justify-between -mx-2 mb-4 spacer-lg items-center relative")

            # Itera attraverso ogni blocco e estrai le informazioni rilevanti
            for block in concert_blocks:
                # Estrazione della data del concerto
                date_block = block.find("div", class_="mx-2 flex-shrink-0")
                date = '  '.join(date_block.get_text(strip=True).split()) if date_block else "N/A"

                # Estrazione del nome dell'artista
                artist_block = block.find("a", class_="block text-lg sm:text-3xl heading")
                artist = artist_block.get_text(strip=True) if artist_block else "N/A"

                # Estrazione del nome del luogo
                venue_block = block.find("a", class_="block text-base sm:text-2xl leading-none text-gray-700")
                venue = venue_block.get_text(strip=True) if venue_block else "N/A"

                # Estrazione del link ai dettagli dell'evento
                event_link = artist_block['href'] if artist_block and artist_block.has_attr('href') else "N/A"

                # Scritture dele informazioni nel file di testo
                file.write(f"Title: {artist}\nDate and time: {date} 2024\nLocation: {venue}\nURL: {event_link}\n---\n")

        else:
            print(f"Errore nel caricamento della pagina {page}: {response.status_code}")

print(read_file_content('input_concerti.txt'))


Errore nel caricamento della pagina 61: 404
Title: Dj Carl Cox
Date and time: 19set 2024
Location: Alcatraz
URL: https://www.rockol.it/concerti-dj-carl-cox-a-5ymeppzve6g
---
Title: Matt Bianco
Date and time: 19set20.30  e  22.30 2024
Location: Blue Note
URL: https://www.rockol.it/concerti-matt-bianco-a-q7ekaw5ndz0
---
Title: bnkr44
Date and time: 19set 2024
Location: Circolo Magnolia
URL: https://www.rockol.it/concerti-bnkr44-a-xpdz8kagdvy
---
Title: Ski Mask The Slump God
Date and time: 19set 2024
Location: Fabrique
URL: https://www.rockol.it/concerti-ski-mask-the-slump-god-a-j9e98qzpd63
---
Title: Black Coffee
Date and time: 19set 2024
Location: Ex Macello - Viale Molise 62
URL: https://www.rockol.it/concerti-black-coffee-a-78ewz9zlejo
---
Title: Emilio e gli Ambrogio
Date and time: 19set22.00 2024
Location: Spirit de Milan
URL: https://www.rockol.it/concerti-emilio-e-gli-ambrogio-a-jorajbpmr5b
---
Title: Dj Valerie Fox
Date and time: 19set 2024
Location: Ex Macello - Viale Molise 62

In [None]:
def process_file(filename):
    # Leggi il contenuto del file
    with open(filename, 'r') as file:
        content = file.read()

    # Contare le occorrenze di ---
    delimiter = '---'
    occurrences = content.count(delimiter)

    if occurrences < 8:
        print("Ci devono essere almeno 8 occorrenze di '---' per inserire la stringa *** 8 volte.")
        return

    # Dividere il contenuto usando il delimitatore
    parts = content.split(delimiter)
    num_parts = len(parts)

    # Calcolare la distanza tra le 8 inserzioni
    step = num_parts // 8

    # Inserire la stringa *** in 8 posizioni uguali
    for i in range(1, 9):
        insert_index = i * step
        parts.insert(insert_index, '***')

    # Ricostruire il contenuto con le inserzioni
    new_content = delimiter.join(parts)

    # Scrivere il nuovo contenuto nello stesso file
    with open(filename, 'w') as file:
        file.write(new_content)

# Esempio di utilizzo
filename = 'input_concerti.txt'
process_file(filename)

In [None]:
def read_file_content(file_path):
    with open(file_path, 'r') as file:
        return file.read()

def save_to_json(data, file_path):
    with open(file_path, 'w') as file:
        json.dump(data, file, indent=4)

def split_content(content, delimiter):
    return content.split(delimiter)

# Leggo il contenuto del file di input
file_content = read_file_content('input_concerti.txt')

# Divido il contenuto del file usando il delimitatore '***'
segments = split_content(file_content, '***')

# Scrivo il prompt per il modello
system_content = """

Ti verrà inviato un file testo contente informazioni sugli eventi. Devi generare un json con le info degli eventi estraendole dal file. Il json deve avere questa struttura

    {
      "title": "string",  // Il titolo dell'evento, identico a quello fornito
      "url": "string",  // URL della pagina web dell'evento
      "location": "string",  // Nome della location dell'evento, identica a quello fornita
      "address": "string",  // Indirizzo della location dell'evento, devi cercarla online in base alla location fornita
      "date": [{
        "date_day": "string",  // Giorno della data (formato: YYYY-MM-DD)
        "date_hour": "string"  // Ora della data (formato: HH:MM) se presente altrimenti va segnata come N/A
      }],
      "category": "string",  // Categoria dell'evento, è obbligatoria
    }

IMPORTANT: return only the json and nothing else.

"""

all_responses = []

# Creo il processo per ogni segmento
for segment in segments:
    completion = client.chat.completions.create(
        model="gpt-4o-mini",
        temperature=0,
        messages=[
            {"role": "system", "content": system_content},
            {"role": "user", "content": segment}
        ],
        response_format={ "type": "json_object" }
    )
    # Estraggo la risposta
    response = completion.choices[0].message.content
    print(response)
    # Analizzo la risposta JSON
    response_json = json.loads(response)
    all_responses.append(response_json)

# Salvo tutte le risposte JSON in un file
save_to_json(all_responses, 'output_concerti.json')
print(all_responses)


[1;30;43mStreaming output truncated to the last 5000 lines.[0m
      "url": "https://www.rockol.it/concerti-starset-a-wod57qxbr54",
      "location": "Alcatraz",
      "address": "Via Valtellina, 25, 20159 Milano MI, Italy",
      "date": [
        {
          "date_day": "2024-11-05",
          "date_hour": "N/A"
        }
      ],
      "category": "Concert"
    },
    {
      "title": "Michael League",
      "url": "https://www.rockol.it/concerti-michael-league-a-wod58kbzd54",
      "location": "Teatro dell'Arte",
      "address": "Via Peppino De Filippo, 1, 20143 Milano MI, Italy",
      "date": [
        {
          "date_day": "2024-11-05",
          "date_hour": "21:00"
        }
      ],
      "category": "Concert"
    },
    {
      "title": "Sungazer",
      "url": "https://www.rockol.it/concerti-sungazer-a-wgevpmbyeon",
      "location": "Blue Note",
      "address": "Via Pietro Borsieri, 37, 20159 Milano MI, Italy",
      "date": [
        {
          "date_day": "2024-11

# Test dei risultati ottenuti

In [None]:
import json
from jsonschema import validate, ValidationError, SchemaError

# Funzione per confrontare due oggetti JSON
def eventi_corrispondenti(evento1, evento2):
    for chiave in evento1:
        if chiave != "description":  # Ignora la descrizione
            if evento1[chiave] != evento2.get(chiave):
                return False
    return True

# Funzione ricorsiva per cercare l'evento in qualsiasi array nel file JSON
def cerca_evento_in_ogni_array(dati, evento_cercato):
    if isinstance(dati, list):  # Se i dati sono una lista, scorro attraverso ogni elemento
        for item in dati:
            if isinstance(item, dict):
                if eventi_corrispondenti(item, evento_cercato):
                    return True
                # Chiamata ricorsiva se ci sono ulteriori array o oggetti nidificati
                if cerca_evento_in_ogni_array(item, evento_cercato):
                    return True
            elif isinstance(item, list):
                if cerca_evento_in_ogni_array(item, evento_cercato):
                    return True
    elif isinstance(dati, dict):  # Se i dati sono un dizionario, esamino i suoi valori
        for key, value in dati.items():
            if cerca_evento_in_ogni_array(value, evento_cercato):
                return True
    return False

# Funzione principale per cercare ogni evento nel file JSON
def verifica_eventi(file_json, eventi_cercati):
    with open(file_json, 'r', encoding='utf-8') as f:
        dati_json = json.load(f)
        risultati = {}
        # Scorro ogni evento da cercare
        for evento in eventi_cercati:
            presente = cerca_evento_in_ogni_array(dati_json, evento)
            risultati[evento["title"]] = "Presente✅" if presente else "Non presente o contiene informazioni diverse❌"
        return risultati

# Funzione per validare un file JSON secondo lo schema
def valida_json(file_path, schema):
    try:
        # Carica il file JSON
        with open(file_path, 'r') as f:
            data = json.load(f)

        # Valida il JSON secondo lo schema
        validate(instance=data, schema=schema)
        print("JSON valido secondo lo schema✅")
    except ValidationError as e:
        print(f"Errore di validazione: {e.message}")
    except SchemaError as e:
        print(f"Errore nello schema: {e.message}")
    except Exception as e:
        print(f"Errore generico: {e}")

# Funzione per contare il numero totale di eventi in un file JSON
def conta_eventi(file_path):
    try:
        with open(file_path, 'r') as f:
            data = json.load(f)

        # Controlla se data è un array alla radice
        if isinstance(data, list):
            # Se è un array, conta gli eventi in ogni sezione
            count = sum(len(item.get("events", [])) for item in data)
        elif isinstance(data, dict) and "events" in data:
            # Se è un oggetto con la chiave "events"
            count = len(data["events"])
        else:
            print("Formato non riconosciuto.")
            return 0

        return count  # Ritorniamo il numero totale di eventi

    except Exception as e:
        print(f"Si è verificato un errore: {e}")
        return 0

## Teatro alla scala

In [None]:
# Definizione dello schema JSON
schema = {
    "type": "array",  # Il file JSON è un array alla radice
    "items": {
        "type": "object",
        "properties": {
            "events": {
                "type": "array",
                "items": {
                    "type": "object",
                    "properties": {
                        "title": {"type": "string"},
                        "url": {"type": "string"},
                        "location": {
                            "type": "string",
                            "enum": ["Teatro alla Scala"]  # La location deve essere sempre Teatro alla Scala
                        },
                        "address": {
                            "type": "string",
                            "enum": ["Via Filodrammatici, 2, 20121 Milano"]  # Indirizzo fisso
                        },
                        "date": {
                            "type": "array",
                            "items": {
                                "type": "object",
                                "properties": {
                                    "date_day": {
                                        "type": "string",
                                        "pattern": "^(?:\d{4}-\d{2}-\d{2}|N/A)$"  # Formato YYYY-MM-DD o "N/A"
                                    },
                                    "date_hour": {
                                        "type": "string",
                                        "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d|N/A$"  # Formato ora HH:MM o "N/A"
                                    }
                                },
                                "required": ["date_day", "date_hour"]
                            }
                        },
                        "category": {"type": "string"},
                        "duration": {
                            "type": "string",
                        }
                    },
                    "required": ["title", "url", "location", "address", "date", "category", "duration"]
                }
            }
        }
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_scala.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_scala.json")
print(f"Numero totale di eventi: {numero_eventi}")


JSON valido secondo lo schema✅
Numero totale di eventi: 142


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
            {
                "title": "Don Carlo",
                "url": "https://www.teatroallascala.org/it/stagione/2023-2024/opera/don-carlo.html",
                "location": "Teatro alla Scala",
                "address": "Via Filodrammatici, 2, 20121 Milano",
                "date": [
                    {
                        "date_day": "2023-12-10",
                        "date_hour": "14:30"
                    },
                    {
                        "date_day": "2023-12-13",
                        "date_hour": "19:00"
                    },
                    {
                        "date_day": "2023-12-16",
                        "date_hour": "19:00"
                    },
                    {
                        "date_day": "2023-12-19",
                        "date_hour": "19:00"
                    },
                    {
                        "date_day": "2023-12-22",
                        "date_hour": "19:00"
                    },
                    {
                        "date_day": "2023-12-30",
                        "date_hour": "19:00"
                    },
                    {
                        "date_day": "2024-01-02",
                        "date_hour": "19:00"
                    }
                ],
                "category": "Opera",
                "duration": "03:52"
            },
            {
                "title": "Filippo Gorini - 33\u00b0 Festival Milano Musica",
                "url": "https://www.teatroallascala.org/it/stagione/2023-2024/concerti/ospitalita-istituzioni-musicali-italiane/filippo-gorini.html",
                "location": "Teatro alla Scala",
                "address": "Via Filodrammatici, 2, 20121 Milano",
                "date": [
                    {
                        "date_day": "2024-05-09",
                        "date_hour": "20:00"
                    }
                ],
                "category": "Ospitalit\u00e0 istituzioni musicali italiane",
                "duration": "1:18"
            },
            {
                "title": "Alcina / Les Musiciens du Louvre / Minkowski",
                "url": "https://www.teatroallascala.org/it/stagione/2023-2024/concerti/concerti-straordinari/Alcina-les-musiciens-du-louvre-minkowski.html",
                "location": "Teatro alla Scala",
                "address": "Via Filodrammatici, 2, 20121 Milano",
                "date": [
                    {
                        "date_day": "2024-02-08",
                        "date_hour": "20:00"
                    }
                ],
                "category": "Concerti straordinari",
                "duration": "03:40"
            },
            {
                "title": "Un nuovo Don Carlo per Milano",
                "url": "https://www.teatroallascala.org/it/stagione/2023-2024/incontri/un-nuovo-don-carlo-per-milano.html",
                "location": "Teatro alla Scala",
                "address": "Via Filodrammatici, 2, 20121 Milano",
                "date": [
                    {
                        "date_day": "2023-11-13",
                        "date_hour": "15:00"
                    }
                ],
                "category": "Incontri",
                "duration": "N/A"
            },
            {
                "title": "Riccardo Chailly",
                "url": "https://www.teatroallascala.org/it/stagione/2023-2024/concerti/stagione-sinfonica/filarmonica-della-scala-riccardo-chailly-2024-0527.html",
                "location": "Teatro alla Scala",
                "address": "Via Filodrammatici, 2, 20121 Milano",
                "date": [
                    {
                        "date_day": "2024-05-27",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-05-29",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-05-30",
                        "date_hour": "20:00"
                    }
                ],
                "category": "Stagione sinfonica",
                "duration": "N/A"
            }
]

# File JSON di output da verificare
file_json = "output_scala.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'Don Carlo' è Presente✅.
L'evento 'Filippo Gorini - 33° Festival Milano Musica' è Presente✅.
L'evento 'Duo pianistico Labèque' è Presente✅.
L'evento 'Un nuovo Don Carlo per Milano' è Presente✅.
L'evento 'Riccardo Chailly' è Presente✅.


## Piccolo Teatro di Milano

In [None]:
# Definizione dello schema JSON
schema = {
    "type": "array",  # Il file JSON è un array alla radice
    "items": {
        "type": "object",
        "properties": {
            "events": {
                "type": "array",
                "items": {
                    "type": "object",
                    "properties": {
                        "title": {"type": "string"},  # Il titolo deve essere una stringa
                        "url": {"type": "string"},  # URL dell'evento
                        "location": {
                            "type": "string"
                        },
                        "address": {
                            "type": "string",
                            "enum": [
                                "Via Rovello, 2, 20121 Milano MI",  # Piccolo Teatro Grassi
                                "Via Rivoli, 6, 20121 Milano MI",  # Piccolo Teatro Studio Melato
                                "Largo Greppi, 1, 20121 Milano MI", # Piccolo Teatro Strehler
                                "N/A"
                            ]  # L'indirizzo deve corrispondere alla location specificata
                        },
                        "date": {
                            "type": "array",
                            "items": {
                                "type": "object",
                                "properties": {
                                    "date_day": {
                                        "type": "string",
                                        "pattern": "^(?:\d{4}-\d{2}-\d{2}|N/A)$"  # Formato YYYY-MM-DD o "N/A"
                                    },
                                    "date_hour": {
                                        "type": "string",
                                        "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d|N/A$"  # Formato HH:MM o "N/A"
                                    }
                                },
                                "required": ["date_day", "date_hour"]  # Entrambi i campi sono obbligatori
                            }
                        },
                        "category": {"type": "string"},  # Categoria dell'evento, deve essere una stringa
                        "duration": {
                            "type": "string",
                            "pattern": "^(?:[0-9]:[0-5]\d|[0-1]\d:[0-5]\d|N/A)$"  # Formato HH:MM, H:MM o "N/A"
                        },
                        "description": {
                            "type": "string"  # La descrizione deve essere identica a quella fornita
                        }
                    },
                    "required": ["title", "url", "location", "address", "date", "category", "duration", "description"]
                }
            }
        }
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_piccolo.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_piccolo.json")
print(f"Numero totale di eventi: {numero_eventi}")

JSON valido secondo lo schema✅
Numero totale di eventi: 53


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
            {
                "title": "Benvenuti al Piccolo!",
                "url": "https://www.piccoloteatro.org/it/2024-2025/benvenuti-al-piccolo",
                "location": "Piccolo Teatro Strehler",
                "address": "Largo Greppi, 1, 20121 Milano MI",
                "date": [
                    {
                        "date_day": "2025-01-14",
                        "date_hour": "N/A"
                    },
                    {
                        "date_day": "2025-03-21",
                        "date_hour": "N/A"
                    }
                ],
                "category": "spettacolo",
                "duration": "01:00",
                "description": "Una visita spettacolo del Teatro Strehler destinata a bambine e bambini delle scuole primarie e alle loro famiglie. Un\u2019esperienza di gioco e interazione teatrale volta alla scoperta dei luoghi, dei lavori, dei protagonisti e delle storie che hanno reso celebre il Piccolo."
            },
            {
                "title": "Viaggio fantastico nel sottosuolo",
                "url": "https://www.piccoloteatro.org/it/2024-2025/viaggio-fantastico-nel-sottosuolo",
                "location": "Piccolo Teatro Strehler - Scatola Magica",
                "address": "Largo Greppi, 1, 20121 Milano MI",
                "date": [
                    {
                        "date_day": "2024-11-23",
                        "date_hour": "15:00"
                    },
                    {
                        "date_day": "2024-11-24",
                        "date_hour": "11:00"
                    }
                ],
                "category": "spettacolo",
                "duration": "N/A"
            },
            {
                "title": "LACRIMA",
                "url": "https://www.piccoloteatro.org/it/2024-2025/lacrima",
                "location": "Piccolo Teatro Strehler",
                "address": "Largo Greppi, 1, 20121 Milano MI",
                "date": [
                    {
                        "date_day": "2024-11-28",
                        "date_hour": "19:30"
                    },
                    {
                        "date_day": "2024-11-29",
                        "date_hour": "19:30"
                    },
                    {
                        "date_day": "2024-11-30",
                        "date_hour": "19:30"
                    }
                ],
                "category": "spettacolo",
                "duration": "02:55"
            },
            {
                "title": "Sarabanda",
                "url": "https://www.piccoloteatro.org/it/2024-2025/sarabanda",
                "location": "Piccolo Teatro Strehler",
                "address": "Largo Greppi, 1, 20121 Milano MI",
                "date": [
                    {
                        "date_day": "2025-02-18",
                        "date_hour": "19:30"
                    },
                    {
                        "date_day": "2025-02-19",
                        "date_hour": "20:30"
                    },
                    {
                        "date_day": "2025-02-20",
                        "date_hour": "19:30"
                    },
                    {
                        "date_day": "2025-02-21",
                        "date_hour": "20:30"
                    },
                    {
                        "date_day": "2025-02-22",
                        "date_hour": "19:30"
                    },
                    {
                        "date_day": "2025-02-23",
                        "date_hour": "16:00"
                    }
                ],
                "category": "spettacolo",
                "duration": "N/A",
                "description": "Roberto And\u00f2 dirige un cast d\u2019eccezione nella sceneggiatura scritta da Ingmar Bergman per il suo ultimo film. Un testo scomodo, nella sua cruda onest\u00e0, una danza di parole, silenzi e gesti, in cui tornano a incontrarsi \u2013 a trent\u2019anni di distanza \u2013 i personaggi di Scene da un matrimonio."
            }
            {
                "title": "Il gabbiano",
                "url": "https://www.piccoloteatro.org/it/2024-2025/il-gabbiano",
                "location": "Piccolo Teatro Strehler",
                "address": "Largo Greppi, 1, 20121 Milano MI",
                "date": [
                    {
                        "date_day": "2024-11-16",
                        "date_hour": "11:00"
                    }
                ],
                "category": "spettacolo",
                "duration": "01:50"
            }
]

# File JSON di output da verificare
file_json = "output_piccolo.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'La magica scatola di Arlecchino' è Presente✅.
L'evento 'Viaggio fantastico nel sottosuolo' è Presente✅.
L'evento 'LACRIMA' è Presente✅.
L'evento 'Milano per Gaber 2025' è Presente✅.
L'evento 'Il gabbiano' è Presente✅.


## Teatro Elfo Puccini

In [None]:
# Definizione dello schema JSON
schema = {
    "type": "array",  # Il file JSON è un array alla radice
    "items": {
        "type": "object",
        "properties": {
            "events": {
                "type": "array",  # Array di eventi
                "items": {
                    "type": "object",
                    "properties": {
                        "title": {"type": "string"},  # Il titolo dell'evento, obbligatorio
                        "url": {"type": "string"},  # URL della pagina web dell'evento
                        "location": {"type": "string"},  # Nome della location
                        "address": {
                            "type": "string",
                            "enum": ["Corso Buenos Aires, 33, 20124 Milano MI"]  # Indirizzo fisso
                        },
                        "date": {
                            "type": "array",
                            "items": {
                                "type": "object",
                                "properties": {
                                    "date_day": {
                                        "type": "string",
                                        "pattern": "^\d{4}-\d{2}-\d{2}|N/A$$"  # Formato data YYYY-MM-DD
                                    },
                                    "date_hour": {
                                        "type": "string",
                                        "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d|N/A$"  # Formato ora HH:MM o "N/A"
                                    }
                                },
                                "required": ["date_day", "date_hour"]
                            }
                        },
                        "category": {"type": "string"},  # Categoria dell'evento
                        "duration": {
                            "type": "string",
                            "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d|N/A$"  # Durata in formato HH:MM o "N/A"
                        },
                        "description": {"type": "string"}  # Descrizione identica a quella fornita
                    },
                    "required": ["title", "url", "location", "address", "date", "category", "duration", "description"]
                }
            }
        }
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_puccini.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_puccini.json")
print(f"Numero totale di eventi: {numero_eventi}")

JSON valido secondo lo schema✅
Numero totale di eventi: 60


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
            {
                "title": "Rumore di fondo",
                "url": "https://www.elfo.org/spettacoli/2024-2025/rumore-di-fondo.htm",
                "location": "Teatro Elfo Puccini, Sala Fassbinder",
                "address": "Corso Buenos Aires, 33, 20124 Milano MI",
                "date": [
                    {
                        "date_day": "2024-04-14",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-04-15",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-04-16",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-04-17",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-04-18",
                        "date_hour": "20:00"
                    }
                ],
                "category": "Teatro",
                "duration": "01:00"
            },
            {
                "title": "Capitalism*",
                "url": "https://www.elfo.org/spettacoli/2024-2025/capitalism.htm",
                "location": "Teatro Elfo Puccini, Sala Fassbinder",
                "address": "Corso Buenos Aires, 33, 20124 Milano MI",
                "date": [
                    {
                        "date_day": "2024-12-18",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-12-19",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-12-20",
                        "date_hour": "20:30"
                    }
                ],
                "category": "Spettacolo",
                "duration": "01:05"
            },
            {
                "title": "The Mary Shelley picture show",
                "url": "https://www.elfo.org/spettacoli/2024-2025/the-mary-shelley-picture-show.htm",
                "location": "Teatro Elfo Puccini, Sala Shakespeare",
                "address": "Corso Buenos Aires, 33, 20124 Milano MI",
                "date": [
                    {
                        "date_day": "2024-06-12",
                        "date_hour": "19:30"
                    },
                    {
                        "date_day": "2024-06-13",
                        "date_hour": "19:30"
                    }
                ],
                "category": "Teatro",
                "duration": "02:30"
            },
            {
                "title": "Rumore di fondo",
                "url": "https://www.elfo.org/spettacoli/2024-2025/rumore-di-fondo.htm",
                "location": "Teatro Elfo Puccini, Sala Fassbinder",
                "address": "Corso Buenos Aires, 33, 20124 Milano MI",
                "date": [
                    {
                        "date_day": "2024-04-14",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-04-15",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-04-16",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-04-17",
                        "date_hour": "20:00"
                    },
                    {
                        "date_day": "2024-04-18",
                        "date_hour": "20:00"
                    }
                ],
                "category": "Teatro",
                "duration": "01:00"
            },
            {
                "title": "Tutto quello che volevo",
                "url": "https://www.elfo.org/spettacoli/2024-2025/tutto-quello-che-volevo.htm",
                "location": "Teatro Elfo Puccini, Sala Shakespeare",
                "address": "Corso Buenos Aires, 33, 20124 Milano MI",
                "date": [
                    {
                        "date_day": "2024-12-11",
                        "date_hour": "20:30"
                    },
                    {
                        "date_day": "2024-12-12",
                        "date_hour": "20:30"
                    },
                    {
                        "date_day": "2024-12-14",
                        "date_hour": "20:30"
                    },
                    {
                        "date_day": "2024-12-15",
                        "date_hour": "16:00"
                    }
                ],
                "category": "Spettacolo",
                "duration": "01:25"
            },
]

# File JSON di output da verificare
file_json = "output_puccini.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'Rumore di fondo' è Presente✅.
L'evento 'Capitalism*' è Presente✅.
L'evento 'The Mary Shelley picture show' è Presente✅.
L'evento 'Tutto quello che volevo' è Presente✅.


## Teatro Litta

In [None]:
# Definizione dello schema JSON
schema = {
    "items": {
        "type": "object",
        "properties": {
            "title": {"type": "string"},  # Il titolo dell'evento
            "url": {"type": "string"},  # URL della pagina web dell'evento
            "location": {"type": "string"},  # Nome della location dell'evento
            "address": {"type": "string"},  # Indirizzo della location
            "date": {
                "type": "array",
                "items": {
                    "type": "object",
                    "properties": {
                        "date_day": {
                            "type": "string",
                            "pattern": "^(?:\d{4}-\d{2}-\d{2}|N/A)$"  # Formato YYYY-MM-DD o "N/A"
                        },
                        "date_hour": {
                            "type": "string",
                            "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d|N/A$"  # Formato ora HH:MM o "N/A"
                        },
                        "date_price": {
                            "type": ["number", "string"],  # Prezzo della data o "N/A"
                            "pattern": "^(?:\d+|\d+\.\d{2}|N/A)$"  # Formato prezzo o "N/A"
                        }
                    },
                    "required": ["date_day", "date_hour", "date_price"]
                }
            },
            "category": {"type": "string"},  # Categoria dell'evento
            "duration": {
                "type": "string",
                "pattern": "^(?:[0-1]\d|2[0-3]):[0-5]\d|N/A$"  # Formato durata HH:MM o "N/A"
            },
            "description": {"type": "string"}  # Descrizione dell'evento
        },
        "required": ["title", "url", "location", "address", "date", "category", "duration", "description"]  # Campi obbligatori
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_litta.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_litta.json")
print(f"Numero totale di eventi: {numero_eventi}")

JSON valido secondo lo schema✅
Numero totale di eventi: 38


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
        {
            "title": "Piccoli crimini condominiali",
            "url": "https://biglietti.mtmteatro.it/eventi/piccoli-crimini-condominiali.htm",
            "location": "Teatro Leonardo",
            "address": "via Amp\u00e8re 1, Milano",
            "date": [
                {
                    "date_day": "2025-03-27",
                    "date_hour": "20:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-03-28",
                    "date_hour": "20:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-03-29",
                    "date_hour": "20:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-03-30",
                    "date_hour": "16:30",
                    "date_price": 17
                }
            ],
            "category": "Teatro",
            "duration": "01:20"
        },
        {
            "title": "Barbabl\u00f9",
            "url": "https://biglietti.mtmteatro.it/eventi/barbablu.htm",
            "location": "La Cavallerizza",
            "address": "corso Magenta 24, Milano",
            "date": [
                {
                    "date_day": "2025-03-04",
                    "date_hour": "19:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-03-05",
                    "date_hour": "19:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-03-06",
                    "date_hour": "19:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-03-07",
                    "date_hour": "19:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-03-08",
                    "date_hour": "19:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-03-09",
                    "date_hour": "19:30",
                    "date_price": 17
                }
            ],
            "category": "Teatro",
            "duration": "in allestimento"
        },
        {
            "title": "Figli di Abramo",
            "url": "https://biglietti.mtmteatro.it/eventi/figli-di-abramo.htm",
            "location": "Teatro Litta",
            "address": "corso Magenta 24, Milano",
            "date": [
                {
                    "date_day": "2025-02-26",
                    "date_hour": "20:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-02-27",
                    "date_hour": "20:30",
                    "date_price": 17
                },
                {
                    "date_day": "2025-02-28",
                    "date_hour": "20:30",
                    "date_price": 17
                }
            ],
            "category": "Teatro",
            "duration": "01:40"
        },
        {
            "title": "P come Penelope",
            "url": "https://biglietti.mtmteatro.it/eventi/p-come-penelope.htm",
            "location": "La Cavallerizza",
            "address": "corso Magenta 24, Milano",
            "date": [
                {
                    "date_day": "2024-11-21",
                    "date_hour": "19:30",
                    "date_price": 17
                },
                {
                    "date_day": "2024-11-22",
                    "date_hour": "19:30",
                    "date_price": 17
                },
                {
                    "date_day": "2024-11-23",
                    "date_hour": "19:30",
                    "date_price": 17
                },
                {
                    "date_day": "2024-11-24",
                    "date_hour": "19:30",
                    "date_price": 17
                }
            ],
            "category": "Teatro",
            "duration": "02:00"
        },
        {
            "title": "La stanza",
            "url": "https://biglietti.mtmteatro.it/eventi/la-stanza.htm",
            "location": "Teatro Litta",
            "address": "corso Magenta 24, Milano",
            "date": [
                {
                    "date_day": "2024-11-04",
                    "date_hour": "20:30",
                    "date_price": 17
                },
                {
                    "date_day": "2024-11-05",
                    "date_hour": "20:30",
                    "date_price": 17
                },
                {
                    "date_day": "2024-11-06",
                    "date_hour": "20:30",
                    "date_price": 17
                }
            ],
            "category": "Teatro",
            "duration": "00:45"
        },
]

# File JSON di output da verificare
file_json = "output_litta.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'Piccoli crimini condominiali' è Non presente o contiene informazioni diverse❌.
L'evento 'Barbablù' è Non presente o contiene informazioni diverse❌.
L'evento 'Figli di Abramo' è Non presente o contiene informazioni diverse❌.
L'evento 'P come Penelope' è Non presente o contiene informazioni diverse❌.
L'evento 'La stanza' è Non presente o contiene informazioni diverse❌.


### Analisi degli errori

In [None]:
# L'evento 'Piccoli crimini condominiali' è Non presente o contiene informazioni diverse❌.
# L'evento 'Barbablù' è Non presente o contiene informazioni diverse❌.
# L'evento 'Figli di Abramo' è Non presente o contiene informazioni diverse❌.
# L'evento 'P come Penelope' è Non presente o contiene informazioni diverse❌.
# L'evento 'La stanza' è Non presente o contiene informazioni diverse❌.

In questo caso, grazie al confronto con gli eventi campione, ci accorgiamo che la categoria e la durata degli eventi non vengono salvati in modo corretto nel file di output. Correggiamo il codice in modo che i campi siano recuperati correttamente e riproviamo il test.

In [None]:
# L'evento 'Piccoli crimini condominiali' è Presente✅.
# L'evento 'Barbablù' è Presente✅.
# L'evento 'Figli di Abramo' è Presente✅.
# L'evento 'P come Penelope' è è Presente✅.
# L'evento 'La stanza' è Presente✅.

## MUDEC - Museo delle Culture

In [None]:
# Definizione dello schema JSON
schema = {
    "items": {
        "type": "object",
        "properties": {
            "title": {"type": "string"},  # Il titolo dell'evento
            "url": {"type": "string"},  # URL della pagina web dell'evento
            "location": {
                "type": "string",
                "enum": ["Mudec"]  # La location deve essere sempre Mudec
            },
            "address": {
                "type": "string",
                "enum": ["Via Tortona, 56, 20144 Milano MI"]  # Indirizzo fisso del Mudec
            },
            "date_start": {
                "type": "string",
                "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato YYYY-MM-DD per la data di inizio
            },
            "date_end": {
                "type": "string",
                "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato YYYY-MM-DD per la data di fine
            },
            "category": {"type": "string"},  # Categoria dell'evento (tipologia della mostra)
            "description": {"type": "string"},  # Descrizione dell'evento
            "schedule": {
                "type": "array",
                "items": {
                    "type": "object",
                    "properties": {
                        "day": {
                            "type": "string",
                            "pattern": "^\d{4}-\d{2}-\d{2}$"  # Giorno in formato YYYY-MM-DD
                        },
                        "open_time": {
                            "type": "string",
                            "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d$"  # Ora di apertura (formato HH:MM)
                        },
                        "close_time": {
                            "type": "string",
                            "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d$"  # Ora di chiusura (formato HH:MM)
                        }
                    },
                    "required": ["day", "open_time", "close_time"]
                }
            }
        },
        "required": ["title", "url", "location", "address", "date_start", "date_end", "category", "description", "schedule"]
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_mudec.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_mudec.json")
print(f"Numero totale di eventi: {numero_eventi}")

JSON valido secondo lo schema✅
Numero totale di eventi: 4


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
        {
            "title": "DUBUFFET E L’ART BRUT",
            "url": "https://www.mudec.it/dubuffet-e-lart-brut/",
            "location": "Mudec",
            "address": "Via Tortona, 56, 20144 Milano MI",
            "date_start": "2024-10-12",
            "date_end": "2025-02-16",
            "category": "Mostra",
            "schedule": [
                {
                    "day": "lunedì",
                    "open_time": "14:30",
                    "close_time": "19:30"
                },
                {
                    "day": "martedì",
                    "open_time": "09:30",
                    "close_time": "19:30"
                },
                {
                    "day": "mercoledì",
                    "open_time": "09:30",
                    "close_time": "19:30"
                },
                {
                    "day": "giovedì",
                    "open_time": "09:30",
                    "close_time": "22:30"
                },
                {
                    "day": "venerdì",
                    "open_time": "09:30",
                    "close_time": "19:30"
                },
                {
                    "day": "sabato",
                    "open_time": "09:30",
                    "close_time": "22:30"
                },
                {
                    "day": "domenica",
                    "open_time": "09:30",
                    "close_time": "19:30"
                }
            ]
        },
        {
            "title": "PHOTO GRANT DI DELOITTE",
            "url": "https://www.mudec.it/photo-grant-di-deloitte/",
            "location": "Mudec",
            "address": "Via Tortona, 56, 20144 Milano MI",
            "date_start": "2024-11-07",
            "date_end": "2024-12-15",
            "category": "Mostra",
            "schedule": [
                {
                    "day": "lunedì",
                    "open_time": "14:30",
                    "close_time": "19:30"
                },
                {
                    "day": "martedì",
                    "open_time": "09:30",
                    "close_time": "19:30"
                },
                {
                    "day": "mercoledì",
                    "open_time": "09:30",
                    "close_time": "19:30"
                },
                {
                    "day": "giovedì",
                    "open_time": "09:30",
                    "close_time": "22:30"
                },
                {
                    "day": "venerdì",
                    "open_time": "09:30",
                    "close_time": "19:30"
                },
                {
                    "day": "sabato",
                    "open_time": "09:30",
                    "close_time": "22:30"
                },
                {
                    "day": "domenica",
                    "open_time": "09:30",
                    "close_time": "19:30"
                }
            ]
        }
]

# File JSON di output da verificare
file_json = "output_mudec.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'DUBUFFET E L’ART BRUT' è Presente✅.
L'evento 'PHOTO GRANT DI DELOITTE' è Presente✅.


## Pinacoteca di Brera


In [None]:
# Definizione dello schema JSON
schema = {
    "items": {
        "type": "object",
        "properties": {
            "title": {"type": "string"},  # Il titolo dell'evento
            "url": {"type": "string"},  # URL della pagina web dell'evento
            "location": {
                "type": "string",
                "enum": ["Pinacoteca di Brera"]  # La location deve essere sempre Pinacoteca di Brera
            },
            "address": {
                "type": "string",
                "enum": ["Via Brera, 28, 20121 Milano MI"]  # Indirizzo fisso della Pinacoteca di Brera
            },
            "date_start": {
                "type": "string",
                "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato YYYY-MM-DD per la data di inizio
            },
            "date_end": {
                "type": "string",
                "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato YYYY-MM-DD per la data di fine
            },
            "time_start": {
                "type": "string",
                "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d|N/A$"  # Formato HH:MM o "N/A" se non presente
            },
            "time_end": {
                "type": "string",
                "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d|N/A$"  # Formato HH:MM o "N/A" se non presente
            },
            "category": {"type": "string"},  # Categoria dell'evento (tipologia della mostra)
            "description": {"type": "string"}  # Descrizione dell'evento
        },
        "required": ["title", "url", "location", "address", "date_start", "date_end", "time_start", "time_end", "category", "description"]
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_brera.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_brera.json")
print(f"Numero totale di eventi: {numero_eventi}")

JSON valido secondo lo schema✅
Numero totale di eventi: 10


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
        {
            "title": "Paesaggio sostenibile ON/OFF",
            "url": "https://www.accademiadibrera.milano.it//it/paesaggio-sostenibile-onoff",
            "location": "Pinacoteca di Brera",
            "address": "Via Brera, 28, 20121 Milano MI",
            "date_start": "2024-06-04",
            "date_end": "2024-06-04",
            "time_start": "15:00",
            "time_end": "N/A",
            "category": "Incontro"
        },
        {
            "title": "L’oratorio profano di Gino Negri: l’Antologia di Spoon River a Milano",
            "url": "https://www.accademiadibrera.milano.it//it/loratorio-profano-di-gino-negri-lantologia-di-spoon-river-milano",
            "location": "Pinacoteca di Brera",
            "address": "Via Brera, 28, 20121 Milano MI",
            "date_start": "2024-06-27",
            "date_end": "2024-06-28",
            "time_start": "21:00",
            "time_end": "N/A",
            "category": "Spettacolo"
        },
        {
            "title": "Archivio fotografico Zabban. Fotografia industriale d’autore",
            "url": "https://www.accademiadibrera.milano.it//it/archivio-fotografico-zabban-fotografia-industriale-dautore",
            "location": "Pinacoteca di Brera",
            "address": "Via Brera, 28, 20121 Milano MI",
            "date_start": "2024-06-17",
            "date_end": "2024-06-17",
            "time_start": "11:00",
            "time_end": "15:00",
            "category": "Presentazione"
        }
]

# File JSON di output da verificare
file_json = "output_brera.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'Paesaggio sostenibile ON/OFF' è Presente✅.
L'evento 'L’oratorio profano di Gino Negri: l’Antologia di Spoon River a Milano' è Presente✅.
L'evento 'Archivio fotografico Zabban. Fotografia industriale d’autore' è Presente✅.


## Pirelli HangarBicocca


In [None]:
# Definizione dello schema JSON
schema = {
    "items": {
        "type": "object",
        "properties": {
            "title": {
                "type": "string",
                "pattern": "^(?!.*\\d{4}-\\d{2}-\\d{2}).*"  # Il titolo non deve contenere una data
            },
            "url": {"type": "string"},  # URL della pagina web dell'evento
            "location": {
                "type": "string",
                "enum": ["Pirelli HangarBicocca"]  # La location deve essere sempre Pirelli HangarBicocca
            },
            "address": {
                "type": "string",
                "enum": ["Via Chiese, 2, 20126 Milano MI"]  # Indirizzo fisso
            },
            "date_start": {
                "type": "string",
                "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato YYYY-MM-DD per la data di inizio
            },
            "date_end": {
                "type": "string",
                "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato YYYY-MM-DD per la data di fine
            },
            "category": {"type": "string"},  # Categoria dell'evento
            "description": {"type": "string"}  # Descrizione dell'evento
        },
        "required": ["title", "url", "location", "address", "date_start", "date_end", "category", "description"]
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_hangar.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_hangar.json")
print(f"Numero totale di eventi: {numero_eventi}")

JSON valido secondo lo schema✅
Numero totale di eventi: 6


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
        {
            "title": "Mostra Futura – NAVATE Yukinori Yanagi",
            "url": "https://pirellihangarbicocca.org/mostra/yukinori-yanagi/",
            "location": "Pirelli HangarBicocca",
            "address": "Via Chiese, 2, 20126 Milano MI",
            "date_start": "2025-03-27",
            "date_end": "2025-07-27",
            "category": "Mostra Futura"
        },
        {
            "title": "Mostra Futura – NAVATE Jean Tinguely",
            "url": "https://pirellihangarbicocca.org/mostra/jean-tinguely/",
            "location": "Pirelli HangarBicocca",
            "address": "Via Chiese, 2, 20126 Milano MI",
            "date_start": "2024-10-10",
            "date_end": "2025-02-02",
            "category": "Mostra Futura"
        },
        {
            "title": "Mostra Futura – SHED Yuko Mohri",
            "url": "https://pirellihangarbicocca.org/mostra/yuko-mohri/",
            "location": "Pirelli HangarBicocca",
            "address": "Via Chiese, 2, 20126 Milano MI",
            "date_start": "2025-09-11",
            "date_end": "2026-01-31",
            "category": "Mostra Futura"
        }
]

# File JSON di output da verificare
file_json = "output_hangar.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'Mostra Futura – NAVATE Yukinori Yanagi' è Presente✅.
L'evento 'Mostra Futura – NAVATE Jean Tinguely' è Presente✅.
L'evento 'Mostra Futura – SHED Yuko Mohri' è Presente✅.


## Autodromo Nazionale di Monza


In [None]:
# Definizione dello schema JSON
schema = {
    "items": {
        "type": "object",
        "properties": {
            "title": {"type": "string"},  # Il titolo dell'evento, identico a quello fornito
            "url": {"type": "string"},  # URL della pagina web dell'evento
            "location": {
                "type": "string",
                "enum": ["Autodromo Nazionale Monza"]  # La location deve essere sempre Autodromo Nazionale Monza
            },
            "address": {
                "type": "string",
                "enum": ["Viale di Vedano, 5, 20900 Monza MB"]  # Indirizzo fisso
            },
            "date_start": {
                "type": "string",
                "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato YYYY-MM-DD per la data di inizio
            },
            "date_end": {
                "type": "string",
                "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato YYYY-MM-DD per la data di fine
            },
            "category": {"type": "string"},  # Categoria dell'evento
            "description": {"type": "string"}  # Descrizione dell'evento, identica a quella fornita
        },
        "required": ["title", "url", "location", "address", "date_start", "date_end", "category", "description"]
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_monza.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_monza.json")
print(f"Numero totale di eventi: {numero_eventi}")

JSON valido secondo lo schema✅
Numero totale di eventi: 5


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
        {
            "title": "ACI Racing Weekend 1",
            "url": "https://www.monzanet.it/evento/aci-racing-weekend-1/2024-10-04/",
            "location": "Autodromo Nazionale Monza",
            "address": "Viale di Vedano, 5, 20900 Monza MB",
            "date_start": "2024-10-04",
            "date_end": "2024-10-06",
            "category": "Gara"
        },
        {
            "title": "GT Open International Series",
            "url": "https://www.monzanet.it/evento/gt-open-international-series-2/2024-10-18/",
            "location": "Autodromo Nazionale Monza",
            "address": "Viale di Vedano, 5, 20900 Monza MB",
            "date_start": "2024-10-18",
            "date_end": "2024-10-20",
            "category": "Gara"
        },
        {
            "title": "Speciale Rally Circuit by Vedovati Corse",
            "url": "https://www.monzanet.it/evento/speciale-rally-circuit-by-vedovati-corse/2024-11-16/",
            "location": "Autodromo Nazionale Monza",
            "address": "Viale di Vedano, 5, 20900 Monza MB",
            "date_start": "2024-11-16",
            "date_end": "2024-11-16",
            "category": "Gara"
        }
]

# File JSON di output da verificare
file_json = "output_monza.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'ACI Racing Weekend 1' è Presente✅.
L'evento 'GT Open International Series' è Presente✅.
L'evento 'Speciale Rally Circuit by Vedovati Corse' è Presente✅.


## Concerti a Milano

In [None]:
# Definizione dello schema JSON
schema = {
    "type": "array",  # Il file JSON è un array alla radice
    "items": {
        "type": "object",
        "properties": {
            "events": {
                "type": "array",
                "items": {
                    "type": "object",
                    "properties": {
                        "title": {"type": "string"},  # Il titolo dell'evento, obbligatorio
                        "url": {"type": "string"},  # URL della pagina web dell'evento
                        "location": {"type": "string"},  # Nome della location
                        "address": {"type": "string"},  # Indirizzo della location
                        "date": {
                            "type": "array",
                            "items": {
                                "type": "object",
                                "properties": {
                                    "date_day": {
                                        "type": "string",
                                        "pattern": "^\d{4}-\d{2}-\d{2}$"  # Formato data YYYY-MM-DD
                                    },
                                    "date_hour": {
                                        "type": "string",
                                        "pattern": "^(?:[01]\d|2[0-3]):[0-5]\d|N/A$"  # Formato ora HH:MM o "N/A"
                                    }
                                },
                                "required": ["date_day", "date_hour"]
                            }
                        },
                        "category": {"type": "string"},  # Categoria dell'evento
                        "duration": {"type": "string"}  # Durata dell'evento
                    },
                    "required": ["title", "url", "location", "address", "date", "category"]  # Campi obbligatori
                }
            }
        }
    }
}

# Esegui la validazione del file secondo lo schema json
valida_json("output_concerti.json", schema)

# Conta il numero di eventi nel file JSON
numero_eventi = conta_eventi("output_concerti.json")
print(f"Numero totale di eventi: {numero_eventi}")

JSON valido secondo lo schema✅
Numero totale di eventi: 719


In [None]:
# Lista di oggetti di esempio da cercare
eventi_da_confrontare = [
            {
                "title": "Jag Panzer",
                "url": "https://www.rockol.it/concerti-jag-panzer-a-5ymepn0vr6g",
                "location": "Slaughter Club",
                "address": "Via L. da Vinci, 6, 20090 Pessano con Bornago MI, Italia",
                "date": [
                    {
                        "date_day": "2024-12-10",
                        "date_hour": "N/A"
                    }
                ],
                "category": "Concert"
            },
            {
                "title": "Gigi D'Alessio",
                "url": "https://www.rockol.it/concerti-gigi-d-alessio-a-0jqrb9kmdz7",
                "location": "Unipol Forum",
                "address": "Via G. di Vittorio, 6, 40026 Bologna BO, Italia",
                "date": [
                    {
                        "date_day": "2024-12-11",
                        "date_hour": "N/A"
                    }
                ],
                "category": "Concert"
            },

            {
                "title": "Mayhem",
                "url": "https://www.rockol.it/concerti-mayhem-a-7nvdmym0dmx",
                "location": "Live Club",
                "address": "Via G. di Vittorio, 6, 20026 Trezzo sull'Adda MI, Italia",
                "date": [
                    {
                        "date_day": "2024-12-11",
                        "date_hour": "N/A"
                    }
                ],
                "category": "Concert"
            },
            {
                "title": "Manitoba",
                "url": "https://www.rockol.it/concerti-manitoba-a-ymepkmkor6g",
                "location": "Biko Club",
                "address": "Via A. Gramsci, 1, 20131 Milano MI, Italia",
                "date": [
                    {
                        "date_day": "2024-12-12",
                        "date_hour": "N/A"
                    }
                ],
                "category": "Concert"
            },
            {
                "title": "Ludovico Einaudi",
                "url": "https://www.rockol.it/concerti-ludovico-einaudi-a-7nvdmyv0dmx",
                "location": "Teatro Dal Verme",
                "address": "Via San Giovanni sul Muro, 2, 20121 Milano MI, Italia",
                "date": [
                    {
                        "date_day": "2024-12-13",
                        "date_hour": "20:00"
                    }
                ],
                "category": "Concert"
            }
]

# File JSON di output da verificare
file_json = "output_concerti.json"

# Verifica se gli eventi sono presenti nel file di output
risultati = verifica_eventi(file_json, eventi_da_confrontare)

# Stampa i risultati
for titolo, risultato in risultati.items():
    print(f"L'evento '{titolo}' è {risultato}.")

L'evento 'Jag Panzer' è Presente✅.
L'evento 'Gigi D'Alessio' è Presente✅.
L'evento 'Mayhem' è Presente✅.
L'evento 'Manitoba' è Presente✅.
L'evento 'Ludovico Einaudi' è Presente✅.


# Download dei file JSON prodotti

In [None]:
# Funzione per scaricare tutti i file output json prodotti

# import os
# from google.colab import files

# def download_output_files():
#   for filename in os.listdir():
#     if 'output' in filename:
#       files.download(filename)

# download_output_files()
