## Import

In [1]:
import worldnewsapi
from pymongo import MongoClient
import json
from worldnewsapi.rest import ApiException
from sentence_transformers import SentenceTransformer

  from tqdm.autonotebook import tqdm, trange


## Definizione Embedding Model 

In [4]:
def get_embedding(text: str) -> list[float]:
    if not text.strip():
        print("Attempted to get embedding for empty text.")
        return []

    embedding = embedding_model.encode(text)

    return embedding.tolist()

# https://huggingface.co/thenlper/gte-large
embedding_model = SentenceTransformer("thenlper/gte-large")



## Creazione e Connessione MongoDB

In [2]:
mongo_uri = "insert yout mongo uri"
client = MongoClient(mongo_uri)
db = client['db_europee']  # Nome del database
collection = db['articles']  # Nome della collezione

## Data Extraxtion-Data Transformation-Data Loading

### Articoli su Elezioni Europee 2024

In [8]:
# Configura l'API con la tua chiave API
newsapi_configuration = worldnewsapi.Configuration(api_key={'apiKey': 'insert your worldnewsdata api'})
newsapi_instance = worldnewsapi.NewsApi(worldnewsapi.ApiClient(newsapi_configuration))

# Lista degli intervalli temporali (sostituisci con gli intervalli desiderati)
date_intervals = [
    ('2024-05-01', '2024-05-07'),
    ('2024-05-08', '2024-05-14'),
    ('2024-05-15', '2024-05-21'),
    ('2024-05-22', '2024-05-28'),
    ('2024-05-29', '2024-05-31'),
    ('2024-04-01', '2024-04-07'),
    ('2024-04-08', '2024-04-14'),
    ('2024-04-15', '2024-04-21'),
    ('2024-04-22', '2024-04-30')
    
]

# Lista per accumulare tutti i risultati
all_articles = []

try:
    for start_date, end_date in date_intervals:
        # Esegui la ricerca degli articoli con i parametri desiderati
        response = newsapi_instance.search_news(
            text='elezioni europee 2024',
            source_countries='it',
            language='it',
            sort="publish-time",
            sort_direction="desc",
            offset=0,
            number=100,
            earliest_publish_date=start_date,
            latest_publish_date=end_date
        )
        
        # Converti la risposta in dizionario
        response_dict = response.to_dict()
        
        # Accumula gli articoli nella lista all_articles
        if 'news' in response_dict:
            all_articles.extend(response_dict['news'])

    # Aggiungi embedding agli articoli dopo averli accumulati tutti
    for article in all_articles:
        article['embedding'] = get_embedding(article["text"])

    # Inserisci gli articoli nel database
    if all_articles:
        collection.insert_many(all_articles)
        print(f"{len(all_articles)} articoli sono stati caricati con successo su MongoDB Atlas.")
    else:
        print("Nessun articolo da caricare.")

except ApiException as e:
    print("Exception when calling NewsApi->search_news: %s\n" % e)

653 articoli sono stati caricati con successo su MongoDB Atlas.


### Articoli sui partiti italiani

In [10]:
# Configura l'API con la tua chiave API
newsapi_configuration = worldnewsapi.Configuration(api_key={'apiKey': 'insert your worldnewsdata api'})

lista_partiti = [ 'Forza Italia Noi Moderati', 'Lega','Fratelli d Italia', 'Partito Democratico', 'Movimento 5 Stelle',  'Azione Siamo Europei','Alleanza Verdi Sinistra','Stati Uniti d Europa'
]

# Lista per accumulare tutti i risultati
all_articles = []

newsapi_instance = worldnewsapi.NewsApi(worldnewsapi.ApiClient(newsapi_configuration))
try:
    for partito in lista_partiti:
        # Esegui la ricerca degli articoli con i parametri desiderati
        response = newsapi_instance.search_news(
            text=partito,
            source_countries='it',
            language='it',
            sort="publish-time",
            sort_direction="desc",
            offset=0,
            number=100,
            
        )
        
        # Converti la risposta in dizionario
        response_dict = response.to_dict()
        
        # Accumula gli articoli nella lista all_articles
        if 'news' in response_dict:
            all_articles.extend(response_dict['news'])

    # Aggiungi embedding agli articoli dopo averli accumulati tutti
    for article in all_articles:
        article['embedding'] = get_embedding(article["text"])

 # Inserisci gli articoli nel database
    if all_articles:
        collection.insert_many(all_articles)
        print(f"{len(all_articles)} articoli sono stati caricati con successo su MongoDB Atlas.")
    else:
        print("Nessun articolo da caricare.")

except ApiException as e:
    print("Exception when calling NewsApi->search_news: %s\n" % e)

800 articoli sono stati caricati con successo su MongoDB Atlas.


In [4]:
# Configura l'API con la tua chiave API
newsapi_configuration = worldnewsapi.Configuration(api_key={'apiKey': 'insert your worldnewsdata api'})

lista_partiti = [ "Pace Terra Dignità", 'Alternativa popolare', "Libertà", 'Rassemblement Valdotain', 'Sudtiroler Volkspartei (SVP)']

# Lista per accumulare tutti i risultati
all_articles = []

newsapi_instance = worldnewsapi.NewsApi(worldnewsapi.ApiClient(newsapi_configuration))
try:
    for partito in lista_partiti:
        # Esegui la ricerca degli articoli con i parametri desiderati
        response = newsapi_instance.search_news(
            text=partito,
            source_countries='it',
            language='it',
            sort="publish-time",
            sort_direction="desc",
            offset=0,
            number=100,
            
        )
        
        # Converti la risposta in dizionario
        response_dict = response.to_dict()
        
        # Accumula gli articoli nella lista all_articles
        if 'news' in response_dict:
            all_articles.extend(response_dict['news'])

    # Aggiungi embedding agli articoli dopo averli accumulati tutti
    for article in all_articles:
        article['embedding'] = get_embedding(article["text"])

 # Inserisci gli articoli nel database
    if all_articles:
        collection.insert_many(all_articles)
        print(f"{len(all_articles)} articoli sono stati caricati con successo su MongoDB Atlas.")
    else:
        print("Nessun articolo da caricare.")

except ApiException as e:
    print("Exception when calling NewsApi->search_news: %s\n" % e)

403 articoli sono stati caricati con successo su MongoDB Atlas.


### Articoli sui candidati di ogni partito

In [5]:
# Configura l'API con la tua chiave API
newsapi_configuration = worldnewsapi.Configuration(api_key={'apiKey': 'insert your worldnewsdata api'})

lista_candidati = ['Giorgia Meloni','Roberto Vannacci', 'Silvia Serafina Sardone', 'Antonio Tajani', 'Emma Bonino', 'Matteo Renzi', 'Carlo Calenda', 'Elena Bonetti','Elly Schlein','Maria Angela Danzì', 'Ilaria Salis', 'Vittorio Sgarbi','Stefano Bonaccini','Pierluigi Vossi','Letizia Moratti', 'Pasquale Tridico'
]

# Lista per accumulare tutti i risultati
all_articles = []

newsapi_instance = worldnewsapi.NewsApi(worldnewsapi.ApiClient(newsapi_configuration))
try:
    for candidato in lista_candidati:
        # Esegui la ricerca degli articoli con i parametri desiderati
        response = newsapi_instance.search_news(
            text=candidato,
            source_countries='it',
            language='it',
            sort="publish-time",
            sort_direction="desc",
            offset=0,
            number=100,
            
        )
        
        # Converti la risposta in dizionario
        response_dict = response.to_dict()
        
        # Accumula gli articoli nella lista all_articles
        if 'news' in response_dict:
            all_articles.extend(response_dict['news'])

    # Aggiungi embedding agli articoli dopo averli accumulati tutti
    for article in all_articles:
        article['embedding'] = get_embedding(article["text"])

 # Inserisci gli articoli nel database
    if all_articles:
        collection.insert_many(all_articles)
        print(f"{len(all_articles)} articoli sono stati caricati con successo su MongoDB Atlas.")
    else:
        print("Nessun articolo da caricare.")

except ApiException as e:
    print("Exception when calling NewsApi->search_news: %s\n" % e)

1402 articoli sono stati caricati con successo su MongoDB Atlas.


In [5]:
# Configura l'API con la tua chiave API
newsapi_configuration = worldnewsapi.Configuration(api_key={'apiKey': 'insert your worldnewsdata api'})

lista_candidati = [ "candidato Pace Terra Dignità", 'candidato Alternativa Popolare', "candidato Libertà", 'candidato Rassemblement Valdotain', 'candidato Sudtiroler Volkspartei (SVP)','candidato Forza Italia Noi Moderati', 'candidato Lega','candidato Fratelli d Italia', 'candidato Partito Democratico', 'candidato Movimento 5 Stelle',  'candidato Azione Siamo Europei','candidato Alleanza Verdi Sinistra','candidato Stati Uniti d Europa'
]

# Lista per accumulare tutti i risultati
all_articles = []

newsapi_instance = worldnewsapi.NewsApi(worldnewsapi.ApiClient(newsapi_configuration))
try:
    for candidato in lista_candidati:
        # Esegui la ricerca degli articoli con i parametri desiderati
        response = newsapi_instance.search_news(
            text=candidato,
            source_countries='it',
            language='it',
            sort="publish-time",
            sort_direction="desc",
            offset=0,
            number=100,
            
        )
        
        # Converti la risposta in dizionario
        response_dict = response.to_dict()
        
        # Accumula gli articoli nella lista all_articles
        if 'news' in response_dict:
            all_articles.extend(response_dict['news'])

    # Aggiungi embedding agli articoli dopo averli accumulati tutti
    for article in all_articles:
        article['embedding'] = get_embedding(article["text"])

 # Inserisci gli articoli nel database
    if all_articles:
        collection.insert_many(all_articles)
        print(f"{len(all_articles)} articoli sono stati caricati con successo su MongoDB Atlas.")
    else:
        print("Nessun articolo da caricare.")

except ApiException as e:
    print("Exception when calling NewsApi->search_news: %s\n" % e)

1203 articoli sono stati caricati con successo su MongoDB Atlas.


### Articoli sui programmi dei partiti 

In [6]:
# Configura l'API con la tua chiave API
newsapi_configuration = worldnewsapi.Configuration(api_key={'apiKey': 'insert your worldnewsdata api'})

lista_programmi= ['programma elettorale Fratelli d Italia ', 'programma elettorale Lega ', 'programma elettorale Stati Uniti d Europa ', 'programma elettorale Azione ', 'programma elettorale Partito Democratico ', 'programma elettorale Movimento 5 Stelle ', 'programma elettorale Forza Italia ', 'programma elettorale Alleanza Verdi Sinistra']

# Lista per accumulare tutti i risultati
all_articles = []

newsapi_instance = worldnewsapi.NewsApi(worldnewsapi.ApiClient(newsapi_configuration))
try:
    for programma in lista_programmi:
        # Esegui la ricerca degli articoli con i parametri desiderati
        response = newsapi_instance.search_news(
            text=programma,
            source_countries='it',
            language='it',
            sort="publish-time",
            sort_direction="desc",
            offset=0,
            number=100,
            
        )
        
        # Converti la risposta in dizionario
        response_dict = response.to_dict()
        
        # Accumula gli articoli nella lista all_articles
        if 'news' in response_dict:
            all_articles.extend(response_dict['news'])

    # Aggiungi embedding agli articoli dopo averli accumulati tutti
    for article in all_articles:
        article['embedding'] = get_embedding(article["text"])

 # Inserisci gli articoli nel database
    if all_articles:
        collection.insert_many(all_articles)
        print(f"{len(all_articles)} articoli sono stati caricati con successo su MongoDB Atlas.")
    else:
        print("Nessun articolo da caricare.")

except ApiException as e:
    print("Exception when calling NewsApi->search_news: %s\n" % e)

800 articoli sono stati caricati con successo su MongoDB Atlas.


In [6]:
# Configura l'API con la tua chiave API
newsapi_configuration = worldnewsapi.Configuration(api_key={'apiKey': 'insert your worldnewsdata api'})

lista_programmi= ['programma elettorale Pace Terra Dignità ', 'programma elettorale Alternativa Popolare ', 'programma elettorale Libertà ', 'programma elettorale Rassemblement Valdotain ', 'programma elettorale Sudtiroler Volkspartei (SVP)' ]

# Lista per accumulare tutti i risultati
all_articles = []

newsapi_instance = worldnewsapi.NewsApi(worldnewsapi.ApiClient(newsapi_configuration))
try:
    for programma in lista_programmi:
        # Esegui la ricerca degli articoli con i parametri desiderati
        response = newsapi_instance.search_news(
            text=programma,
            source_countries='it',
            language='it',
            sort="publish-time",
            sort_direction="desc",
            offset=0,
            number=100,
            
        )
        
        # Converti la risposta in dizionario
        response_dict = response.to_dict()
        
        # Accumula gli articoli nella lista all_articles
        if 'news' in response_dict:
            all_articles.extend(response_dict['news'])

    # Aggiungi embedding agli articoli dopo averli accumulati tutti
    for article in all_articles:
        article['embedding'] = get_embedding(article["text"])

 # Inserisci gli articoli nel database
    if all_articles:
        collection.insert_many(all_articles)
        print(f"{len(all_articles)} articoli sono stati caricati con successo su MongoDB Atlas.")
    else:
        print("Nessun articolo da caricare.")

except ApiException as e:
    print("Exception when calling NewsApi->search_news: %s\n" % e)

317 articoli sono stati caricati con successo su MongoDB Atlas.


### Articoli su Topic

In [5]:
# Configura l'API con la tua chiave API
newsapi_configuration = worldnewsapi.Configuration(api_key={'apiKey': 'insert your worldnewsdata api'})

lista_programmi= ['esercito comune Europeo', 'guerra in Ucraina', 'politica migratoria europea', 'riconoscimento europeo della Palestina', 'sanzioni economiche Russia', 'cambiamento climatico', 'transizione energetica europea' ]

# Lista per accumulare tutti i risultati
all_articles = []

newsapi_instance = worldnewsapi.NewsApi(worldnewsapi.ApiClient(newsapi_configuration))
try:
    for programma in lista_programmi:
        # Esegui la ricerca degli articoli con i parametri desiderati
        response = newsapi_instance.search_news(
            text=programma,
            source_countries='it',
            language='it',
            sort="publish-time",
            sort_direction="desc",
            offset=0,
            number=100,
            
        )
        
        # Converti la risposta in dizionario
        response_dict = response.to_dict()
        
        # Accumula gli articoli nella lista all_articles
        if 'news' in response_dict:
            all_articles.extend(response_dict['news'])

    # Aggiungi embedding agli articoli dopo averli accumulati tutti
    for article in all_articles:
        article['embedding'] = get_embedding(article["text"])

 # Inserisci gli articoli nel database
    if all_articles:
        collection.insert_many(all_articles)
        print(f"{len(all_articles)} articoli sono stati caricati con successo su MongoDB Atlas.")
    else:
        print("Nessun articolo da caricare.")

except ApiException as e:
    print("Exception when calling NewsApi->search_news: %s\n" % e)

600 articoli sono stati caricati con successo su MongoDB Atlas.


### Caricamento dati strutturati: Lista candidati alle varie circostrizioni

In [4]:
import pandas as pd
df = pd.read_csv("listacandidatieuropee.csv")
circoscrizioni_collection = db['circoscrizioni']
circoscrizioni_data = df.to_dict(orient='records')
circoscrizioni_collection.insert_many(circoscrizioni_data)


InsertManyResult([ObjectId('6661bc0cd17570d086fd382f'), ObjectId('6661bc0cd17570d086fd3830'), ObjectId('6661bc0cd17570d086fd3831'), ObjectId('6661bc0cd17570d086fd3832'), ObjectId('6661bc0cd17570d086fd3833'), ObjectId('6661bc0cd17570d086fd3834'), ObjectId('6661bc0cd17570d086fd3835'), ObjectId('6661bc0cd17570d086fd3836'), ObjectId('6661bc0cd17570d086fd3837'), ObjectId('6661bc0cd17570d086fd3838'), ObjectId('6661bc0cd17570d086fd3839'), ObjectId('6661bc0cd17570d086fd383a'), ObjectId('6661bc0cd17570d086fd383b'), ObjectId('6661bc0cd17570d086fd383c'), ObjectId('6661bc0cd17570d086fd383d'), ObjectId('6661bc0cd17570d086fd383e'), ObjectId('6661bc0cd17570d086fd383f'), ObjectId('6661bc0cd17570d086fd3840'), ObjectId('6661bc0cd17570d086fd3841'), ObjectId('6661bc0cd17570d086fd3842'), ObjectId('6661bc0cd17570d086fd3843'), ObjectId('6661bc0cd17570d086fd3844'), ObjectId('6661bc0cd17570d086fd3845'), ObjectId('6661bc0cd17570d086fd3846'), ObjectId('6661bc0cd17570d086fd3847'), ObjectId('6661bc0cd17570d086fd38

## Handling User Query

In [4]:
def vector_search(user_query, collection):
    """
    Perform a vector search in the MongoDB collection based on the user query.

    Args:
    user_query (str): The user's query string.
    collection (MongoCollection): The MongoDB collection to search.

    Returns:
    list: A list of unique matching documents with the highest vectorSearchScore.
    """

    # Generate embedding for the user query
    query_embedding = get_embedding(user_query)

    if query_embedding is None:
        return "Invalid query or embedding generation failed."

    # Define the vector search pipeline
    pipeline = [
        {
            "$vectorSearch": {
                "index": "europee_indice",
                "queryVector": query_embedding,
                "path": "embedding",
                "numCandidates": 150,  # Number of candidate matches to consider
                "limit": 50,  # Retrieve more than 4 to ensure uniqueness
            }
        },
        {
            "$project": {
                "_id": 0,  
                "title": 1,  
                "text": 1,  
                "publish_date": 1,  
                "author": 1,  
                "score": {"$meta": "vectorSearchScore"},  # Include the search score
            }
        },
        {
            "$sort": {"score": -1}  # Sort by vectorSearchScore descending
        }
    ]

    # Execute the search
    results = list(collection.aggregate(pipeline))

    # Ensure the results are unique by title
    unique_results = []
    seen_titles = set()

    for result in results:
        if result['title'] not in seen_titles:
            unique_results.append(result)
            seen_titles.add(result['title'])
        
        if len(unique_results) == 3:
            break

    return unique_results

In [5]:
def get_search_result(query, collection):

    get_knowledge = vector_search(query, collection)

    search_result = ""
    for result in get_knowledge:
        search_result += f"Titolo: {result.get('title', 'N/A')}, Testo: {result.get('text', 'N/A')}, Publicato il {result.get('publish_date', 'N/A')}, Autore: {result.get('author', 'N/A')} \n"

    return search_result

In [15]:
# Conduct query with retrival of sources
query = "Quali sono i vari partiti italiani  a favore di un esercito comune europeo?"
source_information = get_search_result(query, collection)
combined_information = f"Query: {query}\nPer rispondere considera i seguenti risultati:\n{source_information}."

print(combined_information)

Query: Quali sono i vari partiti italiani  a favore di un esercito comune europeo?
Per rispondere considera i seguenti risultati:
Titolo: Bandecchi “Serve unica politica estera Ue. Premierato? Idea balorda”, Testo: ROMA (ITALPRESS) – “Il popolo italiano è l’unico che si presenta alle urne senza sapere esattamente chi sta votando. Ad esempio, quello che gli italiani non sanno è che a queste elezioni il Partito Popolare Europeo in Italia è rappresentato da due partiti: Alternativa Popolare e Forza Italia, i cui candidati vanno dentro allo stesso gruppo. E’ un’anomalia tutta italiana”. Parte da queste premesse sulle elezioni europee dell’8-9 giugno l’intervista di Stefano Bandecchi, rilasciata a Claudio Brachino per la rubrica “Primo Piano – Elezioni Europee” dell’agenzia Italpress. L’attenzione è rivolta alle sfide internazionali che attendono l’Unione Europea. “Noi abbiamo in testa un’Europa che avrà la capacità di fare una sola politica estera e un unico esercito, anche se ogni nazione

In [None]:
from openai import OpenAI
client = OpenAI(api_key='insert your openai api')

completion = client.chat.completions.create(
      model="gpt-4o",
      messages=[
          {"role": "system", "content": "Sei un assistente politico che dovrà rispondere alle domande sulle elezioni europee 2024."},
          {"role": "user", "content": combined_information}
      ]
  )