# Dashboard Streamlit

### Guida utilizzo di Streamlit mediante Colab:
1. Eseguire la cella contenente i Pip Install necessari
2. Eseguire la cella che genera il file dashboard.py
3. Eseguire la cella per generare la password di localtunnel.
2. Copiare la password una volta prodotta in output.
3. Eseguire l'ultima cella e cliccare sul link (Es "ninety-times-cut.loca.lt/"o simili)
4. In caso di "Service Unavailable", stoppare l'ultima cella e runnare nuovamente.
5. Inserire nello spazio vuoto la password copiata in precedenza.
6. Attendere il caricamento del modello nella dashboard.
7. Enjoy

**NB**: Il caricamento del modello al primo lancio potrebbe avere un tempo stimato di una decina di minuti.

### Pip Install Necessari

In [None]:
!pip install datasets pandas pymongo sentence_transformers
!pip install -U transformers
!pip install bitsandbytes accelerate
!pip install streamlit
!pip install spacy plotly
!python -m spacy download it_core_news_sm

Collecting datasets
  Downloading datasets-2.20.0-py3-none-any.whl (547 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/547.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.9/547.8 kB[0m [31m2.5 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━[0m [32m327.7/547.8 kB[0m [31m4.7 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m542.7/547.8 kB[0m [31m5.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m547.8/547.8 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
Collecting pymongo
  Downloading pymongo-4.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (669 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m669.1/669.1 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting sentence_transformers
 

## Scrittura ed Avvio Dashboard.py

### Generazione del file .py

In [None]:
%%writefile dashboard.py
import streamlit as st
import pandas as pd
from huggingface_hub import login
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch
from sentence_transformers import SentenceTransformer
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi
from collections import Counter
from datetime import datetime
import nltk
import re
from nltk.corpus import stopwords
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import time
import spacy
import plotly.express as px
from PIL import Image





@st.cache_resource
def create_mongo_client():
    uri = "mongodb+srv://giovannircc99:Napoli99!@clusterbigdata.1rjiesw.mongodb.net/?retryWrites=true&w=majority&appName=ClusterBigData"
    client = MongoClient(uri, server_api=ServerApi('1'))

    try:
        client.admin.command('ping')
        print("Pinged your deployment. You successfully connected to MongoDB!")
    except Exception as e:
        print(e)

    return client

client = create_mongo_client()

db = client['factChecking']
collection = db['articles']

@st.cache_resource
def load_spacy_model():
    return spacy.load("it_core_news_sm")

nlp = load_spacy_model()

def extract_journalist_names(authors_list):
    """
    This function takes a list of authors and extracts journalist names.
    Args:
    - authors_list (list of str): List containing author strings.

    Returns:
    - extracted_names (list of list of str): List of extracted journalist names.
    """
    if not isinstance(authors_list, list):
        raise TypeError("authors_list should be a list of authors' names.")

    extracted_names = []
    name_pattern = re.compile(r'^[A-Z][a-z]+ [A-Z][a-z]+$')
    exclude_keywords = {'Editoriale','Redazione','Web','a cura di', 'con supporto di', 'per segnalazioni sul contenuto del servizio','Redazione Web'}

    for author in authors_list:
        if isinstance(author, float) and pd.isna(author):  # Check for NaN
            continue

        if not isinstance(author, str):
            author = str(author)  # Convert non-string types to string

        # Process the author string using spaCy
        doc = nlp(author)
        names = set()  # Use a set to avoid duplicates
        # Extract names using spaCy
        for entity in doc.ents:
            if entity.label_ == "PER" and entity.text not in exclude_keywords:  # Check if the entity is a person
                names.add(entity.text)
        # Extract names using regex
        for token in author.split(','):
            token = token.strip()
            if name_pattern.match(token) and token not in exclude_keywords:
                names.add(token)
        extracted_names.append(list(names))

    return extracted_names

# Funzione per caricare il database e i dati necessari
@st.cache_resource
def load_data():
    # Estrazione degli articoli
    #articles = list(collection.find())
    print("START LOAD DATA")
    articles = list(collection.find({}, {'publish_date': 1, 'text': 1, 'title': 1}))
    print("caricamento articles completato")
    # Estrazione delle date di pubblicazione
    publish_dates = [article['publish_date'] for article in articles if 'publish_date' in article]
    publish_dates = pd.to_datetime(publish_dates)
    publish_date_counts = publish_dates.value_counts().sort_index()
    print("caricamento publish date completato")
    # Estrazione dei titoli
    titles = [article['title'] for article in articles if 'title' in article]
    text = ' '.join(titles)


    nltk.download('stopwords')
    stop_words = set(stopwords.words('italian'))

    # Generazione della word cloud
    wordcloud = WordCloud(width=800, height=400, background_color='white', stopwords=stop_words).generate(text)
    print("caricamento wordcloud completato")

    # Ottieni i dati degli autori da MongoDB
    authors_data = collection.distinct("author")
    # Estrae i nomi dei giornalisti
    journalist_names = extract_journalist_names(authors_data)
    # Conta i nomi dei giornalisti
    all_names = [name for sublist in journalist_names for name in sublist]
    name_counts = Counter(all_names)

    return collection, publish_date_counts, wordcloud, name_counts

# Caricamento dei dati
collection, publish_date_counts, wordcloud, name_counts = load_data()



@st.cache_resource
def load_embedding_model():
    print("START LOAD EMBEDDING MODEL")
    embedding_model = SentenceTransformer("nickprock/sentence-bert-base-italian-xxl-uncased", device='cuda')
    return embedding_model

embedding_model = load_embedding_model()



def get_embedding(text: str) -> list[float]:
    if not text.strip():
        print("Attempted to get embedding for empty text.")
        return []

    embedding = embedding_model.encode(text, device='cuda')

    return embedding.tolist()


def vector_search(user_query, collection):
    """
    Perform a vector search in the MongoDB collection based on the user query.

    Args:
    user_query (str): The user's query string.
    collection (MongoCollection): The MongoDB collection to search.

    Returns:
    list: A list of matching documents.
    """

    # Generate embedding for the user query
    query_embedding = get_embedding(user_query)

    if query_embedding is None:
        return "Invalid query or embedding generation failed."

    # Define the vector search pipeline
    pipeline = [
        {
            "$vectorSearch": {
                "index": "vector_index",
                "queryVector": query_embedding,
                "path": "embedding",
                "numCandidates": 250,  # Number of candidate matches to consider
                "limit": 15,  # Return top 10 matches
            }
        },
        {
            "$sort": {"publish_date": -1}  # Sort by publish_date in descending order
        },
        {
            "$limit": 15  # Limit to the top 10 results after sorting
        },
        {
            "$project": {
                "_id": 0,  # Exclude the _id field
                "title": 1,  # Include the title field
                "text": 1,  # Include the plot field
                "summary": 1,
                "url":1,
                "publish_date": 1,
                "score": {"$meta": "vectorSearchScore"},  # Include the search score
            }
        },
    ]

    # Execute the search
    results = collection.aggregate(pipeline)
    return list(results)

def response_generator(results_cleaned):
    response = results_cleaned
    for word in response.split():
        yield word + " "
        time.sleep(0.05)


def get_search_result(query, collection):

    get_knowledge = vector_search(query, collection)

    search_result = ""
    for result in get_knowledge:
        url = result.get('url', 'N/A')

        # Rimuovi il prefisso 'https://'
        url = url.replace("https://", "")

        # Rimuovi 'www.' se presente
        url = url.replace("www.", "")

        # Prendi solo la parte prima del primo '/'
        site_name = url.split('/')[0]


        search_result += f"Titolo: {result.get('title', 'N/A')}, Summary: {result.get('summary','N/A')} Testo: {result.get('text', 'N/A')}, Fonte: {site_name}\n"

    return search_result



# Funzione per contare le istanze di un tipo di sentiment
def conta_sentiment(sentiment):
        global contatori_sentiment
        if sentiment in contatori_sentiment:
            contatori_sentiment[sentiment] += 1

# Funzione per cercare una parola nei campi keywords e title
def cerca_parola(document):
        global parola_da_cercare
        title = document.get('title', '')
        if isinstance(title, str) and parola_da_cercare in title:
            conta_sentiment(document.get('emotion'))

@st.cache_resource
def load_model_and_tokenizer():
    print("START LOAD MODEL")
    access_token = ""
    login(token=access_token)
    # Configurazione per quantizzazione a 8 bit
    quantization_config = BitsAndBytesConfig(load_in_8bit=True)

    # Caricare il tokenizer
    tokenizer = AutoTokenizer.from_pretrained("swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA")

    # Caricare e quantizzare il modello a 8 bit
    model = AutoModelForCausalLM.from_pretrained(
        "swap-uniba/LLaMAntino-3-ANITA-8B-Inst-DPO-ITA",
        device_map="auto",
        quantization_config=quantization_config
    )
    return tokenizer, model

tokenizer, model = load_model_and_tokenizer()

st.title("ANITA FACT-CHECKER")

# Creare una barra laterale per la navigazione tra le pagine
page = st.sidebar.radio("Seleziona una Pagina", ["Home","Fact-Checker" ,"Q&A", "Chat"])

######################################################ANALYTICS#################################################################

# Data Analytics
if page == "Home":
    st.header("Benvenuto in ANITA Fact-Checker!")
    # Schermata superiore
    st.markdown("""
    <div style='background-color: rgba(240, 242, 246, 0.8); color: black; padding: 10px; border-radius: 5px;'>
        <div>
            Il seguente progetto sviluppa un sistema avanzato di Question&Answering (Q&A) utilizzando Large Language Models (LLM) e la tecnica Retrieval Augmented Generation (RAG). Questo permette agli LLM di accedere a informazioni esterne e generare risposte contestuali. L'obiettivo è creare un sistema Q&A che fornisca report con analisi dei dati e risposte rilevanti agli utenti. Il principale caso d'uso è il fact-checking, utilizzando articoli giornalistici per contrastare la disinformazione. Si noti che è possibile navigare nelle seguenti pagine:
        </div>
        <ul>
            <li>Home: Visualizzazione di Grafici e Analytics varie per la comprensione del DataSet</li>
            <li>FactChecker: Possibilità di effettuare un check di notizie dubbie</li>
            <li>Q&A: Possibilità di fare domande di varia natura sugli ultimi argomenti</li>
            <li>ChatBot: Possibilità di chattare con ANITA su vari argomenti</li>
        </ul>
    </div>
    """, unsafe_allow_html=True)

    # Linea di separazione estetica
    st.markdown("<hr style='border:2px solid white'>", unsafe_allow_html=True)
   # Numero di articoli con titoli unici
    st.subheader("Conteggio Articoli nel Dataset")
    unique_titles_count = collection.aggregate([
        {"$group": {"_id": "$title"}},
        {"$count": "unique_titles"}
    ])

    unique_titles_count = list(unique_titles_count)
    if unique_titles_count:
        st.write(f"Numero di Articoli nel DataSet: {unique_titles_count[0]['unique_titles']}")
    else:
        st.write("Nessun articolo trovato.")

    # Distribuzione delle date di pubblicazione
    st.subheader("Distribuzione delle Date di Pubblicazione")
    st.bar_chart(publish_date_counts)

    # Word Cloud dei Titoli
    st.subheader("Word Cloud dei Titoli")
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    st.pyplot(plt)
    # Funzione per estrarre il dominio dall'URL
    def extract_domain(url):
        match = re.search(r'www\.(.*?)\.(it|com)', url)
        return match.group(1) if match else None
    # Distribuzione per Testata Giornalistica
    st.subheader("Distribuzione Articoli per Testata Giornalistica")
    title_counts = collection.aggregate([
        {"$group": {"_id": {"url": "$url", "title": "$title"}}},
        {"$group": {"_id": "$_id.url", "count": {"$sum": 1}}},
        {"$match": {"_id": {"$ne": None}}},
        {"$sort": {"count": -1}}
    ])
    title_counts = list(title_counts)
    title_counts_df = pd.DataFrame(title_counts)
    if not title_counts_df.empty:
        # Estrazione del dominio
        title_counts_df['_id'] = title_counts_df['_id'].apply(extract_domain)
        title_counts_df = title_counts_df.dropna(subset=['_id'])
        title_counts_df = title_counts_df.groupby('_id')['count'].sum().reset_index()
        title_counts_df = title_counts_df.rename(columns={"_id": "Testata Giornalistica", "count": "Numero Articoli"})
        st.bar_chart(title_counts_df.set_index("Testata Giornalistica"))
    else:
        st.write("Nessuna Articolo per Testata Giornalistica trovato.")


    # Numero di giornalisti che han scritto di più

    # Prepara i dati per il grafico
    df = pd.DataFrame(name_counts.items(), columns=["Journalist", "Count"])
    # Sort DataFrame by "Count" column in descending order
    df = df.sort_values(by="Count", ascending=False)
    # Take the first 30 rows
    df = df.head(30)
    # Visualizzazione con Streamlit
    st.subheader("Giornalisti che hanno scritto di più")
    fig = px.bar(df, x="Journalist", y="Count", labels={"Journalist": "Giornalista", "Count": "Conteggio"})
    st.plotly_chart(fig)

    if df.empty:
        st.write("Nessun articolo trovato.")

    # Parola Chiave per Emotion
    st.subheader("Emotion in base alle Parole Chiave")
    parola_da_cercare = st.text_input("Inserisci una parola chiave: ")
    if parola_da_cercare:

        # La pipeline di aggregazione
        pipeline = [
            # Filtro per i documenti che contengono la parola scelta nel testo
            {"$match": {"text": {"$regex": parola_da_cercare, "$options": "i"}}},
            # Eliminazione dei duplicati in base al titolo
            {"$group": {
                "_id": "$title",
                "text": {"$first": "$text"},
                "emotion": {"$first": "$emotion"}
            }},
            # Contare le emozioni
            {"$group": {
                "_id": "$emotion",
                "count": {"$sum": 1}
            }}
        ]

        # Esegui la pipeline di aggregazione
        result = list(collection.aggregate(pipeline))

        # Mappa delle emozioni in italiano
        emotion_map = {
            'joy': 'Felicità',
            'anger': 'Rabbia',
            'fear': 'Paura',
            'sadness': 'Tristezza'
        }

        # Convertire gli ID delle emozioni nel nome leggibile
        emotion_counts = {emotion_map[doc['_id']]: doc['count'] for doc in result}

        #st.write(emotion_counts)
        st.bar_chart(emotion_counts)







############################################################################################################

#Q&A Page
elif page == "Q&A":
    st.header("Question & Answer")

    state = st.session_state

    if 'text_received' not in state:
        state.text_received = []

    query = st.text_input("Inserisci Domanda: ")

    if query:
        # Query per Domanda
        source_information = get_search_result(query, collection)
        combined_information = f"Domanda: {query}\nContinuare a rispondere alla domanda in modo sintetico prestando attenzione anche ai risultati della ricerca.:\n{source_information}."

        sys = "Sei un assistente AI specializzato nel fact-checking in lingua Italiana di nome LLaMAntino-3 ANITA " \
            "(Advanced Natural-based interaction for the ITAlian language)." \
            " Rispondi nella lingua usata in modo chiaro, semplice ed esaustivo in base ai risultati delle ricerche, considerando che sei aggiornato fino all' 13 giugno 2024" \
            "Rispondi solamente con la risposta, senza ripetere la domanda."

        messages = [
            {"role": "system", "content": sys},
            {"role": "user", "content": combined_information}
        ]


        #Risposta
        prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
        inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
        for k,v in inputs.items():
            inputs[k] = v.cuda()
        outputs = model.generate(**inputs, max_new_tokens=300, do_sample=True, top_p=0.9, temperature=0.6)

        results = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]  # `skip_special_tokens` to remove tokens like <eos>
        print(results)
        # Pulizia del risultato per mantenere solo la parte dopo ".assistant"
        if ".assistant" in results:
            results_cleaned = results.split('.assistant')[-1].strip()
        else:
            results_cleaned = results

        st.write(results_cleaned)

    else:
        st.write("Inserire una domanda per ottenere una risposta.")


#Fact-Cheker Page
if page == "Fact-Checker":
    st.header("Fact Checker")


    query = st.text_input("Inserisci Notizia: ")

    if query:
        # Query per Domanda
        source_information = get_search_result(query, collection)
        combined_information = f"Notizia: {query}\nContinuare a rispondere alla domanda in modo sintetico prestando attenzione anche ai risultati della ricerca.:\n{source_information}."

        sys = "Sei un assistente AI specializzato nel fact-checking in lingua Italiana di nome LLaMAntino-3 ANITA " \
            "(Advanced Natural-based interaction for the ITAlian language)." \
            " Rispondi nella lingua usata in modo da far comprendere se la notizia è vera o falsa, considerando che sei aggiornato fino all' 13 giugno 2024." \
            "Rispondi solamente con la risposta, senza ripetere la domanda."

        messages = [
            {"role": "system", "content": sys},
            {"role": "user", "content": combined_information}
        ]


        #Risposta
        prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
        inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
        for k,v in inputs.items():
            inputs[k] = v.cuda()
        outputs = model.generate(**inputs, max_new_tokens=300, do_sample=True, top_p=0.9, temperature=0.6)

        results = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]  # `skip_special_tokens` to remove tokens like <eos>

        # Pulizia del risultato per mantenere solo la parte dopo ".assistant"
        if ".assistant" in results:
            results_cleaned = results.split('.assistant')[-1].strip()
        else:
            results_cleaned = results

        st.write(results_cleaned)
    else:
        st.write("Inserire un articolo per ottenere una risposta.")

#ChatBot Page
if page == "Chat":
        st.title("Inizia a chattare!")


        if st.button("🗑️ Clear Chat"):
          st.session_state.messages = [msg for msg in st.session_state.messages if msg.get('role') == 'system']
          st.session_state.coda_query = ""
          st.rerun()

        # Initialize chat history
        if "messages" not in st.session_state:
            sys = "Sei un assistente AI specializzato nel fact-checking in lingua Italiana di nome LLaMAntino-3 ANITA " \
            "(Advanced Natural-based interaction for the ITAlian language)." \
            "Rispondi nella lingua usata in modo chiaro, semplice ed esaustivo tenendo conto anche dei risultati delle ricerche, considerando che sei aggiornato fino al 13 giugno 2024." \
            "Rispondi solamente con la risposta, senza ripetere la domanda, cercando di dare nua spiegazione esaustiva"

            st.session_state.messages = [{"role": "system", "content": sys}]
            st.session_state.coda_query = ""  # Inizializza coda_query nella sessione


        # Display chat messages from history on app rerun
        for message in st.session_state.messages:
          if message.get('role') != 'system':
            with st.chat_message(message["role"]):
                st.markdown(message["content"])

        # Accept user input
        if query := st.chat_input("What is up?"):
            st.session_state.messages.append({"role": "user", "content": query})
            st.session_state.coda_query += " " + query
            # Display user message in chat message container
            with st.chat_message("user"):
                st.markdown(query)

            #prompt è la domanda
            # Display assistant response in chat message container
            with st.chat_message("assistant"):
                source_information = get_search_result(st.session_state.coda_query, collection)
                print(st.session_state.coda_query)
                combined_information = f"Notizia: {query}\nContinuare a rispondere alla domanda in modo sintetico prestando attenzione anche ai risultati della ricerca.:\n{source_information}."

                #st.session_state.messages.append(   {"role": "user", "content": combined_information})

                #Risposta
                prompt = tokenizer.apply_chat_template(st.session_state.messages + [{"role": "user", "content": combined_information}], tokenize=False, add_generation_prompt=True)
                inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
                for k,v in inputs.items():
                    inputs[k] = v.cuda()
                outputs = model.generate(**inputs, max_new_tokens=300, do_sample=True, top_p=0.9, temperature=0.8)

                results = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]  # `skip_special_tokens` to remove tokens like <eos>

                # Pulizia del risultato per mantenere solo la parte dopo ".assistant"
                if ".assistant" in results:
                    results_cleaned = results.split('.assistant')[-1].strip()
                else:
                    results_cleaned = results

                response = st.write_stream(response_generator(results_cleaned))
                # Add assistant response to chat history
            st.session_state.messages.append({"role": "assistant", "content": response})


Writing dashboard.py


In [None]:
!wget -q -O - ipv4.icanhazip.com

34.82.226.246


In [None]:
! streamlit run dashboard.py & npx localtunnel --port 8501


Collecting usage statistics. To deactivate, set browser.gatherUsageStats to false.
[0m
[0m
[34m[1m  You can now view your Streamlit app in your browser.[0m
[0m
[34m  Local URL: [0m[1mhttp://localhost:8501[0m
[34m  Network URL: [0m[1mhttp://172.28.0.12:8501[0m
[34m  External URL: [0m[1mhttp://34.82.226.246:8501[0m
[0m
[K[?25hnpx: installed 22 in 5.18s
your url is: https://young-bears-shave.loca.lt
2024-06-16 08:05:58.368673: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-06-16 08:05:58.368752: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-06-16 08:05:58.486550: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factor