<center><img src="res/img/logo.png" width="512" height="512" align="center"/></center>
<center><h1>Documentinator</h1><h3>Speed up your docs categorization.</h3></center>

<center><h1>Documentinator: Informazioni sul progetto</h1></center>

<p style="font-size:24px;">Questo progetto si occupa di analizzare e categorizzare dei documenti. L'idea è quella di automatizzare la deduzione del contenuto e l'attendibilità di un documento.</p>

<p style="font-size:24px;">Con la digitalizzazione della maggior parte delle compagnie, dei servizi forniti da esse e anche con la semplice digitalizzazione della vita quotidiana, abbiamo quasi del tutto abbandonato il cartaceo. La digitalizzazione ci fa risparmiare molte risorse e molto tempo, e questo progetto punta proprio a diminuire ancora l'analisi dei documenti digitalizzati.</p>

<center><h1>Cosa fa?</h1></center>


<p style="font-size:24x;">Documentinator, attende l'inserimento in una cartella di nuovi documenti. Di questi viene estratto il contenuto e poi viene analizzato usando l'API di OpenAI. Le informazioni che vogliamo ottenere sono:
    <ul>
        <li><b>Categoria</b>: vogliamo sapere in che categoria appartiene il documento digitale.</li>
        <li><b>Riassunto</b>: vogliamo avere un breve riassunto di tutto il documento.</li>
        <li><b>Attendibilità</b>: vogliamo avere un indice di attendibilità delle infomrazioni contenute nel documento.</li>
    </ul> 
</p>

<center><h1>Come lo fa?</h1></center>



<p style="font-size:24x;">Diamo un occhiata alla pipeline del progetto per capire come avviene il tutto.
</p>
<center><img src="res/img/pipeline.png"></img></center>

<center><h1>Python service</h1><center>

<p style="font-size:24x;">
Questa prima parte è semplicemente un servizio che controlla una directory in attesa di un nuovo documento. 
    <br>Quando ne rileva uno, tramite un Observer sulla directory, lo analizza formando un json che avrà il seguente formato:
    <pre><code><br>file_data = {
        "uuid": "uuid generato",
        "file_name": "nome del file",
        "file_size": "dimensioni del file",
        "file_extension": "estensione del file",
        "content": "contenuto estratto dal file",
        "last_edit": "ultima modifica del file"
    }</code></pre>
<br> Momentaneamente questo servizio è in grado di esaminare file di tipo: .png', '.jpg', '.jpeg', '.tiff', '.bmp', '.gif', '.pdf', '.txt'.
 Le immagini, o i pdf che non contengono testo, vengono esaminati con un OCR
</p>

<center><h1>Fluentd</h1></center>
<p style="font-size:23x; margin-top:0">
Fluentd viene usato per fare la data ingestion cosi da poter proseguire nel resto della pipeline.
    <br>La scelta di usare Fluentd è stata determinata dalla sua semplicità di configurazione e per l'ampio repertorio di estensioni, che in caso di necessità future possono essere facilmente implementate.<br>Per lo stato di test la scelta della tecnologia influisce poco quindi:
</p>


<center style='margin-top:0;'><img src='res/img/why_pick_fluentd.png' width='512'></img></center>

<center><h1>Kafka</h1></center>
<p style="font-size:24x;">
    <b>Kafka</b> viene usato nella nostra pipeline per fare da broker tra Fluentd e i consumer collegati alla nostra pipeline.
    <br>Uno di questi consumer sfrutta Kafka stesso, questo consumer è stato usato per Log di debug. Può essere disabilitato semplicemente rimuovendo la riga relativa ad esso nel docker-compose.
   
</p>

<center><h1>Spark</h1></center>
<p style="font-size:24x;">
    <b>Spark</b> grazie alle sue librerie è in grado di interfacciarsi a Kafka in maniera quasi del tutto naturale.
    <br>Con molta semplicità si è in grado di ottenere i dati provenienti dal Topic di Kafka e quindi poterli poi arricchire.
    <br>&Egrave; qui che entra in gioco l'API di openAI che, analizzando il contenuto, ci fornisce le informazioni per categorizzare il nostro documento.
</p>

<center><h1>Prompt per openAI</h1></center>
<p style="font-size:24x;">
Una cosa molto importanta è proprio quella di definire il nostro prompt per l'IA.
    <br>Per ricevere un formato di risposta standardizzato dall'IA è stato necessario fare un prompt adeguato.
    <p style='quotes: "«" "»" "‹" "›";'>
You are an expert data analyst helping us to understand the content of a document based on the title and the content
    <br>You'll receive an input with the following format: filename: &lt;filename&gt;  content: &lt;content&gt;
    <br>Your task is to tell us in what category the document could go: personal, business, game, payment, recipe, receipt or if it's not possible to understand use the category 'other'.
    <br>Give a small summary of what the document contains in less than 25 words. 
    <br>And on a scale from 1 to 10, rate the reliability of the document information.
    <br>Your answer must be in this format only without descriptions or other text added: category: &lt;category&gt;, summary: &lt;summary&gt;, reliability: &lt;reliability&gt;
</p>
<br>Proviamo quindi un'esempio di due documenti. Uno dettagliato e corretto e l'altro palesemente non attendibile.
</p>



<center><h1>Esempio con file attendibile:</h1></center>

In [16]:
from dotenv import load_dotenv
load_dotenv()
import os
import openai
openai.api_key = os.getenv('API_KEY')
file_path = 'res/pasta_al_forno.txt'
file_name = os.path.basename(file_path)
with open('res/prompt.txt', 'r') as file:
    prompt = file.read()
with open(file_path, 'r') as file:
    content = file.read()
file_data = 'filename: '+file_name+', content: '+content;
response = openai.chat.completions.create(model="gpt-4",messages=[{"role": "user", "content": prompt + "\n" + file_data},],)
reply = response.choices[0].message.content
print(reply.replace('; ', '\n'))

category: recipe
summary: The document contains a recipe for flavorful baked pasta, including preparation, cooking, serving suggestions, and storage tips
reliability: 9


<center><h1>Esempio con file non-attendibile:</h1></center>

In [15]:
from dotenv import load_dotenv
load_dotenv()
import os
import openai
openai.api_key = os.getenv('API_KEY')
file_path = 'res/pollo_fritto.txt'
file_name = os.path.basename(file_path)
with open('res/prompt.txt', 'r') as file:
    prompt = file.read()
with open(file_path, 'r') as file:
    content = file.read()
file_data = 'filename: '+file_name+', content: '+content;
response = openai.chat.completions.create(model="gpt-4",messages=[{"role": "user", "content": prompt + "\n" + file_data},],)
reply = response.choices[0].message.content
print(reply.replace('; ', '\n'))

category: game
summary: A playful, nonsensical guide to cooking chicken involving travel, a river, and impossible oven temperature
reliability: 1


<p style="font-size:24x;">
    back on track...
</p>
<center><h1>Elasticsearch e Kibana</h1></center>

<p style="font-size:24x;">
Questi due ultimi strumenti vanno molto a braccetto, l'integrazione è praticamente immediata.
    <br><b>Elasticsearch</b> ci offre capacità di ricerca e indicizzazione in grado di gestire grandi volumi di dati in tempo reale. La sua architettura fornisce scalabilità e prestazioni elevate.
    <br><b>Kibana</b> fornisce invece un'interfaccia utente intuitiva per visualizzare e analizzare dati indicizzati in Elasticsearch. Offre potenti dashboard e strumenti di visualizzazione come grafici e mappe, facilitando l'interpretazione dei dati.
</p>
<center><img src="res/img/elasticseachxkibana.png"></img></center>

<center><h1>Esempio Visualizzazione:</h1></center>
<p style="font-size:24x;">
    //todo
</p>

<center><h1>Prospetti futuri</h1></center>
<p style="font-size:24x;">
    Il progetto è in una sua fase iniziale che ci permette di vedere il suo funzionamento, di seguito ecco alcune implementazioni future che potrebbero essere sviluppate:
        <ul>
        <li>Espendere il supporto ad altri tipi di file.</li>
        <li>Inviare un base64 all'IA così che possa essere in grado di ricostruire il file originale.</li>
        <li>Ricavare automaticamente dati formali del mittente dal testo (se presenti, es: data documento, anagrafica mittente)</li>
        </ul>
</p>

<center><h1>Conclusione</h1></center>
<center><h2>Grazie per l'attenzione</h2></center>
<div>
    <p style='margin-top:2px'><h4 style='display:inline'>Studente</h4>:  Gioele Cavalli</p>
    <p><h4 style='display:inline'>Progetto</h4>:  Documentinator</p>
    <p><h4 style='display:inline'>Materia </h4> :  TAP</p>
</div>