## Introduzione

La ricerca scientifica in ambito IoT è un topic molto dinamico che ha acquisito notevole popolarità soprattutto negli ultimi anni, dopo la diffusione capillare di internet e l’abbassamento dei costi di dispositivi hardware in grado di comunicare sulla rete. I dispositivi IoT vengono attualmente utilizzati in qualsiasi ambito, a partire dalla domotica fino al supporto in ambito aziendale per l’industria 4.0, volta a migliorare i processi produttivi e decisionali.

Tuttavia, analizzare tutto quello che la popolazione scientifica ha elaborato, e quindi tutte le applicazioni o i dispositivi che negli anni sono stati studiati, risulta un processo molto dispendioso in termini di tempo; il processo di comprensione di un articolo scientifico per un umano è molto naturale e, in particolare, riassumere i concetti fondamentali è cruciale per poter carpire a fondo il tema di un testo.

Il problema nasce nel momento in cui, come in questo caso, la letteratura scientifica presente a riguardo dell’ambito in analisi è molto vasta, con un numero molto elevato di documenti e, soprattutto, svariate applicazioni specifiche. Destreggiarsi tra i vari documenti in modo manuale cercando di individuare la tematica di ogni paper singolarmente può portare via molto tempo o, risultare addirittura impraticabile se il corpus da analizzare ha dimensioni troppo elevate.

Per questo motivo in questo paper si utilizzano modelli a topic latenti (anche detti topic models), delle tecniche statistiche di tipo bayesiano per la ricerca automatica dei topic all’interno di un corpus di documenti testuali [inserire riferimento al capitolo sui topic models].

In [1]:
import pandas as pd
import webbrowser

### Scelta ed elaborazione del dataset

Per analizzare la letteratura presente in ambito IoT si è deciso di utilizzare la piattaforma Web of Science, un motore di ricerca per pubblicazioni facenti parte di una raccolta di giornali più famosi. 

Una volta effettuato l'accesso attraverso l'università di Bari, sono stati ricercati tutti i documenti nel cui titolo compare la parola chiave "IoT".

Essendo questi in numero eccessivamente elevato, la scelta è stata quella di selezionare solamente quelli più affidabili, selezionando gli appositi filtri messi a disposizione direttamente da Web of Science: Hot topics e most cited ????.

Esportando la lista dei risultati si ottiene un file Excel contente 260 paper e 68 campi con tutte le informazioni relative, tra cui gli autori, la data, il DOI e l'abstract. 

In [2]:
data = pd.read_excel("paper_iot.xls")

In [3]:
data.head()

Unnamed: 0,Publication Type,Authors,Book Authors,Book Editors,Book Group Authors,Author Full Names,Book Author Full Names,Group Authors,Article Title,Source Title,...,WoS Categories,Research Areas,IDS Number,UT (Unique WOS ID),Pubmed Id,Open Access Designations,Highly Cited Status,Hot Paper Status,Date of Export,Unnamed: 67
0,J,"Lv, ZH; Qiao, L; Li, JH; Song, HB",,,,"Lv, Zhihan; Qiao, Liang; Li, Jinhua; Song, Hou...",,,Deep-Learning-Enabled Security Issues in the I...,IEEE INTERNET OF THINGS JOURNAL,...,"Computer Science, Information Systems; Enginee...",Computer Science; Engineering; Telecommunications,SN5UQ,WOS:000658354800008,,,Y,N,2021-10-25,
1,J,"Guo, ZW; Shen, Y; Bashir, AK; Imran, M; Kumar,...",,,,"Guo, Zhiwei; Shen, Yu; Bashir, Ali Kashif; Imr...",,,Robust Spammer Detection Using Collaborative N...,IEEE INTERNET OF THINGS JOURNAL,...,"Computer Science, Information Systems; Enginee...",Computer Science; Engineering; Telecommunications,SN5UQ,WOS:000658354800010,,Green Accepted,Y,N,2021-10-25,
2,J,"Wu, YL",,,,"Wu, Yulei",,,Robust Learning-Enabled Intelligence for the I...,IEEE INTERNET OF THINGS JOURNAL,...,"Computer Science, Information Systems; Enginee...",Computer Science; Engineering; Telecommunications,SN5UQ,WOS:000658354800012,31985450.0,,Y,Y,2021-10-25,
3,J,"Cai, XJ; Geng, SJ; Wu, D; Cai, JH; Chen, JJ",,,,"Cai, Xingjuan; Geng, Shaojin; Wu, Di; Cai, Jia...",,,A Multicloud-Model-Based Many-Objective Intell...,IEEE INTERNET OF THINGS JOURNAL,...,"Computer Science, Information Systems; Enginee...",Computer Science; Engineering; Telecommunications,SN5UQ,WOS:000658354800019,,,Y,Y,2021-10-25,
4,J,"Han, JL; Lin, N; Ruan, JH; Wang, XP; Wei, W; L...",,,,"Han, Jiliang; Lin, Na; Ruan, Junhu; Wang, Xupi...",,,A Model for Joint Planning of Production and D...,IEEE INTERNET OF THINGS JOURNAL,...,"Computer Science, Information Systems; Enginee...",Computer Science; Engineering; Telecommunications,SN5UQ,WOS:000658354800023,31398107.0,,Y,N,2021-10-25,


In [4]:
data.shape

(260, 68)

In [5]:
#data = pd.read_csv("backup_corpus/corpus_intro_final.csv")

### Inserimento introduzioni

In questo lavoro di tesi si è voluto inoltre confrontare la qualità dei topic ottenuti sia utilizzando solamente gli abstract per estrapolare i topic latenti, sia aggiungendo all'abstract anche l'introduzione dei documenti, in modo tale da aumentare la quantità di testo ed ottenere una matrice termini-documenti meno sparsa.

L'informazione riguardante l'introduzione non è però accessibile facilmente dai motori di ricerca su paper, come Web of Science, ma diventa necessariamente un processo manuale attraverso cui bisogna accedere ad ogni singolo documento ed estrarne l'introduzione.

Per automatizzare il processo è stato realizzato un ciclo in cui ad ogni passaggio:
- viene aperta una pagina web utilizzando il DOI di ogni documento;
- l'introduzione viene selezionata e copiata;
- il testo copiato viene inserito nella casella di input dello script e salvato.

Tutto questo è stato ripetuto per i 260 paper presenti all'interno del dataset.

In [7]:
# Aggiunta colonna vuota introduzione
data['Introduction'] = ""

for i in range(0, 260):
    webbrowser.open('https://doi.org/' + str(data.loc[i, "DOI"]))
    intro = input('Inserisci introduzione per riga ' + str(i) + ': ')
    data.at[i, 'Introduction'] = intro
    data.to_csv("backup_corpus/corpus_intro_" + str(i) + ".csv")

KeyboardInterrupt: Interrupted by user

## riga 129 - nessun accesso