Repozytorium zawiera skrypty oraz notatniki jupytera używane do analizy zbioru DBLP.
Zbiór: https://www.aminer.cn/citation
Wykorzystywaliśmy zbiór V11, najnowszy w chwili rozpoczęcia projetku.
Większość notebooków wykorzystuje już przetworzony zbiór rozbity na części (slicer.py) oraz z odfiltrowanymi niepotrzebnymi polami czy zamienionymi na indeksy nazwami autorów czy słowami kluczowymi. Są to pliki author_index... dostarczone razem z plikami.
Przetworzone pliki: https://drive.google.com/file/d/1Th58VQ4lJTj-K__zcFVvNMP-wI_6FHh3/view?usp=sharing Należy w notebookach zmienić katalog roboczy na katalog, gdzie zostaną rozpakowane powyższe pliki.
- python 3
- jupyter notebook
- pandas
- networkx
- Gephi
Analizy wykonane są w notatnikach jupyter.
- uruchomienie
slicer.py - uruchomienie notebooka
fos_to_index.ipynb - uruchomienie notebooka
authors_to_index.ipynb
Niestety ze względu na element losowy w metodzie dzielącej na grupy (o czym zorientowaliśmy się po czasie, gdy próbowaliśmy dograć wyniki) w programie, podział na grupy tematyczne jest niejednoznaczny. Uzyskane przez nas wyniki mogą być nie do odtworzenia. Uzyskane grupy zapisane są w plikach csv
Do projektu został załączony skrypt pobierający wszystkie niezbędne pliki z danymi, które zostały wykorzystane w notebookach, a następnie wypakujący je do odpowiedniego katalogu. Aby uruchomić projekt należy więc uprzednio dokonać instalacji skryptem INSTALL.sh, a następnie wykonać skrypt RUN.sh.
https://trac.iisg.agh.edu.pl/ed/wiki/projects/2020/DBLP
https://drive.google.com/file/d/1fFTZHWXUjxmsoL2DZE4NoQR55ST2nxdO/view?usp=sharing Jest to paczka źródłowa z overleafa.