Eksploracja danych- DBLP

Repozytorium zawiera skrypty oraz notatniki jupytera używane do analizy zbioru DBLP.

Dataset

Źródłowy

Zbiór: https://www.aminer.cn/citation
Wykorzystywaliśmy zbiór V11, najnowszy w chwili rozpoczęcia projetku.
Większość notebooków wykorzystuje już przetworzony zbiór rozbity na części (slicer.py) oraz z odfiltrowanymi niepotrzebnymi polami czy zamienionymi na indeksy nazwami autorów czy słowami kluczowymi. Są to pliki author_index... dostarczone razem z plikami.

Przetworzony

Przetworzone pliki: https://drive.google.com/file/d/1Th58VQ4lJTj-K__zcFVvNMP-wI_6FHh3/view?usp=sharing Należy w notebookach zmienić katalog roboczy na katalog, gdzie zostaną rozpakowane powyższe pliki.

Wymagane oprogramowanie

python 3
jupyter notebook
pandas
networkx
Gephi

Analizy

Analizy wykonane są w notatnikach jupyter.

Odtworzenie datasetów z pierwotnego zbioru

uruchomienie slicer.py
uruchomienie notebooka fos_to_index.ipynb
uruchomienie notebooka authors_to_index.ipynb

Podział na grupy tematyczne w Gephi

Niestety ze względu na element losowy w metodzie dzielącej na grupy (o czym zorientowaliśmy się po czasie, gdy próbowaliśmy dograć wyniki) w programie, podział na grupy tematyczne jest niejednoznaczny. Uzyskane przez nas wyniki mogą być nie do odtworzenia. Uzyskane grupy zapisane są w plikach csv

Instalacja i uruchamianie

Do projektu został załączony skrypt pobierający wszystkie niezbędne pliki z danymi, które zostały wykorzystane w notebookach, a następnie wypakujący je do odpowiedniego katalogu. Aby uruchomić projekt należy więc uprzednio dokonać instalacji skryptem INSTALL.sh, a następnie wykonać skrypt RUN.sh.

Dokumentacja

https://trac.iisg.agh.edu.pl/ed/wiki/projects/2020/DBLP

Prezentacja

https://drive.google.com/file/d/1fFTZHWXUjxmsoL2DZE4NoQR55ST2nxdO/view?usp=sharing Jest to paczka źródłowa z overleafa.

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
.ipynb_checkpoints		.ipynb_checkpoints
.gitignore		.gitignore
Basic statistics for DBLP.ipynb		Basic statistics for DBLP.ipynb
INSTALL.sh		INSTALL.sh
README.md		README.md
RUN.sh		RUN.sh
Simple processing pandas - amount of authors.ipynb		Simple processing pandas - amount of authors.ipynb
Simple processing pandas - publication type.ipynb		Simple processing pandas - publication type.ipynb
Simple processing pandas- authors.ipynb		Simple processing pandas- authors.ipynb
Simple processing pandas- compilers group analysis of authors network - detailed graphs.ipynb		Simple processing pandas- compilers group analysis of authors network - detailed graphs.ipynb
Simple processing pandas- compilers group analysis of authors network.ipynb		Simple processing pandas- compilers group analysis of authors network.ipynb
Simple processing pandas-citation graph.ipynb		Simple processing pandas-citation graph.ipynb
Simple processing pandas-fields of studies graph.ipynb		Simple processing pandas-fields of studies graph.ipynb
Simple processing pandas-fields of studies-year by year.ipynb		Simple processing pandas-fields of studies-year by year.ipynb
Simple processing pandas-fields of studies.ipynb		Simple processing pandas-fields of studies.ipynb
Simple processing pandas-to collaboration graph.ipynb		Simple processing pandas-to collaboration graph.ipynb
Simple processing pandas-top-citation-group.ipynb		Simple processing pandas-top-citation-group.ipynb
Simple processing pandas.ipynb		Simple processing pandas.ipynb
author_simple_reader.py		author_simple_reader.py
author_to_index.ipynb		author_to_index.ipynb
classes_fos.csv		classes_fos.csv
classes_fos_names.csv		classes_fos_names.csv
fos_to_index.ipynb		fos_to_index.ipynb
k3_cliques.pickle		k3_cliques.pickle
k4_cliques.pickle		k4_cliques.pickle
script.py		script.py
slicer.py		slicer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Eksploracja danych- DBLP

Dataset

Źródłowy

Przetworzony

Wymagane oprogramowanie

Analizy

Odtworzenie datasetów z pierwotnego zbioru

Podział na grupy tematyczne w Gephi

Instalacja i uruchamianie

Dokumentacja

Prezentacja

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Eksploracja danych- DBLP

Dataset

Źródłowy

Przetworzony

Wymagane oprogramowanie

Analizy

Odtworzenie datasetów z pierwotnego zbioru

Podział na grupy tematyczne w Gephi

Instalacja i uruchamianie

Dokumentacja

Prezentacja

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages