# Prérequis

Les modules Python utilisés sont listés dans le fichiers `requirements.txt`. Le plus simple est de faire `pip install -r requirements.txt` dans l’environnement Python d’exécution avant de lancer le notebook.

Il est également nécessaire d’installer l’utilitaire `mcl`, cf. [cette page de documentation](https://github.com/micans/mcl?tab=readme-ov-file#installation-and-mcl-versions).

# Explorations préliminaires

In [1]:
# taille des fichiers
! ls -alh data

total 202M
drwxr-xr-x 1 jm jm 4,0K avril 18 20:12 .
drwxr-xr-x 1 jm jm 4,0K avril 18 20:12 ..
-rwxr-xr-x 1 jm jm 188K avril 17 13:20 authors.csv
-rw-rw-r-- 1 jm jm 257K avril 18 18:02 coauthor_edges.txt
-rw-rw-r-- 1 jm jm 224K avril 18 18:02 main_coauthor_edges.txt
-rw-rw-r-- 1 jm jm  37K avril 18 18:07 mcl_clusters.txt
-rwxr-xr-x 1 jm jm 310K avril 17 13:20 paper_authors.csv
-rwxr-xr-x 1 jm jm 201M avril 17 13:20 papers.csv


In [2]:
# Investigation du format 
import pandas as pd
import pathlib


def _pd_read_head(fipath, chunksize=5, **kwargs):
    for chunk in pd.read_csv(fipath, chunksize=chunksize, **kwargs):
        return chunk

DATAFOLDER = pathlib.Path("data")

for filename in ["authors.csv", "paper_authors.csv", "papers.csv"]:
    print(filename)
    display(_pd_read_head(DATAFOLDER / filename))

authors.csv


Unnamed: 0,id,name
0,1,Hisashi Suzuki
1,10,David Brady
2,100,Santosh S. Venkatesh
3,1000,Charles Fefferman
4,10000,Artur Speiser


paper_authors.csv


Unnamed: 0,id,paper_id,author_id
0,1,63,94
1,2,80,124
2,3,80,125
3,4,80,126
4,5,80,127


papers.csv


Unnamed: 0,id,year,title,event_type,pdf_name,abstract,paper_text
0,1,1987,Self-Organization of Associative Database and ...,,1-self-organization-of-associative-database-an...,Abstract Missing,767\n\nSELF-ORGANIZATION OF ASSOCIATIVE DATABA...
1,10,1987,A Mean Field Theory of Layer IV of Visual Cort...,,10-a-mean-field-theory-of-layer-iv-of-visual-c...,Abstract Missing,683\n\nA MEAN FIELD THEORY OF LAYER IV OF VISU...
2,100,1988,Storing Covariance by the Associative Long-Ter...,,100-storing-covariance-by-the-associative-long...,Abstract Missing,394\n\nSTORING COVARIANCE BY THE ASSOCIATIVE\n...
3,1000,1994,Bayesian Query Construction for Neural Network...,,1000-bayesian-query-construction-for-neural-ne...,Abstract Missing,Bayesian Query Construction for Neural\nNetwor...
4,1001,1994,"Neural Network Ensembles, Cross Validation, an...",,1001-neural-network-ensembles-cross-validation...,Abstract Missing,"Neural Network Ensembles, Cross\nValidation, a..."


Toutes les informations nécessaires à la génération de la structure du graphe de co-auteurs sont dans `paper_authors.csv`. `authors.csv` peut également être intéressant pour la visualisation (pour avoir les noms des auteurs et pas seulement leur id numérique). En revanche, `papers.csv` est inutile dans un premier temps.

`authors.csv` et `paper_authors.csv` combinés font moins de 1MB, il est donc possible d’utiliser des méthodes de traitement simples (notamment : charger toutes les données et faire toutes les opérations en RAM). 