# Extraction des noms des modules importés dans un notebook

La problématique est la suivante : des modules sont importés dans un notebook.

Il s'agit d'extraire les noms des modules.

La stratégie consiste à :
- accéder aux cellules du notebook en parsant le fichier via la librairie `nbformat`
- filtrer uniquement les cellules ou le terme "import" est présent
- dans ces cellules, filtrer uniquement les lignes où le terme "import" est présent
- afficher ces lignes et terminer à la main (option par manque de temps)

In [None]:
import nbformat

In [None]:
file_name = "barometre_universite_lorraine.ipynb"
nb = nbformat.read(file_name, as_version=4)

`nbformat` permet d'accéder au contenu du notebook via un dictionnaire dont les clefs sont standard : ce sont celles du schéma de données des notebooks jupyter (référencé par le numéro de version)

In [None]:
nb.keys()

### Accéder à une premier cellule

Il s'agit d'un dictionnaire à plusieurs niveaux :

In [None]:
nb["cells"][0]["source"]

### List comprehension

Une "list comprehension" est une façon de construire une liste en une ligne.

De la même manière que pour une boucle for il y a un partie pour le "for" et une partie pour chaque itération,

la première partie entre les crochets est la partie correspondant à une itération, suivie par la partie pour le "for", sans ":"

#### Liste à partir de range

#### Version boucle for

In [None]:
for i in range(len(nb["cells"])):
    #print( # nécessaires pour le que la boucle fasse quelque chose mais à supprimer pour raisonner sur les list comprehensions
        nb["cells"][i]["source"]
    #)

#### Version list comprehension

In [None]:
cells_list = [nb["cells"][i]["source"] for i in range(len(nb["cells"]))]

### Créer la dataframe

In [None]:
from pandas import DataFrame

In [None]:
cells_df = DataFrame(cells_list, columns=["cells"])

In [None]:
cells_df.head(5)

### Réalisation d'un masque

Un masque est une DataFrame dont les cellules valent `True` si la condition était vérifée et `False` sinon

In [None]:
cells_df.cells

La condition est de tester la présence de la chaîne de caractère "import", peu importe ce qui précède ou suit.

La méthode `findall` permet de gérer les cellules du notebook qui ont plusieurs lignes et possiblement plusieurs imports

In [None]:
imports = cells_df.cells.str.findall(".*import.*")

Le masque est construit en testant si la méthode `findall` a retourné une liste non-vide.

In [None]:
mask_imports = imports.apply(len) > 0

### Sélection de la sous dataframe

In [None]:
cells_df[mask_imports]

### Index de cellules avec imports

In [None]:
list(cells_df[mask_imports].index)

In [None]:
from re import match

Chaque cellule peut contenir plusieurs lignes, concaténées avec la présence de "\n" entre deux lignes.

Les cellules prises dans la première boucle for ont toutes la présence d'au moins un import,

on exécute ensuite une deuxième boucle for 

In [None]:
for index in list(cells_df[mask_imports].index):
    
    one_cell_with_at_least_one_import = cells_df[mask_imports].cells.loc[index]
    lines_in_this_cell = one_cell_with_at_least_one_import.split("\n")
    
    for line in lines_in_this_cell:
        if match(".*import.*", line):
            print(line)