In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Read the corpus of report (5 documents)
corpus = pd.read_csv("corpus.csv", encoding = "mbcs", header = None)

# Add report's title
corpus["Titre"] = ["Relations entre l'Etablissement public d'aménagement de la Défense (EPAD), puis l'Etablissement public d'aménagement de la Défense-Seine-Arche (EPADESA) et l'Etablissement public de gestion DEFACTO.",
                   "Le régime de retraite additionnelle de la fonction publique (RAFP).",
                   "L'assurance récolte.",
                   "La politique de transport spatial de la France.",
                   "Gestion du Conservatoire de l'espace littoral et des rivages lacustres (CELRL)."]

# Create a dictionnary of French stopwords
french = ["alors", "au", "aux", "aucuns", "aussi", "autre", "avant", "avec", "avoir",
         "bon", "car", "ce", "cela", "ces", "cette", "ceux", "chaque", "ci", "comme",
         "comment", "dans", "de", "des", "du", "dedans", "dehors", "depuis", "devrait",
         "doit", "donc", "dos", "début", "elle", "elles", "en", "encore", "essai",
         "est", "et", "eu", "fait", "faites", "fois", "font", "hors", "ici", "il",
         "ils", "je", "juste", "la", "le", "les", "leur", "là", "ma", "maintenant",
         "mais", "mes", "mine", "moins", "mon", "mot", "même", "ni", "nommés",
         "notre", "nous", "ou", "où", "ont","par", "parce", "pas", "peut", "peu", "plupart",
         "pour", "pourquoi", "qu","quand", "que", "quel", "quelle", "quelles", "quels",
         "qui", "sa", "sans", "ses", "seulement", "si", "sien", "son", "sont",
         "sous", "soyez", "sujet", "sur", "ta", "tandis", "tellement", "tels",
         "tes", "ton", "tous", "tout", "trop", "très", "tu", "un", "une", "voient", "vont",
         "votre", "vous", "vu", "ça", "étaient", "état", "étions", "été", "être"]

In [2]:
def find_best_phrase(id_report = 0, num_phrases = 10, ngram = 1):
    """
        Find phrases with the highest tf-idf value
        Parameters:
        id_report => ID of a report (integer)
        num_phrases => Number of phrases to find (integer)
        ngram => Number of word in the phrases (interger)
    """
    
    # Train the model
    tf = TfidfVectorizer(analyzer='word', ngram_range=(ngram,ngram), min_df = 0, stop_words = french)
    
    # Execute the model against our corpus
    tfidf_matrix =  tf.fit_transform(corpus[0])
    feature_names = tf.get_feature_names() 
    
    # Build a dense matrix because some operations can't be done on sparse matrix
    dense = tfidf_matrix.todense()
    
    # Select the id_report report
    report = dense[id_report].tolist()[0]

    # Match feature index with real words
    phrase_scores = [pair for pair in zip(range(0, len(report)), report) if pair[1] > 0]
    sorted_phrase_scores = sorted(phrase_scores, key=lambda t: t[1] * -1)
        
    # Save num_phrases phrases in a dictionnary
    best_phrases = {}
    for phrase, score in [(feature_names[word_id], score) for (word_id, score) in sorted_phrase_scores][:num_phrases]:
        best_phrases[phrase] = score
    return best_phrases

In [3]:
# Print everything!
for id_report in range(0,5):
    print("#" *100)
    print("# Titre du rapport :")
    print("¯" *20)
    print(corpus.iloc[id_report,1])
    print('\n')
    print("# Extrait :")
    print("¯" *11)
    print("\"" + corpus.iloc[id_report,0][0:500] + "[...]\"")
    print('\n')
    print("# Mots-clefs générés à partir du texte entier :")
    print("¯" *47)
    for ngram in range(1,4):
        print(' / '.join(find_best_phrase(id_report, 5, ngram)))
    print('\n')

####################################################################################################
# Titre du rapport :
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
Relations entre l'Etablissement public d'aménagement de la Défense (EPAD), puis l'Etablissement public d'aménagement de la Défense-Seine-Arche (EPADESA) et l'Etablissement public de gestion DEFACTO.


# Extrait :
¯¯¯¯¯¯¯¯¯¯¯
"À la suite du contrôle des comptes et de la gestion des établissements publics d'aménagement de La Défense et de Seine-Arche (EPAD et EPASA jusqu'en novembre 2010), devenu, à compter de cette date, l'Établissement public d'aménagement de La Défense Seine-Arche (EPADESA), la Cour des comptes a décidé, en application de l'article R. 135-1 du code des juridictions financières, de porter à votre connaissance les observations suivantes.

***

Depuis sa création en 1958, l'Établissement public d'aména[...]"


# Mots-clefs générés à partir du texte entier :
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
remise / defacto / epadesa