# Partie text mining

Dans le cadre de notre projet, nous avons choisi de réaliser une analyse de text mining sur un article tiré du site Boursier.com, intitulé "Taux: 2016, l'année historique des taux négatifs". Cet article traite de l'évolution des taux d'intérêt en 2016, une année marquée par l'implémentation de taux négatifs, un phénomène inédit dans l'histoire économique récente.

L'objectif de cette analyse est d'extraire des informations pertinentes et de comprendre les tendances et les sentiments véhiculés dans le texte. Nous utiliserons différentes techniques de text mining, notamment le nettoyage de texte, la suppression des stopwords, la stemmatisation, et la vectorisation TF-IDF pour transformer le texte en une représentation numérique exploitable.

L'article se trouve à l'adresse suivante : https://www.boursier.com/actualites/macroeconomie/taux-2016-l-annee-historique-des-taux-negatifs-711714.html

### Importation des librairies nécessaires

In [40]:
import pandas as pd
from unidecode import unidecode
import re
from nltk.stem import SnowballStemmer
import string
from collections import Counter
import plotly.express as px
from nltk.stem import SnowballStemmer
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk
from collections import defaultdict
from wordcloud import WordCloud
import streamlit as st
import warnings


In [41]:
warnings.filterwarnings("ignore", category=UserWarning)


### Création de la base de donnée

In [42]:
#Contenu de l'article
article_content = """
Sur les marchés de taux d'intérêt, l'année 2016 restera marquée d'une pierre blanche comme celle où les taux d'intérêts servis par les obligations sont tombés massivement en terrain négatif, un événement unique dans l'histoire par son ampleur.
Ainsi, le montant des obligations servant des taux négatifs dépassait en cette fin d'année les 10.000 milliards de dollars dans le monde, après avoir atteint plus de 13.000 milliards en cours d'année.

En d'autres termes, les acheteurs de ces obligations, au lieu de percevoir une rémunération sous forme de taux d'intérêt, seront au contraire perdants s'ils conservent leurs titres jusqu'à leur date de remboursement.
Plutôt que sur le rendement, ils ont ainsi parié sur la poursuite de la hausse des cours des obligations, ce qui leur permettrait de revendre leurs titres avec une plus-value avant leur arrivée à échéance.
Cette stratégie est toutefois bien plus risquée, et pourrait entraîner de très lourdes pertes en cas de retournement à la baisse des cours des obligations.

Cette situation anormale a été provoquée par les politiques ultra-accommodantes des banques centrales depuis la crise financière mondiale de 2008.
Les taux d'intérêts mondiaux n'ont cessé de chuter depuis cette crise, accompagnant la politique de taux zéro de nombreuses banques centrales.
De leur côté, les cours des obligations (qui évoluent à l'inverse des taux d'intérêts) ont flambé sous l'effet d'une forte demande d'actifs considérés comme des valeurs-refuge.
Les obligations, en particulier celles émises par les Etats les plus solides (Etats-Unis, Allemagne, France...), sont jugées bien moins risquées que les investissements en actions.

En 2016, le renforcement par la BCE de sa politique d'assouplissement quantitatif a encore augmenté la pression sur les taux.
Le 10 mars, la banque centrale européenne a abaissé son taux de dépôt à -0,4%, et son taux de refinancement à 0%.
La BCE a en outre porté de 60 à 80 milliards d'euros le montant de ses achats d'actifs sur les marchés financiers jusqu'en mars 2017.
Le montant de ces achats obligataires sera ensuite réduit à 60 MdsE, mais le programme sera tout de même prolongé au moins jusqu'à la fin 2017.

En juin dernier, le vote des Britanniques en faveur du Brexit a encore accéléré l'afflux de capitaux vers les obligations, envoyant de nombreux taux vers leurs plus bas niveaux historiques.
Ainsi, quelques semaines après le référendum britannique, en juillet, le taux de l'emprunt d'Etat allemand (Bund) à 10 ans est tombé à un plus bas de tous les temps, à -0,15%, tandis que le taux japonais à 10 ans a atteint -0,29%.
Le rendement de l'OAT française à 10 ans a chuté à +0,09% et le T-Bond américain à 10 ans à +1,36%.

Face à cette situation extrême, les critiques se sont multipliées, attirant l'attention sur les risques élevés que font courir à moyen terme les taux négatifs sur le système financier mondial.
A première vue, des taux très bas voire négatifs sont une bonne nouvelle pour l'économie : ils ont ainsi soutenu le marché immobilier, notamment en France, où les taux des emprunts hypothécaires ont atteint des plus bas historiques cette année, permettant à de nombreux ménages de pouvoir accéder à la propriété.
De même, les taux bas favorisent l'accès au crédit des entreprises, ce qui est de nature à relancer les investissements et l'emploi.

S'ils sont un cadeau fait aux acteurs économiques qui s'endettent, les taux négatifs sont en revanche une malédiction pour ceux dont les revenus sont dérivés des revenus de leurs placements financiers.
Les premières victimes des taux bas sont ainsi les banques, dont le métier consiste à emprunter à taux très bas et à prêter à des taux plus élevés.
La chute des taux, et la réduction de l'écart entre les taux longs et courts, pèsent sur les bénéfices des établissements bancaires.
Certaines banques, en Allemagne, ont même commencé à facturer à leurs clients leurs comptes de dépôt...
La baisse des taux a également laminé les rendements de tous les produits d'épargne (livrets, assurance-vie, fonds de retraite etc.), et met en danger le versement des futures retraites dans les pays qui disposent de fonds de pension.

En juin, un des meilleurs spécialistes mondiaux des marchés obligataires, Bill Gross, avait tiré la sonnette d'alarme sur la formation d'une bulle obligataire.
L'investisseur américain, fondateur du célèbre fond obligataire Pimco, et désormais patron du fonds Janus Capital, soulignait que les taux d'intérêts mondiaux étaient tombés "au plus bas depuis 500 ans d'historique connu"...
Bill Gross comparait le marché obligataire mondial à une "supernova qui explosera un jour", causant de gros dégâts lorsque les taux se mettront à remonter...

Cette remontée des taux semble d'ailleurs se profiler à la fin de l'année 2016, sous le double impact de l'élection surprise de Donald Trump à la présidence des Etats-Unis, le 8 novembre, suivie de la hausse des taux directeurs de la Fed décidée le 14 décembre.
Ces deux événements ont donné le signal d'un rebond des taux aux Etats-Unis, qui s'est répercuté dans le monde entier.
Au 30 décembre, les taux à 10 ans sont désormais remontés en Allemagne à 0,20%, en France à 0,68%, au Japon à 0,04% et aux Etats-Unis à 2,45%.
Les taux restent cependant proches de leurs plus bas historiques : les taux souverains allemands et japonais restent ainsi négatifs jusqu'à l'échéance de 8 ans inclus, tandis que ceux de la France ont un rendement négatif jusqu'à échéance de 6 ans.
Aux Etats-Unis les rendements sont en revanche positifs sur toute la courbe des taux : 0,41% à un mois.

Au 30 décembre, les taux à 10 ans sont désormais remontés en Allemagne à 0,20%, en France à 0,68%, au Japon à 0,04% et aux Etats-Unis à 2,45%. Les taux restent cependant proches de leurs plus bas historiques : les taux souverains allemands et japonais restent ainsi négatifs jusqu'à l'échéance de 8 ans inclus, tandis que ceux de la France ont un rendement négatif jusqu'à échéance de 6 ans. Aux Etats-Unis les rendements sont en revanche positifs sur toute la courbe des taux : 0,41% à un mois, 2,45% à 10 ans et 3,05% à 30 ans.
En Europe, les taux italiens et portugais ont même connu en 2016 leur première hausse depuis 2011, année de la crise de la dette dans la zone euro. L'instabilité politique et la faiblesse du secteur bancaire en particulier en Italie, a contribué à cette remontée des coûts de financement...
La plupart des experts estiment que la chute des taux a désormais été enrayée même s'ils n'anticipent pas de remontée rapide, qui serait un frein à la croissance économique. En Europe, le BCE devrait poursuivre une politique accommodante, tandis que la Fed américaine devrait continuer à relever graduellement ses taux, sauf en cas de ralentissement inattendu de l'économie américaine et mondiale. Le marché des taux devrait toutefois se montrer encore volatil ces prochains mois, à mesure que seront dévoilés les projets de politique économique et commerciale du président Donald Trump, qui prendra ses fonctions le 20 janvier prochain.
Les annonces de campagne de M. Trump (relance budgétaire, baisse d'impôts et de la réglementation, protectionnisme) sont plutôt de nature à créer un environnement d'inflation plus élevée, ce qui entretiendrait des taux d'intérêts plus élevés, ainsi qu'un dollar fort. M. Trump prévoit de baisser les impôts pour les particuliers comme pour les entreprises, tout en augmentant fortement les investissements publics dans la défense et les grands travaux d'infrastructures. Un tel programme devrait d'une part stimuler la consommation et attiser l'inflation, et d'autre part entraîner un vif accroissement de l'endettement de l'Etat, avec un afflux d'émissions obligataires à la clé. Cet environnement de hausse de l'offre serait de nature à faire baisser les cours et remonter mécaniquement les taux.
Comme en 2016, la Fed devra piloter à vue
De son côté, la Fed a laissé entendre le 14 décembre qu'elle s'apprêtait à relever trois fois son taux des "fed funds" courant 2017, ce qui les porterait dans une fourchette 1,25% à 1,50% dans un an. La réalisation de ce calendrier dépendra cependant de nombreux facteurs que la Fed ne maîtrise pas, à commencer par la nouvelle politique économique de l'administration Trump.
Rappelons qu'en 2016, la Fed avait aussi initialement prévu de relever ses taux trois fois, mais en raison de nombreux facteurs de risques qui ont émaillé l'année (turbulences boursières, craintes sur la Chine, Brexit...), elle n'a finalement agi qu'une seule fois, en décembre, un an après avoir entamé son cycle haussier. La hausse du dollar, qui évolue près de ses plus hauts niveaux depuis plus de 13 ans face à un panier de devises mondiales, pourrait être un obstacle aux futures actions de la Fed. Les exportations et la croissance économique américaine souffriraient des effets d'un dollar trop vigoureux pendant une période prolongée...
"""

# Creation du DataFrame
data = {"Content": [article_content]}
df = pd.DataFrame(data)

# Enregistrer au format CSV, mis en pause pour streamlit et compatibilité avec les autres participants au projet
#file_path = r"C:\\Users\paule\projets_python\data_managementd\article_2016_taux_negatifs.csv"


# I - Analyse du texte

In [43]:
# Chargement et affichage du fichier CSV 
data = df

print(data['Content'].iloc[0])


Sur les marchés de taux d'intérêt, l'année 2016 restera marquée d'une pierre blanche comme celle où les taux d'intérêts servis par les obligations sont tombés massivement en terrain négatif, un événement unique dans l'histoire par son ampleur.
Ainsi, le montant des obligations servant des taux négatifs dépassait en cette fin d'année les 10.000 milliards de dollars dans le monde, après avoir atteint plus de 13.000 milliards en cours d'année.

En d'autres termes, les acheteurs de ces obligations, au lieu de percevoir une rémunération sous forme de taux d'intérêt, seront au contraire perdants s'ils conservent leurs titres jusqu'à leur date de remboursement.
Plutôt que sur le rendement, ils ont ainsi parié sur la poursuite de la hausse des cours des obligations, ce qui leur permettrait de revendre leurs titres avec une plus-value avant leur arrivée à échéance.
Cette stratégie est toutefois bien plus risquée, et pourrait entraîner de très lourdes pertes en cas de retournement à la baisse d

In [44]:
print(f"Les corpus est composé de {len(data)} document(s)")

# Compter le nombre de mots en séparant sur les espaces
word_count = len(article_content.split())
print(f"Le corpus est composé de {word_count} mots.")

Les corpus est composé de 1 document(s)
Le corpus est composé de 1447 mots.


### a) Mise en minuscule 

In [45]:
corpus_2 = [doc.lower() for doc in data['Content']]

# Afficher le contenu converti
print(corpus_2)

['\nsur les marchés de taux d\'intérêt, l\'année 2016 restera marquée d\'une pierre blanche comme celle où les taux d\'intérêts servis par les obligations sont tombés massivement en terrain négatif, un événement unique dans l\'histoire par son ampleur.\nainsi, le montant des obligations servant des taux négatifs dépassait en cette fin d\'année les 10.000 milliards de dollars dans le monde, après avoir atteint plus de 13.000 milliards en cours d\'année.\n\nen d\'autres termes, les acheteurs de ces obligations, au lieu de percevoir une rémunération sous forme de taux d\'intérêt, seront au contraire perdants s\'ils conservent leurs titres jusqu\'à leur date de remboursement.\nplutôt que sur le rendement, ils ont ainsi parié sur la poursuite de la hausse des cours des obligations, ce qui leur permettrait de revendre leurs titres avec une plus-value avant leur arrivée à échéance.\ncette stratégie est toutefois bien plus risquée, et pourrait entraîner de très lourdes pertes en cas de retourn

In [46]:
i = 1

for doc in data:
    if type(doc) == str:
        print(f"Le type du document {i} est {type(doc)}, c'est ok!" )
    else :
        print(f"Le type du document {i} est {type(doc)}, il faut le convertir!" )
        
    i+=1

Le type du document 1 est <class 'str'>, c'est ok!


### b) Suppresion de la ponctuation, des accents et des caractères spéciaux

In [47]:
# Suppression de la ponctuation dans les documents du corpus déjà en minuscule
corpus_cleaned = [''.join(char for char in doc if char not in string.punctuation) for doc in corpus_2]
print(corpus_cleaned)  

['\nsur les marchés de taux dintérêt lannée 2016 restera marquée dune pierre blanche comme celle où les taux dintérêts servis par les obligations sont tombés massivement en terrain négatif un événement unique dans lhistoire par son ampleur\nainsi le montant des obligations servant des taux négatifs dépassait en cette fin dannée les 10000 milliards de dollars dans le monde après avoir atteint plus de 13000 milliards en cours dannée\n\nen dautres termes les acheteurs de ces obligations au lieu de percevoir une rémunération sous forme de taux dintérêt seront au contraire perdants sils conservent leurs titres jusquà leur date de remboursement\nplutôt que sur le rendement ils ont ainsi parié sur la poursuite de la hausse des cours des obligations ce qui leur permettrait de revendre leurs titres avec une plusvalue avant leur arrivée à échéance\ncette stratégie est toutefois bien plus risquée et pourrait entraîner de très lourdes pertes en cas de retournement à la baisse des cours des obligat

In [48]:
# Suppression des accents dans les documents du corpus
corpus_no_accents = [unidecode(doc) for doc in corpus_cleaned]
print(corpus_no_accents) 

['\nsur les marches de taux dinteret lannee 2016 restera marquee dune pierre blanche comme celle ou les taux dinterets servis par les obligations sont tombes massivement en terrain negatif un evenement unique dans lhistoire par son ampleur\nainsi le montant des obligations servant des taux negatifs depassait en cette fin dannee les 10000 milliards de dollars dans le monde apres avoir atteint plus de 13000 milliards en cours dannee\n\nen dautres termes les acheteurs de ces obligations au lieu de percevoir une remuneration sous forme de taux dinteret seront au contraire perdants sils conservent leurs titres jusqua leur date de remboursement\nplutot que sur le rendement ils ont ainsi parie sur la poursuite de la hausse des cours des obligations ce qui leur permettrait de revendre leurs titres avec une plusvalue avant leur arrivee a echeance\ncette strategie est toutefois bien plus risquee et pourrait entrainer de tres lourdes pertes en cas de retournement a la baisse des cours des obligat

In [49]:
# Transformation de toutes les suites de 4 chiffres en "annee"
corpus_transformed = [re.sub(r'\b[0-9]{4}\b', 'annee', doc) for doc in corpus_no_accents]
print(corpus_transformed)  

['\nsur les marches de taux dinteret lannee annee restera marquee dune pierre blanche comme celle ou les taux dinterets servis par les obligations sont tombes massivement en terrain negatif un evenement unique dans lhistoire par son ampleur\nainsi le montant des obligations servant des taux negatifs depassait en cette fin dannee les 10000 milliards de dollars dans le monde apres avoir atteint plus de 13000 milliards en cours dannee\n\nen dautres termes les acheteurs de ces obligations au lieu de percevoir une remuneration sous forme de taux dinteret seront au contraire perdants sils conservent leurs titres jusqua leur date de remboursement\nplutot que sur le rendement ils ont ainsi parie sur la poursuite de la hausse des cours des obligations ce qui leur permettrait de revendre leurs titres avec une plusvalue avant leur arrivee a echeance\ncette strategie est toutefois bien plus risquee et pourrait entrainer de tres lourdes pertes en cas de retournement a la baisse des cours des obliga

#### c) Suppression des stopwords

In [50]:
# Définition de la liste de stop words considérés (celle de spacy)
stopWords = ['a', 'abord', 'absolument', 'afin', 'ah', 'ai', 'aie', 'ailleurs', 'ainsi', 'ait', 'allaient', 'allo', 'allons', 
             'allô', 'alors', 'anterieur', 'anterieure', 'anterieures', 'apres', 'après', 'as', 'assez', 'attendu', 'au', 
             'aucun', 'aucune', 'aujourd', "aujourd'hui", 'aupres', 'auquel', 'aura', 'auraient', 'aurait', 'auront', 'aussi', 
             'autre', 'autrefois', 'autrement', 'autres', 'autrui', 'aux', 'auxquelles', 'auxquels', 'avaient', 'avais', 'avait', 
             'avant', 'avec', 'avoir', 'avons', 'ayant', 'bah', 'bas', 'basee', 'bat', 'beau', 'beaucoup', 'bien', 'bigre', 'boum', 
             'bravo', 'brrr', "c'", 'car', 'ce', 'ceci', 'cela', 'celle', 'celle-ci', 'celle-là', 'celles', 'celles-ci', 'celles-là', 
             'celui', 'celui-ci', 'celui-là', 'cent', 'cependant', 'certain', 'certaine', 'certaines', 'certains', 'certes', 'ces', 
             'cet', 'cette', 'ceux', 'ceux-ci', 'ceux-là', 'chacun', 'chacune', 'chaque', 'cher', 'chers', 'chez', 'chiche', 'chut', 
             'chère', 'chères', 'ci', 'cinq', 'cinquantaine', 'cinquante', 'cinquantième', 'cinquième', 'clac', 'clic', 'combien', 
             'comme', 'comment', 'comparable', 'comparables', 'compris', 'concernant', 'contre', 'couic', 'crac', 'c’', "d'", 'da', 
             'dans', 'de', 'debout', 'dedans', 'dehors', 'deja', 'delà', 'depuis', 'dernier', 'derniere', 'derriere', 'derrière', 
             'des', 'desormais', 'desquelles', 'desquels', 'dessous', 'dessus', 'deux', 'deuxième', 'deuxièmement', 'devant', 'devers', 
             'devra', 'different', 'differentes', 'differents', 'différent', 'différente', 'différentes', 'différents', 'dire', 
             'directe', 'directement', 'dit', 'dite', 'dits', 'divers', 'diverse', 'diverses', 'dix', 'dix-huit', 'dix-neuf', 
             'dix-sept', 'dixième', 'doit', 'doivent', 'donc', 'dont', 'douze', 'douzième', 'dring', 'du', 'duquel', 'durant', 'dès', 
             'désormais', 'd’', 'effet', 'egale', 'egalement', 'egales', 'eh', 'elle', 'elle-même', 'elles', 'elles-mêmes', 'en', 
             'encore', 'enfin', 'entre', 'envers', 'environ', 'es', 'est', 'et', 'etaient', 'etais', 'etait', 'etant', 'etc', 'etre', 
             'eu', 'euh', 'eux', 'eux-mêmes', 'exactement', 'excepté', 'extenso', 'exterieur', 'fais', 'faisaient', 'faisant', 'fait', 
             'façon', 'feront', 'fi', 'flac', 'floc', 'font', 'gens', 'ha', 'hein', 'hem', 'hep', 'hi', 'ho', 'holà', 'hop', 'hormis', 
             'hors', 'hou', 'houp', 'hue', 'hui', 'huit', 'huitième', 'hum', 'hurrah', 'hé', 'hélas', 'i', 'il', 'ils', 'importe', 
             "j'", 'je', 'jusqu', 'jusque', 'juste', 'j’', "l'", 'la', 'laisser', 'laquelle', 'las', 'le', 'lequel', 'les', 
             'lesquelles', 'lesquels', 'leur', 'leurs', 'longtemps', 'lors', 'lorsque', 'lui', 'lui-meme', 'lui-même', 'là', 'lès', 'l’', 
             "m'", 'ma', 'maint', 'maintenant', 'mais', 'malgre', 'malgré', 'maximale', 'me', 'meme', 'memes', 'merci', 'mes', 'mien', 'mienne', 
             'miennes', 'miens', 'mille', 'mince', 'minimale', 'moi', 'moi-meme', 'moi-même', 'moindres', 'moins', 'mon', 
             'moyennant', 'même', 'mêmes', 'm’', "n'", 'na', 'naturel', 'naturelle', 'naturelles', 'ne', 'neanmoins', 'necessaire', 
             'necessairement', 'neuf', 'neuvième', 'ni', 'nombreuses', 'nombreux', 'non', 'nos', 'notamment', 'notre', 'nous', 'nous-mêmes', 
             'nouveau', 'nul', 'néanmoins', 'nôtre', 'nôtres', 'n’', 'o', 'oh', 'ohé', 'ollé', 'olé', 'on', 'ont', 'onze', 'onzième', 'ore', 
             'ou', 'ouf', 'ouias', 'oust', 'ouste', 'outre', 'ouvert', 'ouverte', 'ouverts', 'où', 'paf', 'pan', 'par', 'parce', 'parfois', 
             'parle', 'parlent', 'parler', 'parmi', 'parseme', 'partant', 'particulier', 'particulière', 'particulièrement', 'pas', 'passé', 
             'pendant', 'pense', 'permet', 'personne', 'peu', 'peut', 'peuvent', 'peux', 'pff', 'pfft', 'pfut', 'pif', 'pire', 'plein', 'plouf', 
             'plus', 'plusieurs', 'plutôt', 'possessif', 'possessifs', 'possible', 'possibles', 'pouah', 'pour', 'pourquoi', 'pourrais', 'pourrait', 
             'pouvait', 'prealable', 'precisement', 'premier', 'première', 'premièrement', 'pres', 'probable', 'probante', 'procedant', 'proche', 
             'près', 'psitt', 'pu', 'puis', 'puisque', 'pur', 'pure', "qu'", 'quand', 'quant', 'quant-à-soi', 'quanta', 'quarante', 'quatorze', 
             'quatre', 'quatre-vingt', 'quatrième', 'quatrièmement', 'que', 'quel', 'quelconque', 'quelle', 'quelles', "quelqu'un", 'quelque', 
             'quelques', 'quels', 'qui', 'quiconque', 'quinze', 'quoi', 'quoique', 'qu’', 'rare', 'rarement', 'rares', 'relative', 'relativement', 
             'remarquable', 'rend', 'rendre', 'restant', 'reste', 'restent', 'restrictif', 'retour', 'revoici', 'revoilà', 'rien', "s'", 'sa', 
             'sacrebleu', 'sait', 'sans', 'sapristi', 'sauf', 'se', 'sein', 'seize', 'selon', 'semblable', 'semblaient', 'semble', 'semblent', 
             'sent', 'sept', 'septième', 'sera', 'seraient', 'serait', 'seront', 'ses', 'seul', 'seule', 'seulement', 'si', 'sien', 'sienne', 
             'siennes', 'siens', 'sinon', 'six', 'sixième', 'soi', 'soi-même', 'soit', 'soixante', 'son', 'sont', 'sous', 'souvent', 'specifique', 
             'specifiques', 'speculatif', 'stop', 'strictement', 'subtiles', 'suffisant', 'suffisante', 'suffit', 'suis', 'suit', 'suivant', 
             'suivante', 'suivantes', 'suivants', 'suivre', 'superpose', 'sur', 'surtout', 's’', "t'", 'ta', 'tac', 'tant', 'tardive', 'te', 
             'tel', 'telle', 'tellement', 'telles', 'tels', 'tenant', 'tend', 'tenir', 'tente', 'tes', 'tic', 'tien', 'tienne', 'tiennes', 
             'tiens', 'toc', 'toi', 'toi-même', 'ton', 'touchant', 'toujours', 'tous', 'tout', 'toute', 'toutefois', 'toutes', 'treize', 'trente', 
             'tres', 'trois', 'troisième', 'troisièmement', 'trop', 'très', 'tsoin', 'tsouin', 'tu', 'té', 't’', 'un', 'une', 'unes', 
             'uniformement', 'unique', 'uniques', 'uns', 'va', 'vais', 'vas', 'vers', 'via', 'vif', 'vifs', 'vingt', 'vivat', 'vive', 'vives', 
             'vlan', 'voici', 'voilà', 'vont', 'vos', 'votre', 'vous', 'vous-mêmes', 'vu', 'vé', 'vôtre', 'vôtres', 'zut', 'à', 'â', 'ça', 'ès', 
             'étaient', 'étais', 'était', 'étant', 'été', 'être', 'ô', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 
             'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'qu']

stopWords = [unidecode(sw) for sw in stopWords]

In [51]:
# Suppression des stopwords du corpus
corpus_cleaned_stopwords = [' '.join([word for word in doc.split() if word not in stopWords]) for doc in corpus_transformed]
print(corpus_cleaned_stopwords)

['marches taux dinteret lannee annee restera marquee dune pierre blanche taux dinterets servis obligations tombes massivement terrain negatif evenement lhistoire ampleur montant obligations servant taux negatifs depassait fin dannee 10000 milliards dollars monde atteint 13000 milliards cours dannee dautres termes acheteurs obligations lieu percevoir remuneration forme taux dinteret contraire perdants sils conservent titres jusqua date remboursement rendement parie poursuite hausse cours obligations permettrait revendre titres plusvalue arrivee echeance strategie risquee entrainer lourdes pertes cas retournement baisse cours obligations situation anormale provoquee politiques ultraaccommodantes banques centrales crise financiere mondiale annee taux dinterets mondiaux nont cesse chuter crise accompagnant politique taux zero banques centrales cote cours obligations evoluent linverse taux dinterets flambe leffet dune forte demande dactifs consideres valeursrefuge obligations emises etats s

# II- Stemmatisation

La **stemmatisation** consiste à réduire les mots à leur racine ou base lexicale commune, afin de regrouper différentes formes grammaticales (par exemple, "courir", "courait", et "couru" sont réduits à "cour").


In [52]:
# Initialiser le stemmer en français et l'appliquer sur le corpus
stemmer = SnowballStemmer('french')

corpus_stemmed = [" ".join([stemmer.stem(word) for word in doc.split()]) for doc in corpus_cleaned_stopwords]
print(corpus_stemmed) 

['march taux dinteret lanne anne rest marque dun pierr blanch taux dinteret serv oblig tomb massiv terrain negat even lhistoir ampleur mont oblig serv taux negat depass fin danne 10000 milliard dollar mond atteint 13000 milliard cour danne dautr term acheteur oblig lieu percevoir remuner form taux dinteret contrair perd sil conservent titr jusqu dat rembours rend pari poursuit hauss cour oblig permettr revendr titr plusvalu arrive echeanc strateg risque entrain lourd pert cas retourn baiss cour oblig situat anormal provoque polit ultraaccommod banqu central cris financier mondial anne taux dinteret mondial nont cess chut cris accompagn polit taux zero banqu central cot cour oblig evoluent linvers taux dinteret flamb leffet dun fort demand dactif consider valeursrefug oblig emis etat solid etatsun allemagn franc juge risque invest action anne renforc bce polit dassoupl quantit augment pression taux 10 mar banqu central europeen abaiss taux depot 04 taux refinanc 0 bce port 60 80 milliar

Par la suite on a chercher à calculer les fréquences des mots dans le corpus stemmatisé, puis utiliser ces fréquences pour générer un nuage de mots où la taille des mots reflète leur occurrence. 


In [53]:
# Calculer la fréquence des mots dans le corpus stemmatisé
words_stemmed = " ".join(corpus_stemmed).split()  # Fusionner le corpus et le diviser en mots
word_counts = Counter(words_stemmed)  # Calculer les fréquences des mots
word_freq_df = pd.DataFrame(word_counts.items(), columns=["word", "frequency"]).sort_values(by="frequency", ascending=False)

# Créer un dictionnaire de fréquences des mots
word_freq_dict = dict(zip(word_freq_df['word'], word_freq_df['frequency']))

# Générer le nuage de mots
wordcloud = WordCloud(
    width=800,
    height=400,
    background_color='white',
    colormap='viridis',
    max_words=50  # Limiter aux 50 mots les plus fréquents
).generate_from_frequencies(word_freq_dict)

# Afficher le nuage de mots dans le notebook, désactivé ici pour le faire apparaitre dans l'application.
# plt.figure(figsize=(10, 6))
# plt.imshow(wordcloud, interpolation='bilinear')
# plt.axis('off')  # Désactiver les axes pour une meilleure lisibilité
# plt.title("Nuage de mots (avec stemmatisation)", fontsize=16)
# plt.show()

st.subheader("Nuage de mots (avec stemmatisation)")
fig, ax = plt.subplots(figsize=(10, 6))
ax.imshow(wordcloud, interpolation='bilinear')
ax.axis('off')  # Désactiver les axes pour une meilleure lisibilité
ax.set_title("Nuage de mots (avec stemmatisation)", fontsize=16)
st.pyplot(fig)



DeltaGenerator()

Les mots qui ressortent le plus sont "taux", "anne", "mondial", "fed", et "negat", reflétant les thèmes centraux du texte.


# III- Vectorisation

#### a) Le vocabulaire

On repart des documents nettoyés et on crée le vocabulaire contenant tous les mots uniques présents dans le corpus.
Ainsi, on représente chaque document comme un vecteur de taille V (où V est la taille de notre vocabulaire).



In [54]:
mots = ' '.join(corpus_stemmed) # Concaténation des documents renvoi une chaine de caractères

liste_mots = re.findall(r"\w+", mots) # Création de la liste contenant tous les mots de notre corpus
print(f"Ci-dessous, la liste de mots présents dans le corpus : \n{liste_mots}\n")

vocab = set(liste_mots)
print(f"Le vocabulaire est de taille {len(vocab)}")
print(f"Ci-dessous, le vocabulaire (mots uniques) : \n{vocab}\n")


Ci-dessous, la liste de mots présents dans le corpus : 
['march', 'taux', 'dinteret', 'lanne', 'anne', 'rest', 'marque', 'dun', 'pierr', 'blanch', 'taux', 'dinteret', 'serv', 'oblig', 'tomb', 'massiv', 'terrain', 'negat', 'even', 'lhistoir', 'ampleur', 'mont', 'oblig', 'serv', 'taux', 'negat', 'depass', 'fin', 'danne', '10000', 'milliard', 'dollar', 'mond', 'atteint', '13000', 'milliard', 'cour', 'danne', 'dautr', 'term', 'acheteur', 'oblig', 'lieu', 'percevoir', 'remuner', 'form', 'taux', 'dinteret', 'contrair', 'perd', 'sil', 'conservent', 'titr', 'jusqu', 'dat', 'rembours', 'rend', 'pari', 'poursuit', 'hauss', 'cour', 'oblig', 'permettr', 'revendr', 'titr', 'plusvalu', 'arrive', 'echeanc', 'strateg', 'risque', 'entrain', 'lourd', 'pert', 'cas', 'retourn', 'baiss', 'cour', 'oblig', 'situat', 'anormal', 'provoque', 'polit', 'ultraaccommod', 'banqu', 'central', 'cris', 'financier', 'mondial', 'anne', 'taux', 'dinteret', 'mondial', 'nont', 'cess', 'chut', 'cris', 'accompagn', 'polit', '

#### b) Le CountVectorizer

Dans cette approche l'ordre des mots ne compte pas: Il s'agit d'une représentation matricielle à N lignes (pour N documents) et V colonnes.


In [55]:
vectorizer = CountVectorizer()  # Initialisation d'un CountVectorizer 
X = vectorizer.fit_transform(corpus_stemmed)  # Applique un vectoriseur au corpus 

print(X.toarray())  # Affiche la matrice de comptage des mots où chaque ligne représente un document et chaque colonne un mot unique.

[[ 2  1  1  2  1  1  2  2  8  1  1  1  1  1  2  1  1  3  3  1  1  2  1  1
   1  1  1  1  1  2  1  1  2  1  1  4  3  5  1 16 13  1  1  1  1  3  1  1
   2  5  2  5  3  1  2  1  1  1  2  2  1  1  1  1  1  1  2  2  1  1  3  1
   1  4  1  1  2  1  1  1  2  1  1  1  1  1  1  1  2  7  2  1  1  1  1  1
   3  1  2  1  2  1  1  1  2  1  1  2  5  1  1  1  1  1  1  1  1  2  1  1
   1  1  1  1  4  1  1  1  1  7  1  1  4  1  2  1  6  3  5  1  3  1  1  1
   2  1  1  1  1  1  2  2  1  2  1  1  1  1  7  1  2  1  2  1  1  1  1  1
   1  2  2  1  1  1  1  1  8  3  1  1  3  1  1  3  1  4  1  1  1  3  1  6
   1  1  1  2  1  1  1  2  5  1  1  4  1  1  1  1  1  2  1  3  1  1  1  1
   5  1  1  1  2  6  1  1  1  1  1  1  3  1  1  2  2  1  1  1  1  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  2  6  1  1  1  1  1  1  1  1  1  1
   3  3  2  8  3  1  1  1  1  3  9  2  1  2  1  8  6  1  1  1  2  1  1  1
   1  1  1  1  1  1  1  1  1  1  1  1  1  1  7  2  1  2  1  1  1  1  1  2
   1  1  1  1  2  2  1  1  2  1  1  1 

In [56]:
print(vectorizer.get_feature_names_out()) # Affiche la liste des mots uniques

['004' '009' '015' '020' '029' '04' '041' '068' '10' '10000' '125' '13'
 '13000' '136' '14' '150' '20' '245' '30' '305' '500' '60' '80' 'abaiss'
 'acced' 'acceler' 'accommod' 'accompagn' 'accroissement' 'achat'
 'acheteur' 'acteur' 'action' 'afflux' 'agi' 'allemagn' 'allemand'
 'americain' 'ampleur' 'an' 'anne' 'annonc' 'anormal' 'arrive'
 'assurancev' 'atteint' 'attir' 'attis' 'augment' 'baiss' 'bancair'
 'banqu' 'bce' 'benefic' 'bill' 'blanch' 'bon' 'boursier' 'brex' 'britann'
 'budgetair' 'bull' 'bund' 'cadeau' 'calendri' 'campagn' 'capital' 'cas'
 'caus' 'celebr' 'central' 'cess' 'chin' 'chut' 'cle' 'client' 'commenc'
 'commercial' 'compar' 'compt' 'connu' 'conservent' 'consider' 'consist'
 'consomm' 'continu' 'contrair' 'contribu' 'cot' 'cour' 'courb' 'court'
 'cout' 'craint' 'cre' 'cred' 'cris' 'critiqu' 'croissanc' 'cycl' 'dactif'
 'dailleur' 'dalarm' 'dang' 'danne' 'dassoupl' 'dat' 'dautr' 'decembr'
 'decide' 'defens' 'degat' 'dem' 'demand' 'depargn' 'depass' 'dependr'
 'depot'

#### c) Les N-grammes

Les N-grammes sont des séquences de N mots ordonnés, ils nous permettent de contextualiser les mots et donc de préserver un peu plus leur sens. C'est une autre représentation de nos documents.

In [57]:
# Trouvez les bigrammes dans notre premier document
print(f"Notre 1er document : {corpus_stemmed[0]} \n")


print(f"La liste des bigrammes présents dans le 1er document : {list(nltk.bigrams(corpus_stemmed[0].split()))}")

Notre 1er document : march taux dinteret lanne anne rest marque dun pierr blanch taux dinteret serv oblig tomb massiv terrain negat even lhistoir ampleur mont oblig serv taux negat depass fin danne 10000 milliard dollar mond atteint 13000 milliard cour danne dautr term acheteur oblig lieu percevoir remuner form taux dinteret contrair perd sil conservent titr jusqu dat rembours rend pari poursuit hauss cour oblig permettr revendr titr plusvalu arrive echeanc strateg risque entrain lourd pert cas retourn baiss cour oblig situat anormal provoque polit ultraaccommod banqu central cris financier mondial anne taux dinteret mondial nont cess chut cris accompagn polit taux zero banqu central cot cour oblig evoluent linvers taux dinteret flamb leffet dun fort demand dactif consider valeursrefug oblig emis etat solid etatsun allemagn franc juge risque invest action anne renforc bce polit dassoupl quantit augment pression taux 10 mar banqu central europeen abaiss taux depot 04 taux refinanc 0 bce

In [58]:
bigram_vectorizer = CountVectorizer(ngram_range=(2, 2))  # Vectoriseur pour bi-grammes
X_bigram = bigram_vectorizer.fit_transform(corpus_stemmed)  

# bi-grammes et leurs fréquences
bigram_counts = X_bigram.toarray().sum(axis=0)  
bigram_freq = dict(zip(bigram_vectorizer.get_feature_names_out(), bigram_counts)) 

# Trier les bi-grammes et garder les 10 premiers
sorted_bigrams = sorted(bigram_freq.items(), key=lambda x: x[1], reverse=True)[:10]
bigram_labels, bigram_values = zip(*sorted_bigrams)

# Création du DataFrame
bigram_df = pd.DataFrame({
    "Bi-grammes": bigram_labels,
    "Fréquence": bigram_values})

# Création du graphique
fig = px.bar(
    bigram_df,
    x="Fréquence",
    y="Bi-grammes",
    orientation="h",  # Diagramme horizontal
    title="Top 10 des Bi-grammes",
    labels={"Bi-grammes": "Bi-grammes", "Fréquence": "Fréquence"},
    color_discrete_sequence=["#1f77b4"]  # Bleu
)

fig.update_layout(
    plot_bgcolor="white",  # Fond blanc
    paper_bgcolor="white",  # Fond extérieur blanc
    font=dict(size=12),  # Taille de police ajustée
    xaxis=dict(title="Fréquence", showgrid=True, gridcolor="lightgray"),
    yaxis=dict(title="Bi-grammes", showgrid=False),
    title=dict(font=dict(size=16))
)
fig.show()

Ce graphique montre les 10 bi-grammes les plus fréquents du corpus, tels que "10 an", "taux dinteret", et "banqu central". Les bi-grammes "taux negat" et "cour oblig" reflètent un focus sur les obligations et les taux négatifs, soulignant les thèmes principaux du texte.



#### d) La réprésentation tf-idf

Le score **tf-idf** (pour *Term-Frequency - Inverse Document Frequency*) permet de pondérer la fréquence de chacun de vos tokens (mots/n-grammes/stemmes/lemmes) dans un document par son importance relative dans les autres documents. Ce score tient donc compte de la composition du corpus.

In [59]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus_stemmed)

print(X.toarray())

[[0.03054236 0.01527118 0.01527118 0.03054236 0.01527118 0.01527118
  0.03054236 0.03054236 0.12216944 0.01527118 0.01527118 0.01527118
  0.01527118 0.01527118 0.03054236 0.01527118 0.01527118 0.04581354
  0.04581354 0.01527118 0.01527118 0.03054236 0.01527118 0.01527118
  0.01527118 0.01527118 0.01527118 0.01527118 0.01527118 0.03054236
  0.01527118 0.01527118 0.03054236 0.01527118 0.01527118 0.06108472
  0.04581354 0.0763559  0.01527118 0.24433889 0.19852535 0.01527118
  0.01527118 0.01527118 0.01527118 0.04581354 0.01527118 0.01527118
  0.03054236 0.0763559  0.03054236 0.0763559  0.04581354 0.01527118
  0.03054236 0.01527118 0.01527118 0.01527118 0.03054236 0.03054236
  0.01527118 0.01527118 0.01527118 0.01527118 0.01527118 0.01527118
  0.03054236 0.03054236 0.01527118 0.01527118 0.04581354 0.01527118
  0.01527118 0.06108472 0.01527118 0.01527118 0.03054236 0.01527118
  0.01527118 0.01527118 0.03054236 0.01527118 0.01527118 0.01527118
  0.01527118 0.01527118 0.01527118 0.01527118 0.

In [60]:
print(vectorizer.get_feature_names_out())

['004' '009' '015' '020' '029' '04' '041' '068' '10' '10000' '125' '13'
 '13000' '136' '14' '150' '20' '245' '30' '305' '500' '60' '80' 'abaiss'
 'acced' 'acceler' 'accommod' 'accompagn' 'accroissement' 'achat'
 'acheteur' 'acteur' 'action' 'afflux' 'agi' 'allemagn' 'allemand'
 'americain' 'ampleur' 'an' 'anne' 'annonc' 'anormal' 'arrive'
 'assurancev' 'atteint' 'attir' 'attis' 'augment' 'baiss' 'bancair'
 'banqu' 'bce' 'benefic' 'bill' 'blanch' 'bon' 'boursier' 'brex' 'britann'
 'budgetair' 'bull' 'bund' 'cadeau' 'calendri' 'campagn' 'capital' 'cas'
 'caus' 'celebr' 'central' 'cess' 'chin' 'chut' 'cle' 'client' 'commenc'
 'commercial' 'compar' 'compt' 'connu' 'conservent' 'consider' 'consist'
 'consomm' 'continu' 'contrair' 'contribu' 'cot' 'cour' 'courb' 'court'
 'cout' 'craint' 'cre' 'cred' 'cris' 'critiqu' 'croissanc' 'cycl' 'dactif'
 'dailleur' 'dalarm' 'dang' 'danne' 'dassoupl' 'dat' 'dautr' 'decembr'
 'decide' 'defens' 'degat' 'dem' 'demand' 'depargn' 'depass' 'dependr'
 'depot'

In [61]:
vectorizer = TfidfVectorizer(ngram_range=(1,2)) 
X = vectorizer.fit_transform(corpus_stemmed)

print(X.toarray())

[[0.02763158 0.02763158 0.01381579 ... 0.01381579 0.01381579 0.01381579]]


In [62]:
print(f"Pour chaque ligne qui correspond à un doc, je retrouve les {len(vectorizer.get_feature_names_out())} features suivants: \n{vectorizer.get_feature_names_out()}")

Pour chaque ligne qui correspond à un doc, je retrouve les 1062 features suivants: 
['004' '004 etatsun' '009' ... 'zero banqu' 'zon' 'zon euro']


In [63]:
vectorizer = TfidfVectorizer(min_df=1, max_df=1) # vous conservez que les mots présents au moins deux fois dans le corpus
X = vectorizer.fit_transform(corpus_stemmed)

print(X.toarray()) 


[[0.03054236 0.01527118 0.01527118 0.03054236 0.01527118 0.01527118
  0.03054236 0.03054236 0.12216944 0.01527118 0.01527118 0.01527118
  0.01527118 0.01527118 0.03054236 0.01527118 0.01527118 0.04581354
  0.04581354 0.01527118 0.01527118 0.03054236 0.01527118 0.01527118
  0.01527118 0.01527118 0.01527118 0.01527118 0.01527118 0.03054236
  0.01527118 0.01527118 0.03054236 0.01527118 0.01527118 0.06108472
  0.04581354 0.0763559  0.01527118 0.24433889 0.19852535 0.01527118
  0.01527118 0.01527118 0.01527118 0.04581354 0.01527118 0.01527118
  0.03054236 0.0763559  0.03054236 0.0763559  0.04581354 0.01527118
  0.03054236 0.01527118 0.01527118 0.01527118 0.03054236 0.03054236
  0.01527118 0.01527118 0.01527118 0.01527118 0.01527118 0.01527118
  0.03054236 0.03054236 0.01527118 0.01527118 0.04581354 0.01527118
  0.01527118 0.06108472 0.01527118 0.01527118 0.03054236 0.01527118
  0.01527118 0.01527118 0.03054236 0.01527118 0.01527118 0.01527118
  0.01527118 0.01527118 0.01527118 0.01527118 0.

In [64]:
print(vectorizer.get_feature_names_out())

['004' '009' '015' '020' '029' '04' '041' '068' '10' '10000' '125' '13'
 '13000' '136' '14' '150' '20' '245' '30' '305' '500' '60' '80' 'abaiss'
 'acced' 'acceler' 'accommod' 'accompagn' 'accroissement' 'achat'
 'acheteur' 'acteur' 'action' 'afflux' 'agi' 'allemagn' 'allemand'
 'americain' 'ampleur' 'an' 'anne' 'annonc' 'anormal' 'arrive'
 'assurancev' 'atteint' 'attir' 'attis' 'augment' 'baiss' 'bancair'
 'banqu' 'bce' 'benefic' 'bill' 'blanch' 'bon' 'boursier' 'brex' 'britann'
 'budgetair' 'bull' 'bund' 'cadeau' 'calendri' 'campagn' 'capital' 'cas'
 'caus' 'celebr' 'central' 'cess' 'chin' 'chut' 'cle' 'client' 'commenc'
 'commercial' 'compar' 'compt' 'connu' 'conservent' 'consider' 'consist'
 'consomm' 'continu' 'contrair' 'contribu' 'cot' 'cour' 'courb' 'court'
 'cout' 'craint' 'cre' 'cred' 'cris' 'critiqu' 'croissanc' 'cycl' 'dactif'
 'dailleur' 'dalarm' 'dang' 'danne' 'dassoupl' 'dat' 'dautr' 'decembr'
 'decide' 'defens' 'degat' 'dem' 'demand' 'depargn' 'depass' 'dependr'
 'depot'

Vérification: 

In [65]:
# Initialisation du dictionnaire
freq = defaultdict(int)

# Compte l'ocurrence de chaque mot du corpus
for mot in liste_mots:
    freq[mot] += 1
    
print(freq)

defaultdict(<class 'int'>, {'march': 6, 'taux': 45, 'dinteret': 7, 'lanne': 3, 'anne': 13, 'rest': 1, 'marque': 1, 'dun': 6, 'pierr': 1, 'blanch': 1, 'serv': 2, 'oblig': 8, 'tomb': 3, 'massiv': 1, 'terrain': 1, 'negat': 9, 'even': 2, 'lhistoir': 1, 'ampleur': 1, 'mont': 3, 'depass': 1, 'fin': 3, 'danne': 2, '10000': 1, 'milliard': 3, 'dollar': 4, 'mond': 2, 'atteint': 3, '13000': 1, 'cour': 7, 'dautr': 2, 'term': 2, 'acheteur': 1, 'lieu': 1, 'percevoir': 1, 'remuner': 1, 'form': 1, 'contrair': 1, 'perd': 1, 'sil': 3, 'conservent': 1, 'titr': 2, 'jusqu': 6, 'dat': 1, 'rembours': 1, 'rend': 7, 'pari': 1, 'poursuit': 1, 'hauss': 5, 'permettr': 1, 'revendr': 1, 'plusvalu': 1, 'arrive': 1, 'echeanc': 3, 'strateg': 1, 'risque': 2, 'entrain': 2, 'lourd': 1, 'pert': 1, 'cas': 2, 'retourn': 1, 'baiss': 5, 'situat': 2, 'anormal': 1, 'provoque': 1, 'polit': 7, 'ultraaccommod': 1, 'banqu': 5, 'central': 3, 'cris': 3, 'financier': 1, 'mondial': 8, 'nont': 1, 'cess': 1, 'chut': 4, 'accompagn': 1, 'z