# Extraction de Keywords

## Imports

In [1]:
import os
import yake

In [2]:
# Choisir une année
year = 1969

In [None]:
# Lister les fichiers de cette année
data_path = '../data'
txt_path = '../data/txt'
txts = [f for f in os.listdir(txt_path) if os.path.isfile(os.path.join(txt_path, f)) and str(year) in f]
txts

In [None]:
content_list = []
for txt in txts:
    with open(os.path.join(txt_path, txt), 'r', encoding="utf-8") as f:
        content_list.append(f.read())

In [None]:
# Ecrire tout le contenu dans un fichier temporaire
temp_path = '../data/tmp'
if not os.path.exists(temp_path):
    os.mkdir(temp_path)
with open(os.path.join(temp_path, f'{year}.txt'), 'w',  encoding="utf-8") as f:
    f.write(' '.join(content_list))

In [None]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

In [None]:
# Lister les Fichiers
data_path = "../data/tmp/"
files = os.listdir(data_path)

In [None]:
# Imprimer le nombre de fichiers identifiés
len(files)

In [None]:
# Les dix premiers fichiers
files[:10]

In [None]:
# Choisir un fichier
this_file = files[4]
this_file

In [None]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r', encoding="utf-8").read()
text[:500]

In [None]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)
keywords

In [None]:
from collections import Counter
from wordcloud import WordCloud
import os
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from IPython.display import Image

In [None]:
# Stopwords (Idem que dans s1)
sw = stopwords.words("french")
sw += ["les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout",
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu", "ville", "pays", "centre", "elles", "cinq", "monde"]
sw = set(sw)

In [None]:
from collections import defaultdict
import sys
import spacy
from spacy.lang.fr.examples import sentences

In [None]:
nlp = spacy.load('fr_core_news_md')

In [None]:
# Imprimer le corpus de Spacy
sentences

In [None]:
# Isoler la première phrase
sent = sentences[0]
sent

In [None]:
# Traiter la phrase avec Spacy
doc = nlp(sent)

In [None]:
type(doc)

In [None]:
doc.to_json()

In [None]:
# Charger le texte
n=900000
text = open("../data/tmp/1969.txt", encoding='utf-8').read()[:n]

In [None]:
%%time
# Traiter le texte

doc = nlp(text)

In [None]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        people[ent.text] += 1

for ent in doc.ents:
    if ent.label_ == "ORG" and len(ent.text) > 3:
        people[ent.text] += 1

In [None]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

In [None]:
import sys
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

In [None]:
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"
    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"
    if subjectivity > 0:
        subjectivity_str = f"{subjectivity}% subjective"
    else:
        subjectivity_str = "perfectly objective"
    print(f"This text is {polarity_str} and {subjectivity_str}.")

In [None]:
get_sentiment("L'activité est moins étoffée que la Veille et quelques prises de bénéfices donnent à la cote une physionomie moins uniformément favorable")

In [None]:
get_sentiment("LE SOIR b Bourse de Bruxelles VENDREDI 3 JANVIER Marché toujours soutenu")

In [None]:
get_sentiment("Toutefois, plusieurs points de soutien, voire de fermeté, subsistent, tant en Valeurs locales qu’en titres étrangers")

In [None]:
get_sentiment("Parmi ces derniers, les non- ferreux demeurent très entourés")

In [None]:
get_sentiment("La demande de Londres est assez importante en R. S. T., 662, et en Zam- blan Anglo où l’ancienne passe à 225, et la nouvelle à 196")

In [None]:
get_sentiment("Les aurifères, en hausse dans la City, accentuent chez nous leur avance de jeudi, surtout Rand Mines, 1.204, et Près. Brand, 128")

In [None]:
get_sentiment("Parmi les valeurs belges, une amélioration appréciable est enregistrée en Pétrofina, 2.408, de même que dans les valeurs étrangères du groupe : Amer. Pétro, 1.516, et Canad. Pétro, 962")

In [None]:
get_sentiment("Cominière pousse son avantage à 1.880 c. 1.830, et Lambert est mieux tenue à 1.360 aux holdings")

In [None]:
get_sentiment("Des dégagements bénéficiaires ramènent Belelectric à 3.110 c. 3.330, et Electrobel à 4.835 aux trusts")

In [None]:
get_sentiment("Par contre, les dispositions restent à l’achat «a Sofina, 9.820, Sidro, 1.028, et Tract. Electricité, 3.750 c. 3.700")