# Sélection de l'information

In [None]:
import os
import textract

In [None]:
txt_path = '../data/txt'
if not os.path.exists(txt_path):
    os.mkdir(txt_path)

In [None]:
txts = []
for f in os.listdir(txt_path):
    if os.path.isfile(os.path.join(txt_path, f)):
        txts.append(f)


In [None]:
with open("../data/all.txt", "w", encoding="utf-8") as output_file:
    for file in os.listdir(txt_path):
        if file.endswith(".txt"):
            with open(os.path.join(txt_path, file), "r", encoding="utf-8") as f:
                output_file.write(f.read())

In [None]:
!wc ../data/all.txt

# Exploration du corpus


In [None]:
from collections import defaultdict
import os

import matplotlib.pyplot as plt
import numpy as np

In [None]:
path = "../data/txt/"
files = sorted(os.listdir(path))
len(files)

In [None]:
chaine = 'KB_JB838_1887-12-22_01-00001'
type(chaine)

In [None]:
# la méthode split
chaine_split = chaine.split('_')
chaine_split

In [None]:
# Accéder à la date
date = chaine_split[2]

# Accéder à l'année
date_split = date.split('-')
year = date_split[0]

In [None]:
# Manipuler les str pour convertir une année en décennie
year[:3]

In [None]:
year[-1]

In [None]:
year[:3] + '0s'

## Statistiques

In [None]:
all_years = [str(year) for year in range(1900, 1970)]

In [None]:
count_decade = defaultdict(int)
count_month = defaultdict(int)
count_newspapers = defaultdict(int)
covered_years = set()

for f in files:
    if "_" in f and f.endswith("txt"):
        elems = f.split("_")
        
        newspaper = elems[1]
        
        year = elems[2].split("-")[0]
        covered_years.add(year)
        decade = year[:3] + "0s"
        
        month = int(elems[2].split("-")[1])
        
        count_decade[decade] += 1
        count_newspapers[newspaper] += 1
        count_month[month] += 1
    else:
        print(f"Anomalous file: {f}")

In [None]:
print(f"Il y a {count_decade['1930s']} fichiers pour la décennie 1930s")

os.remove(count_decade'1930')

In [None]:
missing_years = [y for y in all_years if y not in covered_years]
print(f"Années manquantes: {', '.join(missing_years)}")



# Filtration du corpus

In [None]:
import os
import sys
import nltk
import re
from nltk.tokenize import sent_tokenize

### Répertoires d'inputs et d'outputs

In [None]:
# Le répertoire qui contient vos fichiers txt exportés de Camille
indir = "../data/txt"
# Le répertoire qui contiendra les fichiers txt nettoyés
outdir = "../data/txt_clean"


if not os.path.exists(outdir):
    os.mkdir(outdir)


### Spécification des termes de recherche

In [None]:
query = ["animale","animaux", "animal","défense","protection","défense des animaux","défense animale","protection animale","défense des animaux"]

### Extraction des phrases contenant les termes de recherche

In [None]:

# Création d'une regex afin de trouver les mots de la liste query dans le texte
regex = re.compile(f"\\b({'|'.join(query)})\\b", re.IGNORECASE)


In [None]:

for file in os.listdir(indir):
    if file.endswith(".txt"):
        relevant_sentences = []
        f_in = open(os.path.join(indir, file), encoding="utf-8")
        text = f_in.read()
        for sentence in sent_tokenize(text):
            if regex.search(sentence):
                relevant_sentences.append(sentence)
        f_in.close()
        f_out = open(os.path.join(outdir, file), "w", encoding="utf-8")
        f_out.write("\n\n".join(relevant_sentences))
        f_out.close()


In [None]:
# former tous les fichiers txt en 1 seul nettoyé
import os

txt_path = "C:\\Users\\pirar\\Documents\\TAC\\tac\\data\\txt_clean"
output_file_path = "C:\\Users\\pirar\\Documents\\TAC\\tac\\data\\allclean.txt"

with open(output_file_path, "w", encoding="utf-8") as output_file:
    for file in os.listdir(txt_path):
        if file.endswith(".txt"):
            with open(os.path.join(txt_path, file), "r", encoding="utf-8") as f:
                output_file.write(f.read())


## Analyse de la distribution du vocabulaire

In [None]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

In [None]:
sw = stopwords.words("french")
sw += ["les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout", 
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu","croix","recueille","aimant","chez","place","bleu","industrie","personne","société"]
sw = set(sw)

In [None]:
print(f"{len(sw)} stopwords:\n {sorted(sw)}")

## Tokeniser

In [None]:
# Récupération du contenu du fichier
path = "../data/allclean.txt"
limit = 10**8

with open(path, 'r', encoding='utf-8') as f:
    text = f.read()[:limit]

In [None]:
# Tokenization
words = nltk.wordpunct_tokenize(text)
print(f"{len(words)} words found")

In [None]:
words[:10]

### Calculer la taille du vocabulaire

In [None]:
# Eliminer les stopwords et les termes non alphabétiques
kept = [w.lower() for w in words if len(w) > 2 and w.isalpha() and w.lower() not in sw]
voc = set(kept)
print(f"{len(kept)} words kept ({len(voc)} different word forms)")

### Récupérer les mots les plus fréquents et un faire un plot

In [None]:
fdist = nltk.FreqDist(kept)
fdist.most_common(10)

In [None]:
# Plot: les n mots les plus fréquents
n = 10
fdist.plot(n, cumulative=True)

### Détecter les hapax

In [None]:
fdist.hapaxes()[:30]

### Mots les plus longs du corpus

In [None]:
n = 30
sorted(voc, key=len, reverse=True)[:n]

# Extraction de Keywords

## Imports

In [None]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

In [None]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

In [None]:
# Lister les Fichiers
data_path = "../data/txt_clean/"
files = [f for f in os.listdir(data_path) if f.endswith('.txt')]

In [None]:
# Imprimer le nombre de fichiers identifiés
len(files)

In [None]:
# Les dix premiers fichiers
files[:10]

In [None]:
# Choisir un fichier
this_file = files[0]
this_file

In [None]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r', encoding='utf-8').read()
text[:500]

In [None]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)
keywords

In [None]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2:
        kept.append(kw)
kept

## Faire la même opération sur tous les documents

In [None]:
for f in sorted(files):
    text = open(os.path.join(data_path, f), 'r', encoding="utf-8").read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

# Nuages de mots

## Imports et stopwords

In [None]:
from collections import Counter
from wordcloud import WordCloud
import os
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from IPython.display import Image

In [None]:
# Stopwords (mêmes stopwords qu'auparavant)
sw = stopwords.words("french")
sw += ["les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout", 
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu","croix","recueille","aimant","chez","place","bleu","industrie","personne","société"]
sw = set(sw)


## Créer un fichier contenant le texte de tous les journaux d'une décennie

In [None]:
# Choisir une année
decade = 1930

In [None]:
# Lister les fichiers de cette année
data_path = '../data/txt_clean/'
txt_path = '../data/txt'
txts = [f for f in os.listdir(txt_path) if os.path.isfile(os.path.join(txt_path, f)) and str(year) in f]
len(txts)

In [None]:
# Stocker le contenu de ces fichiers dans une liste
content_list = []
for txt in txts:
    with open(os.path.join(txt_path, txt), 'r', encoding='utf-8') as f:
        content_list.append(f.read())

In [None]:
# Compter le nombre d'éléments (=fichiers) dans la liste
len(content_list)

In [None]:
# Imprimer les 200 premiers caractères du contenu du premier fichier
content_list[0][0:200]

In [None]:
# Ecrire tout le contenu dans un fichier temporaire
temp_path = '../data/tmp'
if not os.path.exists(temp_path):
    os.mkdir(temp_path)
with open(os.path.join(temp_path, f'{decade}.txt'), 'w', encoding='utf-8') as f:
    f.write(' '.join(content_list))

In [None]:
# Imprimer le contenu du fichier et constater les "déchets"
with open(os.path.join(temp_path, f'{decade}.txt'), 'r', encoding='utf-8') as f:
    before = f.read()

before[:500]

## Nettoyer le fichier à l'aide d'une fonction de nettoyage

### Créer la fonction de nettoyage (à adapter)

In [None]:
def clean_text(decade, folder=None):
    if folder is None:
        input_path = f"{decade}.txt"
        output_path = f"{decade}_clean.txt"
    else:
        input_path = f"{folder}/{decade}.txt"
        output_path = f"{folder}/{decade}_clean.txt"
    output = open(output_path, "w", encoding='utf-8')
    with open(input_path, 'r', encoding='utf-8') as f:
        text = f.read()
        words = nltk.wordpunct_tokenize(text)
        kept = [w.upper() for w in words if len(w) > 2 and w.isalpha() and w.lower() not in sw]
        kept_string = " ".join(kept)
        output.write(kept_string)
    return f'Output has been written in {output_path}!'

### Appliquer la fonction sur le fichier complet de l'année

In [None]:
clean_text(decade, folder=temp_path)

In [None]:
# Vérifier le résultat
with open(os.path.join(temp_path, f'{decade}_clean.txt'), 'r', encoding='utf-8') as f:
    after = f.read()

after[:500]

## Nuage de mots

### Afficher les termes les plus fréquents


In [None]:
frequencies = Counter(after.split())
print(frequencies.most_common(10))

### Créer, stocker et afficher le nuage de mots

In [None]:
cloud = WordCloud(width=2000, height=1000, background_color='white').generate_from_frequencies(frequencies)
cloud.to_file(os.path.join(temp_path, f"{decade}.png"))
Image(filename=os.path.join(temp_path, f"{decade}.png"))

# Segmentation en phrases

## Imports

In [None]:
import os
import sys
import nltk
from nltk.tokenize import sent_tokenize

## Fichiers d'inputs et d'outputs

In [None]:
infile = "../data/allclean.txt"
outfile = "../data/sentsclean.txt"

## Segmentation en phrases du corpus complet et création d'un nouveau fichier

**Important** : pour traiter le corpus complet, indiquez `LIMIT = None`

In [None]:
LIMIT = None

In [None]:
with open(outfile, 'w', encoding="utf-8") as output:
    with open(infile, encoding="utf-8", errors="backslashreplace") as f:
        content = f.readlines()
        content = content[:LIMIT] if LIMIT is not None else content
        n_lines = len(content)
        for i, line in enumerate(content):
            if i % 100 == 0:
                print(f'processing line {i}/{n_lines}')
            sentences = sent_tokenize(line)
            for sent in sentences:
                output.write(sent + "\n")
print("Done")

# Word Embeddings : le modèle Word2Vec

## Imports

In [None]:
import sys

from gensim.models.phrases import Phrases, Phraser
from gensim.models import Word2Vec

import nltk
from nltk.tokenize import wordpunct_tokenize
from unidecode import unidecode

## Chargement et traitement des phrases du corpus

### Création d'un objet qui *streame* les lignes d'un fichier pour économiser de la RAM

In [None]:
class MySentences(object):
    """Tokenize and Lemmatize sentences"""
    def __init__(self, filename):
        self.filename = filename

    def __iter__(self):
        for line in open(self.filename, encoding='utf-8', errors="backslashreplace"):
            yield [unidecode(w.lower()) for w in wordpunct_tokenize(line)]

In [None]:
infile = f"../data/sentsclean.txt"
sentences = MySentences(infile)

In [None]:
bigram_phrases = Phrases(sentences)

In [None]:
type(bigram_phrases.vocab)

In [None]:
len(bigram_phrases.vocab.keys())

In [None]:
key_ = list(bigram_phrases.vocab.keys())[144]
print(key_)

In [None]:
bigram_phrases.vocab[key_]

In [None]:
bigram_phraser = Phraser(phrases_model=bigram_phrases)

In [None]:
trigram_phrases = Phrases(bigram_phraser[sentences])

In [None]:
trigram_phraser = Phraser(phrases_model=trigram_phrases)

### Création d'un corpus d'unigrams, bigrams, trigrams

In [None]:
corpus = list(trigram_phraser[bigram_phraser[sentences]])

In [None]:
print(corpus[:100])

## Entrainement d'un modèle Word2Vec sur ce corpus

In [None]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=32, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=5, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descente de gradient, aka. epochs.
)

### Sauver le modèle dans un fichier

In [None]:
outfile = f"../data/camille.model"
model.save(outfile)

## Explorer le modèle

### Charger le modèle en mémoire

In [None]:
model = Word2Vec.load("../data/camille.model")

### Imprimer le vecteur d'un terme

In [None]:
model.wv["animaux"]

### Calculer la similarité entre deux termes

In [None]:
model.wv.similarity("oiseau", "protection")

### Chercher les mots les plus proches d'un terme donné

In [None]:
model.wv.most_similar("animaux", topn=10)

### Faire des recherches complexes à travers l'espace vectoriel

In [None]:
print(model.wv.most_similar(positive=['défense', 'animaux'], negative=['chat']))

# Reconnaissance d'entités nommées avec SpaCy

## Imports

In [None]:
from collections import defaultdict
import sys
import spacy
from spacy.lang.fr.examples import sentences

In [None]:
nlp = spacy.load('fr_core_news_md')

## Appliquer la reconnaissance d'entités nommées sur notre corpus

In [None]:
# Charger le texte
n=100000
text = open("../data/allclean.txt", encoding='utf-8').read()[:n]

In [None]:
%%time
# Traiter le texte

doc = nlp(text)

In [None]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "LOC" and len(ent.text) > 3:
        people[ent.text] += 1

In [None]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Exercice: essayez de lister les lieux (LOC) et les organisations (ORG) les plus mentionnées dans le corpus

# Sentiment analysis 

## 1. Textblob-FR


### Imports

In [None]:
import sys
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

### Création d'une fonction `get_sentiment`

In [None]:
tb = Blobber(pos_tagger=PatternTagger(), analyzer=PatternAnalyzer())

def get_sentiment(input_text):
    blob = tb(input_text)
    polarity, subjectivity = blob.sentiment
    polarity_perc = f"{100*abs(polarity):.0f}"
    subjectivity_perc = f"{100*subjectivity:.0f}"
    if polarity > 0:
        polarity_str = f"{polarity_perc}% positive"
    elif polarity < 0:
        polarity_str = f"{polarity_perc}% negative"
    else:
        polarity_str = "neutral"
    if subjectivity > 0:
        subjectivity_str = f"{100*subjectivity}% subjective"
    else:
        subjectivity_str = "perfectly objective"
    print(f"This text is {polarity_str} and {subjectivity_str}.")

### Analyser le sentiment d'une phrase

In [None]:
get_sentiment("Ce journal est vraiment super intéressant.")

In [None]:
get_sentiment("Cette phrase est négative et je ne suis pas content !")

## 2. Utilisation de transformers

Documentation: https://github.com/TheophileBlard/french-sentiment-analysis-with-bert

**!!** Si le code ne tourne pas sur votre machine, vous pouvez le tester directement sur Google Colab en utilisant [ce lien](https://colab.research.google.com/github/TheophileBlard/french-sentiment-analysis-with-bert/blob/master/colab/french_sentiment_analysis_with_bert.ipynb) **!!**

Le modèle peut également être testé en ligne sur [HuggingFace](https://huggingface.co/tblard/tf-allocine)

### Installation des librairies et imports

In [None]:
!pip install tensorflow
!pip install sentencepiece
!pip install transformers

from transformers import AutoTokenizer, TFAutoModelForSequenceClassification
from transformers import pipeline

### Chargement du modèle

In [None]:
tokenizer = AutoTokenizer.from_pretrained("tblard/tf-allocine", use_pt=True)
model = TFAutoModelForSequenceClassification.from_pretrained("tblard/tf-allocine")

sentiment_analyser = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

### Analyser le sentiment d'une phrase

In [None]:
sentiment_analyser("L'adoption d'un animal au- tal que celui d'un chien ou d'un près de cette société est ainsi dé- chat, animal de compagnie, gagée du risque énorme que constitue en chenil la maladie Pierre-")

In [None]:
sentiment_analyser("On notait parmi elles : les vice-présidents fédéraux Mouclkers et Chevalier de Donnéa; le secrétaire général fédéral M. Déifias, M m * Renard, présidentse de la Ligue Internationale Antlvivisectionniste; M. Mallinger, président de la Société pour la suppression de la traction canine; M. Maerten, président de la Société Protectrice des Animaux, à Bruges, et le major Daelemans, commandant le secteur de Gendarmerie; M m ** De Keyse, présidente à Gand; Terby,' présidente à Louvain; Andouche, présidente à Namur; M. Del- ferrière, président de la Ligue pour la Protection du Cheval de Mine, à Hou- deng-Goegnies, etc.")

In [None]:
sentiment_analyser("A cette occasion, des leçons sur la protection des animaux seront données ce jour là dans toutes les écoles du pays.F. Cocq et 102, chaussée d’Ixelles; le il octobre, & 20 h., au Musée communal d’Ixelles, concert artistique et conférence patriotique faite par un orateur de la Ligue de protection aérienne d’Ixelles; le 1er novembre, 4 10 h-, avec la partigipatlon de toutes les écoles et des sociétés lxeUolses, pèlerinage annuel aux tombes des Héros de la grande guerre; le 11 novembre, vers 16 h., au Monument du Square du Souvenir, Relai Sacré, avec la participation de la population; le 6 décembre.")

In [None]:
sentiment_analyser("tion do M. Honorez, président du comité organisateur, qui, après avoir, remercié, tous ceux dont, Je cpncours assura, la réussite ‘du projet, fit remise du rnoiiu- Contrôle des Films; » Considérant, d’autre part, que les jeux, spectacles et sports où des cruautés envers les animaux sont exercées, et notamment les combats d’animaux, sont de nature à éveiller et à développer les Instincts de cruauté du public et spécialement de l’enfant; » Confirme qu’il mettra tout en œuvre pour réaliser lo vœu émis au congrès international de Bruxelles 1935, « que » toute reproduction de spectacles, de » sports ou do jeux, comportant des » cruautés envers les animaux ou de » combats d’animaux, soit interdite au » cinéma, sous quelque forme - ou pré- » texte que ce soit, qu’il s'agisse de films » à scénario bu dé films dits d’actuali- » té.")

# Clustering de documents

## Imports

In [None]:
import collections
import os
import string
import sys

import pandas as pd
from nltk import word_tokenize
from nltk.corpus import stopwords
from pprint import pprint
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cosine

In [None]:
import nltk

nltk.download('punkt')

In [None]:
data_path = "../data/txt_clean/"

## Choisir une décennie

In [None]:
DECADE = '1930'

## Charger tous les  fichiers de la décennie et en créer une liste de textes

In [None]:
files = [f for f in sorted(os.listdir(data_path)) if f"_{DECADE[:-1]}" in f]

In [None]:
# Exemple de fichiers
files[:5]

In [None]:
texts = [open(data_path + f, "r", encoding="utf-8").read() for f in files]

In [None]:
# Exemple de textes
texts[0][:400]

## Vectoriser les documents à l'aide de TF-IDF

In [None]:
# Création d'une fonction de pré-traitement
def preprocessing(text, stem=True):
    """ Tokenize text and remove punctuation """
    text = text.translate(string.punctuation)
    tokens = word_tokenize(text)
    return tokens

### Instancier le modèle TF-IDF avec ses arguments

In [None]:
vectorizer = TfidfVectorizer(
    tokenizer=preprocessing,
    stop_words=stopwords.words('french'),
    max_df=0.5,
    min_df=0.1,
    lowercase=True)

### Construire la matrice de vecteurs à l'aide de la fonction `fit_transform`

In [None]:
tfidf_vectors = vectorizer.fit_transform(texts)

In [None]:
# Détail de la matrice
tfidf_vectors

### Imprimer le vecteur tf-IDF du premier document

In [None]:
pd.Series(
    tfidf_vectors[0].toarray()[0],
    index=vectorizer.get_feature_names_out()
    ).sort_values(ascending=False)

## Comprendre les vecteurs et leurs "distances"

In [None]:
cosine([1, 2, 3], [1, 2, 3])

In [None]:
cosine([1, 2, 3], [1, 2, 2])

In [None]:
cosine([1, 2, 3], [2, 2, 2])

### Tests sur nos documents

In [None]:
tfidf_array = tfidf_vectors.toarray()

In [None]:
# Vecteur du document 0
tfidf_array[0]

In [None]:
# Vecteur du document 1
tfidf_array[1]

In [None]:
cosine(tfidf_array[0], tfidf_array[1])

## Appliquer un algorithme de clustering sur les vecteurs TF-IDF des documents

### Définir un nombre de clusters

In [None]:
N_CLUSTERS = 3

### Instancier le modèle K-Means et ses arguments

In [None]:
km_model = KMeans(n_clusters=N_CLUSTERS)

### Appliquer le clustering à l'aide de la fonction `fit_predict`

In [None]:
clusters = km_model.fit_predict(tfidf_vectors)

In [None]:
clustering = collections.defaultdict(list)

for idx, label in enumerate(clusters):
    clustering[label].append(files[idx])

In [None]:
pprint(dict(clustering))

## Visualiser les clusters

### Réduire les vecteurs à 2 dimensions à l'aide de l'algorithme PCA


In [None]:
pca = PCA(n_components=2)
reduced_vectors = pca.fit_transform(tfidf_vectors.toarray())

In [None]:
reduced_vectors[:10]

### Générer le plot

In [None]:
x_axis = reduced_vectors[:, 0]
y_axis = reduced_vectors[:, 1]

plt.figure(figsize=(10,10))
scatter = plt.scatter(x_axis, y_axis, s=100, c=clusters)

# Ajouter les centroïdes
centroids = pca.transform(km_model.cluster_centers_)
plt.scatter(centroids[:, 0], centroids[:, 1],  marker = "x", s=100, linewidths = 2, color='black')

# Ajouter la légende
plt.legend(handles=scatter.legend_elements()[0], labels=set(clusters), title="Clusters")