# Patat : Plateforme Agnostique de Traitement et d'Analyse des Textes

### Notebook 2 : Création des descripteurs
En partant du Recueil Brut issu de la google spreadsheet observateurs

### Analyse de Textes
Création des descripteurs (features) pour un ensemble de textes

Par l'utilisation de sous-classes de `patat.ml.analyser.Analyser`

Dans le but d'entrainer des prédicteurs

Patat fournit plusieurs analyseurs :

Présents aujourd'hui :
* `SpacyAnalyser` : 
    Analyseur basé sur Spacy
    __[https://spacy.io/](https://spacy.io/)__ 
* `LexicalAnalyser` : 
    Analyseur lexical de la Patat
    
En cours de développement :
* `TextblobAnalyser` : 
    Analyseur basé sur Textblob
    __[https://textblob.readthedocs.io/en/dev/](https://textblob.readthedocs.io/en/dev/)__
* `BowAnalyser` : 
    Analyseur Bag of Words de la Patat
* `GramAnalyser` : 
    Analyseur basé sur Grammalecte 
* `OpenaiAnalyser` : 
    Analyseur basé sur Open AI
* `HFAnalyser` : 
    Analyseur basé sur Hugging Face

### Synopsis
Pour à la fois le recueil et le corpus :
- Chargement et mise en forme
- Analyse avec les analyseurs disponibles
- Nettoyage et Sauvegarde des données analysées : un fichier par analyseur et type de données

### To do
- SpacyAnalyser et LexAnanlyser : Essayer la mise à l'échelle des features en fonction du nombre de mots ou nombre de phrases
- Exploration des données sur la base de ces features
- Exploration des données sur le vocabulaire : existe-t-il un vocabulaire spécifique de tel ou tel label


## 0 - Préliminaires

In [None]:
cd ../..

In [None]:
import importlib
import pandas as pd

## 1 - Chargement des données
Traitement de deux jeux de données :
- AAMMJJ-RecueilComplet.csv : Recueil labelisé
- AAMMJJ-CorpusArticles.csv : Corpus d'articles importé des sites d'intérèt

In [None]:
%%time
df_recueil = pd.read_csv('data/corpus/220621-RecueilComplet.csv')
df_corpus = pd.read_csv('data/corpus/220314-CorpusArticles.csv')

In [None]:
# Supression des articles vides
df_corpus=df_corpus[df_corpus['article'].isna()==False]

In [None]:
df_corpus.shape

In [None]:
df_recueil.shape

### Réduction du corpus d'articles

In [None]:
max_articles = 500

df_corpus = df_corpus.sample(n=max_articles)
df_corpus.shape

### Fusion text = titre + article

In [None]:
df_recueil['text'] = df_recueil['title']+'\n'+df_recueil['article']
df_corpus['text'] = df_corpus['title']+'\n'+df_corpus['article']

## 2 - Analyse recueil et corpus
### 2.1 Spacy Analyser

In [None]:
import patat.ml.spacy_analyser

In [None]:
importlib.reload(patat.ml.spacy_analyser)

Instanciation de l'analyseur

In [None]:
analyser = patat.ml.spacy_analyser.SpacyAnalyser()

#### Analyse du recueil labelisé
C'est long !...

In [None]:
%%time
df_spacy_recueil = analyser.analyse_df(df_recueil,'text')

#### Sauvegarde des articles labelisés avec ses descripteurs 
dans *AAMMJJ-SpacyRecueil.csv*

In [None]:
df_spacy_recueil.to_csv('data/corpus/220621-SpacyRecueil.csv',index=False)

Analyse du corpus d'articles -> Très long : ~290 articles par minute

In [None]:
%%time
df_spacy_corpus = analyser.analyse_df(df_corpus,'text')

Sauvegarde du corpus avec ses descripteurs
dans *AAMMJJ-SpacyCorpus.csv*

In [None]:
df_spacy_corpus.to_csv('data/corpus/220531-SpacyCorpus.csv',index=False)

### 2.2 Lexical Analyser

In [None]:
import patat.ml.lex_analyser

In [None]:
lex = patat.ml.lex_analyser.LexAnalyser()

In [None]:
%%time
df_lex_recueil = lex.analyse_df(df_recueil,'text')

In [None]:
df_lex_recueil.to_csv('data/corpus/220621-LexRecueil.csv',index=False)

In [None]:
%%time
df_lex_corpus = lex.analyse_df(df_corpus,'text')

In [None]:
df_lex_corpus.to_csv('data/corpus/220531-LexCorpus.csv',index=False)

## Bricolages

In [None]:
df_spacy_recueil[df_spacy_recueil['infox'].isna()]