# Analyse 1 : utilisation de regexp et de patterns spacy

on essaie d'extraire des termes connus, et des locutions typiques, pour d√©tecter les r√©f√©rences aux personnages et aux lieux.



## Trouver et lister les fichiers

In [7]:
from glob import glob
import os.path

In [None]:
# FIXME fournir code lecture fichiers depuis Google Drive ici (archive format zip)

In [8]:
PATH_TEXT_FILES_DIR = "/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts"

In [10]:
files = sorted(glob(os.path.join(PATH_TEXT_FILES_DIR, "*.txt")))
print("Found", len(files), "files.")
files[:10]

Found 100 files.


['/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00101_Adam.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00102_Adam.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00201_Audoux.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00301_Aimard.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00302_Aimard.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00401_Allais.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00501_Balzac.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00502_Balzac.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00503_Balzac.txt',
 '/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00601_Boisgobey.txt']

In [11]:
sample = files[50]
sample

'/home/joseph/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA03001_Ohnet.txt'

## Import spacy and start processing

In [None]:
import spacy


## L'objet `nlp`
On construit une nouvelle cha√Æne de traitements de plusieurs fa√ßon. La mani√®re la plus simple est de construire une cha√Æne de traitement vide (ou presque) pour le fran√ßais √† l'aide de la "fabrique" √† cha√Ænes de traitement `spacy.blank(LANGAGE)`.

In [None]:
nlp = spacy.blank("fr")


La cha√Æne de traitements contient diff√©rents traitements appliqu√©s les uns apr√®s les autres.
On peut afficher cette liste de traitements √† l'aide de l'attribut `pipe_names` de l'objet `nlp`.

In [13]:
nlp.pipe_names

[]

Par d√©faut, une cha√Æne de traitement ne contient rien‚Ä¶ Sauf un *tokenizer*, d'o√π l'importance de pr√©ciser la langue !

## L'objet `doc`
On obtient un objet `doc` en appliquant la cha√Æne de traitement `nlp` √† une cha√Æne de texte.


In [23]:
# Cr√©√© en traitant une chaine de caract√®res avec l'objet nlp
doc = nlp("Bonjour tout le monde !")

Cet objet `doc` est central pour Spacy : il contient toute les informations produite par la cha√Æne de traitement √† propos de notre texte.

On peut parcourir les *tokens* extraits √† l'aide d'une boucle classique en Python.

In [24]:
# It√®re sur les tokens dans un Doc
for token in doc:
    print(token.text)

Bonjour
tout
le
monde
!


In [25]:
# On peut s√©lectionner un token particulier, gr√¢ce √† son indice dans le document
token = doc[1]
token

tout

### Exemple de cellule avec contenu cach√© par d√©faut
#### üöß <b>Essayez √† pr√©sent de s√©lectionner et afficher les <i>tokens</i> "tout le monde".</b>

<details>
<summary>Indices</summary>

Vous pouvez utiliser les *ranges* pour s√©lectionner plusieurs √©l√©ments d'un it√©rable. Voici un exemple de la syntaxe √† utiliser :
```python
ma_liste = [0, 1, 2, 3]
print(ma_liste[1:3])
```
</details>

<details>
<summary>Solution</summary>

On applique cette syntaxe pour s√©lectionner les tokens du rang 1 (2e token, inclus) au rang 4 (non inclus) :

```python
doc[1:4]
```
</details>


In [29]:
# On peut √©galement utiliser les "ranges" Python pour s√©lectionner plusieurs tokens
span = doc[1:4]
span

tout le monde

In [30]:
# On peut √©galement acc√©der aux attributs d'un span
span.text

'tout le monde'

Lorsqu'on souhaite traiter plusieurs documents, on peut utiliser `nlp.pipe(LISTE_DE_TEXTES)`.
Dans ce cas, on obtient une liste de documents en sortie, qu'il est possible d'inspecter avec une seconde boucle !

In [31]:
TEXTES = [
    "Bonjour tout le monde !", 
    "Comment allez-vous ? Bien, j'esp√®re !",
    "Savez-vous qu'une cha√Æne de caract√®res peut contenir des retours √† la ligne\ncomme celui-ci ?"
    ]
documents = nlp.pipe(TEXTES)
for doc_id, doc in enumerate(documents):
    for token in doc:
        print(f"doc#{doc_id}, tok#{token.i}: {token.text}")

doc#0, tok#0: Bonjour
doc#0, tok#1: tout
doc#0, tok#2: le
doc#0, tok#3: monde
doc#0, tok#4: !
doc#1, tok#0: Comment
doc#1, tok#1: allez
doc#1, tok#2: -vous
doc#1, tok#3: ?
doc#1, tok#4: Bien
doc#1, tok#5: ,
doc#1, tok#6: j'
doc#1, tok#7: esp√®re
doc#1, tok#8: !
doc#2, tok#0: Savez
doc#2, tok#1: -vous
doc#2, tok#2: qu'
doc#2, tok#3: une
doc#2, tok#4: cha√Æne
doc#2, tok#5: de
doc#2, tok#6: caract√®res
doc#2, tok#7: peut
doc#2, tok#8: contenir
doc#2, tok#9: des
doc#2, tok#10: retours
doc#2, tok#11: √†
doc#2, tok#12: la
doc#2, tok#13: ligne
doc#2, tok#14: 

doc#2, tok#15: comme
doc#2, tok#16: celui-ci
doc#2, tok#17: ?


## 

In [32]:
## Autres attributs des tokens et des spans

doc = nlp("Cela co√ªte 5 ‚Ç¨.")

print("Index :   ", [token.i for token in doc])
print("Text :    ", [token.text for token in doc])

print("is_alpha :", [token.is_alpha for token in doc])
print("is_punct :", [token.is_punct for token in doc])
print("like_num :", [token.like_num for token in doc])

Index :    [0, 1, 2, 3, 4]
Text :     ['Cela', 'co√ªte', '5', '‚Ç¨', '.']
is_alpha : [True, True, False, False, False]
is_punct : [False, False, False, False, True]
like_num : [False, False, True, False, False]


In [66]:

# Process a text
doc = nlp("La journ√©e de formation √† Lyon se d√©roule bien.")
for token in doc:
    # print(token.text, token.pos_, token.dep_, token.head.text)
    print(f"{token.text:>10s}", f"{token.pos_:>6s}", f"{token.dep_:>12s}", f"{token.head.text:>10s}")

        La    DET          det    journ√©e
   journ√©e   NOUN        nsubj    d√©roule
        de    ADP         case  formation
 formation   NOUN         nmod    journ√©e
         √†    ADP         case       Lyon
      Lyon  PROPN         nmod    journ√©e
        se   PRON    expl:comp    d√©roule
   d√©roule   VERB         ROOT    d√©roule
      bien    ADV       advmod    d√©roule
         .  PUNCT        punct    d√©roule


In [67]:
from spacy import displacy

In [68]:
displacy.render(doc, style="ent", jupyter=True)

## Utilisation d'un pipeline avec un pos_tagger et un reconnaisseur d'entit√©s nomm√©es

In [35]:
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.7.0/fr_core_news_sm-3.7.0-py3-none-any.whl (16.3 MB)
[2K     [38;2;114;156;31m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m16.3/16.3 MB[0m [31m25.5 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m0:01[0m:01[0m
Installing collected packages: fr-core-news-sm
Successfully installed fr-core-news-sm-3.7.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')


In [36]:

nlp = spacy.load("fr_core_news_sm")

In [49]:
def load_text(filename: str) -> str:
    with open(filename, encoding="utf8") as in_file:
        return "".join(in_file.readlines())

In [55]:
text = load_text(files[50])
print(text)
doc = nlp(text)

I
Dans un de ces charmants chemins creux de Normandie, serpentant entre les lev√©es, plant√©es de grands arbres, qui entourent les fermes d'un rempart de verdure imp√©n√©trable au vent et au soleil, par une belle matin√©e d'√©t√©, une amazone, mont√©e sur une jument de forme assez m√©diocre, s'avan√ßait au pas, les r√™nes abandonn√©es, r√™veuse, respirant l'air ti√®de, embaum√© du parfum des tr√®fles en fleurs. Avec son chapeau de feutre noir entour√© d'un voile de gaze blanche, son costume de drap gris fer √† longue jupe, elle avait fi√®re tournure. On e√ªt dit une de ces aventureuses grandes dames qui, au temps de Stofflet et de Cathelineau, suivaient hardiment l'arm√©e royaliste, dans les tra√Ænes du Bocage, et √©clairaient de leur sourire la sombre √©pop√©e vend√©enne.
√âl√©gante et svelte, elle se laissait aller gracieusement au mouvement de sa monture, fouettant distraitement de sa cravache les tiges vertes des gen√™ts. Un l√©vrier d'√âcosse au poil rude et rouge√¢tre l'accompagn

In [59]:
# It√®re sur les entit√©s pr√©dites
for ent in doc.ents:
    # Affiche le texte de l'entit√© et son label
    print(ent.text, ent.label_)

I LOC
Normandie LOC
Stofflet PER
Cathelineau LOC
Bocage LOC
√âl√©gante ORG
√âcosse LOC
amazone LOC
Madame PER
Rassurez PER
Monsieur PER
Allons PER
Fox ORG
O√π MISC
La Neuville LOC
Madame PER


In [63]:
spacy.explain("GPE")

'Countries, cities, states'

In [64]:
spacy.explain("LOC")

'Non-GPE locations, mountain ranges, bodies of water'

## Utilisation du matcher Spacy
TODO montrer comment filtrer sur lex√®me, nature ou fonction du token.

In [58]:
pattern = [{"POS": "PROPN"}]

In [None]:
spacy.explain("PROPN")

'proper noun'

In [56]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)
matcher.add("NOMS_PROPRES", [pattern])
matches = matcher(doc)

In [57]:
print("Nombre de correspondances trouv√©es :", len(matches))

# It√®re sur les correspondances et affiche la portion de texte
for match_id, start, end in matches:
    print("Correspondance trouv√©e :", doc[start:end].text)

Nombre de correspondances trouv√©es : 10
Correspondance trouv√©e : Normandie
Correspondance trouv√©e : Stofflet
Correspondance trouv√©e : Cathelineau
Correspondance trouv√©e : √âcosse
Correspondance trouv√©e : Rassurez
Correspondance trouv√©e : Allons
Correspondance trouv√©e : Fox
Correspondance trouv√©e : Neuville
Correspondance trouv√©e : volontiers
Correspondance trouv√©e : hasard


In [None]:
## Ouverture : utilisation de la biblioth√®que Transformers

# https://huggingface.co/Jean-Baptiste/camembert-ner (m√™me API !)

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/camembert-ner")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/camembert-ner")


##### Process text sample (from wikipedia)

from transformers import pipeline

nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("Apple est cr√©√©e le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs √† Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne14, puis constitu√©e sous forme de soci√©t√© le 3 janvier 1977 √† l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refl√©ter la diversification de ses produits, le mot ¬´ computer ¬ª est retir√© le 9 janvier 2015.")
