# French Named Entity Recognition (NER) using Spacy

References:
French models (based on news) https://spacy.io/models/fr/

NER code examples https://www.geeksforgeeks.org/python-named-entity-recognition-ner-using-spacy/




In [None]:
# Run this cell only once per session to download the French "news" model
#!python -m spacy download fr_core_news_sm # small model 15 MB
!python -m spacy download fr_core_news_lg # large model 545 MB

In [2]:
# ner_french.ipynb, a Python script for doing named entity recognition on French text.

# (c) 2024 Vanderbilt University. This program is released under a GNU General Public License v3.0 http://www.gnu.org/licenses/gpl-3.0
# Author: Steve Baskauf

version = '0.0.1'
created = '2024-02-19'

# ------------------
# Imports
# ------------------

import spacy
nlp = spacy.load("fr_core_news_lg")


Test using hard-coded text. Analyze and show parts of speech.

In [3]:
text = '''L'empoisonnement a toujours excité l'horreur et l'indignation,
non-sculement parce qu'il frappe dans l'ombre des victimes fata-
lement vouées à la mort, mais parce qu'il répand l'effroi sur la
société tout entière. Cette frénésie éclata sous Louis XIV, après
les guerres civiles de la régence. La Fronde, en jetant les hommes
sur les champs de bataille, avait laissé aux femmes une liberté
qu'elles perdirent avec la paix ; les maris revinrent chez euv
vieillis, brutaux et blasés par la licence des armées et par les
amours de passage; en outre, les communications fréquentes avec
l'Espagne avaient mis la jalousie à la mode; sans être prison-
nières, les femmes étaient très-renfermées et fort surveillées;
même à la cour, elles ne communiquaient guère avec les
hommes qu'à certains jours de réception et dans les bals, et alors
la conversation roulait exclusivement sur l'amour et les histoires
scandaleuses; un entretien sérieux sur des matières graves les eût
exposées à passer pour des précieuses, et Louis XIV ne les aimait
pas; d'ailleurs il donnait l'exemple de la galanterie, et tous les
hommes cherchaient à l'imiter. Quel combat devait se livrer dans
le caur des femmes lorsque, rentrées chez elles, au lieu des
hommages prodigués par leurs adorateurs, elles ne trouvaient au
logis que la solitude ou les brutalités et les transports jaloux de
leurs maris ! Les habitudes de l'ancieune liberté, et la facilité de
mncurs qu'avait encouragée Mazarin pendant la Fronde, les
avaient mal préparées à cette gêne dont rien ne diminuait l'ennui;
les passions comprimées devinrent plus violentes, beaucoup de'''

doc = nlp(text)
#print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)


L' DET det
empoisonnement NOUN nsubj
a AUX aux:tense
toujours ADV advmod
excité VERB ROOT
l' DET det
horreur NOUN dep
et CCONJ cc
l' DET det
indignation NOUN conj
, PUNCT punct

 SPACE dep
non-sculement ADV advmod
parce SCONJ mark
qu' SCONJ fixed
il PRON expl:subj
frappe VERB advcl
dans ADP case
l' DET det
ombre NOUN obl:mod
des ADP case
victimes NOUN nmod
fata- VERB amod

 SPACE dep
lement ADV advmod
vouées VERB acl
à ADP case
la DET det
mort NOUN obl:arg
, PUNCT punct
mais CCONJ cc
parce SCONJ mark
qu' SCONJ fixed
il PRON nsubj
répand VERB conj
l' DET det
effroi NOUN obj
sur ADP case
la DET det

 SPACE dep
société NOUN obl:mod
tout ADV advmod
entière ADJ amod
. PUNCT punct
Cette DET det
frénésie NOUN ROOT
éclata VERB acl
sous ADP case
Louis PROPN obl:mod
XIV PROPN flat:name
, PUNCT punct
après ADP case

 SPACE dep
les DET det
guerres NOUN nmod
civiles ADJ amod
de ADP case
la DET det
régence NOUN nmod
. PUNCT punct
La DET det
Fronde PROPN nsubj
, PUNCT punct
en ADP mark
jetant VERB ac

Show identified named entities. First column is the type of entity, second column is starting character within text string, third column is ending character within text string, fourth column is the identified named entity. Types (from https://spacy.io/models/fr) are:

| code | description |
| ---- | ----------- |
| PER | persons |
| ORG | organizations |
| LOC | locaitons |
| MISC | miscellaneous |


In [4]:
for ent in doc.ents:
    print(ent.label_, '\t', ent.start_char, '\t', ent.end_char, '\t', ent.text)

PER 	 242 	 251 	 Louis XIV
MISC 	 294 	 303 	 La Fronde
LOC 	 582 	 591 	 l'Espagne
PER 	 1007 	 1016 	 Louis XIV
PER 	 1452 	 1459 	 Mazarin
MISC 	 1471 	 1477 	 Fronde


In [12]:
# map your google drive

from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


Use a folder in the Google Drive called "ner_french"

In [None]:
directory_path = '/content/drive/MyDrive/ner_french/'
file_path = directory_path + 'rawTextSentHolly.txt'
with open(file_path, 'r') as file:
    raw_text = file.read()

# Need to analyze the text in smaller chunks. See error message when too large of a text blob was processed:
"""
Text of length 1203251 exceeds maximum of 1000000. The parser and NER models require roughly 1GB of temporary
memory per 100,000 characters in the input. This means long texts may cause memory allocation errors. If you're
not using the parser or NER, it's probably safe to increase the `nlp.max_length` limit. The limit is in number
of characters, so you can check whether your inputs are too long by checking `len(text)`.
"""

truncated_text = raw_text[:50000] # Analyze the first 50 000 characters

doc = nlp(truncated_text)
#print(doc)
for ent in doc.ents:
    print(ent.label_, '\t', ent.start_char, '\t', ent.end_char, '\t', ent.text)