In [1]:
import pandas as ps
import numpy as np 
import os
import re

In [2]:
os.listdir("data")

['Flore du Cameroun tome 10 1970 Ombellales',
 'Flore du Cameroun tome 10 1970 Ombellales.pdf',
 'Flore du Cameroun tome 12 1972 Loganiaceae',
 'Flore du Cameroun tome 12 1972 Loganiaceae.pdf',
 'Flore du Cameroun tome 16 1973 Sapindaceae',
 'Flore du Cameroun tome 16 1973 Sapindaceae.pdf',
 'Flore du Cameroun tome 17 1974 Amaranthaceae',
 'Flore du Cameroun tome 17 1974 Amaranthaceae.pdf',
 'Flore du Cameroun tome 2 1964 Sapotacees',
 'Flore du Cameroun tome 2 1964 Sapotacees.pdf',
 'Flore du Cameroun tome 6 1967 Cucurbitaceae',
 'Flore du Cameroun tome 6 1967 Cucurbitaceae.pdf',
 'Flore du Cameroun tome 9 1970 Caesalpinioidae',
 'Flore du Cameroun tome 9 1970 Caesalpinioidae.pdf']

In [3]:
folder = []
for item in os.listdir('data'):
    if(len(item.split('.')) == 1):
        folder.append(item)

In [4]:
folder

['Flore du Cameroun tome 10 1970 Ombellales',
 'Flore du Cameroun tome 12 1972 Loganiaceae',
 'Flore du Cameroun tome 16 1973 Sapindaceae',
 'Flore du Cameroun tome 17 1974 Amaranthaceae',
 'Flore du Cameroun tome 2 1964 Sapotacees',
 'Flore du Cameroun tome 6 1967 Cucurbitaceae',
 'Flore du Cameroun tome 9 1970 Caesalpinioidae']

In [5]:
def f_remove_accents(old):
    """
    Removes common accent characters, lower form.
    Uses: regex.
    """
    new = old.lower()
    new = re.sub(r'[àáâãäå]', 'a', new)
    new = re.sub(r'[èéêë]', 'e', new)
    new = re.sub(r'[ìíîï]', 'i', new)
    new = re.sub(r'[òóôõö]', 'o', new)
    new = re.sub(r'[ùúûü]', 'u', new)
    return new
f_remove_accents("CLÉ DES ESPÈCES CAMEROUNAISES ET GABONAISES")


'cle des especes camerounaises et gabonaises'

# 1 - Extract species names

In [6]:
def especes_pages(path):
    pages = []
    for i in range(len(os.listdir(path))):
        with open(path+'/'+ str(i+1) +'.txt', 'r') as fp:
            lines = fp.readlines()
            #print("=================")
            for j in range(len(lines)):
                l = lines[j].strip()
                l = l.replace('  ',' ')
                l = f_remove_accents(l)
                x = re.search("cle.?\sdes\sespece", l)
                if(x):
                    pages.append(i+1)
                    pages.append(i+2)
                    pages.append(i+3)
    return pages

In [7]:
def get_especes(pages):
    especes = []
    for p in pages:
        with open(path+'/'+ str(p) +'.txt', 'r') as fp:
            lines = fp.readlines()
            for j in range(len(lines)):
                l = lines[j].strip()
                l = l.replace('  ',' ')
                l = f_remove_accents(l)
                x = re.findall("\s\w\.\s\w+$", l)
                x = re.findall("[A-Za-z0-9]\.\s\w\.\s\w+\.?$", l)
                if(x):
                    especes.append(x)
    especes = np.array(especes).reshape(-1)
    esp = [esp.strip().split(' ')[2][:-1] for esp in especes]
    initials = [esp.strip().split(' ')[1][:-1].upper() for esp in especes]
    return esp, initials

def preprocess(line):
    l = line.strip()
    l = l.replace('  ',' ')
    #l = f_remove_accents(l)
    return l

## get species full name

In [8]:
def get_especes_names(especes, initials, path):
    esp_names = []
    for i in range(len(os.listdir(path))):
        with open(path+'/'+ str(i+1) +'.txt', 'r') as fp:
            lines = fp.readlines()
            for j in range(len(lines)):
                l = preprocess(lines[j])
                for i, esp in enumerate(especes):
                    contains = l.find(esp.capitalize()) != -1 or l.find(esp) != -1 
                    if contains:
                        exp = "^[1-9]\.\s{}[a-z]+.*".format(initials[i])
                        x = re.findall(exp, l)
                        if(x):
                            full_name = x[0].strip()[3:]
                            full_name = full_name.split(' ')[0]+' '+full_name.split(' ')[1]
                            esp_names.append(full_name)
    return esp_names

## Execute

In [46]:
paths = ['data/'+ fold for fold in folder]
names = []
for path in paths:
    print(path)
    print("======================")
    pages = especes_pages(path)
    especes, initials = get_especes(pages)
    print("Species number : "+ str(len(especes)))
    all_species = get_especes_names(especes,initials, path)
    names += all_species
    print("Species title number : "+ str(len(all_species)))

data/Flore du Cameroun tome 10 1970 Ombellales
Species number : 17
Species title number : 16
data/Flore du Cameroun tome 12 1972 Loganiaceae
Species number : 63
Species title number : 43
data/Flore du Cameroun tome 16 1973 Sapindaceae
Species number : 62
Species title number : 41
data/Flore du Cameroun tome 17 1974 Amaranthaceae
Species number : 21
Species title number : 17
data/Flore du Cameroun tome 2 1964 Sapotacees
Species number : 33
Species title number : 33
data/Flore du Cameroun tome 6 1967 Cucurbitaceae
Species number : 37
Species title number : 30
data/Flore du Cameroun tome 9 1970 Caesalpinioidae
Species number : 92
Species title number : 69


In [47]:
len(set(names))

213

In [48]:
all_species

['Griffonia physocarpa',
 'Griffonia speciosa',
 'Piliostigma Thonningii',
 'Piliostigma reticulatum',
 'Amphimas ferrugineus',
 'Amphimas pterocarpoides',
 'Dialium Dinklagei',
 'Dialium Zenkeri',
 'Cassia Mannii',
 'Cassia mimosoides',
 'Cassia Kirkii',
 'Cassia alata',
 'Cassia italica',
 'Cassia Sieberana',
 'Cassia obtusifolia',
 'Gilletiodendron Mildbraedii',
 'Cynometra Mannii',
 'Plagiosiphon emarginatus',
 'Plagiosiphon longitubus',
 'Plagiosiphon multijugus',
 'Plagiosiphon discifer',
 'Hymenostegia brachyura',
 'Hymenostegia Breteleri',
 'Hymenostegia Felicis',
 'Afzelia africana',
 'Oxystigma Buchholzii',
 'Copaifera Mildbraedii',
 'Copaifera religiosa',
 'Detarium microcarpum',
 'Detarium macrocarpum',
 'Tessmannia anomala',
 'Tessmannia africana',
 'Daniellia Oliveri',
 'Daniellia oblonga',
 'Isomacrolobium leptorrhachis',
 'Isomacrolobium isopetalum',
 'Anthonotha ferruginea',
 'Anthonotha lamprophylla',
 'Anthonotha fragrans',
 'Gilbertiodendron ogoouense',
 'Gilbertiod

# =================================
# 2 - Find organes and descriptors
# =================================

In [9]:
from bs4 import BeautifulSoup as bs
import requests

url="https://fr.wikipedia.org/wiki/Glossaire_de_botanique"
response = requests.get(url)

html = response.content

soup = bs(html, 'lxml')


In [10]:
def get_glossaire(soup):
    glossaire = []
    div = soup.find("div", {"class" : "mw-parser-output"})
    uls = div.find_all("ul")
    for i, ul in enumerate(uls):
        lis = ul.find_all("li")
        for li in lis:
            if li.find("b") != None:
                noun = li.get_text().split(':')[0][:-1].strip()
                if re.search("adjectif",li.get_text()) or re.search("se dit\s",li.get_text()) or re.search("é$",noun) or re.search("qualifie\s",li.get_text()):
                    glossaire.append((noun.split(' ')[0].lower(), "adj"))
                    #print(noun.strip().split(' ')[0].lower() + ': adj')
                else:
                    glossaire.append((noun.split(' ')[0].lower(), "noun"))
                    #print(noun.strip().split(' ')[0].lower() + ': adj')
    return glossaire

In [11]:
glossaire = get_glossaire(soup)

In [132]:
organes = [
    "racine",
    "tige",
    "bourgeon",
    "rhizome",
    "tubercule",
    "bulbe",
    "collet",
    "limbe",
    "lobe",
    "pétiole",
    "sessile",
    "foliole",
    "calice",
    "sépale",
    "calicule",
    "corolle",
    "anthère"
    "tépale",
    "stipule",
    "foliole",
    "carpelle",
    "grappe ",
    "vrille",
    "feuille",
    "fleur"
]

In [13]:
adjs = [gls[0].lower() for gls in glossaire if gls[1] == "adj"]
nouns = [gls[0].lower() for gls in glossaire if gls[1] == "noun"]

In [14]:
adjs = adjs[:339] + adjs[341:]

## TEST ===============

In [15]:
from nltk import pos_tag, word_tokenize
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='french')

In [16]:
text = """
Plante  herbacée  grimpante  dioïque  à tiges  grêles,  sillonnées, 
glabres. 
Feuilles  pétiolées;  pétiole  grêle,  légèrement  pubescent  ou 
glabre,  portant  à son  sommet  deux  glandes  coniques,  longues  de 
7-20 mm;  limbe  membraneux  ovale-oblong  ou largement  ovale, 
5-11  X 4"7  cm,  glabre  sur les deux  faces,  tronqué  à la base  ou très 
légèrement  émarginé,  parfois  3-5-lobé,  lobes  aigus  ou apiculés, 
triangulaires,  bords  faiblement  sinueux-dentés.  Des  trois  nervures 
basilaires,  les deux  latérales  se bifurquent  très  tôt;  nervures  net-
tement  saillantes  à la face  inférieure,  marquées  à la face  supérieure. 
Vrilles  grêles,  simples,  glabres. 
Inflorescences  ¿ en racèmes  pauciflores,  6-10  fleurs  environ, 
fleurs  blanches,  axes  des racèmes  atteignant  8-12  cm de longueur, 
glabres;  pédicelles  glabres,  longs  de 5-20  mm,  bractée  minuscule. 
Coupe  florale  très  allongée,  globuleuse  à la base,  puis  rétrécie  et 
enfin  cylindrique,  atteignant  5o mm  de longueur,  glabre  à la face 
externe,  villeuse  sur  la face  interne,  10 mm  de diamètre  à la 
gorge.  Sépales  linéaires  aigus,  longs  de 4-5  mm  glabres,  portant 
quelques  glandes  sur leurs  bords.  Pétales  obovales,  finement  pubes-
cents  sur les deux  faces,  à bords  plus  ou moins  enroulés,  longs  de 
2-3 cm.  Anthères  cohérentes  au milieu  de la coupe  florale,  loges 
condupliquées,  longues  de I,5-2  cm,  filets  très  courts. 
"""

In [17]:
from nltk import sent_tokenize

In [18]:
sentences = sent_tokenize(text)

In [19]:
###===============================
# utils functions 
###===============================

def prepare(sentence):
    sent = sentence.replace("\n", "").lower()
    sent = preprocess(sent)
    sent = " ".join(word_tokenize(sent))
    return sent

def did_overlap(pos, begin, end):
    for i, p in enumerate(pos):
        if p[0] == begin or p[1] == end:
            return True
    return False

def fix_overlap(temp):
    for i in range(len(temp)-1):
        for j in temp[i+1:]:
            if temp[i][0] == j[0] or temp[i][1] == j[1]:
                len_i = temp[i][1] - temp[i][0]
                len_j = j[1] - j[0]
                if(len_i > len_j):
                    temp.remove(j)
                else:
                    temp.remove(temp[i])
    return temp

def get_measure_begining(sent, last_index):
    last = last_index
    while True:
        virg_ind = sent[:last].rfind(",")
        if sent[virg_ind - 1].isdigit():
            last = virg_ind
        else:
            break
    begin = virg_ind + re.search("\d+",sent[virg_ind:]).span()[0]
    return begin

In [138]:
#Extract organs
def organe_(sent):
    pos = []
    tokens = word_tokenize(sent)
    for org in organes:
        stem = org
        start = [m.start() for m in re.finditer(stem, sent)]
        if len(start) != 0:
            for st in start:
                begin = st
                end = st + sent[begin:].find(' ')
                if did_overlap(pos, begin, end):
                    continue
                else:
                    pos.append((begin, end, 'ORGAN' ))
    return pos
#Extract descriptor
def descripteur(sent):
    pos = []
    tokens = word_tokenize(sent)
    for adj in adjs:
        stem = adj
        start = [m.start() for m in re.finditer(stem, sent)]
        if len(start) != 0:
            for st in start:
                begin = st
                end = st + sent[begin:].find(' ')
                if did_overlap(pos, begin, end):
                    continue
                else:
                    pos.append((begin, end, 'DESC' ))
    # try to find descriptors using POS (adjectivs ends with é,ée,és,ées)
    start = [m.start() for m in re.finditer("\w+é\s|\w+ée\s|\w+és\s|\w+ées\s", sent)]
    if len(start) != 0:
        for st in start:
            begin = st
            end = st + sent[begin:].find(' ')
            if did_overlap(pos, begin, end):
                continue
            else:
                pos.append((begin, end, 'DESC' ))
    pos = list(set(pos))
    return pos

#Extract measure
def measure(sent):
    pos = []
    tokens = word_tokenize(sent)
    if(re.search(" m | cm | mm ", sent)):
        measures = re.findall(" m | cm | mm ", sent)
        start = [m.start() for m in re.finditer(" m | cm | mm ", sent)]
        for i, st in enumerate(start):
            begin = get_measure_begining(sent, st)
            end = st + len(measures[i]) -1    
            if did_overlap(pos, begin, end):
                continue
            else:
                pos.append((begin, end, 'MEASURE' ))
    return pos

# Extract colors

In [21]:
colors = [
    "rouge",
    "rose",
    "bleu",
    "pourpre",
    "violet",
    "jaune",
    "orange",
    "crème",
    "blanc",
    "blanche",
    "vert",
    "brun"
]

In [22]:
sentences = sent_tokenize(text)

for sent in sentences:
    sent = prepare(sent)

In [23]:
#Extract color
# search in color list
def color_1(sent):
    pos = []
    tokens = word_tokenize(sent)
    for c in colors:
        start = [m.start() for m in re.finditer(c , sent)]
        if len(start) != 0:
            for st in start:
                begin = st
                # solve the problem of finding DESC & COLOR in the same Entity
                if sent[begin:].find('-') == -1:
                    end = begin + sent[begin:].find(' ')
                else:
                    
                    end = begin + min(sent[begin:].find(' '),sent[begin:].find('-'))
                # for example verticalisé is classified as a color so we check its length 
                if did_overlap(pos, begin, end) or ((end - begin) > len(c)+2) :
                    continue
                else:
                    pos.append((begin, end, 'COLOR' ))
    return pos
# word ends with âtre
def color_2(sent):
    pos = []
    tokens = word_tokenize(sent)
    for c in colors:
        stem = c
        start = [m.start() for m in re.finditer("\s\w+âtre|\s\w+âtres" , sent)]
        if len(start) != 0:
            for st in start:
                begin = st+1
                end = begin + sent[begin:].find(' ')
                if did_overlap(pos, begin, end):
                    continue
                else:
                    pos.append((begin, end, 'COLOR' ))
    return pos
# combine both functions
def color(sent):
    pos = color_1(sent) + color_2(sent)
    pos = fix_overlap(pos)
    return pos

In [25]:
sentences

['\nPlante  herbacée  grimpante  dioïque  à tiges  grêles,  sillonnées, \nglabres.',
 'Feuilles  pétiolées;  pétiole  grêle,  légèrement  pubescent  ou \nglabre,  portant  à son  sommet  deux  glandes  coniques,  longues  de \n7-20 mm;  limbe  membraneux  ovale-oblong  ou largement  ovale, \n5-11  X 4"7  cm,  glabre  sur les deux  faces,  tronqué  à la base  ou très \nlégèrement  émarginé,  parfois  3-5-lobé,  lobes  aigus  ou apiculés, \ntriangulaires,  bords  faiblement  sinueux-dentés.',
 'Des  trois  nervures \nbasilaires,  les deux  latérales  se bifurquent  très  tôt;  nervures  net-\ntement  saillantes  à la face  inférieure,  marquées  à la face  supérieure.',
 'Vrilles  grêles,  simples,  glabres.',
 'Inflorescences  ¿ en racèmes  pauciflores,  6-10  fleurs  environ, \nfleurs  blanches,  axes  des racèmes  atteignant  8-12  cm de longueur, \nglabres;  pédicelles  glabres,  longs  de 5-20  mm,  bractée  minuscule.',
 'Coupe  florale  très  allongée,  globuleuse  à la base,  pui

In [133]:
sent = sentences[4]
sent

'Inflorescences  ¿ en racèmes  pauciflores,  6-10  fleurs  environ, \nfleurs  blanches,  axes  des racèmes  atteignant  8-12  cm de longueur, \nglabres;  pédicelles  glabres,  longs  de 5-20  mm,  bractée  minuscule.'

In [134]:
sent = prepare(sent)

In [135]:
sent

'inflorescences ¿ en racèmes pauciflores , 6-10 fleurs environ , fleurs blanches , axes des racèmes atteignant 8-12 cm de longueur , glabres ; pédicelles glabres , longs de 5-20 mm , bractée minuscule .'

In [136]:
res = descripteur(sent) + organe_(sent) + measure(sent) + list(set(color(sent)))
res

[(132, 139, 'DESC'),
 (153, 160, 'DESC'),
 (182, 189, 'DESC'),
 (47, 53, 'ORGAN'),
 (64, 70, 'ORGAN'),
 (110, 117, 'MEASURE'),
 (172, 179, 'MEASURE'),
 (71, 79, 'COLOR')]

In [137]:
for r in res:
    print(sent[r[0] : r[1]] , r[2])

glabres DESC
glabres DESC
bractée DESC
fleurs ORGAN
fleurs ORGAN
8-12 cm MEASURE
5-20 mm MEASURE
blanches COLOR


In [126]:
re.findall("\w+é\s|\w+ée\s|\w+és\s|\w+ées\s", sent)

[]

In [107]:
# try to find descriptors using POS (adjectivs ends with é,ée,és,ées)

start = [m.start() for m in re.finditer("\w+é\s|\w+ée\s|\w+és\s|\w+ées\s", sent)]
start

[9, 234, 271, 294, 316, 368]

In [120]:
sent[130:138]

'marquées'

##  Create training dataset

In [407]:
import random

random.shuffle(folder)

In [408]:
folder

['Flore du Cameroun tome 16 1973 Sapindaceae',
 'Flore du Cameroun tome 12 1972 Loganiaceae',
 'Flore du Cameroun tome 6 1967 Cucurbitaceae',
 'Flore du Cameroun tome 9 1970 Caesalpinioidae',
 'Flore du Cameroun tome 10 1970 Ombellales',
 'Flore du Cameroun tome 2 1964 Sapotacees',
 'Flore du Cameroun tome 17 1974 Amaranthaceae']

In [409]:
folder_train, folder_test = folder[:5], folder[5:]

In [411]:
folder_test

['Flore du Cameroun tome 2 1964 Sapotacees',
 'Flore du Cameroun tome 17 1974 Amaranthaceae']

In [412]:
%%time

DATA = []
for f in folder_train:
    path = 'data/' + f
    for i in range(len(os.listdir(path))):
        with open(path+'/'+ str(i+1) +'.txt', 'r') as fp:
            lines = fp.read()
            sentences = sent_tokenize(lines)

            for sent in sentences:
                sent = prepare(sent)
                sent = " ".join(word_tokenize(sent))
                res = descripteur(sent) + organe_(sent) + measure(sent) + list(set(color(sent)))
                if len(res) != 0:
                    res = fix_overlap(res)
                    res = {'entities' : res}
                    result = (sent , res)
                    DATA.append(result)


Wall time: 1min 28s


In [425]:
import spacy
from spacy.tokens import DocBin
from pathlib import Path
import warnings

def convert(lang: str, TRAIN_DATA, output_path: Path):
    nlp = spacy.blank(lang)
    db = DocBin()
    for text, annot in TRAIN_DATA:
        doc = nlp.make_doc(text)
        ents = []
        for start, end, label in annot["entities"]:
            span = doc.char_span(start, end, label=label)
            if span is None:
                msg = f"Skipping entity [{start}, {end}, {label}] in the following text because the character span '{doc.text[start:end]}' does not align with token boundaries:\n\n{repr(text)}\n"
                warnings.warn(msg)
            else:
                ents.append(span)
        doc.ents = ents
        db.add(doc)
    db.to_disk(output_path)

In [426]:
convert("fr", DATA, "ner_data/train.spacy")


"7/ pour toute autre question relative à la réutilisation des documents numérisés par le mnhn , l'utilisateur est invité à s'informer auprès de la direction des bibliothèques et de la documentation : patrimoinedbd @ mnhn.fr"


"fleurs zygomorphes , avec plan de symétrie du disque et de l'androcée oblique , ou actinomorphes ."


"la base des étamines s'insère très souvent dans des échancrures internes du disque ( laccodiscus , blighia ) qui est ainsi extrastaminal ."


'uandrocée est assez variable : isostémone épisépale ( haplocœlum , crosso-nephelis , dodonsea ) ou alternisépale ( ganophyllum ) , généralement subdi-plostémone ( ( 7 ) -8- ( 9 ) étamines en 2 cercles ) , parfois polystémone ( 20-30 étamines dans deinbollia ) .'


'uandrocée est assez variable : isostémone épisépale ( haplocœlum , crosso-nephelis , dodonsea ) ou alternisépale ( ganophyllum ) , généralement subdi-plostémone ( ( 7 ) -8- ( 9 ) étamines en 2 cercles ) , parfois polystémone ( 20-30 étamines dans deinbollia )


'fruit subsphérique à obovale , de 5-7 mm .'


"forme connue du sénégal , de guinée , de côte d'ivoire , du nigeria et du ghana ."


"espèce distribuée du zaïre et de l'uganda à la zambie dans les gale-ries forestières et les savanes jusqu ' à 2000 m d'altitude ."


'radlkofer cite cette plante parmi 18 espèces africaines insuffisam-ment connues et la considère comme voisine de la fa .'


'pour hauman , « la constance de la forme des folioles et la distribution géographique obligent à conserver cette espèce à côté de a. africanus .'


'type : schweinfurth 3696 , pays des niam-niam près de nabambino , congo ( distribué sous le nom de schmidelia africana ) .'


"reconnue au cameroun , en république centrafricaine , au gabon et au congo , dans les forêts ombrophiles sèches ou inondables , primaires ou secondaires , jusqu ' à 1 800 m. d'altitude ."


"arbuste de 3 m ; rameaux cylindriques à longs poils ( 1-2 mm ) roux ferrugineux , étalés ; pétiole canaliculé , hirsute ; pétiolule 10 mm ;


'rachis foliaire long de 75 cm dont 31 cm au dessous de la première paire de folioles , cylin-drique de 5 mm de diamètre , finement strié en long à sec ; 5-7 paires de folioles opposées ou subopposées , à pétiolule de 5-12 mm ; limbe glabre , discolore à sec , olivacé dessus , roussâtre dessous , oblong obové , à base aiguë inégale et sommet abruptement acuminé , de 15-40 x 7-14 cm ; nervure médiane glabre dans une légère dépression à la face supérieure ; 14-18 paires de nervures secondaires en relief , ainsi que le fin réticule , sur les deux faces à sec .'


'rachis foliaire pubescent , long de 27-40 cm ; 3-4 paires de folioles opposées ou subopposées ; pétiolules velus ou finement pubérulents , de 4-8 mm ; folioles obovées elliptiques de 16-32 x 7-12 cm , à base ± obtuse à sub-aiguë , à sommet acuminé caudé ; limbe subconcolore , pubescent dessous , parfois très finement ; nervure médiane pubescente dessus , velue ochracée à poils mous dessous ; 10-20 paires de nervures secondaires


'feuilles bi-pennées , pétiole ( 10-20 cm ) et rachis ( 40-45 cm ) striés ; pinnules opposés ( 9-12 paires ) de 12-'


'22 cm , aplaties dessus , à base épaissie ; tous ces axes couverts de poils étoilés ferrugineux ; 15-20 paires de folioles de 17-20 x 7-8 mm , asymétri-ques , légèrement falciformes , glabres dessus , velues sous la nervure médiane , env .'


'22 cm , aplaties dessus , à base épaissie ; tous ces axes couverts de poils étoilés ferrugineux ; 15-20 paires de folioles de 17-20 x 7-8 mm , asymétri-ques , légèrement falciformes , glabres dessus , velues sous la nervure médiane , env .'


"genre placé par radlkofer dans la tribu des schleicherées non d'après la nature du fruit mais par la ressemblance des feuilles avec celles du genre macphersonia blume , d'afrique orientale et de madagascar , notamment m. pteridophylla bâillon ."


'y. arille soudé à la graine dont le tégument est blanchâtre , tendre ; calice à 4-6 sépales valvaires ; parfois pétales nuls ; fruit rouge , ±


"arbres élevés , 30-40 m , dioïques ; jeunes pousses couvertes de résine ; rameaux glabres ; écorce faisant mousser l'eau ."


"feuilles paripennées , à 5-9 ( -12 ) paires de folioles , le plus souvent alternes , dissymétriques , ± falci-formes , acuminées , entières , membraneuses , glabres , à cellules résinifères dont la sécrétion rend les feuilles brillantes , d'où le nom générique ( du grec ganos = brillant , et phyllum = feuille ) ."


"fleurs régulières ; calice à 5 ( -7 ) sépales soudés sur le quart de leur hauteur ; disque formé de lobes opposés aux sépales ; 5 ( -7 ) étamines , alternisépales , insérées entre les lobes du disque ; filets glabres de 3-4 mm ; leur forme dans le bouton est donnée de diverses façons selon l'auteur : courts et droits ( radlkofer ) , infléchis ( boerlage & koorders ) , chiffonnés ( le testu"


'espèce reconnue au cameroun , en république centrafricaine , au gabon et au zaïre ( donis 2257 , etc ... ) .'


'graines sans revêtement poilu , au nombre 


'étamines incluses , insérées dans le tube de la corolle à mi-hauteur ou un peu plus haut , à filet très court ; anthère ciliée à poils strigilleux tout autour , ou seulement à la base .'


'pistil glabre , de 2-2,5 mm de longueur ; ovaire ovoïde , de 1,5-2 x 0,8-1,5 mm , à 2 loges ; stigmate subsessile , oblong ; nombreux ovules par loge .'


'ctenotricha duvign. , 1. c. : 65 .'


'arbuste grimpant ou liane , atteignant une hauteur de 3-30 m , ou petit arbre subsarmenteux de 5-12 m de hauteur ; tige ou tronc de 4-20 cm de'


"feuilles à pétiole ochracé-pubescent , généralement transversalement rugueux à l'état sec , de 1-5 ( -6 ) mm de longueur ; limbe papyracé à coriace , de forme et de grandeur très variables , largement ové , elliptique , étroite-ment elliptique ou étroitement ové , de 2-7 ( -10 ) x 1-4 ( -5 ) cm , généralement obtus et apiculé , mais souvent aigu , parfois obtusément acuminé ou émar-giné au sommet , arrondi , cuné ou parfois subcordé à la base , glabre ou ochracé


"pistil glabre ou parfois garni d'une pubescence papilleuse et fine , de ( 2,2- ) 3-3,2 mm de longueur ; ovaire globuleux ou ovoïde , de 1 x 0,8-1 mm , à 2 loges ; style assez long , de ( 1,2- ) 2-2,2 mm de longueur ; stigmate capité ou indistinctement bilobé ; 8-25 ovules par loge ."


"feuilles à pétiole garni d'une pubescence ochracée , court , de 1-3 ( -5 ) mm de longueur , généralement transversalement rugueux en dessous ; limbe subcoriace ou moins souvent coriace , même sur le vif , plus mince pour les feuilles d'ombre , elliptique ou étroitement elliptique ( et pour les feuilles situées sur l'axe principal ové , largement ové ou orbiculaire ) , de grandeur variable , de 1,5-10 x 1,3-5 cm , à l'ombre atteignant jusqu ' à 17,5 x 7,5 cm , acuminé ou parfois , pour quelques feuilles , obtus ou aigus au sommet , cuné , arrondi ou parfois , surtout pour les feuilles situées sur l'axe central , subcordé à la base , habituellement garni d'une pubescence éparse en dessus sur la nervure 


"7/ pour toute autre question relative à la réutilis ation des documents numérisés par le mnhn , l'utilis ateur est invité à s'informer auprès de la direction des bibl iothèques et de la documentation : patrimoinedbd @ mnhn.fr"


'les tiges plus ou moins grêles sont glabres ou couvertes de poils souples ou raides parfois presque en crochets ; elles portent des vrilles situées latéralement sur les nœuds au niveau des feuilles et des inflorescences .'


'feuilles simples , entières ou lobées , plus ou moins profondément divisées , parfois palmatilobées , ou feuilles composées de 3-g folioles ; limbes parcheminés membraneux , subcoriaces à coriaces , de taille très variable , portant quelques glandes chez le genre cayaponia .'


"l'insertion des filets , ou des étamines subsessiles , varie avec les genres ou même les espèces : du fond de la coupe florale à la gorge de cette coupe ."


"l'ovaire est infère dans la plupart des cas ; seul le genre gerrardanthus a un ovaire semi-infère et fa


'etamines insérées vers la base de la coupe florale , environ à son tiers inférieur ; filets longs de i,5 mm ; loges courbées , petites ; connectif subglobüleux , épais de o,5 mm , couvert de poils .'


'pistillode trilobé à lobes coniques , long de i,5 mm .'


"ovaire subglobuleux , ovoïde ; style long de i,25 mm , entouré à sa base d'un disque trilobé haut de i mm , denté au bord ; stigmates subcapités ."


"ovaire subglobuleux , ovoïde ; style long de i,25 mm , entouré à sa base d'un disque trilobé haut de i mm , denté au bord ; stigmates subcapités ."


'ouverte ( breteler 1387 ) ; 4 , fleur $ x 5 , et s , id .'


'ouverte ( winkler 322 ) .'


": 6 , rameau florifère ¡j x 2/3 ; 7 , fleur ¿f x 5 ; 8 , fleur < j , périanthe ouvert x 5 ; 9 , fleur $ x 5 ; 10 , id. , périanthe ouvert ; 11 , fruit x 3/2 ; 12 et 13 , graine , vue de faee et de profil x4 ( 6 à 10 d'après j. s- a. raynal 12346 ; 11 à 13 d'après endengle 198 ) ."


": 6 , rameau florifère ¡j x 2/3 ; 7 , fleur ¿f x 5 ; 8 , 


"ovaire oblong ou globuleux , hispide , à 3 placentas ; style droit , parfois entouré d'un anneau à sa base ; 3 stigmates 3-5-lobés , subcordiformes ; ovules nombreux , horizontaux ."


'feuilles pétiolées ; pétiole long de 1,5-4 cm , densément pubes-cent ; limbe entier , ovale ou obovale-oblong , long de 6-9 cm , large de 5-8 cm , obtus-mucronulé au sommet , à bords crénelés-ondulés , à petites dents aiguës longues de 1 mm dans les creux des ondulations du limbe ; face supérieure du limbe finement ponctuée-blanchâtre par des poils fins à base écailleuse , brun'


'x 3 ; 4 , fleur < ? , périanthe ouvert x 3 ; s , étamine x 3 ; 6 , bouton ç x 2 ; 7 , jeune fruit x 9 ; 8 , et 9 , graine vue de face et de profil x 3 .'


'pédicelles très courts , fleurs subsessiles , rosâtres .'


'coupe florale campanulée , longue et large à la gorge de 5 mm , couverte de poils assez longs .'


'sépales et corolle semblables à ceux de la fleur ovaire ovoïde-oblong , densément recouvert de longs poils ro


'm tiges et feuilles couvertes de poils raides , les rendant scabres , plantes i bis .'


'plante herbacée annuelle monoïque , à tiges anguleuses , pro-fondément sillonnées longitudinalement , rampantes , couvertes de poils laineux blanchâtres .'


"feuilles pétiolées ; pétiole long de 6-12 cm , plus ou moins velu , limbe parcheminé , ovale-triangulaire dans son contour général , 8-20 x 5-i5 cm , profondément lobé , vert clair sur le frais , les deux faces recouvertes de poils épars laineux , parfois glabres-centes à l'exception des nervures , qui portent de longs poils sou-ples et soyeux ; lobes du limbe pinnatifides ou bipinnatifides , à bords ondulés ou ± lobulés , obovales , oblongs-lancéolés ou subli-néaires , ± aigus au sommet ."


"feuilles pétiolées ; pétiole long de 6-12 cm , plus ou moins velu , limbe parcheminé , ovale-triangulaire dans son contour général , 8-20 x 5-i5 cm , profondément lobé , vert clair sur le frais , les deux faces recouvertes de poils épars laineux , pa


'bussea feuilles simples , entières ou bilobées : zenkerella cercées feuilles unifoliolées : baphiopsis didelotia unifoliolata feuilles unijuguées : guibourtia aphanocalyx didelotia africana didelotia letouzeyi eurypetalum unijugum loesenera gabonehsis paraberlinia bifoliolata écorce a latex rougeâthe : dialium ( p.p . )'


'nervure principale divisant symétriquement le limbe ( sauf à la base ) .'


'folioles alternes à subopposées ; des points translucides .'


'pétales oblancéolés vert pâle , aigus à la base , arrondis au sommet , de io-i5 x 3-4 mm .'


'feuilles ovées , arrondies à subcordées à la base , arrondies ou courtement et obtusément acuminées au sommet , glabres , 3-nervées à la base , 6-12 x 3-6 cm .'


'feuilles elliptiques à oblongues , arrondies à subcordées à la base , aiguës à acuminées au sommet , glabres , de /¡-i2 x 2,5-6,5 cm .'


'pétales lie de vin , obov.és à oblancéolés , aigus à la base , arrondis'


"pétales oblancéolés , longs de io-i5 mm , larges d'env ."


'feuilles à 5-g paires de folioles ovées-elliptiques , aiguës et subacuminées au sommet , nettement pétio-lulées , 3-4,5 x i-2,5 cm .'


'stipules à oreillettes foliacées remar-quables , subpersistantes .'


"feuilles à 3-4 paires de folioles lancéolées à ovées , à sommet subacuminé aigu , 4 '' 11 x 2-4 cm ."


"folioles alternes , parfois subopposées , ^ criblées de points translucides ; nervures secondaires tracées généralement jusqu ' à une nervure marginale ."


"une espèce existe dans le nord de la côte d'ivoire , plutôt proche de g. kisantuense que de g. pierreanum ; elle n'est connue jusqu ' à présent que par des spécimens stériles ."


"'à1i ; 5 ; jmsde ; longueur ; folioles ohlongues-subreetsjh^ilaii'es , ' i ijs-^ix 0^511^5 oœ , .. arrondies ourçbitubèss pft sommet , sessiles , à base très inégale , tronquée parallèlement au rachis '' , la partie postérieure très rétrécie ; quelques points trans-lucides épars ; nombreuses et fines nervures secondaires tracées jusqu ' à la ne


'fût parfois sinueux .'


"gros fruit ligneux , droit , à valves lisses , de io-3o x 5,5-8 cmv il contient de 5 à 10 graines , chacune placée dans une loge aux * cloisons séparatrices ' bien- marquées ."


'nervures secondaires réunies en arcs près de la marge et nervilles intermédiaires parallèles , nombreuses , formant avec des veinules un réseau peu saillant mais bien visible sous le limbe .'


'pétale 1 , long de 2,5 à 4,5 cm , longuement onguiculé , blanc taché de rouge à la base ou rose ; onglet étroit , velu à la base ; lame profondément bilobée , large de 2 cm , glabre .'


'profondément bilobé .'


'un grand pétale blanc avec une tache rouge.au centre , puis rose ; limbe bilobé de 3 cm de largeur ; onglet de 3 cm environ , velu à la base .'


'graines à arille bilobé rouge orangé .'


"• < .. la distinction en herbier entre a. bella et a. bipindensis n'apparaît- pas toujours immédiatement avec netteté .. dans je bassin du congo il existe une variété glabra aubr.1 à .axes , pé


"une dizaine d'espèces d'afrique occidentale et équatoriale : i. elongatum en sierra leone ; i. vignei de sierra leone au ghana ; i. nigericum et i. obanense au nigeria ; i. leptorrhachis au cameroun ; i. graciliflorum au rio muni ; i. sargosii et i. lebrunii au congo ."


'espèce connue du cameroun méridional .'


'calice à 4 sépales dont un ^ bilobé .'


'une troisième espèce , mal connue , est décrite du gabon , t. pellegrinii aubréville \\ 33 .'


'un grand pétale bilobé , ongui-culé .'


"présence d'une petite couronne intrastaminale portant des staminodes ."


'un grand pétale postérieur blanc bilobé .'


"présence d'une petite collerette intrastaminale porteuse de stami-nodes ."


"l'espèce la plus septentrionale , puisqu'on la trouve dans les savanes boisées et galeries forestières soudaniennes mais aussi dans les forêts denses du littoral du golfe de guinée , est un arbuste , a. crassifolia , qui ressemble beaucoup à va. macrophylla ."


'un grand pétale à lame bilobée , long


"c'est pourquoi il nous a paru nécessaire de séparer génériquement l'espèce de léonard d'abord attribuée à anthonotha puis à isomacrolobium ."


'ovaire subsessile .'


"caduque et qui laisse une cicatrice intrapétiolaire qui s'étend longuement et très visiblement de part et d'autre sur le rameau ."


"enfin les jeunes rameaux s'étirent à partir de gros boutons écailleux , dont les écailles très serrées et très caduques laissent à la base du nouveau rameau un anneau de cicatrices annulaires très rapprochées et très caractéristiques ."


"du sud du nigeria au congo apparaissent 5 autres espèces , dont 2 endémiques gabonaises , auxquelles il faudra peut-être , lorsqu'elles seront mieux connues , ajouter 2 autres espèces ."


'— zenkerella citrina taubert : 7 , rameau florifère x 2/3 ; 8 , bractée x 4 ; 9 , fleur x 3 .'


'folioles ovées-elliptiques ou ovées -- oblongjiîes , à sommet graduellement acuminé , à base symétrique arrondie , subcoriaces , glabres , mesurant ordinairement 10-16


'folioles rhomboïdales , au sommet obtus , parfois grossièrement bilobé , sessiles , coriaces ; à la base le lobe antérieur est arrondi , le lobe postérieur atténué .'


"dissymétrie de la foliole tant à la base qu'au sommet , très marquée par la nervure principale en diagonale ."


"gousses ligneuses , plates , obovales , i5-2i x 7-8,5 cm , terminées par une courte pointe recourbée , marquées d'une ner-vure longitudinale ."


"feuilles paripennées , rachis pubescent de io-i5 cm ; 17-20 paires de folioles un peu falciformes , longues de 20-25 mm larges de 5-6 mm , linéaires-oblongues , à base tronquée parallèle-ment au rachis , le lobe postérieur étant prolongé d'une nette auri-cule ; à sommet arrondi , subémarginé , le lobe antérieur dépassant le lobe postérieur ; glabres sauf quelques cils fins sur les marges ."


"feuilles paripennées , rachis pubescent de io-i5 cm ; 17-20 paires de folioles un peu falciformes , longues de 20-25 mm larges de 5-6 mm , linéaires-oblongues , à base tr


'digitées , glabres , plutôt minces : stipules intrapétiolaires , longues de 2 cm , adhérentes à la base du pétiole ; pétiole robuste , arrondi , strié , atteignant 20 cm de long ; 5-g folioles , articulées sur un pétiolule long de 5-7 cm ; limbe ovale-lancéolé , 6-18 x 14-32 cm , cordé , subcordé ou tronqué à la base , longuement — i5 —'


"fleurs obovoïdes , hautes de mni avant l'anthèse ; récep-tacle obconique , large de 2,5 mm pour 2 mm de haut , marge du calice épaisse , légèrement étalée , entière ; corolle calyptriforme , se détachant en entier par sa base ; étamines à anthère oblongue de i,5 mm ; disque déprimé ; 5-9 styles encore peu développés , brièvement réunis à leur base ."


'est axillé par une bractée de i,5-2 cm ; ombellules nombreuses , axillées par une bractée toujours bien développée , lancéolée , parfois subfoliacée , pouvant atteindre i,5 cm ; rarement subsessiles , plus souvent portées par un pédoncule divariqué , souvent de i-i,5 cm et pouvant atteindre 3 cm ; 

In [428]:
%%time

VALID = []
for f in folder_test:
    path = 'data/' + f
    for i in range(len(os.listdir(path))):
        with open(path+'/'+ str(i+1) +'.txt', 'r') as fp:
            lines = fp.read()
            sentences = sent_tokenize(lines)

            for sent in sentences:
                sent = sent.replace("\n", "").lower()
                sent = preprocess(sent)
                sent = " ".join(word_tokenize(sent))
                res = descripteur(sent) + organe_(sent) + measure(sent) + list(set(color(sent)))
                if len(res) != 0:
                    res = fix_overlap(res)
                    res = {'entities' : res}
                    result = (sent , res)
                    VALID.append(result)


Wall time: 17.8 s


In [429]:
convert("fr", VALID, "ner_data/valid.spacy")


"7/ pour toute autre question relative à la réutilis ation des documents numérisés par le mnhn , l'utilis ateur est invité à s'informer auprès de la direction des bibl iothèques et de la documentation : patrimoinedbd @ mnhn.fr"


'ces touffes de feuilles contribuent à donner aux cîmes un aspect caractéristique .'


"le type à nervures secondaires bien marquées , assez espacées , réunies ou non par dés nervilles parallèles transversales , c'est le type banal , commun à de nom-breux genres ( manilkara p. , letestua , baillonella , lecomtedoxa p. , gluema , omphalocarpum , tridesmostemon , gambeya , synse-palum , vincentella , pachystela , aningeria ) ."


"certains grands arbres ont des feuilles à nervation secondaire peu accusée , mais des nervures tertiaires intercalaires parallèles aux nervures secon-daires donnent l'impression d'une nervation latérale assez serrée ."


"signalons : les points translu-cides toujours présents , mais non toujours aisément visibles des aningeria , du ga


'sépales oblongs , obtus , 5-6 mm long , couverts de poils en navette extérieurement , glabres intérieurement .'


"le fruit ne contient qu'une graine , remarquable par la cicatrice basale circulaire ."


"le limbe est d'abord couvert en dessous d'un tomentum brunâtre qui est rapidement caduc , mais persiste cependant assez long-temps sur la nervure médiane et vers le pétiole ."


'un petite cicatrice à la base de la graine .'


"très jeunes feuilles couvertes d'un tomentum roux rapidement caduc ."


"gros fruit à une seule graine lourde , dure , marquée d'une cicatrice subrectangulaire basiventrale couvrant environ la moitié de la face ventrale ."


"elle demeure insuffisamment connue et il n'est pas certain qu'elle soit vraiment distincte de l'espèce de chevalieu a. congolensis ."


"( 1 ) les graines du genre aulranella , décrites par de wildeman en 1905-1907 , puis par chevalier en 1917 qui nomma le genre , étaient déjà connues d'engler d'après des récoltes faites au cameroun ."




'espèce des montagnes et des galeries forestières du domaine périphérique septentrional de la région guinéo-congolaise , et qui , curieusement , se retrouve au mayombé ( gabon ) et en angola dans le domaine homologue périphérique méridional .'


"au cameroun elle est signalée dans le pays bamiléké et dans l'adamaoua , c'est-à-dire au-delà des limites septentrionales de la forêt dense conti-"


'une seule graine ellipsoïde à très large cicatrice ventrale , env .'


"le genre est caractérisé par les lobes de la corolle oblongs , plus longs que le tube , les étamines à filets aussi longs que les lobes et insérés au niveau de la soudure de ceux-ci , l'absence de staminodes , l'ovaire à ,5 loges , le style terminé par un stigmate épais , le fruit à une seule graine ellip-soïde marquée d'une cicatrice occupant toute la face ventrale ."


'ils sont jaunes à maturité et contiennent une seule graine ellipsoïde longue de 2 cm env. , à cicatrice très large , cou-vrant plus de la moitié de la sur


'2 cm long , contenant une seule graine ellipsoïde à large cicatrice ventrale .'


'graines plates à cicatrice latérale et basale .'


"l'espèce type b. leptosperma a été découverte en côte d'ivoire ( a ."


"son aire sembie donc s'étakr vers ¡a péri-phérie- septentrional de ia forêt guinéo-congoiaise , dans l'aire des forêts semi-décidues à malvales'et uhnacées , c'est-à-dire dans le domaine périphérique septentrional de la région gmnéo-congo-laise ."


"son aire sembie donc s'étakr vers ¡a péri-phérie- septentrional de ia forêt guinéo-congoiaise , dans l'aire des forêts semi-décidues à malvales'et uhnacées , c'est-à-dire dans le domaine périphérique septentrional de la région gmnéo-congo-laise ."


'corolle tubulaire , blanc verdâtre , mesurant 2 cm long environ et o,5 cm de diamètre , glabre , courtement 5-lobée au sommet .'


"2 cm long et i,4 cm large , marquées d'une cicatrice latérale et basale linéaire ."


'ovaire hérissé de longs poils , terminé par un style prismatique , 5-


'feuilles sessiles ; limbe obovale à oblancéolé , obtus ou arrondi au sommet et mucronulé , cunéiforme à la base , de 2,5-4,5 x 1,3-2 cm , pubescent sur les deux faces ; 3 paires de ner-vures secondaires , ascendantes , plus nettes en dessous .'


'feuilles sessiles ; limbe obovale à oblancéolé , obtus ou arrondi au sommet et mucronulé , cunéiforme à la base , de 2,5-4,5 x 1,3-2 cm , pubescent sur les deux faces ; 3 paires de ner-vures secondaires , ascendantes , plus nettes en dessous .'


"fleurs à l'aisselle de bractées lancéolées , acu-minées , de 6-7 mm , poilues ; préfeuilles similaires , de 5 mm ."


"épis formés de cymules solitaires à l'aisselle des bractées per-sistantes du rachis de l'inflorescence , entourées de 2 préfeuilles tardive-ment caduques , composées de 1 fleur fertile médiane g et de 2 fleurs stériles latérales chacune réduite à un petit bourgeon poilu accompagné de 1-2 brac-téoles assez petites ."


"fréquente aux bords des eaux , dans les galeries forestières e

## ===============

# Tesseract OCR

In [None]:
import os
from PIL import Image
from pdf2image import convert_from_path
import pytesseract

pytesseract.pytesseract.tesseract_cmd =r'C:\Users\NEW-USER\AppData\Local\Tesseract-OCR\tesseract.exe'
poppler_path = r"C:\Users\NEW-USER\AppData\Local\poppler-22.04.0\Library\bin"

In [None]:
from pdf2image import convert_from_path
from pytesseract import image_to_string
from PIL import Image

In [None]:
def convert_pdf_img(pdf_file):
    return convert_from_path(pdf_file, poppler_path = poppler_path)
def convert_img_txt(file):
    text = image_to_string(file)
    return text

def get_text_from_any_pdf(pdf_file):
    images = convert_pdf_img(pdf_file)
    final_text = ""
    for pg,img in enumerate(images):
        print(pg)
        final_text += convert_img_txt(img)
    return final_text

In [None]:
path_pdf = 'data/Flore du Cameroun tome 10 1970 Ombellales.pdf'
pdf1 = get_text_from_any_pdf(path_pdf)
print(pdf1)