In [4]:
import json
import pandas as pd
import spacy
import html.parser
import re
from spacy import displacy

In [None]:
from flashgeotext.geotext import GeoText
geotext = GeoText(use_demo_data=True)

nlpEn = spacy.load("en_core_web_lg") 
nlpFR = spacy.load('fr_core_news_md')
nlpsm = spacy.load("en_core_web_sm")
nlpMulti = spacy.load("xx_ent_wiki_sm") 

In [5]:
df = pd.read_json('data/dgOutput1000.json')
df.columns


Index(['bidDeadlineDate', 'buyerCountry', 'buyerName', 'contactAddress',
       'contactCity', 'contactCountry', 'contactEmail', 'contactFirstName',
       'contactLastName', 'contactPhone', 'contactState', 'country', 'cpvs',
       'creationDate', 'currency', 'description', 'dgmarketId',
       'estimatedCost', 'exclusion', 'exclusionWord', 'fileSource', 'lang',
       'noticeType', 'procurementId', 'procurementMethod', 'publicationDate',
       'sourceUrl', 'status', 'title', 'updateDate'],
      dtype='object')

In [6]:
def clean(Texte_Concat, accents = True):
    junk_space = [\
                    '<[^<]+?>', '\r\n', '!', ',', ';', '  ', '\t'\
                    '.', '?', '(', ')', '[', ']', '{', '}', '%', '*', '-', '_', '•', \
                    ':', '#', '€','–','>','<','«','»','+', '"', 'n°','N°', '●', '/', \
                    '►', '\n', '=', '“', '”', '…', '→', '‹', '≥', '⋅', '○',  \
                     '’', '‘', '—', '‑', 'Ø', 'Ä' \
                    ]
    Texte_without_junk = html.parser.unescape(Texte_Concat)
    Texte_without_junk = re.sub('<[^<]+?>', '', Texte_without_junk)

    for elmt in junk_space:
        Texte_without_junk = Texte_without_junk.replace(elmt,  ' ')
    return Texte_without_junk

In [7]:
df["text_clean"] = df["description"].apply(clean)

In [8]:
test = df["text_clean"][3]
test

"Contract notice  Hosting of the is of the anact aract network.  The service includes  hosting and monitoring of physical environments and production and pre production software operations management  supervision backups restorations archiving data security incident resolution co  administration of certain elements of the technical infrastructure supply of materials necessary for the performance of the contract associated services  advice technical support and engineering.  This contract is divided into lots  no  Deadline for receipt of tenders or requests to participate  September 18 2020   5 00 pm  Language  s  official  s  of the EU  French  Avis No 20 100581   publié le 09 08 2020   Dépt.   69 Anact departement finance gestion   Hébergement du SI du réseau Anact Aract.   Avis de marché Procédure Ouverte        Références complètes&nbsp     Avis  20 100581        Référence de TED     non disponible         Annonce            Département s  de publication   69Annonce No 20 100581I.II

In [7]:
#geoRes = geotext.extract(input_text= test, span_info=True)["cities"]
#geoRes
def traitement(x):
    cities = geotext.extract(input_text= x, span_info=True)["cities"]
    return(cities)
df['cities'] = df['description'].apply(traitement)

In [8]:
df['cities'] 

0                                                     {}
1      {'Saint-Denis': {'count': 1, 'span_info': [(33...
2      {'Nanterre': {'count': 2, 'span_info': [(1831,...
3      {'Lyon': {'count': 1, 'span_info': [(2301, 230...
4      {'Nanterre': {'count': 2, 'span_info': [(2464,...
5      {'Valenciennes': {'count': 3, 'span_info': [(2...
6      {'Mission': {'count': 1, 'span_info': [(1297, ...
7        {'Of': {'count': 1, 'span_info': [(112, 114)]}}
8      {'David': {'count': 1, 'span_info': [(288, 293...
9      {'Date': {'count': 1, 'span_info': [(880, 884)...
10     {'Date': {'count': 1, 'span_info': [(880, 884)...
11     {'Date': {'count': 1, 'span_info': [(880, 884)...
12     {'Date': {'count': 1, 'span_info': [(880, 884)...
13     {'Date': {'count': 1, 'span_info': [(880, 884)...
14     {'Date': {'count': 1, 'span_info': [(880, 884)...
15                                                    {}
16                                                    {}
17                             

In [9]:
df["text_clean"]

0      Contract notice  Afc 2019 and cross cutting sk...
1      Contract notice  Innovation partnership for th...
2      Contract notice  Long term rental of coaches w...
3      Contract notice  Hosting of the is of the anac...
4      Contract notice  Supply of signaling devices a...
5      Contract notice  Project management for rehabi...
6      Tenders are invited for Tenants ordering manag...
7      Tenders are invited for Creation of a graphic ...
8      L essentiel du marché \t\t\t \tNom et adresse ...
9                          Détail de la consultation ...
10                         Détail de la consultation ...
11                         Détail de la consultation ...
12                         Détail de la consultation ...
13                         Détail de la consultation ...
14                         Détail de la consultation ...
15     Électroménager et de matériel audiovisuel.Tele...
16     Fourniture et livraison de produits d'entretie...
17     Fourniture de dispositif

In [10]:
## détecter la langue du description
from langdetect import detect
df["lang_des"] = df["text_clean"].apply(detect)

In [11]:
offres_fr = df[df.lang_des == "fr"]
offres_en = df[df.lang_des == "en"]

In [12]:
#### Problème : certaines descriptions contiennent à la fois du texte en anglais et en français 
offres_fr["text_clean"][2]

"Contract notice  Long term rental of coaches without driver  The purpose of this consultation is the long term rental of driverless coaches for the needs of municipal services.  This contract is divided into lots  no  Deadline for receipt of tenders or requests to participate  September 25 2020   4 00 pm  Language  s  official  s  of the EU  French  Avis No 20 63451   publié le 08 08 2020   Dépt.   92 Mairie de nanterre   Location longue durée d'autocars sans chauffeur   Avis de marché Procédure Ouverte        Références complètes&nbsp     Avis  20 63451        Référence de TED     non disponible         Annonce            Département s  de publication   92Annonce No 20 63451I.II.III.IV.VI.AVIS DE MARCHÉDirective 2014 24 UELe présent avis constitue un appel à la concurrence Section I   Pouvoir adjudicateur                   I.1       NOM ET ADRESSES                Mairie de Nanterre 88 110 rue du 8 mai 1945 92000 Nanterre F Courriel   service.commandepublique mairie nanterre.fr  Code 

In [13]:
### texte en anglais
vec=offres_en["text_clean"]
vec2=vec.to_list()
vec2

en=list()
for doc in nlpsm.pipe(vec2, disable=["tagger", "parser"]):
    en.append([(ent.text, ent.label_) for ent in doc.ents])

In [15]:
## texte en français
text = offres_fr["text_clean"][4]
doc = nlpFR(text)

for entity in doc.ents:
    print(entity.text, entity.label_)

Contract MISC
Supply of signaling devices and urban comfort and safety equipment   MISC
The purpose of the contract that is the subject of this consultation is the supply of signaling devices and urban comfort and safety equipment necessary for the services of the city of nanterre MISC
They are MISC
It includes in particular the supply of vertical and permanent signage MISC
This contract is divided into lots MISC
Deadline for receipt of tenders or requests to participate MISC
September ORG
Language  s  official  s  of the EU MISC
French  Avis MISC
Dépt MISC
Avis de marché ORG
Avis ORG
Référence de TED MISC
MARCHÉDirective MISC
UELe MISC
Section I    PER
ADRESSES                Mairie LOC
Nanterre LOC
Nanterre F LOC
Adresse principale   http MISC
AccueilEntreprise MISC
I.2 MISC
AccueilEntreprise MISC
AccueilEntreprise ORG
ADJUDICATEUR ORG
Autorité régionale ORG
I.5 MISC
Services généraux ORG
Section II   Objet                   II.1       ÉTENDUE ORG
II.1.1 MISC
Fourniture LOC


# **** Français ****

In [34]:
# Français

vec=offres_fr["text_clean"]
vec2=vec.to_list()
vec2

ofr=list()

nlp = spacy.load("en_core_web_sm")
for doc in nlp.pipe(vec2, disable=["tagger", "parser"]):
    ofr.append([(ent.text, ent.label_) for ent in doc.ents])

In [35]:
personnes_fr= []

for i in range(len(ofr)):
    a=list()
    for j in range(len(ofr[i])):
        if ofr[i][j][1]=="PERSON":
            t = ''
            t = ' '.join(ofr[i][j][0].split())
            a.append(t)
    personnes_fr.append(a)

print(len(personnes_fr))
print(len(offres_fr))
personnes_fr

711
711


[["durée d'autocars",
  'Mairie de Nanterre',
  'Nanterre F Courriel',
  'service.commandepublique mairie',
  'être envoyées',
  "à l'adresse",
  "requiert l'utilisation d'outils et de dispositifs qui",
  'disponibles',
  "à l'adresse"],
 ['F Téléphone', 'être envoyées', "à l'adresse", 'B8HOgrFBKt&amp'],
 ['Mairie de Nanterre',
  'Nanterre F Courriel',
  'service.commandepublique mairie',
  'être envoyées',
  "à l'adresse"],
 ["Maîtrise d'oeuvre",
  'valenciennes.fr Adresse',
  'être',
  'être envoyées',
  "à l'adresse"],
 ['essentiel du marché',
  'M. Bustin',
  'David Maire',
  'Adresse',
  'aux écoles',
  'Lot',
  'Kms',
  'Quantité ou étendue&nbsp',
  'no2'],
 ['Croix Blanche', 'Nouvelle Aquitaine'],
 ['Référence INRAE 2020'],
 ['Intitulé Location de balayeuse'],
 ['Intitulé', "d'Industrie", "d'Industrie de Corse"],
 ['Référence 2020.003', 'Intitulé Le marché est', "d'Industrie de Corse"],
 ['Intitulé Levé'],
 ['et de matériel'],
 [],
 [],
 ["de l'institut"],
 ['Bassée Montois'],
 

In [36]:
org_fr= []

for i in range(len(ofr)):
    a=list()
    for j in range(len(ofr[i])):
        if ofr[i][j][1]=="ORG":
            t = ''
            t = ' '.join(ofr[i][j][0].split())
            a.append(t)
    org_fr.append(a)

print(len(org_fr))
print(len(org_fr))
org_fr

711
711


[['EU', 'un', 'NOM ET'],
 ['EU',
  'un',
  'NOM ET',
  'Thiers Point',
  'Courriel',
  'Adresse',
  'B8HOgrFBKt&amp'],
 ['EU', 'un', 'NOM ET'],
 ['EU', 'un', 'NOM ET', 'Adresse', 'CPV'],
 ['Nom', 'conde.fr', 'Possibilité de', 'un rayon', 'H.T.'],
 ['Créneau de Monbalen'],
 [],
 ['Solidaire Ministère de la Cohésion des Territoires',
  'Direction Interdépartementale des Routes Ouest'],
 ['L.1', 'Organisme Chambres de Commerce'],
 ['L.1', 'Chambres de Commerce', "d'Industrie", 'Bastia'],
 ["Création d'infrastructures",
  'Organisme Ministère des armées',
  "d'infrastructure de la défense de Metz"],
 [],
 [],
 [],
 [],
 ['Nord Ouest'],
 [],
 [],
 [],
 [],
 ['un outil intégrant trois',
  'aux',
  'pour le dépôt des comptes',
  "le cadre de l'action publique"],
 ['ont'],
 [],
 ['de Paris Référence',
  "Intitulé Travaux de sécurisation de l'entrée de l'Hôtel",
  "Objet Travaux de sécurisation de l'entrée de l'Hôtel Beauvau Organisme Ministère de l'Intérieur",
  'Bureau de la Commande Publique

In [38]:
dates_fr= []

for i in range(len(ofr)):
    a=list()
    for j in range(len(ofr[i])):
        if ofr[i][j][1]=="DATE":
            t = ''
            t = ' '.join(ofr[i][j][0].split())
            a.append(t)
    dates_fr.append(a)

print(len(dates_fr))
print(len(dates_fr))
dates_fr

711
711


[['September 25 2020', '08 08 2020', '8 mai 1945'],
 ['September 18 2020', '20 100581', '09 08 2020', '13 68'],
 ['an initial period of one year',
  'a period of 1 year',
  'September 18 2020',
  '08 08 2020',
  '8 mai 1945'],
 ['September 25 2020', '20 99869', '08 08 2020', '2020 12'],
 ['59690', '03 27 21 87 01'],
 ['21 09 2020 12'],
 ['18 09 2020 12'],
 ['17 09 2020 12'],
 ['14 09 2020 10'],
 ['14 09 2020 10'],
 ['07 09 2020 11 30'],
 [],
 [],
 ['2020.Angiography'],
 [],
 [],
 [],
 [],
 [],
 [],
 ['2022'],
 [],
 [],
 ['15 09 2020 12'],
 ['September 30 2020',
  '20 100195',
  '09 08 2020',
  '20 100195',
  '33311',
  '18 01',
  'arcachon.e',
  'arcachon.e'],
 ['September 21 2020', '20 100481', '09 08 2020', '20 100481', '1 46'],
 ['september 14 2020',
  '20 100490',
  '09 08 2020',
  '22130001500247 52',
  '2020 0180'],
 ['2 years',
  '2 years',
  '4 years',
  'September 8 2020',
  '23 59',
  '20 100364',
  '09 08 2020',
  '20 100364',
  '20006725400017',
  '20 76'],
 ['September 21 

# **** Anglais ****

In [39]:
# Anglais

vec=offres_en["text_clean"]
vec2=vec.to_list()

oen=list()

nlp = spacy.load("en_core_web_sm")
for doc in nlp.pipe(vec2, disable=["tagger", "parser"]):
    oen.append([(ent.text, ent.label_) for ent in doc.ents])

In [40]:
# Personne

personnes_en= []

for i in range(len(oen)):
    a=list()
    for j in range(len(oen[i])):
        if test[i][j][1]=="PERSON":
            t = ''
            t = ' '.join(oen[i][j][0].split())
            a.append(t)
    personnes_en.append(a)

print(len(personnes_en))
print(len(offres_en))
personnes_en

289
289


[['www.pole emploi.fr Adresse'],
 ['Voyageurs SNCF Rseau'],
 [],
 [],
 ['Cornut Gentille',
  'Cannes F Téléphone',
  'Adresse du',
  "l'adresse",
  'être',
  'être envoyées',
  "à l'adresse",
  'Police Municipale de la Ville de Cannes'],
 ['F Téléphone', 'Adresse', 'être envoyées', "à l'adresse"],
 ['Adresse', 'être envoyées', "à l'adresse"],
 ["d'assistance",
  'pour la mise',
  'Adresse',
  'être',
  'être envoyées',
  "à l'adresse"],
 [],
 ['Criteria'],
 [],
 [],
 ['max',
  'max',
  'www.agglo pau.fr Adresse',
  'www.agglo pau.fr',
  "l'adresse",
  'www.agglo pau.fr',
  'être envoyées',
  "à l'adresse",
  'www.agglo pau.fr'],
 ['Adresse', 'être', 'être envoyées', "à l'adresse"],
 [],
 ['Sampling'],
 [],
 [],
 ["requiert l'utilisation d'outils et de dispositifs qui",
  'disponibles',
  "à l'adresse"],
 ['Sdis',
  'F Téléphone',
  'cantal.fr Adresse',
  'Adresse',
  'Adresse',
  "d'acheteur",
  'F Téléphone',
  'Adresse',
  "d'acheteur",
  'être'],
 ['M1.11'],
 [],
 [],
 ['Commune de 

In [41]:
# Organisation

org_en= []

for i in range(len(oen)):
    a=list()
    for j in range(len(oen[i])):
        if test[i][j][1]=="ORG":
            t = ''
            t = ' '.join(oen[i][j][0].split())
            a.append(t)
    org_en.append(a)

print(len(org_en))
print(len(org_en))
org_en

289
289


[['Afc', 'EU', 'AFC', 'MARCHÉS', 'Pouvoir', 'Adresse'],
 ['CDC',
  'the Seine Saint Denis Departmental Council',
  'BMM',
  'ERP',
  'Time',
  'OL',
  'EU Institution',
  'European Union',
  'GPA',
  'CPV'],
 ['DCE', 'ACT'],
 [],
 ['pse',
  'EU',
  'un',
  'NOM ET',
  'agysoft.marches',
  'agysoft.marches',
  'agysoft.marches'],
 ['SECTEURS',
  'I.1',
  'NOM ET',
  'Adresse',
  "SUR LE RESEAU DE DISTRIBUTION D'ELECTRICITE DE LA GPE"],
 ['EU', 'un', 'NOM ET'],
 ['EU', 'un', 'NOM ET', 'aca.smit'],
 ['Time', 'Marne', 'EU Institution', 'European Union', 'GPA', 'EU'],
 ['Cleaning', 'the Socio Cultural Center'],
 ['Time', 'Habitat OL', 'HA EU Institution', 'European Union', 'GPA', 'CPV'],
 ['HAROPA',
  'HAROPA',
  'HAROPA',
  'house',
  'Time',
  'France Rouen Business',
  'GIE',
  'EU Institution',
  'European Union',
  'GPA'],
 ['Treatments', 'billre le', 'EU', 'un', 'NOM ET', 'Courriel', 'Adresse'],
 ['EU', 'IRVE', 'un', 'NOM ET', 'Adresse'],
 ['Time', 'EU Institution', 'European Union', 

In [42]:
# Dates

dates_en= []

for i in range(len(oen)):
    a=list()
    for j in range(len(oen[i])):
        if test[i][j][1]=="DATE":
            t = ''
            t = ' '.join(oen[i][j][0].split())
            a.append(t)
    dates_en.append(a)

print(len(org_en))
print(len(org_en))
dates_en

289
289


[['2019',
  '2019 2nd',
  'september 21 2020',
  'september 21 2020',
  '20 100596',
  '09 08 2020',
  '2019',
  '2019'],
 ['21 years', '31 08', '2020'],
 ['the later of the following'],
 [],
 ['24 months',
  '24 months',
  'September 7 2020',
  '20 100601',
  '09 08 2020',
  '100601',
  '21060029200010',
  '06406'],
 ['september 14 2020', '20 100331', '09 08 2020', '2014 25', 'Jarry 97122'],
 ['September 28 2020', '09 08 2020'],
 ['September 28 2020', '09 08 2020'],
 ['07 09', '09 07', '2020'],
 [],
 ['2020'],
 ['annual', '07 09', '09 07', '375030 2020', '2020'],
 ['September 18 2020',
  '23 59',
  '20 99771',
  '08 08 2020',
  '20006725400017',
  '20 72'],
 ['September 9 2020', '09 08 2020', '20 100254'],
 ['2020', '153 375152'],
 ['15 09', '375115 2020', '2020', '185911781000028', '2020'],
 ['2290', '93290', '07 09', '09 08', '374923 2020', '2020', '153 374923'],
 [],
 ['annual', 'September 30 2020', '08 08 2020', '1 49'],
 ['15015',
  '90627',
  '15006',
  'an initial period of 1 y

# Visualisation

In [16]:
displacy.serve(doc, style="ent")

  "__main__", mod_spec)



Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [None]:
##


In [29]:
text = offres_fr["text_clean"][4]
doc = nlpMulti("Rasmus Luckow-Nielsen is a good man")

Rasmus Rasmus
Luckow Luckow
- -
Nielsen Nielsen
is is
a a
good good
man man


In [None]:

)