# Deuxième essai BM25 pour requêter les DPEFs et chercher des sujets spécifiques.

In [1]:
%load_ext autoreload
%autoreload 2

# general libraries
import pandas as pd; pd.set_option('display.max_colwidth', -1)
import numpy as np

# NLP libraries
from spacy.lang.fr import French
import spacy
# from spacy.cli.download import download
# download('fr_core_news_md')

# custom libraries
import scoring

# indexing
# Microsoft Visual C++ 14.0 is required. 
# Get it with "Build Tools for Visual Studio": https://visualstudio.microsoft.com/downloads/
# CGA: can't install right now...
# !pip install annoy
# from annoy import AnnoyIndex

In [2]:
# DATA IMPORT
dpef_entreprises = "../../data/processed/DPEFs/dpef_paragraphs_sentences.csv"
df = pd.read_csv(dpef_entreprises, sep=";")
print(df.shape)
df = df.loc[0:1000]
documents = df["sentence"].values.tolist() # strings

(23874, 9)


In [3]:
nlp = spacy.load('fr_core_news_sm')

In [4]:
nlp.pipeline

[('tagger', <spacy.pipeline.pipes.Tagger at 0x215216b2d88>),
 ('parser', <spacy.pipeline.pipes.DependencyParser at 0x21521788fa8>),
 ('ner', <spacy.pipeline.pipes.EntityRecognizer at 0x21521776108>)]

In [5]:
# instantiate the bm25 scorer using only words and not punctuation # <1min for 19k sentences
documents_words = []
for doc in nlp.pipe(documents, disable=["parser","ner"]):
    documents_words.append([token.text for token in doc if token.pos_!="PUNCT"])
# bm25 = scoring.Scoring.create("bm25")

In [1]:
documents_words[0]

NameError: name 'documents_words' is not defined

In [21]:
bm25.index(documents_words)

In [24]:
import pickle
with open("../../data/model/words_scorer.pckl", "wb") as f:
    pickle.dump(bm25, f)

In [25]:
bm25_loaded = pickle.load(open("../../data/model/words_scorer.pckl", "rb"))

In [33]:
[token.pos_ for token in nlp("Ceci est un test pollution marine")]

['PRON', 'AUX', 'DET', 'NOUN', 'NOUN', 'ADJ']

In [28]:
bm25_loaded.weights("Ceci est un test pollution marine".split())

[6.477348923759632,
 2.0559555321585474,
 1.8257452855735985,
 6.477348923759632,
 6.85257517701197,
 6.477348923759632]

In [29]:
nlp = spacy.load('fr_core_news_md') # long because of vectors

In [43]:
# Add custom calculation of sentence weight
# Improvement: removal of rare words, etc.
# Improvement: add LSA model to reduce noise in embeddings...
def overwrite_vector_with_weights(doc, scorer=bm25):
    " Score each non-punctuation token from spacy doc, and overwrite the vector representation using BM25 weights"
    word_tokens = [token.text for token in doc if token.pos_ != "PUNCT"]
    word_vectors = [token.vector for token in doc if token.pos_ != "PUNCT"]
    weights = bm25.weights(word_tokens)
    doc.vector = np.average(word_vectors, weights=np.array(weights, dtype=np.float32),axis=0)
    return doc
if "overwrite_vector_with_weights" in nlp.pipeline:
    nlp.replace_pipe("overwrite_vector_with_weights", overwrite_vector_with_weights)
else:
    nlp.add_pipe(overwrite_vector_with_weights)

In [44]:
# transform all documents and overwrite their vector using BM25 weights
documents = list(nlp.pipe(documents)) # else only done once

In [65]:
new_doc = nlp('préservation biodiversité marine')
N_TO_RETRIEVE = 10
similarities = np.array([new_doc.similarity(doc) for doc in documents])
best_matches = np.argsort(-similarities)[:10] # top n
best_matches, similarities[best_matches]

(array([14578, 14931,  4271,  2955, 14928,   910,  4272, 16197, 13833,
         2976], dtype=int64),
 array([0.83305887, 0.75814401, 0.7455708 , 0.69594272, 0.69349737,
        0.64909942, 0.64175053, 0.63775241, 0.63639142, 0.63110251]))

In [66]:
for bet_match_i in best_matches:
    print(documents[bet_match_i], similarities[bet_match_i])

● le label Marine Stewardship Council (MSC) pour la pêche responsable, qui garantit non-pratique de la surpêche et le respect de l’environnement marin ; 0.8330588671578245
Moderniser la flotte pour la rendre plus propre et silencieuse Carrefour modernise sa flotte de véhicules. 0.7581440102112053
Eiffage met en œuvre en 2018 et 2019 des dispositifs biogènes et à biodiversité positive en milieu marin dans le cadre des travaux d’agran- dissement de Port-Haliguen (Morbihan), expérimentation soutenue par l’Agence française pour la biodiversité (AFB) dans le cadre du PIA 2 biodiversité. 0.7455707953751177
sur la biodiversité dans les infrastructures (lutte contre les espèces invasives, mesures compensatoires, accueil de la biodiversité marine, etc.) et la biodiversité urbaine (toitures végétalisées, démarche en développement 0.6959427199222613
● moderniser la flotte pour la rendre plus propre et silencieuse ; 0.6934973688803485
dans différents environnements, avec l’approfondissement des ét

In [4]:
a = range(10)
for x in a:
    pass 
a[9]

9

In [68]:
best_df = df.loc[best_matches]
best_df["score"] = similarities[best_matches]
best_df[["denomination", "sentence", "paragraph", "score"]]

Unnamed: 0,denomination,sentence,paragraph,score
14578,Carrefour,"● le label Marine Stewardship Council (MSC) pour la pêche responsable, qui garantit non-pratique de la surpêche et le respect de l’environnement marin ;","● le label Marine Stewardship Council (MSC) pour la pêche responsable, qui garantit non-pratique de la surpêche et le respect de l’environnement marin ;",0.833059
14931,Carrefour,Moderniser la flotte pour la rendre plus propre et silencieuse Carrefour modernise sa flotte de véhicules.,"Moderniser la flotte pour la rendre plus propre et silencieuse Carrefour modernise sa flotte de véhicules. Plus de 200 camions roulent désormais au biométhane carburant, moins polluants et moins bruyants. La flotte Carrefour compte plus de 200 camions certifiés selon la norme PIEK Carrefour et permettent aux magasins d’être certifiés Certibruit, moins de 60 dB. Fin 2018, une vingtaine de magasins de Carrefour France situés dans les zones urbaines denses sont labellisés Certibruit®. Par ailleurs, le Groupe s’engage et lutte contre livraisons de nuit. Avec ses partenaires du Cercle des transporteurs, Carrefour France a développé une flotte de véhicules roulant au biométhane. Les bénéfices immédiats du biométhane par rapport à un camion de même capacité diesel Euro 6 sont la diminution de 75 % des émissions de CO2, la suppression des émissions de particules fines et",0.758144
4271,Eiffage,"Eiffage met en œuvre en 2018 et 2019 des dispositifs biogènes et à biodiversité positive en milieu marin dans le cadre des travaux d’agran- dissement de Port-Haliguen (Morbihan), expérimentation soutenue par l’Agence française pour la biodiversité (AFB) dans le cadre du PIA 2 biodiversité.","Eiffage met en œuvre en 2018 et 2019 des dispositifs biogènes et à biodiversité positive en milieu marin dans le cadre des travaux d’agran- dissement de Port-Haliguen (Morbihan), expérimentation soutenue par l’Agence française pour la biodiversité (AFB) dans le cadre du PIA 2 biodiversité. Investi dans ce domaine depuis 2013 via des partenariats avec des ingénieries innovantes (Seaboost, Créocéan, etc.), Eiffage cible d’autres marchés pour ces actions de génie écologique marin, à l’image de l’éolien offshore.",0.745571
2955,Bouygues,"sur la biodiversité dans les infrastructures (lutte contre les espèces invasives, mesures compensatoires, accueil de la biodiversité marine, etc.) et la biodiversité urbaine (toitures végétalisées, démarche en développement","sur la biodiversité dans les infrastructures (lutte contre les espèces invasives, mesures compensatoires, accueil de la biodiversité marine, etc.) et la biodiversité urbaine (toitures végétalisées, démarche en développement",0.695943
14928,Carrefour,● moderniser la flotte pour la rendre plus propre et silencieuse ;,● moderniser la flotte pour la rendre plus propre et silencieuse ;,0.693497
910,Michelin,"dans différents environnements, avec l’approfondissement des études toxicologiques et éco toxicologiques sur le vieillissement à long terme des TRWP ainsi que leur éventuelle toxicité en milieu marin.","dans différents environnements, avec l’approfondissement des études toxicologiques et éco toxicologiques sur le vieillissement à long terme des TRWP ainsi que leur éventuelle toxicité en milieu marin.",0.649099
4272,Eiffage,"Investi dans ce domaine depuis 2013 via des partenariats avec des ingénieries innovantes (Seaboost, Créocéan, etc.), Eiffage cible d’autres marchés pour ces actions de génie écologique marin, à l’image de l’éolien offshore.","Eiffage met en œuvre en 2018 et 2019 des dispositifs biogènes et à biodiversité positive en milieu marin dans le cadre des travaux d’agran- dissement de Port-Haliguen (Morbihan), expérimentation soutenue par l’Agence française pour la biodiversité (AFB) dans le cadre du PIA 2 biodiversité. Investi dans ce domaine depuis 2013 via des partenariats avec des ingénieries innovantes (Seaboost, Créocéan, etc.), Eiffage cible d’autres marchés pour ces actions de génie écologique marin, à l’image de l’éolien offshore.",0.641751
16197,Carrefour,● liées aux transports aval rail (cas de la France notamment) et maritime.,"● liées aux transports aval rail (cas de la France notamment) et maritime. Enfin, il est à noter que les trajets retours « magasins/entrepôts » sont pris en compte uniquement dans le cas de flottes prêtées à l’usage exclusif de Carrefour. Concernant le KPI Logistique (émissions de CO2 par unité de transport), dans la grande majorité des cas, les émissions de CO2 liées aux transports des marchandises sont calculées sur la base des distances parcourues du fait de l’absence de données réelles sur les consommations de carburant des prestataires et des consommations moyennes par type de camions. Les pays dont la logistique est principalement assurée par les fournisseurs sont exclus du périmètre de reporting. Les palettes (backhauling, reverse) ne sont pas comptabilisées dans le nombre de palettes prises en compte pour le transport aval. Concernant correspond à la quantité achetée et non à la quantité réellement consommée pour le fioul et le gaz (15 % de l’énergie consommée par les magasins). Concernant le KPI Eau, la quantité d’eau publiée correspond principalement à la quantité d’eau achetée. Suivant les pays, l’eau prélevée par forage par certains magasins peut ne pas être comptabilisée lorsque ces prélèvements sont gratuits. De plus, il existe des cas de surévaluation non significative de consommation marchande, coûts annexes à ceux liés à la consommation d’eau non dissociables). KPI Fluides réfrigérants : les éventuelles fuites ayant eu lieu avant un changement d’équipements ne sont pas quantifiées dans le reporting. Elles correspondent aux émissions générées entre la dernière opération de maintenance et l’installation. L’impact est peu significatif à l’échelle du Groupe du fait d’un suivi régulier des installations et de l’étalement de leurs remplacements. Il est à noter que les bilans matière ne sont pas systématiquement réalisés à chaque rechargement de fluide ou en fin d’année. Certains BUs achètent et stockent des fluides en avance et peuvent reporter certaines quantités de fluides encore stockées en bouteille dans la consommation de l’année N. À titre exceptionnel, les données 2017 des émissions de CO2 liées à la réfrigération et la quantité de fluides réfrigérants rechargés suite à des fuites des hypermarchés en France ont été extrapolées sur la base des taux de fuite moyens de la période de reporting pour 20 % des hypermarchés. KPI Déchets : le périmètre de reporting retenu comprend les BUs bénéficiant d’entreprises de collecte de déchets qui fournissent l’information quant au tonnage de déchets évacués. En règle générale, lorsque la collecte est réalisée directement par les collectivités locales, aucune information n’est disponible. De plus, lorsque les déchets sont collectés et regroupés sur les entrepôts, les quantités correspondantes ne sont pas systématiquement intégrées au reporting. Compte tenu des limites méthodologiques énoncées ci-dessus et des difficultés de collecte, le périmètre de reporting peut varier selon les indicateurs. Pour chaque indicateur communiqué sur un périmètre restreint, ce dernier est précisé. Pour analyser les évolutions, sont retirées toutes les BUs pour lesquelles il manque les données d’une des années de comparaison.",0.637752
13833,Auchen Holding,"Proposer des produits ne nuisant pas à la biodiversité Soucieux de préserver les ressources marines, Auchan Retail est engagé depuis 10 ans pour éviter la surpêche et protéger l’environnement.","En 2018, l’équipe a travaillé plus particulièrement sur le périmètre des filières responsables Auchan avec la mise au point par espèce, d’un socle d’exigences minimum, obligatoire pour toute nouvelle filière. Les filières existantes sont auditées sur cette base. En outre, des audits spécifiques pour la partie transport des animaux et fin de vie en abattoir ont été mis au point afin de couvrir d’approvisionnement. En 2019, un partage des avancées françaises sera effectué avec l’ensemble des autres pays afin de capitaliser sur les bonnes pratiques et réfléchir à leur duplicabilité. Proposer des produits ne nuisant pas à la biodiversité Soucieux de préserver les ressources marines, Auchan Retail est engagé depuis 10 ans pour éviter la surpêche et protéger l’environnement. 2006 : les bases d’une politique de pêche responsable ont été établies en France. 2007 : Auchan Retail a arrêté la commercialisation du thon rouge de Méditerranée (Thunnus Thynnus) dans tous les pays concernés du pourtour méditerranéen. Il semblerait que, fort de cet effort partagé par d’autres acteurs, une recrudescence des thons rouges sur cette zone a pu être constatée. Aujourd’hui, les spécialistes s’accordent sur l’effet positif de ces mesures, au point que la commercialisation a pu reprendre. Auchan Retail reste néanmoins attentif à l’évolution des populations dans cette zone sensible. 2009 : une nouvelle position a été prise pour participer à la préservation des espèces de requin menacées de disparition l’arrêt de via roussettes (scyliorhinus) et des émissoles (mustellus). Dans tous les pays, Auchan Retail marque par ailleurs sa volonté que soit interdite la pêche de requins pour l’utilisation unique des ailerons. 2013 : Auchan Retail supprime de ses étals les espèces dites « de grands fonds », afin de préserver leurs ressources rares. De plus, Auchan Retail privilégie les bonnes pratiques de pêche et une gestion efficace des ressources permettant la durabilité des peuplements thoniers pour ses produits à marque propre. Une traçabilité complète de ses produits à base de thon (zone de pêche, espèce, méthode de capture et flotte de pêche) est exigée et tout approvisionnement en produits IUU (1) est refusé. Pour ce faire, les achats sont orientés vers une diversification des méthodes de pêche. 60 % de l’Albacore est ainsi pêché en FAD free (2) à moins que celui-ci soit non maillant. La pêche de thons juvéniles est également interdite (poids minimum dans les cahiers des charges fixés pour chaque espèce). Par ailleurs : la fabrication de produits premiers prix élaborés à partir P d’Albacore (3) a été suspendue ;",0.636391
2976,Bouygues,"posidonies et 141 grandes nacres ont été transplantés dans des lieux protégés (principalement la réserve marine protégée du Larvotto) et où l’infrastructure maritime est éco-conçue à travers la création d’aménagements écologiques sur les caissons, les enrochements et les émissaires, et la création de récifs artiﬁ ciels.","posidonies et 141 grandes nacres ont été transplantés dans des lieux protégés (principalement la réserve marine protégée du Larvotto) et où l’infrastructure maritime est éco-conçue à travers la création d’aménagements écologiques sur les caissons, les enrochements et les émissaires, et la création de récifs artiﬁ ciels. Les principes d’aménagement écologique reposent sur l’amélioration du potentiel de colonisation par la faune et la ﬂ ore, le développement de fonctionnalités écologiques perdues et le développement des fonctions d’habitat et de corridors écologiques.",0.631103


In [25]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.random((10,2)), columns = ["a","b"])
df

Unnamed: 0,a,b
0,0.170427,0.124358
1,0.896786,0.833318
2,0.527401,0.19945
3,0.457856,0.310238
4,0.611666,0.450338
5,0.411934,0.94988
6,0.505307,0.804151
7,0.753039,0.444557
8,0.528715,0.311537
9,0.012104,0.803657


In [28]:
def goget(row):
    a = row["a"]
    return a,a
df[["c","d"]] = df[["a"]].apply(goget,axis=1, result_type="expand")
df

Unnamed: 0,a,b,c,d
0,0.170427,0.124358,0.170427,0.170427
1,0.896786,0.833318,0.896786,0.896786
2,0.527401,0.19945,0.527401,0.527401
3,0.457856,0.310238,0.457856,0.457856
4,0.611666,0.450338,0.611666,0.611666
5,0.411934,0.94988,0.411934,0.411934
6,0.505307,0.804151,0.505307,0.505307
7,0.753039,0.444557,0.753039,0.753039
8,0.528715,0.311537,0.528715,0.528715
9,0.012104,0.803657,0.012104,0.012104
