# Plateforme Agnostique de Traitement et d'Analyse des Textes
### Paillasse d'expérimentation
---

## Sujet : Utilisation de labels courts sur le recueil

---


## Initialisation de la paillasse 
---

In [1]:
cd ../..

/Users/fm/Desktop/Work/Patat


In [2]:
import importlib
import pandas as pd

## Observations et environnement
---

### Chargement du recueil brut

In [3]:
corpus_filename = 'tmp/221003-RecueilRename.csv'

In [4]:
df_brut = pd.read_csv(f'data/{corpus_filename}')
df_brut = df_brut.convert_dtypes()

In [5]:
df_brut.shape

(481, 37)

In [6]:
df_brut[df_brut['url'].isna()]

Unnamed: 0,# site,# article,Site,url,Auteur/trice,Date,Date de publication,Titre,explication,infox,...,propos_raportes,sources_citees,titre_decale,denigrement,cherry_picking,degre_infox,observateur,thème (abandonné),type infox (abandonné),Date de collection (abandonné)


### Chargement du corpus a compléter avec le recueil

In [8]:
corpus_filename = 'corpus/221002-CorpusNewsLabelPred.csv'

In [9]:
dtypes = {'date_iso':str}
df_corpus = pd.read_csv(f'data/{corpus_filename}',dtype=dtypes)
df_corpus = df_corpus.convert_dtypes()

In [10]:
df_corpus.shape

(89162, 13)

## Expérience
---

### Renommage des labels

In [11]:
import patat.imp.labels

In [12]:
importlib.reload(patat.imp.labels)

<module 'patat.imp.labels' from '/Users/fm/Desktop/Work/Patat/patat/imp/labels.py'>

In [13]:
patat.imp.labels.label_short_names

{'infox': 'infox',
 'signé': 'signe',
 'lieux, dates et personnes ': 'entites_nommees',
 'lieux, dates et personnes cohérentes': 'entites_coherentes',
 'points de vue différents présentés': 'ouverture_esprit',
 'écriture de qualité': 'qualite_ecriture',
 'intention': 'intention',
 'faits': 'faits',
 'opinions': 'opinions',
 'fausse nouvelle': 'fausse_nouvelle',
 'insinuations': 'insinuations',
 'exagération': 'exageration',
 'scientifique sulfureux': 'scientifique_sulfureux',
 'des pages et des pages': 'trop_mots',
 'des chiffres et des tableaux': 'trop_chiffres',
 'sophisme': 'sophisme',
 'inversion de la preuve': 'inversion_preuve',
 'invérifiable': 'inverifiable',
 'propos rapporté': 'propos_raportes',
 'sources citées': 'sources_citees',
 'titre décalé': 'titre_decale',
 'dénigrement': 'denigrement',
 'cherry picking': 'cherry_picking',
 'degré infox': 'degre_infox'}

In [14]:
df_recueil = df_brut.rename(columns = patat.imp.labels.label_short_names)

### Extraction des sites

In [15]:
import urllib
def get_site(url):
    if type(url)==str:
        return urllib.parse.urlsplit(url).netloc

In [16]:
df_recueil.loc[:,'site'] = df_recueil['url'].apply(get_site)

In [17]:
df_recueil

Unnamed: 0,# site,# article,Site,url,Auteur/trice,Date,Date de publication,Titre,explication,infox,...,sources_citees,titre_decale,denigrement,cherry_picking,degre_infox,observateur,thème (abandonné),type infox (abandonné),Date de collection (abandonné),site
0,1,1,Anguille sous roche,https://www.anguillesousroche.com/actualite/ou...,,28/09/2022,,"Ouverture du gazoduc Baltic Pipe, qui relie la...",,non,...,non,non,non,,,FB,,,,www.anguillesousroche.com
1,1,2,Anguille sous roche,https://www.anguillesousroche.com/technologie/...,,30/09/2022,,La CIA aurait investi dans une puissante techn...,ils rêvent et font de l'enfumage sur CRISPR,oui,...,non,non,non,,*,FB,,,,www.anguillesousroche.com
2,2,3,bonsens.org,https://bonsens.info/essais-pfizer-sur-le-vacc...,,02/01/2022,02/01/2022,Essais Pfizer sur le vaccin anti-covid : le ra...,pseudo rapport par une pseudo scientifique mon...,oui,...,oui,non,,,*,FB,vaccin,pseudo science,27 avril 22,bonsens.info
3,3,4,breizh,https://www.breizh-info.com/2022/02/23/180457/...,,23/02/2022,23/02/2022,Tests – vaccins – pass : fabrique de la paniqu...,yapa de pandémie et les vaccins ne marchent pas,oui,...,non,oui,,,**,FB,vaccins,pseudo démonstration,mars 22,www.breizh-info.com
4,3,5,breizh,https://www.breizh-info.com/2022/02/20/180182/...,,20/02/2022,20/2/22,"Covid-19. La pandémie et les vaccins, pour mie...",yapa de pandémie et il y a un complot mondial,oui,...,non,non,,,**,FB,vaccins,complot,mars 22,www.breizh-info.com
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
476,39,476,Wikistrike,https://www.wikistrike.com/2022/08/le-masque-r...,,24/08/2022,24 août 22,"Le masque réduit les infections COVID de 0,06%",L'article prend une etude qui est loin d'etre ...,oui,...,non,non,non,,**,CN,,,,www.wikistrike.com
477,39,477,Wikistrike,https://www.wikistrike.com/2022/08/l-un-des-pl...,,24/08/2022,24 août 22,L’un des plus grands complexes mégalithiques d...,,non,...,oui,non,non,,,CN,,,,www.wikistrike.com
478,39,478,Wikistrike,https://www.wikistrike.com/2022/09/les-command...,,02/09/2022,2 septembre 22,Les commandos ukrainiens qui ont attaqué la ce...,les Ukrainiens ont essayé de faire échouer la ...,oui,...,oui,non,oui,,*,FB,,,,www.wikistrike.com
479,39,479,Wikistrike,https://www.wikistrike.com/2022/09/coupures-el...,,29/09/2022,,Coupures électriques imminentes en France,"l'article de Reuters ne dit pas ça, il dit que...",oui,...,non,oui,non,,*,FB,,,,www.wikistrike.com


### Normalisation des labels

In [18]:
import patat.imp.labels

In [19]:
label_names = patat.imp.labels.labels

In [20]:
for label in label_names:
    print(label,df_recueil[label].isna().sum())

infox 0
signe 0
entites_nommees 0
entites_coherentes 0
ouverture_esprit 0
qualite_ecriture 0
faits 0
opinions 0
fausse_nouvelle 0
insinuations 1
exageration 260
scientifique_sulfureux 0
trop_mots 0
trop_chiffres 0
sophisme 0
inversion_preuve 0
inverifiable 0
propos_raportes 0
sources_citees 0
titre_decale 0
denigrement 351
cherry_picking 475


In [21]:
import numpy as np

def normalize_label(value):
    if type(value) != str:
        return np.NaN
    elif value == 'oui':
        return 1
    elif value =='non' :
        return 0
    else:
        return np.NaN

In [22]:
for label in label_names:
    df_recueil[label]=df_recueil[label].apply(normalize_label)

In [23]:
df_recueil = df_recueil.convert_dtypes()

In [24]:
for label in label_names:
    print(label,df_recueil[label].isna().sum())

infox 1
signe 1
entites_nommees 0
entites_coherentes 0
ouverture_esprit 1
qualite_ecriture 1
faits 0
opinions 0
fausse_nouvelle 1
insinuations 2
exageration 261
scientifique_sulfureux 2
trop_mots 1
trop_chiffres 1
sophisme 1
inversion_preuve 1
inverifiable 1
propos_raportes 1
sources_citees 1
titre_decale 1
denigrement 351
cherry_picking 475


### Sélection des nouvelles urls

In [25]:
def is_new_url(url):
    return url not in df_corpus['url'].values

In [26]:
df_new = df_recueil[df_brut['url'].apply(is_new_url)]
df_new

Unnamed: 0,# site,# article,Site,url,Auteur/trice,Date,Date de publication,Titre,explication,infox,...,sources_citees,titre_decale,denigrement,cherry_picking,degre_infox,observateur,thème (abandonné),type infox (abandonné),Date de collection (abandonné),site
0,1.0,1.0,Anguille sous roche,https://www.anguillesousroche.com/actualite/ou...,,28/09/2022,,"Ouverture du gazoduc Baltic Pipe, qui relie la...",,0.0,...,0,0,0.0,,,FB,,,,www.anguillesousroche.com
1,1.0,2.0,Anguille sous roche,https://www.anguillesousroche.com/technologie/...,,30/09/2022,,La CIA aurait investi dans une puissante techn...,ils rêvent et font de l'enfumage sur CRISPR,1.0,...,0,0,0.0,,*,FB,,,,www.anguillesousroche.com
2,2.0,3.0,bonsens.org,https://bonsens.info/essais-pfizer-sur-le-vacc...,,02/01/2022,02/01/2022,Essais Pfizer sur le vaccin anti-covid : le ra...,pseudo rapport par une pseudo scientifique mon...,1.0,...,1,0,,,*,FB,vaccin,pseudo science,27 avril 22,bonsens.info
50,3.0,51.0,breizh,https://www.breizh-info.com/2022/09/30/208531/...,,30/09/2022,,Réunification. Les six « insoumis » de Bretagne,,0.0,...,0,0,0.0,0.0,,FB,,,,www.breizh-info.com
69,5.0,70.0,Dreuz,https://www.dreuz.info/2022/10/elections-de-mi...,,03/10/2022,,Elections de mi-mandat : suivi quotidien,,0.0,...,0,0,0.0,0.0,,FB,,,,www.dreuz.info
70,6.0,71.0,Esprit Science Métaphysique,https://www.espritsciencemetaphysiques.com/typ...,,09/07/2022,9 juillet 22,Il ya un type de personne qui seraiy plus susc...,L'optimisme permet de vivre longtemps,0.0,...,0,0,,,,GP,,,,www.espritsciencemetaphysiques.com
71,7.0,72.0,FDS,https://www.fdesouche.com/2022/07/07/paris-arm...,Koba,10/07/2022,10 juillet 22,Paris: laissé libre après avoir tenté d'attaqu...,Démonstration que les clandestins qui attaquen...,0.0,...,0,0,,,,GP,,,,www.fdesouche.com
184,8.0,185.0,France Soir,https://www.francesoir.fr/politique-monde/pres...,,03/10/2022,,Présidentielle au Brésil: Bolsonaro talonne Lu...,,0.0,...,0,0,0.0,0.0,,FB,,,,www.francesoir.fr
185,9.0,186.0,Global Research,https://www.globalresearch.ca/why-former-presi...,Peter Koenig,14/08/2022,14/08/2022,Why Was Former President Trump’s Mar-a-Lago Es...,Montrer que Trump est poursuivi injustement,1.0,...,1,0,1.0,,*,GP,,,,www.globalresearch.ca
195,12.0,196.0,Le courrier du soir,https://lecourrier-du-soir.com/coup-de-theatre...,Cheikh Dieng,01/07/2022,1 juillet 22,Coup de théâtre en France : l’ANSM n’exclut pa...,l'article essaie de faire croire que la vaccin...,1.0,...,1,1,,,*,FB,,,,lecourrier-du-soir.com


### Acquisition et Parsing nouveaux Articles

In [27]:
import patat.imp.importer

In [28]:
imp = patat.imp.importer.Importer()

In [29]:
def crawl_item(url):
    html = ''
    print(url)
    try:
        html = imp.get_webpage(url, use_cache=True)
    except:
        print('Exception :' + str(url))
    return html

In [30]:
df_new.loc[:,'html']=df_new['url'].apply(crawl_item)

https://www.anguillesousroche.com/actualite/ouverture-du-gazoduc-baltic-pipe-qui-relie-la-norvege-et-la-pologne/
https://www.anguillesousroche.com/technologie/la-cia-aurait-investi-dans-une-puissante-technologie-de-mutation-genetique-et-de-resurrection-de-mammouths-laineux/
https://bonsens.info/essais-pfizer-sur-le-vaccin-anti-covid-le-rapport-explosif-de-christine-cotton/
https://www.breizh-info.com/2022/09/30/208531/reunification-les-six-insoumis-de-bretagne/
https://www.dreuz.info/2022/10/elections-de-mi-mandat-la-campagne-les-sondages-les-tendances-suivi-quotidien-272063.html
https://www.espritsciencemetaphysiques.com/type-de-personne-qui-serait-plus-susceptible-de-vivre-apres-90-ens-etude.html
https://www.fdesouche.com/2022/07/07/paris-arme-dun-couteau-un-migrant-clandestin-nigerian-sattaque-a-un-agent-de-securite-puis-menace-des-policiers-a-la-gare-de-lest%ef%bf%bc/
https://www.francesoir.fr/politique-monde/presidentielle-au-bresil-bolsonaro-talonne-lula-2e-tour-tendu-en-vue
http

ERROR:root:Importer.get_webpage:https://lesmoutonsrebelles.com/lhomme-qui-a-vendu-lukraine/


https://www.nouvelordremondial.cc/2022/09/29/les-ventes-de-fausse-viande-chutent-en-raison-de-la-hausse-des-prix-et-des-messages-wokistes/


ERROR:root:Importer.get_webpage:https://www.nouvelordremondial.cc/2022/09/29/les-ventes-de-fausse-viande-chutent-en-raison-de-la-hausse-des-prix-et-des-messages-wokistes/


https://planetes360.fr/scoop-lancien-vice-president-de-pfizer-declare-que-les-failles-des-vaccins-covid-sont-intentionnelles/
https://planetes360.fr/exclu-360-le-professeur-perr0nne-balance-tout-c0vid-masque-vaxxin-bill-gates-la-verite-va-eclater/
https://www.polemia.com/callac-laboratoire-du-peuplement-de-la-france-profonde-par-limmigration/
https://www.preuvesduparanormal.fr/2022/07/17/des-centaines-de-personnes-regardent-lapparition-de-la-vierge-marie-sur-une-eglise-au-nigeria/
https://www.preuvesduparanormal.fr/2022/07/17/le-vrai-indiana-jones-recupere-la-sainte-relique-contenant-le-sang-du-christ/
https://www.preuvesduparanormal.fr/2022/08/19/un-homme-affirme-quapres-avoir-ete-frappe-par-la-foudre-il-a-acquis-un-pouvoir-unique/
http://www.reopen911.info/11-septembre/une-attaque-surprise-pas-si-surprise-que-ca/
https://www.revue-elements.com/ou-est-passee-larmee-ukrainienne/
https://www.revue-elements.com/lukraine-ou-le-tombeau-de-loccident/
https://ripostelaique.com/le-racisme-ant

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_new.loc[:,'html']=df_new['url'].apply(crawl_item)


In [31]:
df_new

Unnamed: 0,# site,# article,Site,url,Auteur/trice,Date,Date de publication,Titre,explication,infox,...,titre_decale,denigrement,cherry_picking,degre_infox,observateur,thème (abandonné),type infox (abandonné),Date de collection (abandonné),site,html
0,1.0,1.0,Anguille sous roche,https://www.anguillesousroche.com/actualite/ou...,,28/09/2022,,"Ouverture du gazoduc Baltic Pipe, qui relie la...",,0.0,...,0,0.0,,,FB,,,,www.anguillesousroche.com,"<!DOCTYPE html>\n<html class=""no-js"" lang=""fr-..."
1,1.0,2.0,Anguille sous roche,https://www.anguillesousroche.com/technologie/...,,30/09/2022,,La CIA aurait investi dans une puissante techn...,ils rêvent et font de l'enfumage sur CRISPR,1.0,...,0,0.0,,*,FB,,,,www.anguillesousroche.com,"<!DOCTYPE html>\n<html class=""no-js"" lang=""fr-..."
2,2.0,3.0,bonsens.org,https://bonsens.info/essais-pfizer-sur-le-vacc...,,02/01/2022,02/01/2022,Essais Pfizer sur le vaccin anti-covid : le ra...,pseudo rapport par une pseudo scientifique mon...,1.0,...,0,,,*,FB,vaccin,pseudo science,27 avril 22,bonsens.info,"<!DOCTYPE html>\n<html lang=""fr-FR"">\n<head>\n..."
50,3.0,51.0,breizh,https://www.breizh-info.com/2022/09/30/208531/...,,30/09/2022,,Réunification. Les six « insoumis » de Bretagne,,0.0,...,0,0.0,0.0,,FB,,,,www.breizh-info.com,"<!doctype html>\n<html lang=""fr-FR"" prefix=""og..."
69,5.0,70.0,Dreuz,https://www.dreuz.info/2022/10/elections-de-mi...,,03/10/2022,,Elections de mi-mandat : suivi quotidien,,0.0,...,0,0.0,0.0,,FB,,,,www.dreuz.info,"<!DOCTYPE html>\n<html lang=""fr-FR"">\n<head>\n..."
70,6.0,71.0,Esprit Science Métaphysique,https://www.espritsciencemetaphysiques.com/typ...,,09/07/2022,9 juillet 22,Il ya un type de personne qui seraiy plus susc...,L'optimisme permet de vivre longtemps,0.0,...,0,,,,GP,,,,www.espritsciencemetaphysiques.com,<!DOCTYPE html>\n<!--[if IE 8]>\n<html class=...
71,7.0,72.0,FDS,https://www.fdesouche.com/2022/07/07/paris-arm...,Koba,10/07/2022,10 juillet 22,Paris: laissé libre après avoir tenté d'attaqu...,Démonstration que les clandestins qui attaquen...,0.0,...,0,,,,GP,,,,www.fdesouche.com,"<!DOCTYPE html>\n<html lang=""fr-FR"" class=""no-..."
184,8.0,185.0,France Soir,https://www.francesoir.fr/politique-monde/pres...,,03/10/2022,,Présidentielle au Brésil: Bolsonaro talonne Lu...,,0.0,...,0,0.0,0.0,,FB,,,,www.francesoir.fr,"\n<!DOCTYPE html>\n<html lang=""fr"" dir=""ltr"" p..."
185,9.0,186.0,Global Research,https://www.globalresearch.ca/why-former-presi...,Peter Koenig,14/08/2022,14/08/2022,Why Was Former President Trump’s Mar-a-Lago Es...,Montrer que Trump est poursuivi injustement,1.0,...,0,1.0,,*,GP,,,,www.globalresearch.ca,"<!DOCTYPE html PUBLIC ""-//W3C//DTD XHTML 1.0 T..."
195,12.0,196.0,Le courrier du soir,https://lecourrier-du-soir.com/coup-de-theatre...,Cheikh Dieng,01/07/2022,1 juillet 22,Coup de théâtre en France : l’ANSM n’exclut pa...,l'article essaie de faire croire que la vaccin...,1.0,...,1,,,*,FB,,,,lecourrier-du-soir.com,<!doctype html >\n<!--[if IE 8]> <html clas...


In [32]:
import patat.imp.parser_params
import patat.imp.parser

In [33]:
importlib.reload(patat.imp.parser_params)
importlib.reload(patat.imp.parser)
parser = patat.imp.parser.Parser()

In [34]:
def parse_article(url,html,site):
    record = {'url':url,'title':'','article':'','words':0}
    if html:
        if parser.is_known_site(url):
            record = parser.parse_article(url,html,site)
            record['parse_method']='parse'
        else:
            record = parser.parse_raw_article(url,html)
            record['parse_method']='raw'
    
    return record

In [35]:
%%time
# Attention ! Le parsing peut prendre du temps
parsed = df_new.apply(lambda row: parse_article(row['url'], row['html'], row['site']), axis=1)

CPU times: user 1.25 s, sys: 18.4 ms, total: 1.27 s
Wall time: 1.27 s


In [36]:
df_parsed = pd.DataFrame(list(parsed))

### Intégration des nouveaux articles au corpus

In [37]:
df_new_articles = df_parsed[df_parsed['parse_method']=='parse']

In [44]:
df_new_articles.shape

(9, 10)

In [43]:
df_corpus.shape

(89162, 13)

In [50]:
df_merge = pd.concat([df_corpus,df_new_articles], ignore_index=True)

### Intégration des labels

In [52]:
cols = ['url'] + label_names 

In [56]:
df_merge = df_merge.drop(['infox'],axis=1)

In [57]:
df_join = df_merge.set_index('url').join(df_recueil[cols].set_index('url'))

## Mesure et observation des résultats
---

In [61]:
df_join[df_join['infox'].notna()]

Unnamed: 0_level_0,title,article,tag,abstract,author,date,date_iso,site,text,y,...,trop_mots,trop_chiffres,sophisme,inversion_preuve,inverifiable,propos_raportes,sources_citees,titre_decale,denigrement,cherry_picking
url,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
https://fr.novopress.info/227346/immigration-clandestine-repartir-ou-renvoyer-les-migrants-lheure-des-choix/,Immigration clandestine : répartir ou renvoyer...,Comment faire face à l’immigration clandestine...,"['Étiquettes crise alimentaire, immigration cl...",,Novopress,1 juillet 2022,2022-07-01T00:00:00,fr.novopress.info,Immigration clandestine : répartir ou renvoyer...,0,...,0,0,0,0,0,0,1,0,,
https://fr.novopress.info/227381/lalgerie-un-pays-jeune-gouverne-par-des-vieillards-par-bernard-lugan/,"L’Algérie, un pays jeune gouverné par des viei...","L’Algérie (46 millions d’habitants en 2022), e...","['Étiquettes Algérie, Bernard Lugan']",,Novopress,6 juillet 2022,2022-07-06T00:00:00,fr.novopress.info,"L’Algérie, un pays jeune gouverné par des viei...",0,...,0,0,0,0,0,0,0,0,,
https://fr.novopress.info/227410/un-president-reelu-et-apres-par-philippe-bilger/,"Un président réélu : et après ?, par Philippe ...",On ne peut pas s’empêcher de penser qu’avec ce...,"['Étiquettes Emmanuel Macron, Philippe Bilger,...",,Novopress,7 juillet 2022,2022-07-07T00:00:00,fr.novopress.info,"Un président réélu : et après ?, par Philippe ...",0,...,0,0,0,0,0,0,0,0,,
https://fr.novopress.info/actualite-politique-internationale-culture-sport-depeches/a-la-une/,Qui est Alexandre Douguine? Anatomie d’une pen...,L’assassinat de Daria Douguine a conduit de no...,"['Étiquettes Alexandre Douguine, Revue Elément...",,Novopress,29 août 2022,2022-08-29T00:00:00,fr.novopress.info,Qui est Alexandre Douguine? Anatomie d’une pen...,0,...,0,0,0,0,0,0,0,0,0,
https://fr.sott.net/article/39998-Le-Pentag,Le Pentagone organise la victoire de l'Ukraine...,Le festival de l'Eurovision 2022 s'est tenu à ...,[],,,,,fr.sott.net,Le Pentagone organise la victoire de l'Ukraine...,1,...,0,0,0,0,1,0,0,1,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
https://www.wikistrike.com/2022/08/les-vaccines-infectes-au-covid-restent-contagieux-plus-longtemps-que-les-non-vaccines-selon-une-etude.html,Les vaccinés infectés au Covid restent contagi...,Une étude publiée le 21 juin 2022 par le New E...,[],,,Publié par wikistrike.com\n ...,2022-08-20T00:00:00,www.wikistrike.com,Les vaccinés infectés au Covid restent contagi...,1,...,0,1,0,0,0,1,1,0,1,
https://www.wikistrike.com/2022/08/washington-enverrait-des-mercenaires-afghans-combattre-en-ukraine.html,Washington enverrait des mercenaires afghans c...,Des spécialistes originaires d'Afghanistan par...,[],,,Publié par wikistrike.com\n ...,2022-08-20T00:00:00,www.wikistrike.com,Washington enverrait des mercenaires afghans c...,1,...,0,0,0,1,1,1,0,0,0,
https://www.wikistrike.com/2022/09/11-septembre-2001-la-theorie-du-complot-pirate.html,11 septembre 2001 : La théorie du « complot pi...,Le 11 septembre pour les nuls\nEst-il vrai que...,[],,,Publié par wikistrike.com\n ...,2022-09-29T00:00:00,,,,...,1,0,0,0,0,1,0,0,0,
https://www.wikistrike.com/2022/09/coupures-electriques-imminentes-en-france.html,Coupures électriques imminentes en France,"Selon Reuters, le gouvernement français s'appr...",[],,,Publié par wikistrike.com\n ...,2022-09-29T00:00:00,,,,...,0,0,0,0,0,1,0,1,0,


## Sauvegarde des résultats
---

In [64]:
filename = 'tmp/221003-CorpusLabel.csv'

In [65]:
df_join.to_csv(f'data/{filename}')

## Conclusions
---

- Ajout différentiel des nouveaux articles du recueil : OK
- Récupération des labels

## Bricolages
---

In [None]:
df_brut[472:480]