# Identification des éditeurs

Ce notebook permet de récupérer les identifiants nationaux pour les éditeurs de titre de presse. Il peut s'agir d'entreprises comme d'associations. Les données d'entreprises proviennent de la base SIRENE et les données des associations proviennent du Registre National des Associations (RNA).

In [1]:
import requests
from urllib.parse import urlencode, quote_plus
import pandas as pd
import json
import time

## Test sur échantillon

In [2]:
editeurs = pd.read_csv('editeurs.csv')
editeurs.Editeur

0                                         Elsevier Masson
1                                   LE JOURNAL PAROISSIAL
2                                              LEXISNEXIS
3                                  BAYARD SERVICE EDITION
4                                   EDITIONS LEGISLATIVES
5                                             PUBLIHEBDOS
6                                           BAYARD PRESSE
7                                         EDITIONS DALLOZ
8                                   WOLTERS KLUWER FRANCE
9                                      EDITIONS LARIVIERE
10                                                 ORACOM
11                                           PRISMA MEDIA
12                                           MILAN PRESSE
13                                       DIVERTI EDITIONS
14                  SOCIETE DES EDITIONS FRANCIS LEFEBVRE
15                             MONDADORI MAGAZINES FRANCE
16                                         FLEURUS PRESSE
17            

## Détection des entreprises

In [4]:
url = "https://entreprise.data.gouv.fr/api/sirene/v1/full_text/{name}"

def check(name):
    results = []
    res = requests.get(url.format(name=name))
    
    if res.status_code == requests.codes.ok:
        data = res.json()        
        results = data['etablissement']

        for r in results:
            r["source"] = name
    
    else:
#         print("!!! {name} !!!".format(name=name))
#         print(url.format(name=name))
#         print(res)
        pass
            
    return results

etablissements = []

# L'API entreprise.data.gouv.fr est limité à 2000 requếtes / 10 minutes
n = 200
i = 0
s = 60

while i < len(editeurs):
    print("range {s} -> {e}".format(s=i, e=i+n-1))
    
    for e in list(editeurs.Editeur)[i:i+n]:
        etablissements += check(e)
    
    i += n
    
    print("...")
    time.sleep(s)
        
etablissements = pd.DataFrame(etablissements)

range 0 -> 199
...
range 200 -> 399
...
range 400 -> 599
...
range 600 -> 799
...
range 800 -> 999
...
range 1000 -> 1199
...
range 1200 -> 1399
...
range 1400 -> 1599
...
range 1600 -> 1799
...
range 1800 -> 1999
...
range 2000 -> 2199
...
range 2200 -> 2399
...
range 2400 -> 2599
...
range 2600 -> 2799
...
range 2800 -> 2999
...
range 3000 -> 3199
...
range 3200 -> 3399
...
range 3400 -> 3599
...
range 3600 -> 3799
...
range 3800 -> 3999
...
range 4000 -> 4199
...
range 4200 -> 4399
...
range 4400 -> 4599
...
range 4600 -> 4799
...


In [5]:
etablissements.to_csv('editeurs-etablissements-1.csv')

len(etablissements)

11427

In [None]:
list(etablissements)

In [7]:
etablissements[ ["source", "nom_raison_sociale", "siren", "activite_principale", "siret"] ]

Unnamed: 0,source,nom_raison_sociale,siren,activite_principale,siret
0,Elsevier Masson,ELSEVIER MASSON SAS,542037031,5811Z,54203703100185
1,LE JOURNAL PAROISSIAL,LE JOURNAL PAROISSIAL,423670033,9499Z,42367003300012
2,LE JOURNAL PAROISSIAL,LE JOURNAL PAROISSIAL,489146498,5814Z,48914649800014
3,LE JOURNAL PAROISSIAL,JOURNAL PAROISSIAL LE LIEN,779574938,5814Z,77957493800014
4,LE JOURNAL PAROISSIAL,JOURNAL PAROISSIAL PERNES FONT,783242571,1811Z,78324257100017
5,LE JOURNAL PAROISSIAL,ASS JOURNAL PAROISSIAL QUATRE VENTS,399987494,9499Z,39998749400016
6,LEXISNEXIS,LEXISNEXIS,415364686,9420Z,41536468600014
7,LEXISNEXIS,LEXISNEXIS SA,552029431,5829C,55202943100178
8,LEXISNEXIS,LEXISNEXIS SA,552029431,5814Z,55202943100095
9,LEXISNEXIS,LEXISNEXIS SA,552029431,5814Z,55202943100137


## Détection des associations

In [15]:
missing = editeurs[ ~editeurs.Editeur.isin(etablissements.source) ]

missing

Unnamed: 0.1,Unnamed: 0,Editeur,titres
24,53,A.T.C. AGRI TERROIR COMMUNICATION,15
25,676,BAUER MEDIA GROUP,14
59,2248,JOHN LIBBEY EUROTEXT LTD,7
60,3909,SOCIETE NORMANDE D'INFORMATION ET DE COMMUNICA...,7
62,2289,KEY PUBLISHING LTD,7
67,2030,HEINRICH BAUER VERLAG KG,7
69,3734,SOCIETE D'EDITION DE LA PRESSE REGIONALE - SEPR,7
71,1935,GROUPE ALTICE MEDIA,6
72,670,BAUER CONSUMER MEDIA LTD,6
74,683,BAUVERLAG BV GMBH,6


In [24]:
url = "https://entreprise.data.gouv.fr/api/rna/v1/full_text/{name}"

def check_rna(name):
    results = []
    res = requests.get(url.format(name=name))

    # print(url.format(name=name))
    
    if res.status_code == requests.codes.ok:
        data = res.json()        
        results = data['association']

        for r in results:
            r["source"] = name
    
    else:
#         print("!!! {name} !!!".format(name=name))
#         print(url.format(name=name))
#         print(res)
        pass
            
    return results

associations = []

# L'API entreprise.data.gouv.fr est limité à 2000 requếtes / 10 minutes
n = 200
i = 0
s = 60

# for e in list(missing.Editeur)[0:10]:
#     associations += check_rna(e)

while i < len(missing):
    print("range {s} -> {e}".format(s=i, e=i+n-1))
    
    for e in list(missing.Editeur)[i:i+n]:
        associations += check_rna(e)
    
    i += n
    
    print("...")
    time.sleep(s)
        
associations = pd.DataFrame(associations)

associations

range 0 -> 199
...
range 200 -> 399
...
range 400 -> 599
...
range 600 -> 799
...
range 800 -> 999
...
range 1000 -> 1199
...
range 1200 -> 1399
...
range 1400 -> 1599
...
range 1600 -> 1799
...
range 1800 -> 1999
...
range 2000 -> 2199
...


Unnamed: 0,adresse_code_insee,adresse_code_postal,adresse_distribution,adresse_gestion_acheminement,adresse_gestion_code_postal,adresse_gestion_distribution,adresse_gestion_format_postal,adresse_gestion_geo,adresse_gestion_libelle_voie,adresse_gestion_nom,...,objet_social2,observation,position_activite,siret,site_web,source,telephone,titre,titre_court,updated_at
0,75111,75011,_,PARIS 11,75011,,,,46 rue de Montreuil,,...,000000,,A,,,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,,CIEMI CENTRE D'INFORMATION ET D'ETUDES SUR LES...,CIEMI CENTRE D'INFORMATION ET D'E...,2018-09-23T09:50:35.000Z
1,75111,75011,,,,,,,,,...,000000,W751043584,R,,,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,0143724934,CIEMI CENTRE D'INFORMATION ET D'ETUDES SUR LES...,,2018-09-23T09:58:07.000Z
2,75111,75011,_,PARIS 11,75011,,,,46 rue de Montreuil,,...,000000,,A,,,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,,CIEMI CENTRE D'INFORMATION ET D'ETUDES SUR LES...,CIEMI CENTRE D'INFORMATION ET D'E...,2018-10-01T16:12:48.000Z
3,75111,75011,,,,,,,,,...,000000,W751043584,R,,,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,0143724934,CIEMI CENTRE D'INFORMATION ET D'ETUDES SUR LES...,,2018-10-01T16:20:45.000Z
4,75116,75016,_,PARIS,75016,,,,29 RUE MICHEL ANGE,,...,000000,,A,,,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,MEJ,2018-09-23T09:50:16.000Z
5,75116,75016,_,PARIS,75016,,,,29 RUE MICHEL ANGE,,...,000000,,A,,,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,MEJ,2018-10-01T16:12:26.000Z
6,75105,75005,,,,,,,,,...,000000,,A,,,ASSOCIATION DES AMIS DES CRYPTOGAMES (ADAC),0140793187,ASSOCIATION DES AMIS DES CRYPTOGAMES ADAC,,2018-09-23T09:58:10.000Z
7,75105,75005,,,,,,,,,...,000000,,A,,,ASSOCIATION DES AMIS DES CRYPTOGAMES (ADAC),0140793187,ASSOCIATION DES AMIS DES CRYPTOGAMES ADAC,,2018-10-01T16:20:48.000Z
8,22278,22000,_,ST BRIEUC,22000,,,,10 RUE JEAN MéTAIRIE,,...,000000,Reprise => date ag=0000-00-00 reprise auto =...,A,77745992600013,,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,ASSOCIATION DIOCESAINE DE SAINT-BRI...,2018-09-23T09:56:18.000Z
9,22278,22000,,,,,,,,,...,000000,W224004680,R,,,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,,2018-09-23T10:00:45.000Z


In [40]:
print(list(associations))

associations[ ["source","titre", "id_association", "siret"] ]

['adresse_code_insee', 'adresse_code_postal', 'adresse_distribution', 'adresse_gestion_acheminement', 'adresse_gestion_code_postal', 'adresse_gestion_distribution', 'adresse_gestion_format_postal', 'adresse_gestion_geo', 'adresse_gestion_libelle_voie', 'adresse_gestion_nom', 'adresse_gestion_pays', 'adresse_libelle_commune', 'adresse_libelle_voie', 'adresse_numero_voie', 'adresse_repetition', 'adresse_siege', 'adresse_type_voie', 'autorisation_publication_web', 'code_gestion', 'created_at', 'date_creation', 'date_declaration_dissolution', 'date_derniere_declaration', 'date_publication_creation', 'derniere_maj', 'dirigeant_civilite', 'email', 'groupement', 'id', 'id_association', 'id_ex_association', 'is_waldec', 'l1_adresse_import', 'l2_adresse_import', 'l3_adresse_import', 'nature', 'numero_reconnaissance_utilite_publique', 'objet', 'objet_social1', 'objet_social2', 'observation', 'position_activite', 'siret', 'site_web', 'source', 'telephone', 'titre', 'titre_court', 'updated_at']


Unnamed: 0,source,titre,id_association,siret
0,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,CIEMI CENTRE D'INFORMATION ET D'ETUDES SUR LES...,W751043584,
1,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,CIEMI CENTRE D'INFORMATION ET D'ETUDES SUR LES...,751P00043584,
2,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,CIEMI CENTRE D'INFORMATION ET D'ETUDES SUR LES...,W751043584,
3,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,CIEMI CENTRE D'INFORMATION ET D'ETUDES SUR LES...,751P00043584,
4,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,W751033632,
5,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,W751033632,
6,ASSOCIATION DES AMIS DES CRYPTOGAMES (ADAC),ASSOCIATION DES AMIS DES CRYPTOGAMES ADAC,751P00037172,
7,ASSOCIATION DES AMIS DES CRYPTOGAMES (ADAC),ASSOCIATION DES AMIS DES CRYPTOGAMES ADAC,751P00037172,
8,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,W224004680,77745992600013
9,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,224P0224000101,


In [28]:
editeurs[ editeurs.Editeur.isin(associations.source) ]

Unnamed: 0.1,Unnamed: 0,Editeur,titres
122,802,CENTRE D'INFORMATION ET D'ETUDES SUR LES MIGRA...,4
153,552,ASSOCIATION NATIONALE DU MOUVEMENT EUCHARISTIQ...,4
174,346,ASSOCIATION DES AMIS DES CRYPTOGAMES (ADAC),3
193,440,ASSOCIATION DIOCESAINE DE SAINT-BRIEUC ET TREG...,3
194,2842,MISSION THERESIENNE,3
326,803,CENTRE D'INFORMATION ET DE DOCUMENTATION JEUNE...,2
397,1652,FEDERATION NATIONALE DE L'ACTION CATHOLIQUE DE...,2
480,416,ASSOCIATION DIOCESAINE DE LANGRES,2
510,4464,UNION DES ASSOCIATIONS DIOCESAINES DE FRANCE,2
518,433,ASSOCIATION DIOCESAINE DE SAINT BRIEUC ET TREG...,2


In [29]:
associations.to_csv('editeurs-associations-1.csv')

len(associations)

1307

In [45]:
still_missing = editeurs[ ~editeurs.Editeur.isin(etablissements.source) & ~editeurs.Editeur.isin(associations.source) ]

print(still_missing.titres.sum())

still_missing

1901


Unnamed: 0.1,Unnamed: 0,Editeur,titres
24,53,A.T.C. AGRI TERROIR COMMUNICATION,15
25,676,BAUER MEDIA GROUP,14
59,2248,JOHN LIBBEY EUROTEXT LTD,7
60,3909,SOCIETE NORMANDE D'INFORMATION ET DE COMMUNICA...,7
62,2289,KEY PUBLISHING LTD,7
67,2030,HEINRICH BAUER VERLAG KG,7
69,3734,SOCIETE D'EDITION DE LA PRESSE REGIONALE - SEPR,7
71,1935,GROUPE ALTICE MEDIA,6
72,670,BAUER CONSUMER MEDIA LTD,6
74,683,BAUVERLAG BV GMBH,6


## Carte

In [None]:
import IPython


In [None]:
geojson = {'type':'FeatureCollection', 'features':[]}

for etablissement in etablissements:
    feature = {
        'type': 'Feature',
        'properties': {},
        'geometry': {'type':'Point', 'coordinates':[]}
    }
    
    feature['geometry']['coordinates'] = [ etablissement['points'][0][1], etablissement['points'][0][0] ]
    
    geojson['features'].append(feature)

print(geojson)
    
IPython.display.display({'application/geo+json': geojson}, raw=True)