# Traitement des xml pour leur mise en forme avant import dans la base psql

In [18]:
import glob, os
import xml.etree.ElementTree as etree
import pandas as pd
import csv
import requests
import datetime
import time

from sqlalchemy import create_engine
pd.set_option('display.max_columns', 100)

In [19]:
config = pd.read_csv('config.csv', header=None)
id = config[0][0]
pwd = config[0][1]
host = config[0][2]
engine = create_engine('postgresql://%s:%s@%s/decp'%(id, pwd, host))
print("Connexion à Postgresql ok")


Connexion à Postgresql ok


In [20]:
def remplacer(node):
    if node is None : 
        return ''
    try : 
        return node.text
    except : 
        return ''

In [21]:
def traiterContrat (contrat, typeContrat, nomFichierSource, numContrat) :
    # Cas où l'id a été oublié
    try : 
        idContrat = contrat.find('id')
        idContrat = idContrat.text
    except : # Création d'un id unique --> a retravailler
        idContrat = nomFichierSource + '_' + str(numContrat)
        
    # Type de contrat
    typeContrat = contrat.tag
    if typeContrat == "marche" :
        try :
            uidContrat = idContrat + '_' + contrat.find('acheteur/id').text
        except : 
            uidContrat = idContrat + '_' + 'acheteurManquant'
    if typeContrat == "contrat-concession" :
        try : 
            uidContrat = idContrat + '_' +  contrat.find('autoriteConcedante/id').text
        except : 
            idContrat = idContrat + '_' + 'autoriteConcedanteManquante'
    
    #### Infos générales relatives au marché
    infosG = {'idContrat' : idContrat, 'uidContrat' : uidContrat, 'typeContrat' : typeContrat}
    infosG['nature'] = remplacer(contrat.find('nature'))
    infosG['objet'] = remplacer(contrat.find('objet'))
    infosG['codeCPV'] = remplacer(contrat.find('codeCPV'))
    infosG['procedure'] = remplacer(contrat.find('procedure'))
    infosG['lieuExecTypeCode'] = remplacer(contrat.find('lieuExecution/typeCode'))
    infosG['lieuExecCode'] = remplacer(contrat.find('lieuExecution/code'))
    infosG['lieuExecNom'] = remplacer(contrat.find('lieuExecution/nom'))
    infosG['dureeMois'] = remplacer(contrat.find('dureeMois'))
    infosG['dateNotification'] = remplacer(contrat.find('dateNotification'))[:10]
    infosG['datePublicationDonnees'] = remplacer(contrat.find('datePublicationDonnees'))[:10]
    infosG['montant'] = remplacer(contrat.find('montant'))
    infosG['formePrix'] = remplacer(contrat.find('formePrix'))
    
    # Partie spécifique aux concessions
    infosG['dateSignature'] = remplacer(contrat.find('dateSignature'))[:10]
    infosG['dateDebutExecution'] = remplacer(contrat.find('dateDebutExecution'))[:10]
    infosG['valeurGlobale'] = remplacer(contrat.find('valeurGlobale'))
    infosG['montantSubventionPublique'] = remplacer(contrat.find('montantSubventionPublique'))
    
    #### Infos relatives à l'acheteur / autorité concédante
    infosA = {'idContrat' : idContrat, 'uidContrat' : uidContrat}
    if typeContrat == "marche" :
        infosA['idAcheteur'] = remplacer(contrat.find('acheteur/id'))
        infosA['nomAcheteur'] = remplacer(contrat.find('acheteur/nom'))
    if typeContrat == "contrat-concession" :
        infosA['idAcheteur'] = remplacer(contrat.find('autoriteConcedante/id'))
        infosA['nomAcheteur'] = remplacer(contrat.find('autoriteConcedante/nom'))
        
    #### Infos relatives aux titulaires / Concessionnaires / En attendant de le faire en une fois
    infosT = []
    for titulaire in contrat.findall('titulaires/titulaire') :
        infosTitulaire = {'idContrat' : idContrat, 'uidContrat' : uidContrat}
        infosTitulaire['typeIdentifiant'] = remplacer(titulaire.find('typeIdentifiant'))
        infosTitulaire['idTitulaire'] = remplacer(titulaire.find('id'))
        infosTitulaire['denominationSocialeTitulaire'] = remplacer(titulaire.find('denominationSociale'))
        infosT.append(infosTitulaire)
    for titulaire in contrat.findall('concessionnaires/concessionnaire') : 
        infosTitulaire = {'idContrat' : idContrat, 'uidContrat' : uidContrat}
        infosTitulaire['typeIdentifiant'] = remplacer(titulaire.find('typeIdentifiant'))
        infosTitulaire['idTitulaire'] = remplacer(titulaire.find('id'))
        infosTitulaire['denominationSocialeTitulaire'] = remplacer(titulaire.find('denominationSociale'))
        infosT.append(infosTitulaire)
                    
    return({'infosG' : infosG, 'infosA' : infosA, 'infosT' : infosT})

## Boucle sur les fichiers pour extraire les informations

In [22]:
infosG_new = []
infosA_new = []
infosT_new = []

In [23]:
files = glob.glob("data/*.xml")
for file in files :
    print("Traitement de : " + file)
    try : 
        tree = etree.parse(file)
        root = tree.getroot()
    except : 
        print("Problème avec le fichier : " + file)
        continue
        
    id_file = file
    c = 0
    print("Il y a %s contrats"%len(root))

    for contrat in root :
        c = c+1
        if c % 1000 == 0 : 
            print(c)
        try : 
            informations = traiterContrat(contrat, contrat.tag, id_file, c)
            #print(informations)
            infosG_new.append(informations['infosG'])
            infosA_new.append(informations['infosA'])
            for element in informations['infosT'] : # Boucle car plusieurs titulaires possibles
                infosT_new.append(element)
        except : 
            print(c)
            print("Erreur sur un marché")

Traitement de : data\decp.xml
Il y a 59652 contrats
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
12000
13000
14000
15000
16000
17000
18000
18232
Erreur sur un marché
19000
20000
20591
Erreur sur un marché
21000
22000
23000
24000
25000
26000
27000
28000
29000
30000
31000
32000
33000
34000
35000
36000
37000
37641
Erreur sur un marché
38000
39000
40000
40948
Erreur sur un marché
41000
42000
43000
44000
45000
46000
47000
48000
49000
50000
51000
52000
53000
54000
55000
56000
57000
58000
59000


In [24]:
# Passage en tableau
print("Passage en data frame")
infosG_new = pd.DataFrame(infosG_new)
infosA_new = pd.DataFrame(infosA_new)
infosT_new = pd.DataFrame(infosT_new)

Passage en data frame


### Nettoyage des données 

In [25]:
print("Début du nettoyage de données")

Début du nettoyage de données


**Nature de marché**

In [26]:
print("\t Nature de marché")
infosG_new.loc[infosG_new['nature'] == 'CONCESSION DE TRAVAUX',  'nature'] = 'Concession de travaux'
infosG_new.loc[infosG_new['nature'] == 'CONCESSION DE SERVICE',  'nature'] = 'Concession de service'
infosG_new.loc[infosG_new['nature'] == 'CONCESSION DE SERVICE PUBLIC',  'nature'] = 'Concession de service public'
infosG_new.loc[infosG_new['nature'] == 'DELEGATION DE SERVICE PUBLIC',  'nature'] = 'Délégation de service public'
infosG_new.loc[infosG_new['nature'] == 'MARCHE',  'nature'] = 'Marché'
infosG_new.loc[infosG_new['nature'] == 'MARCHE DE PARTENARIAT',  'nature'] = 'Marché de partenariat'
infosG_new.loc[infosG_new['nature'] == 'ACCORD-CADRE',  'nature'] = 'Accord-cadre'
infosG_new.loc[infosG_new['nature'] == 'MARCHE SUBSEQUENT',  'nature'] = 'Marché subséquent'

	 Nature de marché


**Code CPV**

In [27]:
print("\t Code CPV")
cpv = pd.read_csv('donneesComplementaires/genealogie_cpv.csv', sep = ';', encoding='latin-1')
cpv = cpv[['CODE', 'FR']]
cpv = cpv.rename(columns={'CODE': 'codeCPV', 'FR' : 'nomCPV'})
cpv['codeCPV'] = cpv['codeCPV'].str.slice(0,8)
cpv.head()

	 Code CPV


Unnamed: 0,codeCPV,nomCPV
0,3000000,"Produits agricoles, de l'élevage, de la pêche,..."
1,3100000,Produits agricoles et produits de l'horticulture
2,3110000,"Produits agricoles, produits de la culture mar..."
3,3111000,Graines
4,3111100,Graines de soja


In [28]:
infosG_new['codeCPV'] = infosG_new['codeCPV'].str.slice(0,8)
infosG_new = infosG_new.merge(cpv, on='codeCPV', how = "left")

**Lieux d'exécution**

In [29]:
print("\t Lieu d'exécution")
infosG_new['lieuExecCodeDep'] = infosG_new['lieuExecCode']
infosG_new['lieuExecCodeDep'] = infosG_new['lieuExecCodeDep'].str.replace("FR([0-9]{5})", r'\1')

# Des erreurs
# Cas des communes qui sont renseignées en nom au lieu de code
infoMauvaiseCase = infosG_new['lieuExecNom'].str.contains('[0-9]{5}') &  (infosG_new['lieuExecCode'].str.contains('[0-9]{5}') == False)
infosG_new.loc[infoMauvaiseCase, 'lieuExecCodeDep'] = infosG_new['lieuExecNom']

# Cas des gens qui n'ont pas du tout compris comment remplir
loireAtlantique = infosG_new['lieuExecNom'].str.contains('TOUTES LES COMMUNES DE LOIRE-ATLANTIQUE')
infosG_new.loc[loireAtlantique, 'lieuExecCodeDep'] = '44'
infosG_new.loc[loireAtlantique, 'lieuExecTypeCode'] = 'Code département'

pyrAtlantique = infosG_new['lieuExecNom'].str.contains('Département des Pyrénées-Atlantiques')
infosG_new.loc[pyrAtlantique, 'lieuExecCodeDep'] = '64'
infosG_new.loc[pyrAtlantique, 'lieuExecTypeCode'] = 'Code département'

# Multiples erreurs sans nom
infosG_new['lieuExecCodeDep'] = infosG_new['lieuExecCodeDep'].str.replace("^0([0-9]{2})$", r'\1')

# Traitement du résidu
infosG_new.loc[infosG_new['lieuExecCode'] == 'FRK26',  'lieuExecCodeDep'] = '21-58-71-89'
infosG_new.loc[infosG_new['lieuExecNom'] == 'Champagne ardenne',  'lieuExecCodeDep'] = '08-10-51-52'
infosG_new.loc[infosG_new['lieuExecCode'] == 'FRY40',  'lieuExecCodeDep'] = '974'
infosG_new.loc[infosG_new['lieuExecCode'] == 'FR',  'lieuExecCodeDep'] = 'FRANCE'

# Cas de la Corse
corse2A = [v in ['201', '202'] for v in infosG_new['lieuExecCodeDep'].str.slice(0,3)]
corse2B = [v in ['203', '204', '205', '206', '207'] for v in infosG_new['lieuExecCodeDep'].str.slice(0,3)]
infosG_new.loc[corse2A, 'lieuExecCodeDep'] = '2A'
infosG_new.loc[corse2B, 'lieuExecCodeDep'] = '2B'

	 Lieu d'exécution


In [30]:
## Tout ce qui contient plus de 3 caractères (canton, arrondissement, commune)
# Cas des dom
dom = infosG_new['lieuExecCode'].str.contains('^97[0-9]{3}')
infosG_new.loc[dom, 'lieuExecCodeDep'] = infosG_new['lieuExecCodeDep'].str.replace("97([0-9]{1})([0-9]*)", r'97\1')

metro = infosG_new['lieuExecCode'].str.contains('^97[0-9]{3}') == False
infosG_new.loc[metro,'lieuExecCodeDep'] = infosG_new['lieuExecCodeDep'].str.replace("^([0-9]{2})([0-9]*)$", r'\1')

**Montant** -- retrait des virgules

In [31]:
print("\t Montant")
infosG_new['montant'] = infosG_new['montant'].str.replace("^([0-9]*)(\.[0-9]{2})([0-9]*)$", r'\1')

	 Montant


In [32]:
print("\t Cosmétique")
# Réagencement des colonnes
infosG_new = infosG_new[['idContrat', 'uidContrat', 'typeContrat', 'nature', 'objet', 
                         'codeCPV', 'nomCPV', 'procedure', 
                         'lieuExecTypeCode', 'lieuExecCode', 'lieuExecNom', 'lieuExecCodeDep',
                         'dureeMois', 'dateNotification', 'datePublicationDonnees', 
                         'montant', 'formePrix', 'dateSignature', 'dateDebutExecution', 
                         'valeurGlobale', 'montantSubventionPublique']]
infosA_new = infosA_new[['idContrat', 'uidContrat', 'idAcheteur', 'nomAcheteur']]
infosT_new = infosT_new[['idContrat', 'uidContrat', 'typeIdentifiant', 'idTitulaire', 
                         'denominationSocialeTitulaire']]

	 Cosmétique


In [33]:
infosG_new.to_csv('Contrats.csv', index=False, sep= '|', 
                  quoting=csv.QUOTE_NONNUMERIC, encoding='utf-8')
infosA_new.to_csv('Acheteurs.csv', index=False, sep= '|', 
                  quoting=csv.QUOTE_NONNUMERIC, encoding='utf-8')
infosT_new.to_csv('Titulaires.csv', index=False, sep= '|', 
                  quoting=csv.QUOTE_NONNUMERIC, encoding='utf-8')

In [34]:
infosA_new.head()
infosT_new.head()

Unnamed: 0,idContrat,uidContrat,typeIdentifiant,idTitulaire,denominationSocialeTitulaire
0,data\decp.xml_1,data\decp.xml_1_24620036400080,SIRET,13002271800451,PORTS DE LILLE - CCI HDF
1,20183WC4e9_iEw00,20183WC4e9_iEw00_00000000000000,SIRET,38473368900044,sirsi
2,20184CMDlZYWaE00,20184CMDlZYWaE00_00000000000000,SIRET,82875377200015,KOIS
3,2018AFz6cQk3fp00,2018AFz6cQk3fp00_00000000000000,SIRET,38436218200030,Labrador
4,2018CbTqIfAozu00,2018CbTqIfAozu00_00000000000000,SIRET,51820625500011,Labrador Translations


### Travail sur SIRENE pour homogénéiser les noms des acheteurs et titulaires
Non utilisé pour le moment

In [35]:
def infosSirene(listeSiren):
    listeSiren = ["'" + x + "'" for x in listeSiren if str(x) != 'nan']
    listeFormatee = ",".join([str(siren) for siren in listeSiren])
    infos = pd.read_sql("SELECT * FROM sirene WHERE siren IN ({ls})".format(ls = listeFormatee), 
                        engine)
    return(infos)

### Acheteurs

print("Traitement de SIRENE pour homogénéiser les noms d'acheteurs")

infosA_new['sirenAcheteur'] = infosA_new['idAcheteur'].str.slice(0, 9)
acheteurSiren = infosSirene(infosA_new['sirenAcheteur'].unique())

acheteurSiren = acheteurSiren[['siren', 'denominationunique']]
infosA_new = infosA_new.merge(acheteurSiren, left_on='sirenAcheteur', right_on='siren', how = "left")
infosA_new['denominationunique'].fillna(infosA_new['nomAcheteur'], inplace=True)
infosA_new = infosA_new.rename(columns={'denominationunique': 'nomSirenAcheteur'})
del infosA_new['siren']

### Titulaires

print("Traitement de SIRENE pour homogénéiser les noms des titulaires")

infosT_new['sirenTitulaire'] = infosT_new['idTitulaire'].str.slice(0,9)
titulairesSiren = infosSirene(infosT_new['sirenTitulaire'].unique())

titulairesSiren = titulairesSiren[['siren', 'denominationunique']]
titulairesSiren['denominationunique'] = titulairesSiren['denominationunique'].str.replace("(.*)\((.*)\)", r'\1')
infosT_new = infosT_new.merge(titulairesSiren, left_on='sirenTitulaire', right_on='siren', how = "left")

infosT_new['denominationunique'].fillna(infosT_new['denominationSocialeTitulaire'], inplace=True)
infosT_new = infosT_new.rename(columns={'denominationunique': 'nomSirenTitulaire'})
del infosT_new['siren']