# Importation et contrôle des données GED
__Toujours penser à importer le nouveau fichier dans le dossier Mapping en cas de modification des correspondances entre séries.__

## Importation des modules nécessaires

In [85]:
import pandas as pd
import os
from sqlalchemy import create_engine

## Variables

On définit:
* une année de début et de fin pour les données à récupérer dans Oracle ;
* la liste des pays dont on souhaite récupérer les données ;
* une variable _fichiercontrole_ qui entraîne la création d'un fichier de contrôle comparant les données Odyssée collecte d'Oracle avec celles importées de GED, uniquement pour les pays spécifiés dans _pays\_controle_. __Petit pb sur le merge des df pour le contrôle (beaucoup de NA

In [86]:
deb = 1990
fin = 2022

l_pays = ['aut', 'bel', 'bgr', 'cro', 'cyp', 'dnk', 'esp', 'eso', 'fin', 'fra', 'gbr', 'grc', 'hun', 'irl', 'ita', 'lat', \
           'lth', 'lux', 'mlt', 'nld', 'nor', 'pol', 'prt', 'rcz', 'rfa', 'rfy', 'rom', 'rsl', 'slo', 'sui', 'swe', \
           'ueur', 'ueur28']

fichiercontrole=False
pays_controle = "('fra','lux','swe')"

## Importation des données GED

On commence par importer le fichier Excel de mapping contenu dans le dossier du même nom.

La clause `sheet_name=None` implique que tous les onglets sont importés sous forme de dataframes et stockés dans un dictionnaire : le nom de l'onglet permet alors d'accéder au df correspondant.

On crée ainsi les dataframes dfE à partir de l'onglet Energie et dfI à partir de l'onglet Industrie puis on récupère les codes des séries qui doivent être importées dans les colonnes code_STATS.

In [87]:
mapping = pd.read_excel("Mapping/mappingODY-GED.xlsx", sheet_name=None)
mapE = mapping['Energie']
mapI = mapping['Industrie']
l_series_E = str(set(list(mapE.code_STATS)))
l_series_I = str(set(list(mapI.code_STATS)))

L'accès aux bases Oracle se fait grâce à la fonction create_engine associée à un chemin d'accès.

L'importation des données nécessite de définir des requêtes SQL qui indiquent:
* les attributs à récupérer : code_serie, code_pays, unite, tyear, valeur et source ;
* les tables où les trouver : Series et Valeurs_tab ;
* les conditions de récupération grâce aux variables définies plus haut : uniquement les séries mappées /prises après 1990 / pour les pays d'Odyssée.

L'engine et la requête permettent d'importer les données, il suffit alors de renommer les colonnes "code_serie" et "unite" pour les faire correspondre à celles du fichier de mapping.

In [88]:
enerdb = create_engine('oracle://nrdb:acc#nr21@srvoraclecoll.grenoble.enerdata.net:1521/penergie')

qener="SELECT s.CODE_SERIE, s.CODE_PAYS, s.unite, v.TYEAR,v.VALEUR, s.source FROM Series s, Valeurs_tab v WHERE s.NUMERO=v.TICKER"\
    " AND s.TEMP='Y' AND v.TYEAR >= "+str(deb)+" AND v.TYEAR <= "+str(fin)+" and s.CODE_SERIE IN ("+l_series_E[1:-1]+") and s.CODE_PAYS IN ("+str(l_pays)[1:-1]+")"

enerdf = pd.read_sql(qener, enerdb)
enerdf.columns = ['code_STATS', 'zone', 'unite_STATS', 'year', 'value', 'source']


indusdb = create_engine('oracle://nrdb:acc#nr21@srvoracle01.grenoble.enerdata.net:1521/activites')

qindus="SELECT s.CODE_SERIE, s.CODE_PAYS, s.unite, v.TYEAR,v.VALEUR, s.source FROM Series s, Valeurs_tab v WHERE s.NUMERO=v.TICKER"\
    " AND s.TEMP='Y' AND v.TYEAR >= "+str(deb)+" AND v.TYEAR <= "+str(fin)+" and s.CODE_SERIE IN ("+l_series_I[1:-1]+") and s.CODE_PAYS IN ("+str(l_pays)[1:-1]+")"

indusdf = pd.read_sql(qindus, indusdb)
indusdf.columns = ['code_STATS', 'zone', 'unite_STATS', 'year', 'value', 'source']

L'étape suivante consiste à utiliser la méthode `merge` pour coller horizontalement le dataframe de mapping et le dataframe de données suivant leurs colonnes _code_STATS_ et _unite_STATS_.

Grâce à cette manipulation, les codes de séries Odyssée et les données GED correspondantes sont alignés dans un même dataframe, et il suffit alors de supprimer les colonnes superflues pour obtenir un df qui ressemble à ce qu'on trouve dans Odyssée, modulo les agrégations et conversions d'unité à réaliser.

In [89]:
dfE = mapE.merge(enerdf, 'left', on=['code_STATS', 'unite_STATS'])
dfE = dfE[['code_ODY', 'unite_ODY', 'zone', 'year', 'value', 'source']]
dfE = dfE.rename(columns = {'code_ODY':'serie', 'unite_ODY':'unite'})
dfE = dfE.dropna(subset=['zone', 'year', 'value', 'source'])
dfE.year = dfE.year.astype(int)


dfI = mapI.merge(indusdf, 'left', on=['code_STATS', 'unite_STATS'])
dfI = dfI[['code_ODY', 'unite_ODY', 'zone', 'year', 'value', 'source']]
dfI = dfI.rename(columns = {'code_ODY':'serie', 'unite_ODY':'unite'})

dfGED = pd.concat([dfE, dfI], ignore_index=True)
dfGED
# print(dfGED[dfE.value.isna()].to_string())

Unnamed: 0,serie,unite,zone,year,value,source
0,toccp,ktoe,sui,1993,24117.553981,NRAIE
1,toccp,ktoe,sui,1990,24271.705231,NRAIE
2,toccp,ktoe,sui,1991,24629.326595,NRAIE
3,toccp,ktoe,sui,1992,24772.339834,NRAIE
4,toccp,ktoe,sui,1994,24334.353295,NRAIE
...,...,...,...,...,...,...
429370,prdpat,kt,ueur,2015,33393.622000,NRD
429371,prdpat,kt,ueur,2016,33731.995000,NRD
429372,prdpat,kt,ueur,2017,33962.124000,NRD
429373,prdpat,kt,ueur,2018,34733.161000,NRD


### Calcul des sommes et conversions des unités

In [90]:
# Préparation des séries à soustraire
df_nega = dfGED.loc[dfGED.serie.str.startswith('-'), ['serie', 'value']].copy()
df_nega = df_nega.transform({'serie':(lambda x : x[1:]), 'value':(lambda x : -x)})

# Calcul des sommes et différences de séries
dfGED.update(df_nega)
dfGED = dfGED.groupby(['serie','zone','source','unite','year'], as_index=False).agg(lambda x : x.sum(skipna=False))

# Conversions
dfGED.loc[dfGED.unite == 'ktoe', 'value'] *= 0.001
dfGED.loc[dfGED.unite == 'ktoe', 'unite'] = 'Mtoe'


### Aperçu du dataframe obtenu

In [91]:
dfGED

Unnamed: 0,serie,zone,source,unite,year,value
0,carcfado,aut,NREurostat,Mtoe,1990,0.018745
1,carcfado,aut,NREurostat,Mtoe,1991,0.020827
2,carcfado,aut,NREurostat,Mtoe,1992,0.021869
3,carcfado,aut,NREurostat,Mtoe,1993,0.026034
4,carcfado,aut,NREurostat,Mtoe,1994,0.028117
...,...,...,...,...,...,...
307569,vappd,ueur28,NRD,Mtoe,2017,59.974318
307570,vappd,ueur28,NRD,Mtoe,2018,58.407971
307571,vappd,ueur28,NRD,Mtoe,2019,57.546558
307572,vappd,ueur28,NRD,Mtoe,2020,55.461634


## Exportation au format .csv

In [92]:
dfGED.to_csv('donneesGED.csv', index=False)

## Création des fichiers de contrôle

In [102]:
odydb = create_engine('oracle://nrdb:acc#nr21@srvoraclecoll.grenoble.enerdata.net:1521/podyssee')

qody="SELECT s.CODE_SERIE, s.CODE_PAYS, s.unite, v.TYEAR, v.VALEUR, s.source FROM Series s, Valeurs_tab v WHERE s.NUMERO=v.TICKER"\
    " AND s.TEMP='Y' AND v.TYEAR >= "+str(deb)+" AND v.TYEAR <= "+str(fin)+" AND s.CODE_PAYS in "+pays_controle+""\
    " and s.CODE_SERIE IN ("+l_series_E[1:-1]+","+l_series_I[1:-1]+")"

odydf = pd.read_sql(qody, odydb)
odydf.columns = ['serie', 'zone', 'unite', 'year', 'value', 'source_Odyssee']
pays_comp = list(odydf.zone.unique())

In [103]:
dfGEDcomp = dfGED[dfGED.zone.isin(pays_comp)]
dfcomp = dfGEDcomp.merge(odydf, 'left', on=['serie', 'zone', 'year'], suffixes=['_Energie', '_Odyssee'])
dfcomp

Unnamed: 0,serie,zone,source,unite_Energie,year,value_Energie,unite_Odyssee,value_Odyssee,source_Odyssee
0,carcfado,fra,NREurostat,Mtoe,1990,0.690137,Mtoe,0.741683,"OEBIL,Eurostat"
1,carcfado,fra,NREurostat,Mtoe,1991,0.816457,Mtoe,0.871241,"OEBIL,Eurostat"
2,carcfado,fra,NREurostat,Mtoe,1992,0.843158,Mtoe,0.898627,"OEBIL,Eurostat"
3,carcfado,fra,NREurostat,Mtoe,1993,0.895535,Mtoe,0.949171,"OEBIL,Eurostat"
4,carcfado,fra,NREurostat,Mtoe,1994,0.863698,Mtoe,0.916519,"OEBIL,Eurostat"
...,...,...,...,...,...,...,...,...,...
27043,vappd,swe,NREurostat,Mtoe,2017,5.061303,Mtoe,4.535929,NRAIE
27044,vappd,swe,NREurostat,Mtoe,2018,5.025786,Mtoe,4.531199,NRAIE
27045,vappd,swe,NREurostat,Mtoe,2019,4.958215,Mtoe,4.462420,NRAIE
27046,vappd,swe,NREurostat,Mtoe,2020,4.620195,Mtoe,4.394684,NRAIE


In [104]:
kpathv = "../DATA/TEST_V3/CONTROLES_GED"
if fichiercontrole==True:
    with pd.ExcelWriter(os.path.join(kpathv, "controle_mappingGED.xlsx")) as writer:
        dfcomp.to_excel(writer, index=False)