# Comparaison PROCESS ODYSSEE

## Variables et définitions

In [118]:
# les imports et config -- ne pas éditer

import os # fonction systèmes
import glob # gestion répertoires
import pandas as pd # fonctions dataframe
import numpy as np
import warnings
import pyarrow as pa
from pyarrow import fs
import pyarrow.parquet as pq # pour gérer les fichiers parquet de notre datalake
import cx_Oracle
from sqlalchemy import create_engine

# Suppresion des warnings avec openpyxl
warnings.filterwarnings("ignore", category=UserWarning, module="openpyxl")

# ajout option pour multi affichage pour test
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [119]:
# pays à comparer :
listPays = ["ueur28"]

## année de début des fichiers COEFFS (1960 AIE , 1990 pour Eurostat)
anneedeb = 1990
anneedef = 2020

# chemin du K des fichiers
kpathv = "../../DATA/TEST_V3/CONTROLES"

datapath = "/test/odyssee/" ## racine de traitement pour l'année
resdata = datapath + "valid/" ## où sont écrit les fichiers pays resultats


###### Ne rien changer sous cette ligne ######

# connexion au datalake
hdfs = fs.HadoopFileSystem("dataprocess.enerdata.net",user='data', port=9000)
    
# format SQL de la liste des pays
listpays = "\'"+"\',\'".join(listPays)+"\'"

# date de début de traitement (pour la génration de rapport)
datedeb=pd.Timestamp.now("Europe/Paris").strftime("%d-%m-%Y %X")

# base comparaison Odyssée

odydb = create_engine('oracle://nrdb:acc#nr21@srvoraclecoll.grenoble.enerdata.net:1521/codyssee')


# format SQL de la liste des pays
listpays = "\'"+"\',\'".join(listPays)+"\'"

# Chargement des données

## Récupération des données Oracle

In [120]:
tableVal = "VALEURS_TAB"
tableSer = "SERIES"

qody="SELECT s.CODE_SERIE, s.CODE_PAYS, s.unite, v.TYEAR,v.VALEUR FROM "+tableSer+" s, "+tableVal+" v WHERE s.NUMERO=v.TICKER"\
    " AND s.TEMP='Y' AND s.code_pays IN ("+listpays+") AND v.TYEAR >= "+ str(anneedeb) +" AND v.TYEAR <="+ str(anneedef)

# Recupération
olddata = pd.read_sql_query(qody,odydb)

# Renommage des colonnes
olddata.columns = ["serie","zone","unite","year","value"]

# Suppression des séries dupliquées pour la Croatie (cutocpkm, cutocpkmaj, cutocpkmst : erreur probable dans l'ancien process)
olddata = olddata.drop_duplicates(['serie', 'zone', 'year'], keep='last')

# Récupération calcul v3

In [121]:
newdata = pd.DataFrame()
for zone in listPays:
    src_file = resdata  + zone + ".parquet"
    df = pq.read_table(src_file, filesystem=hdfs).to_pandas()
    df = df[(df.year >= anneedeb) & (df.year <= anneedef)]
    newdata = pd.concat([newdata, df], ignore_index=True).drop("source",axis=1)
    
# debug Julien 
# with pd.ExcelWriter(os.path.join(kpathv, "Test SRC-brute-"+ zone + ".xlsx")) as writer:
#     df.to_excel(writer,index=False)

# Comparaison séries

In [122]:
# Liste des séries manquantes et en plus

ListeSerieOld = olddata["serie"].unique()
ListeSerieNew = newdata["serie"].unique()
#manquante
test = olddata[~olddata.serie.isin(ListeSerieNew)][["serie","unite"]].drop_duplicates()
print("liste des séries manquantes :")
test
print("\n")

# en plus
test1 = newdata[~newdata.serie.isin(ListeSerieOld)][["serie","unite"]].drop_duplicates()
print("liste des séries ajoutées:")
print(test1.to_string())

liste des séries manquantes :


Unnamed: 0,serie,unite




liste des séries ajoutées:
             serie  unite
33071  cmbecrester  MtCO2


In [123]:
test.shape

(0, 2)

In [124]:
test1.shape

(1, 2)

# Comparaisons valeurs

In [125]:
# On merge

compdf = olddata.merge(newdata, how ="left", on=["serie","zone","unite","year"],suffixes=('_old', '_new')).copy()
compdf["diff"] = abs(1 - (compdf["value_new"]/compdf["value_old"]))
#quand les 2 valeurs sont nulle, la diff est nulle
compdf.loc[(compdf.value_new == 0) & (compdf.value_old == 0),"diff"] = 0
#quand on divise par 0, la diff est 1
compdf.loc[(compdf.value_new != 0) & (compdf.value_old == 0),"diff"] = 1

df = compdf.pivot(index=["serie","zone","unite"],columns="year",values=["value_old","value_new","diff"])

In [126]:
df_test = df[(df['diff'].gt(0.00001))&(df['diff'].ne(1))] #&(df['diff'].ne(1))
df_test = df_test['diff'].dropna(0,'all').dropna(1,'all')
print(df_test)

year                         1990  1991      1992      1993      1994  \
serie       zone   unite                                                
cicmbmot    ueur28 tCO2/veh   NaN   NaN  0.000023  0.000113  0.000223   
cicmbpkm    ueur28 kCO2/pkm   NaN   NaN  0.000011  0.000054  0.000120   
cicmbroupkm ueur28 kCO2/pkm   NaN   NaN       NaN  0.000044  0.000100   
cicmbtgr    ueur28 kCO2/tkm   NaN   NaN       NaN       NaN       NaN   
cicmbvpc    ueur28 tCO2/veh   NaN   NaN  0.000011  0.000056  0.000125   
...                           ...   ...       ...       ...       ...   
toccfmpraj  ueur28 Mtoe       NaN   NaN       NaN       NaN       NaN   
toccfpppaj  ueur28 Mtoe       NaN   NaN       NaN       NaN       NaN   
toccfsidaj  ueur28 Mtoe       NaN   NaN       NaN       NaN       NaN   
toccftexaj  ueur28 Mtoe       NaN   NaN       NaN       NaN       NaN   
toccfvehaj  ueur28 Mtoe       NaN   NaN       NaN       NaN       NaN   

year                             1995      1996   

  df_test = df_test['diff'].dropna(0,'all').dropna(1,'all')


In [127]:
df_test = compdf[(compdf['diff'].gt(0.00001))&(compdf['diff'].ne(1))] #&(df['diff'].ne(1))
print(df_test.dropna(0,'all').dropna(1,'all').to_string())

                 serie    zone         unite  year    value_old   value_new      diff
8297       gzleccamvlr  ueur28         MtCO2  1992   217.222523  217.227470  0.000023
8298       gzleccamvlr  ueur28         MtCO2  1993   219.117103  219.141857  0.000113
8299       gzleccamvlr  ueur28         MtCO2  1994   222.975572  223.025284  0.000223
8300       gzleccamvlr  ueur28         MtCO2  1995   229.233998  229.360559  0.000552
8301       gzleccamvlr  ueur28         MtCO2  1996   238.003853  238.194278  0.000800
8302       gzleccamvlr  ueur28         MtCO2  1997   243.811256  244.095091  0.001164
8303       gzleccamvlr  ueur28         MtCO2  1998   257.396887  257.696514  0.001164
8304       gzleccamvlr  ueur28         MtCO2  1999   267.928269  268.281881  0.001320
8305       gzleccamvlr  ueur28         MtCO2  2000   272.254175  272.859041  0.002222
8306       gzleccamvlr  ueur28         MtCO2  2001   280.818184  281.536350  0.002557
8307       gzleccamvlr  ueur28         MtCO2  2002   2

  print(df_test.dropna(0,'all').dropna(1,'all').to_string())


In [128]:
df_test = compdf[(compdf['diff'].eq(1))]
print(df_test.dropna(0,'all').dropna(1,'all').to_string())

                 serie    zone unite  year     value_old  value_new  diff
68            enccfbla  ueur28  Mtoe  1990 -1.000000e-06        0.0   1.0
72            enccfbla  ueur28  Mtoe  1994 -1.000000e-06        0.0   1.0
73            enccfbla  ueur28  Mtoe  1995 -4.000000e-15        0.0   1.0
75            enccfbla  ueur28  Mtoe  1997 -1.000000e-06        0.0   1.0
76            enccfbla  ueur28  Mtoe  1998  1.000000e-06        0.0   1.0
15338  othgrosspasstot  ueur28  Mtoe  2001  5.000000e-15        0.0   1.0
15339  othgrosspasstot  ueur28  Mtoe  2002  8.000000e-15        0.0   1.0
15340  othgrosspasstot  ueur28  Mtoe  2003 -2.900000e-14        0.0   1.0
15341  othgrosspasstot  ueur28  Mtoe  2004 -2.000000e-14        0.0   1.0
15342  othgrosspasstot  ueur28  Mtoe  2005  2.100000e-14        0.0   1.0
15343  othgrosspasstot  ueur28  Mtoe  2006 -1.300000e-14        0.0   1.0
15344  othgrosspasstot  ueur28  Mtoe  2007  6.000000e-15        0.0   1.0
15345  othgrosspasstot  ueur28  Mtoe  

  print(df_test.dropna(0,'all').dropna(1,'all').to_string())


In [129]:
compdf[compdf.serie=='petecroudom']

Unnamed: 0,serie,zone,unite,year,value_old,value_new,diff
22753,petecroudom,ueur28,MtCO2,1990,666.413891,666.413891,2.220446e-16
22754,petecroudom,ueur28,MtCO2,1991,678.207042,678.207042,0.0
22755,petecroudom,ueur28,MtCO2,1992,698.131245,698.115345,2.277467e-05
22756,petecroudom,ueur28,MtCO2,1993,701.596474,701.517225,0.0001129557
22757,petecroudom,ueur28,MtCO2,1994,712.119028,711.960299,0.0002228964
22758,petecroudom,ueur28,MtCO2,1995,723.30583,722.906711,0.0005517982
22759,petecroudom,ueur28,MtCO2,1996,741.218633,740.626062,0.0007994546
22760,petecroudom,ueur28,MtCO2,1997,752.345732,751.4709,0.001162806
22761,petecroudom,ueur28,MtCO2,1998,773.012481,772.113689,0.001162713
22762,petecroudom,ueur28,MtCO2,1999,792.380997,791.336591,0.00131806


# Export vers Excel

In [130]:
with pd.ExcelWriter(os.path.join(kpathv, "COMP-col-"+ zone + ".xlsx")) as writer:
    compdf.to_excel(writer,index=False)
with pd.ExcelWriter(os.path.join(kpathv, "COMP-line-"+ zone + ".xlsx")) as writer:
    df.to_excel(writer)