# Importation des données Eurostat
__Toujours penser à importer le nouveau fichier dans le dossier Mapping en cas de modification des correspondances entre séries.__

In [48]:
import pandas as pd
import numpy as np
import os
from sqlalchemy import create_engine

## Variables

On indique le chemin menant au dossier où son contenus les fichier tsv importés d'Eurostat ainsi que les années de début et fin des données.

In [49]:
path = "tsvEurostat/"

deb = 1990
fin = 2022

## Récupération des correspondances pays et unités

On importe sous forme de dataframes le contenu des fichiers _pays.txt_ et _unite.txt_. Ces fichiers contiennent respectivement:
* la correspondance entre code pays Odyssée, code pays Eurostat et code monnaie Eurostat (remplace parfois l'attribut pays dans les tsv) ;
* la correspondance entre les codes unités d'Odyssée et d'Eurostat.

In [50]:
l_pays = pd.read_csv(path+"/pays.txt", sep = ";")
l_unites = pd.read_csv(path+"/unite.txt", sep = ";")

## Lecture des tsv et mise en oeuvre du mapping

In [51]:
# Importation du fichier de mapping Excel : la clause sheet_name=None garantit la conversion de chaque onglet
# en dataframe stocké dans le dictionnaire 'mapping'. 
# On y accède en renseignant le nom de l'onglet qui est en même temps le nom d'un fichier TSV importé d'Eurostat

mapping = pd.read_excel("Mapping/mappingODY-Eurostat.xlsx", sheet_name=None)

# On prépare une liste destinée à stocker les df contenant les données issues des tsv rattachées à leur code Odyssée

liste_df = []


for tsv_name, df_xsl in mapping.items():
    
    tsv_path = path+tsv_name+'.tsv'
    
    try:
        # On importe les données à partir de 1990
        df = pd.read_csv(tsv_path, sep = "\t", header = 0, usecols = [*range(fin-deb+1)], na_values = ': ', dtype = 'object')
    except ValueError:
        # Si la série commence plus tard, on prélève l'ensemble des données
        df = pd.read_csv(tsv_path, sep = "\t", header = 0, na_values = ': ', dtype = 'object')
    
    # Nettoyage des labels des colonnes (suppression des espaces en trop)
    df.columns = [x.strip() for x in df.columns]
    
    # On définit une plage d'années à partir des données disponibles dans le df courant
    periode = list(df.columns[1:])
    
    # On scinde la première colonne dont le titre et les valeurs sont au format xxx,yyy,zzz en autant de colonnes séparées
    new_col = df.columns[0][:-5].upper().split(',')
    df[new_col] = df.iloc[:,0].str.split(',', expand=True)
    
    # On nettoie les colonnes des df de mapping pour ne pas avoir 'attribut  ' au lieu de 'attribut' par exemple
    for label in df_xsl.columns:
        df_xsl[label] = df_xsl[label].str.strip()
    
    # On fusionne les df issus du tsv et du fichier de correpondance sur la base de leurs colonnes communes
    # Le code ODY est ainsi rattaché aux séries Eurostat correspondantes lorsque les noms d'attributs sont identiques (d'où l'importance du nettoyage précédent)
    # df = df_xsl.merge(df, 'inner')
    
    # Même principe avec le df des correspondances entre code pays
    # df = df.merge(l_pays, 'inner')
    
    df_map = l_pays.merge(df_xsl, 'cross')
    df = df_map.merge(df, 'left')
    
    
    # Enfin on conserve uniquement les colonnes correpondant aux 
    # Le try/except ne sera plus nécessaire après transformation des unités
    try:
        df = df[['Code ODY', 'UNIT', 'zone']+periode]
    except KeyError:
        df = df[['Code ODY', 'zone']+periode]
        
    liste_df.append(df)

    

In [52]:
df = pd.concat(liste_df, ignore_index=True)
df.rename(columns={'Code ODY':'serie'}, inplace=True)
df = df.merge(l_unites, 'left')
df = df[['serie', 'unite', 'zone']+periode]

df_ligne = df.copy()

In [53]:
#Transformation du dataframe ligne en dataframe colonne
df_col = df.melt(id_vars=['serie', 'unite', 'zone'], value_vars = periode, var_name = 'year')

# Nettoyage des valeurs (plus de 'b', 'p', 'e'...) et conversion
df_col.value = df_col.value.str.extract(r'(\d+[.\d]*)')
df_col.value = pd.to_numeric(df_col.value)
df_col.year = df_col.year.astype('int')

# Correction des unités et des valeurs
df_col.loc[df_col.serie.isin(['dj','djcli']), 'unite'] = 'degree'
df_col.loc[df_col.serie == 'pop', 'value'] *= 0.001
df_col.loc[df_col.serie == 'pop', 'unite'] = 'k'
df_col.loc[df_col.unite == 'ktoe', 'value'] *= 0.001
df_col.loc[df_col.unite == 'ktoe', 'unite'] = 'Mtoe'
df_col.loc[df_col.serie.isin(['txchgppp', 'txchgeuro']), 'unite'] = 'lc/EUR'
df_col.loc[(df_col.serie == 'txchgeuro')&(df_col.value.isna()), 'value'] = 1

# Transformation des séries à soustraire (suppression du '-' devant le nom de série et valeur * -1)
df_nega = df_col.loc[df_col.serie.str.startswith('-'), ['serie', 'value']].copy()
df_nega = df_nega.transform({'serie':(lambda x : x[1:]), 'value':(lambda x : -x)})
#Agrégation des séries par nom, par année et par pays
df_col.update(df_nega)
df_col = df_col.groupby(['serie','unite','zone','year'], as_index=False).agg(lambda x: x.sum(skipna=False))

#Passage de la source à Eurostat
df_col['source'] = 'Eurostat'

dfEuro = df_col.copy()

## Exportation du csv

In [54]:
dfEuro.to_csv('donneesEurostat.csv', index=False)

# Code pour les séries consommation des ménages

Le code qui suit a été utilisé pour produire des fichiers de contrôle de ces séries particulières. Il pourra être réactivé, corrigé et modifié une fois celles-ci disponibles.

__Note__ _ si le mapping de ces séries est validé, il devrait suffire de l'ajouter sous forme de nouvel onglet dans le fichier Excel de mapping pour que le programme précédent le lise automatiquement. Il faudra aussi penser ajouter une conversion pour ces nouvelles données (voir _c_tep = 0.0001/const.VALEUR['cst_tclun']_ ci-dessous).

In [60]:
# #chargement du csv 
# const=pd.read_csv("./config/constantes.csv",sep=";")[["CODE_SERIE","CODE_PAYS","VALEUR"]]
# # Selection et réindexation
# const=const[const["CODE_PAYS"]=="fix"].drop("CODE_PAYS",axis=1).set_index("CODE_SERIE")

In [61]:
# # Contrôle des séries conso des ménages

# tsv_path = path+'nrg_d_hhq'+'.tsv'
# ref = pd.read_csv(tsv_path, sep = "\t", header = 0, na_values = ': ', dtype = 'object')

# ref.columns = [x.strip() for x in ref.columns]
# periode1 = list(ref.columns[1:])
# new_col = ref.columns[0][:-5].upper().split(',')
# ref[new_col] = ref.iloc[:,0].str.split(',', expand=True)

# ref = nrg_d_hhq.merge(ref, 'inner')
# ref = ref.merge(l_pays, 'inner')
# ref = ref.merge(l_unites, 'inner')
# ref = ref[['Code ODY', 'zone', 'unite']+periode1]

# l_series_conso = str(list(ref['Code ODY'].unique()))
# ref.rename(columns={'Code ODY':'serie'}, inplace=True)
# # print(ref[ref.zone == 'swe'].drop_duplicates().to_string())
# ref = ref.melt(id_vars=['serie', 'unite', 'zone'], value_vars = periode1, var_name = 'year')

# # Nettoyage des valeurs (plus de 'b', 'p', 'e'...) et conversion
# ref.value = ref.value.str.extract(r'(\d+[.\d]*)')
# ref.value = pd.to_numeric(ref.value)
# ref.year = ref.year.astype('int')


# # Transformation des séries à soustraire et aggrégation

# ref_nega = ref[ref.serie.str.startswith('-')].loc[:, ['serie', 'value']].copy()
# ref_nega = ref_nega.transform({'serie':(lambda x : x[1:]), 'value':(lambda x : -x)})

# ref.update(ref_nega)
# ref = ref.groupby(['serie','unite','zone','year'], as_index=False).agg(lambda x: x.sum(skipna=False))
# ref = ref.dropna()
# c_tep = 0.0001/const.VALEUR['cst_tclun']
# ref.value *= c_tep
# ref.unite = 'Mtoe'

# ref['source'] = 'Eurostat'
# ref.head(50)

In [None]:
# odydb2 = create_engine('oracle://nrdb:acc#nr21@srvoraclecoll.grenoble.enerdata.net:1521/podyssee')

# qody2="SELECT s.CODE_SERIE, s.CODE_PAYS, s.unite, v.TYEAR,v.VALEUR FROM Series s, Valeurs_tab v WHERE s.NUMERO=v.TICKER"\
#     " AND s.TEMP='Y' AND v.TYEAR >= 1990 AND v.TYEAR <= 2020 AND s.CODE_SERIE in ("+l_series_conso[1:-1]+")"
# consORA = pd.read_sql_query(qody2,odydb2)
# consORA.columns = ['serie', 'zone', 'unite', 'year', 'value']

# consORA = consORA.dropna()
# consORA.loc[consORA.unite == 'ktoe', 'value'] *= 0.001
# consORA.loc[consORA.unite == 'TJ', 'value'] *= c_tep
# consORA.unite = 'Mtoe'


# consORA_tot = consORA[consORA.serie.isin(['toccfreschf','toccfresecs','toccfrescui','toccfrescli', 'elccfresels'])]

In [None]:
# comp = consORA.merge(ref, 'outer', ['serie', 'zone', 'unite', 'year'], suffixes = ['_Oracle', '_Eurostat'])
# comp = comp.dropna()
# comp['diff_rel'] = abs(1 - comp['value_Oracle']/comp['value_Eurostat'])
# comp = comp.drop('source',1)

# comp_tot = consORA_tot.merge(ref, 'outer', ['serie', 'zone', 'unite', 'year'], suffixes = ['_Oracle', '_Eurostat'])
# comp_tot = comp_tot.dropna()
# comp_tot['diff_rel'] = abs(1 - comp_tot['value_Oracle']/comp_tot['value_Eurostat'])
# comp_tot = comp_tot.drop('source',1)


# # df_conso = consORA.merge(ref, 'left', on=['serie', 'zone', 'unite', 'year'], suffixes = ['_Oracle', None])
# # df_conso.loc[df_conso.value.isna(), 'value'] = df_conso.loc[df_conso.value.isna(), 'value_Oracle']
# # df_conso = df_conso[['serie', 'zone', 'unite', 'year', 'value']]
# # comp.zone.unique()
# comp

In [None]:
# kpathv = "../DATA/TEST_V3/CONTROLES_EUROSTAT"

# with pd.ExcelWriter(os.path.join(kpathv, "controle_series_conso_all_ménages.xlsx")) as writer:
#     comp.to_excel(writer, index=False)
# with pd.ExcelWriter(os.path.join(kpathv, "controle_series_conso_toc_ménages.xlsx")) as writer:
#     comp_tot.to_excel(writer, index=False)