In [35]:
import pandas as pd
import numpy as np
import requests
import tabula

In [3]:
# http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/

In [4]:
codes = ['BE', 'BG', 'CZ', 'DK', 'DE', 'EE', 'IE', 'EL', 'ES', 'FR', 'HR', 'IT', 'CY', 'LV', 'LT', 'LU', 'HU', 'MT', 'NL', 'AT', 'PL', 'PT', 'RO', 'SI', 'SK', 'FI', 'SE', 'IS', 'NO', 'CH', 'MK', 'UK', 'ME', 'RS', 'TR']

In [47]:
pdf_path = 'http://ec.europa.eu/eurostat/documents/4411192/4411431/Europe_2020_Targets.pdf'

In [None]:
tabula.convert_into(pdf_path, 'table.csv', pages='all')

In [60]:
df = pd.read_csv('table.csv')

In [62]:
df = df.set_index('code')

In [134]:
# adattároló
data = {}

In [135]:
# létrehozzuk az ország mezőjét
for c in codes:
    data[c] = {}

In [136]:
# ország mezőjéhez hozzáadjuk az adatokat, először a foglalkoztatási rátáról
for c in codes:
    year = 2015
    
    for _ in range(5):
        resp = requests.get('http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/t2020_10?sex=T&time={}&geo={}'.format(year, c))
        data[c]['e_{}'.format(year)] = resp.json()['value']['0']
        year = year + 1
        
    if c in df.index:
        data[c]['e_t'] = (df.loc[c, 'e'] * 100)

In [138]:
# ország mezőjéhez hozzáadjuk az adatokat, a K és F-be fektette GDP %-os aránya
for c in codes:
    year = 2015
    
    for _ in range(4):
        resp = requests.get('http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/t2020_20?time={}&geo={}'.format(year, c))
        if len(resp.json()['value']) > 0:
            data[c]['rd_{}'.format(year)] = resp.json()['value']['0']
        else:
            data[c]['rd_{}'.format(year)] = np.nan
            
        year = year + 1
        
    if c in df.index:
        data[c]['rd_t'] = (df.loc[c, 'rd'] * 100)

In [139]:
# ország mezőjéhez hozzáadjuk az adatokat, az ÜHG kibocsátás változása 1990-hez képest
for c in codes:
    year = 2015
    
    for _ in range(4):
        resp = requests.get('http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/t2020_30?time={}&geo={}'.format(year, c))
        
        if resp.status_code == 200:
            if len(resp.json()['value']) > 0:
                data[c]['ge_{}'.format(year)] = resp.json()['value']['0'] - 100
            else:
                data[c]['ge_{}'.format(year)] = np.nan
        else:
            data[c]['ge_{}'.format(year)] = np.nan
            
        year = year + 1
        
    if c in df.index:
        data[c]['ge_t'] = (df.loc[c, 'ge'] * 100)

In [140]:
# ország mezőjéhez hozzáadjuk az adatokat, megújuló energiaforrások részaránya
for c in codes:
    year = 2015
    
    for _ in range(4):
        resp = requests.get('http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/t2020_31?time={}&geo={}'.format(year, c))
        
        if resp.status_code == 200:
            if len(resp.json()['value']) > 0:
                data[c]['re_{}'.format(year)] = resp.json()['value']['0']
            else:
                data[c]['re_{}'.format(year)] = np.nan
        else:
            data[c]['re_{}'.format(year)] = np.nan
            
        year = year + 1
        
    if c in df.index:
        data[c]['re_t'] = (df.loc[c, 're'] * 100)

In [141]:
# ország mezőjéhez hozzáadjuk az adatokat, elsődleges energiafogyasztás
for c in codes:
    year = 2015
    
    for _ in range(4):
        resp = requests.get('http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/t2020_33?unit=MTOE&time={}&geo={}'.format(year, c))
        
        if resp.status_code == 200:
            if len(resp.json()['value']) > 0:
                data[c]['ee_{}'.format(year)] = resp.json()['value']['0']
            else:
                data[c]['ee_{}'.format(year)] = np.nan
        else:
            data[c]['ee_{}'.format(year)] = np.nan
            
        year = year + 1
        
    if c in df.index:
        data[c]['ee_t'] = df.loc[c, 'ee']

In [142]:
# ország mezőjéhez hozzáadjuk az adatokat, korai iskolaelhagyók aránya
for c in codes:
    year = 2015
    
    for _ in range(5):
        resp = requests.get('http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/t2020_40?sex=T&time={}&geo={}'.format(year, c))
        
        if resp.status_code == 200:
            if len(resp.json()['value']) > 0:
                data[c]['el_{}'.format(year)] = resp.json()['value']['0']
            else:
                data[c]['el_{}'.format(year)] = np.nan
        else:
            data[c]['el_{}'.format(year)] = np.nan
            
        year = year + 1
        
    if c in df.index:
        data[c]['el_t'] = (df.loc[c, 'el'] * 100)

In [143]:
# ország mezőjéhez hozzáadjuk az adatokat, harmadfokú képzettséggel rendelkezők aránya 30-34 év között
for c in codes:
    year = 2015
    
    for _ in range(5):
        resp = requests.get('http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/t2020_41?sex=T&time={}&geo={}'.format(year, c))
        
        if resp.status_code == 200:
            if len(resp.json()['value']) > 0:
                data[c]['te_{}'.format(year)] = resp.json()['value']['0']
            else:
                data[c]['te_{}'.format(year)] = np.nan
        else:
            data[c]['te_{}'.format(year)] = np.nan
            
        year = year + 1
        
    if c in df.index:
        data[c]['te_t'] = (df.loc[c, 'te'] * 100)

In [144]:
# ország mezőjéhez hozzáadjuk az adatokat, társadalmi kirekesztésben élők halmozott különbsége 2008-hoz viszonyítva
for c in codes:
    year = 2015
    
    for _ in range(5):
        resp = requests.get('http://ec.europa.eu/eurostat/wdds/rest/data/v2.1/json/en/t2020_50?unit=THS_CD08&time={}&geo={}'.format(year, c))
        
        if resp.status_code == 200:
            if len(resp.json()['value']) > 0:
                data[c]['sx_{}'.format(year)] = resp.json()['value']['0'] * 1000
            else:
                data[c]['sx_{}'.format(year)] = np.nan
        else:
            data[c]['sx_{}'.format(year)] = np.nan
            
        year = year + 1
        
    if c in df.index:
        data[c]['sx_t'] = df.loc[c, 'sx']

In [145]:
data

{'BE': {'e_2015': 67.2,
  'e_2016': 67.7,
  'e_2017': 68.5,
  'e_2018': 69.7,
  'e_2019': 70.5,
  'e_t': 73.2,
  'rd_2015': 2.43,
  'rd_2016': 2.52,
  'rd_2017': 2.66,
  'rd_2018': 2.76,
  'rd_t': 3.0,
  'ge_2015': -17.189999999999998,
  'ge_2016': -18.040000000000006,
  'ge_2017': -17.86,
  'ge_2018': -17.33,
  'ge_t': -15.0,
  're_2015': 8.003,
  're_2016': 8.712,
  're_2017': 9.064,
  're_2018': 9.423,
  're_t': 13.0,
  'ee_2015': 46.06,
  'ee_2016': 49.18,
  'ee_2017': 49.09,
  'ee_2018': 46.84,
  'ee_t': 43.7,
  'el_2015': 10.1,
  'el_2016': 8.8,
  'el_2017': 8.9,
  'el_2018': 8.6,
  'el_2019': 8.4,
  'el_t': 9.5,
  'te_2015': 42.7,
  'te_2016': 45.6,
  'te_2017': 45.9,
  'te_2018': 47.6,
  'te_2019': 47.5,
  'te_t': 47.0,
  'sx_2015': 143000,
  'sx_2016': 136000,
  'sx_2017': 107000,
  'sx_2018': 53000,
  'sx_2019': nan,
  'sx_t': -380000},
 'BG': {'e_2015': 67.1,
  'e_2016': 67.7,
  'e_2017': 71.3,
  'e_2018': 72.4,
  'e_2019': 75.0,
  'e_t': 76.0,
  'rd_2015': 0.95,
  'rd_2016'

In [151]:
df_final = pd.DataFrame(data)

In [152]:
df_final = df_final.T

In [154]:
df_final.to_json('../data/europa-data.json', orient='index')