# ADATOK FORRÁSA ÉS BETÖLTÉSE PYTHONBA

Az adatok Eurostat-ról származnak. Részletes leírása az `eurostat` könyvtárnak:
https://pypi.org/project/eurostat/
<br>
Első lépés - instalálni a könyvtárat:

In [412]:
#!python -m pip install eurostat

In [413]:
import eurostat
import pandas as pd

`read a dataset from the main database` fejezet
<br> Az én dataset-em amit olvasni akarok: _sbs_na_ind_r2_

In [524]:
df = eurostat.get_data_df('sbs_na_ind_r2')
df

Unnamed: 0,nace_r2,indic_sb,geo\time,2019,2018,2017,2016,2015,2014,2013,2012,2011,2010,2009,2008,2007,2006,2005
0,B,V11110,AT,298.0,304.0,341.0,348.0,348.0,349.0,353.0,355.0,355.0,358.0,357.0,349.0,345.0,352.0,358.0
1,B,V11110,BA,178.0,182.0,197.0,199.0,196.0,188.0,191.0,194.0,223.0,,,,,,
2,B,V11110,BE,174.0,147.0,218.0,192.0,213.0,192.0,214.0,203.0,274.0,293.0,,,224.0,208.0,219.0
3,B,V11110,BG,304.0,326.0,342.0,357.0,374.0,359.0,386.0,382.0,379.0,378.0,373.0,353.0,304.0,266.0,243.0
4,B,V11110,CH,,209.0,205.0,212.0,212.0,211.0,216.0,193.0,195.0,199.0,203.0,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
758987,E3900,V94415,SE,12.8,11.9,5.7,8.9,11.2,6.9,5.7,8.9,9.8,8.3,11.3,22.0,,,
758988,E3900,V94415,SI,26.1,15.1,30.7,13.1,5.7,,12.2,21.6,,,,,,,
758989,E3900,V94415,SK,9.0,11.0,2.9,8.1,16.5,3.2,5.0,2.4,4.6,38.0,4.0,24.6,,,
758990,E3900,V94415,TR,,,,,,4.6,,,,,,,,,


# ADATFORMÁZÁS

## A lekért táblázat formázása

Mivel csak 5 évre visszamenőleg akarom ábrázolni, 2014-től arra eldobom az adatokat

In [525]:
for year in range(2005,2015,1):
    df.drop(year, axis=1, inplace=True)

Átnevezem az oszlopokat

In [526]:
df = df.rename(columns={'indic_sb': 'indicator', 'geo\\time': 'country_code'})
df

Unnamed: 0,nace_r2,indicator,country_code,2019,2018,2017,2016,2015
0,B,V11110,AT,298.0,304.0,341.0,348.0,348.0
1,B,V11110,BA,178.0,182.0,197.0,199.0,196.0
2,B,V11110,BE,174.0,147.0,218.0,192.0,213.0
3,B,V11110,BG,304.0,326.0,342.0,357.0,374.0
4,B,V11110,CH,,209.0,205.0,212.0,212.0
...,...,...,...,...,...,...,...,...
758987,E3900,V94415,SE,12.8,11.9,5.7,8.9,11.2
758988,E3900,V94415,SI,26.1,15.1,30.7,13.1,5.7
758989,E3900,V94415,SK,9.0,11.0,2.9,8.1,16.5
758990,E3900,V94415,TR,,,,,


Csak európai országokat szeretnék, ezért a többit ugyancsak eldobom. Ugyanúgy az Uniós összesített adatokat is meg Liechtenstein-t ahol nem voltak adatok

In [527]:
df["country_code"].unique()

array(['AT', 'BA', 'BE', 'BG', 'CH', 'CY', 'CZ', 'DE', 'DK', 'EE', 'EL',
       'ES', 'EU27_2007', 'EU27_2020', 'EU28', 'FI', 'FR', 'HR', 'HU',
       'IE', 'IS', 'IT', 'LI', 'LT', 'LU', 'LV', 'MK', 'MT', 'NL', 'NO',
       'PL', 'PT', 'RO', 'RS', 'SE', 'SI', 'SK', 'TR', 'UK', 'TOTAL'],
      dtype=object)

In [528]:
df = df.set_index('country_code').drop(['EU27_2007', 'EU27_2020', 'EU28', 'TR', 'TOTAL', 'LI'],axis=0).reset_index()

## A mutatók kiválasztása és az `indicator` kódok leírása

Az eurostat könyvtár segítségével le lehet kérni a kódokat: get an Eurostat dictionary => `eurostat.get_dic(code)`

_A NACE kódokat is le lehetne innen tölteni, de nekem meg magyarul kellenének._


Az összes mutató letöltése ami megtalálható az eurostat-on

In [529]:
indicators = eurostat.get_dic('indic_sb')
indicators

{'V11110': 'Enterprises - number',
 'V11111': 'Enterprises broken down by legal status - number',
 'V11112': 'Enterprises broken down by size class of gross premiums written - number',
 'V11113': 'Enterprises broken down by size class of gross technical provisions - number',
 'V11114_C': 'Enterprises broken down by residence of the parent enterprise - number',
 'V11115': 'Enterprises broken down by country of residence of the parent enterprise - number',
 'V11116': 'Enterprises broken down by size classes of the balance sheet total - number',
 'V11117': 'Number of enterprises broken down by category of credit institutions - number',
 'V11150': 'Enterprises with non-autonomous pension funds - number',
 'V11210': 'Local units - number',
 'V11410': 'Total number and location of branches in other countries - number',
 'V11411': 'Branches broken down by location in non-EEA countries - number',
 'V11510': 'Financial subsidiaries broken down by location in other countries - number',
 'V11610'

Azon mutatók kiszűrése és magyar megfelelőik amelyek engem érdekelnek

In [531]:
needed_indicators = {
    'Enterprises - number': 'Vállalatok száma',
    'Value added at factor cost - million euro': 'Hozzáadott érték tényezőköltségen - millió euró',
    'Turnover or gross premiums written - million euro': 'Árbevétel vagy bruttó díjbevétel - millió euró',
    'Wages and Salaries - million euro': 'Személyzeti kiadások - millió euró',
    'Total purchases of goods and services - million euro': 'Termék és szolgáltatás vásárlások összesen - millió euró',
    'Gross operating surplus - million euro': 'Bruttó működési eredmény - millió euró',
}

needed_indicator_codes = list(filter(lambda key: indicators.get(key) in needed_indicators.keys(), indicators.keys()))

needed_indicator_codes #tartalmazza a mutatók kódját amelyek nekem kelleni fognak


['V11110', 'V12110', 'V12150', 'V12170', 'V13110', 'V13320']

Csak azokat az indicator-okat hagyom meg a df-ben, amelyek a `needed_indicator_codes` között van

In [532]:
df = df[df.indicator.isin(needed_indicator_codes)]
df

Unnamed: 0,country_code,nace_r2,indicator,2019,2018,2017,2016,2015
0,AT,B,V11110,298.0,304.0,341.0,348.0,348.0
1,BA,B,V11110,178.0,182.0,197.0,199.0,196.0
2,BE,B,V11110,174.0,147.0,218.0,192.0,213.0
3,BG,B,V11110,304.0,326.0,342.0,357.0,374.0
4,CH,B,V11110,,209.0,205.0,212.0,212.0
...,...,...,...,...,...,...,...,...
700464,RS,E3900,V13320,0.0,0.0,0.1,0.1,
700465,SE,E3900,V13320,16.7,15.7,20.8,17.7,15.3
700466,SI,E3900,V13320,5.4,6.4,5.9,7.9,7.8
700467,SK,E3900,V13320,1.4,2.0,2.4,2.6,1.2


A mutatók magyar leírásának beszúrása

In [533]:
df.loc[:, "indicators_desc_hu"] = df.indicator.map(lambda code: needed_indicators[indicators[code]])
df

Unnamed: 0,country_code,nace_r2,indicator,2019,2018,2017,2016,2015,indicators_desc_hu
0,AT,B,V11110,298.0,304.0,341.0,348.0,348.0,Vállalatok száma
1,BA,B,V11110,178.0,182.0,197.0,199.0,196.0,Vállalatok száma
2,BE,B,V11110,174.0,147.0,218.0,192.0,213.0,Vállalatok száma
3,BG,B,V11110,304.0,326.0,342.0,357.0,374.0,Vállalatok száma
4,CH,B,V11110,,209.0,205.0,212.0,212.0,Vállalatok száma
...,...,...,...,...,...,...,...,...,...
700464,RS,E3900,V13320,0.0,0.0,0.1,0.1,,Személyzeti kiadások - millió euró
700465,SE,E3900,V13320,16.7,15.7,20.8,17.7,15.3,Személyzeti kiadások - millió euró
700466,SI,E3900,V13320,5.4,6.4,5.9,7.9,7.8,Személyzeti kiadások - millió euró
700467,SK,E3900,V13320,1.4,2.0,2.4,2.6,1.2,Személyzeti kiadások - millió euró


Mivel a vizualizációban a személyzeti kiadások és a termék és szolgáltatás vásárlások összege fog kelleni, ezeket nincs értelme külön tárolnom a df-mben, hanem elég lenne egy kiadások összesen mutatót használni

In [534]:
#kimentem ezt a két változót
wage_exp = df.loc[df["indicators_desc_hu"] == "Személyzeti kiadások - millió euró"]
goods_exp = df.loc[df["indicators_desc_hu"] == "Termék és szolgáltatás vásárlások összesen - millió euró"]

#törlöm ezeket a df-ből
df.drop(df.loc[df["indicators_desc_hu"].isin(["Személyzeti kiadások - millió euró", "Termék és szolgáltatás vásárlások összesen - millió euró"])].index, inplace=True)

Azt a kiadás tömböt járom be amelyikben kevesebb adat van, hogy ne tömjem meg a df-em nan-okkal

In [535]:
print(len(wage_exp)) 
print(len(goods_exp))


13805
13464


Mindkét tömbnek beállítom indexnek az országot és a NACE kódot, hiszen így végig tudom majd járni az egyik kulcsait és egy `loc` segítségével megkapom a másikból az értéket.

In [536]:
wage_exp.set_index(["country_code", "nace_r2"], inplace=True)
goods_exp.set_index(["country_code", "nace_r2"], inplace=True)

Felépítek egy dictonary-t amelyik az összegeket fogja tartalmazni

In [537]:
import numpy as np

exp_dict = {}
row = 0
for i in goods_exp.index:

    country_dict = {}

    country_dict["country_code"] = list(i)[0];
    country_dict["nace_r2"] = list(i)[1];
    country_dict["indicator"] = 'EXP';

    for year in range(2019, 2014, -1):
        if np.isnan(wage_exp.loc[i, year]) | np.isnan(goods_exp.loc[i, year]): #ha bármelyik NaN, legyen NaN érték, ne adja össze csak a nem-NaN értéket
            country_dict[year] = np.nan;
        else:
            country_dict[year] = (wage_exp.loc[i, year] + goods_exp.loc[i, year])

    country_dict["indicators_desc_hu"] = 'Termék és szolgáltatás vásárlások és személyzeti kiadások összesen';

    exp_dict[row] = country_dict;
    row += 1;

exp_dict


{0: {'country_code': 'AT',
  'nace_r2': 'B',
  'indicator': 'EXP',
  2019: 1836.6,
  2018: 1886.9,
  2017: 1455.1999999999998,
  2016: 1437.6,
  2015: 1336.5,
  'indicators_desc_hu': 'Termék és szolgáltatás vásárlások és személyzeti kiadások összesen'},
 1: {'country_code': 'BA',
  'nace_r2': 'B',
  'indicator': 'EXP',
  2019: 437.1,
  2018: 429.7,
  2017: 410.3,
  2016: 394.1,
  2015: 404.1,
  'indicators_desc_hu': 'Termék és szolgáltatás vásárlások és személyzeti kiadások összesen'},
 2: {'country_code': 'BE',
  'nace_r2': 'B',
  'indicator': 'EXP',
  2019: 633.9,
  2018: 598.6999999999999,
  2017: 643.6999999999999,
  2016: 667.0,
  2015: 723.7,
  'indicators_desc_hu': 'Termék és szolgáltatás vásárlások és személyzeti kiadások összesen'},
 3: {'country_code': 'BG',
  'nace_r2': 'B',
  'indicator': 'EXP',
  2019: 928.3,
  2018: 988.5,
  2017: 975.4000000000001,
  2016: 949.5,
  2015: 963.1999999999999,
  'indicators_desc_hu': 'Termék és szolgáltatás vásárlások és személyzeti kiadások

A kapott dictionary-t pedig átalakítom pd.DataFram-é

In [538]:
#mivel sokkal gyorsabb az átalakítás ha kevés sor van, nem specifikálom, hogy az index a dict.value legyen, hanem utólag transponálom

df = pd.concat([df, pd.DataFrame(exp_dict).T], ignore_index=True)
df

Unnamed: 0,country_code,nace_r2,indicator,2019,2018,2017,2016,2015,indicators_desc_hu
0,AT,B,V11110,298.0,304.0,341.0,348.0,348.0,Vállalatok száma
1,BA,B,V11110,178.0,182.0,197.0,199.0,196.0,Vállalatok száma
2,BE,B,V11110,174.0,147.0,218.0,192.0,213.0,Vállalatok száma
3,BG,B,V11110,304.0,326.0,342.0,357.0,374.0,Vállalatok száma
4,CH,B,V11110,,209.0,205.0,212.0,212.0,Vállalatok száma
...,...,...,...,...,...,...,...,...,...
68680,RO,E3900,EXP,24.5,23.1,18.6,19.2,20.1,Termék és szolgáltatás vásárlások és személyze...
68681,SE,E3900,EXP,82.7,82.4,87.3,76.8,76.3,Termék és szolgáltatás vásárlások és személyze...
68682,SI,E3900,EXP,19.3,27.4,20.9,24.1,22.2,Termék és szolgáltatás vásárlások és személyze...
68683,SK,E3900,EXP,6.4,7.1,8.5,8.6,4.4,Termék és szolgáltatás vásárlások és személyze...


## a NACE kódok leírása

Eurostatról is le lehetne kérni az adatot, viszont azok az angol elnevezését adnák vissza a NACE kódoknak, nekem pedig a magyar kell.
A <a href="https://www.ksh.hu/teaor_menu">KSH oldalán</a> megtaláltam .xls formátumban a táblázatot a NACE kódokkal.

In [539]:
# !python -m pip install xlrd

Beolvasom Excelből az adatot és az első két oszlopon kívül eldobom az összeset

In [540]:
naces = pd.read_excel("NaceCodes_hu.xls", header=1)
naces.drop(naces.columns[2:6], axis=1, inplace=True)
naces.columns = ["code", "desc_hu"]
naces.drop(naces.loc[(naces["code"].isna()) | (naces["desc_hu"].isna())].index, inplace=True)
naces

Unnamed: 0,code,desc_hu
0,A,"MEZŐGAZDASÁG, ERDŐGAZDÁLKODÁS, HALÁSZAT"
1,01,"Növénytermesztés, állattenyésztés, vadgazdálko..."
2,011,Nem évelő növény termesztése
3,0111,"Gabonaféle (kivéve: rizs), hüvelyes növény, ol..."
4,0112,Rizstermesztés
...,...,...
991,9820,Háztartás szolgáltatása saját fogyasztásra
992,U,TERÜLETEN KÍVÜLI SZERVEZET
993,99,Területen kívüli szervezet
994,990,Területen kívüli szervezet


A kódok az én df-ben B-től E-ig mennek => a többi betűt el kell dobni és minden kód elé be kell tenni a NACE kategória betűjét

In [542]:
#mivel van ahol int és van ahol str a kód, átalakítom az egész oszlopot stringgé
naces["code"] = naces["code"].astype(str)

#felépítem, hogy melyik indexeknél változik meg a NACE betűje
nace_cat_at_index = {}
for i in naces.index:
    if (len(naces["code"][i]) == 1):
        nace_cat_at_index[naces["code"][i]] = i 

In [543]:
nace_cat_at_index

{'A': 0,
 'B': 56,
 'C': 87,
 'D': 437,
 'E': 450,
 'F': 470,
 'G': 505,
 'H': 621,
 'I': 665,
 'J': 683,
 'K': 729,
 'L': 761,
 'M': 770,
 'N': 812,
 'O': 871,
 'P': 885,
 'Q': 904,
 'R': 929,
 'S': 954,
 'T': 983,
 'U': 992}

In [544]:
#mindig megyek két betű közötti range közt és ha B-E kategóriában van, akkor a számok elé illesztem a betűket, különben törlöm a range-t

max_range = len(naces.index) + 1

for i in reversed(nace_cat_at_index):
    if ord(i) not in range(ord('B'), ord('E') + 1):
        naces.drop(naces.iloc[(nace_cat_at_index[i]):max_range - 1].index, inplace=True)
    else:
        naces.loc[(nace_cat_at_index[i] + 1):max_range - 1, "code_w_letter"] = i + naces.loc[(nace_cat_at_index[i] + 1):max_range - 1, "code"]
    max_range = nace_cat_at_index[i]

#beállítom a betű NACE kategóriákat is
naces.loc[naces["code_w_letter"].isna(), "code_w_letter"] = naces.loc[naces["code_w_letter"].isna(), "code"]

Maradnak felesleges space-k a kódokban => trimmelni kell a code_w_letter oszlopot

In [545]:
naces.code_w_letter = naces.code_w_letter.map(lambda code: code.strip())

Beteszem a magyar NACE leírásokat a df-be

In [546]:
naces.set_index("code_w_letter", inplace=True)
df.loc[:, "nace_r2_desc_hu"] = df.nace_r2.map(lambda nace: naces.loc[nace, "desc_hu"])
df

Unnamed: 0,country_code,nace_r2,indicator,2019,2018,2017,2016,2015,indicators_desc_hu,nace_r2_desc_hu
0,AT,B,V11110,298.0,304.0,341.0,348.0,348.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS"
1,BA,B,V11110,178.0,182.0,197.0,199.0,196.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS"
2,BE,B,V11110,174.0,147.0,218.0,192.0,213.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS"
3,BG,B,V11110,304.0,326.0,342.0,357.0,374.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS"
4,CH,B,V11110,,209.0,205.0,212.0,212.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS"
...,...,...,...,...,...,...,...,...,...,...
68680,RO,E3900,EXP,24.5,23.1,18.6,19.2,20.1,Termék és szolgáltatás vásárlások és személyze...,"Szennyeződésmentesítés, egyéb hulladékkezelés"
68681,SE,E3900,EXP,82.7,82.4,87.3,76.8,76.3,Termék és szolgáltatás vásárlások és személyze...,"Szennyeződésmentesítés, egyéb hulladékkezelés"
68682,SI,E3900,EXP,19.3,27.4,20.9,24.1,22.2,Termék és szolgáltatás vásárlások és személyze...,"Szennyeződésmentesítés, egyéb hulladékkezelés"
68683,SK,E3900,EXP,6.4,7.1,8.5,8.6,4.4,Termék és szolgáltatás vásárlások és személyze...,"Szennyeződésmentesítés, egyéb hulladékkezelés"


## Az országok nevének beszúrása

<a href= "https://hu.wikipedia.org/wiki/ISO_3166-1">Wikipédiáról</a> kinyerem az országok magyar elnevezését és az ISO2 kódokat.

In [547]:
country_iso = pd.read_html('https://hu.wikipedia.org/wiki/ISO_3166-1')[1]
country_iso.rename(columns={"Ország / Régió": "country", "Alpha-2": "ISO2"}, inplace=True)

#a megkapott df-ből csak az ország és Alpha-2 oszlopok kellenek
country_iso.drop(['Numerikus', 'Alpha-3', 'Helyi ISO kódok'], axis=1, inplace=True)
country_iso

Unnamed: 0,country,ISO2
0,Afganisztán,AF
1,Åland,AX
2,Albánia,AL
3,Algéria,DZ
4,Amerikai Csendes-óceáni szigetek,UM
...,...,...
268,Wallis és Futuna,WF
269,,
270,Zambia,ZM
271,Zimbabwe,ZW


Az országok magyar elnevezésének beszúrása

In [548]:
country_iso.set_index("ISO2", inplace=True)


In [549]:
#amikor lefuttattam a map()-et EL kulcsot nem talált. Ekkor lekérdeztem az Eurostat API-jával, hogy az EL kód melyik országnak felel meg
# eurostat.get_dic("geo")["EL"] # ---> Görögország

#a Wikipédián és a topojson file-omban Görögország rövidítése GR volt, így a df-emben kicseréltem az EL-t GR-re.
# country_iso[country_iso.country == "Görögország"]

## ugyanez volt 'UK' => 'GB'-vel is
# eurostat.get_dic("geo")["UK"] # ---> United Kingdom 
# country_iso[country_iso.country == "Egyesült Királyság"]

df.country_code.replace('EL', 'GR', inplace=True)
df.country_code.replace('UK', 'GB', inplace=True)

df["country_name"] = df.country_code.map(lambda code: country_iso.loc[code][0]) #.loc[code][0], mert .loc[code] visszatérít egy Series-t
df


Unnamed: 0,country_code,nace_r2,indicator,2019,2018,2017,2016,2015,indicators_desc_hu,nace_r2_desc_hu,country_name
0,AT,B,V11110,298.0,304.0,341.0,348.0,348.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Ausztria
1,BA,B,V11110,178.0,182.0,197.0,199.0,196.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Bosznia-Hercegovina
2,BE,B,V11110,174.0,147.0,218.0,192.0,213.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Belgium
3,BG,B,V11110,304.0,326.0,342.0,357.0,374.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Bulgária
4,CH,B,V11110,,209.0,205.0,212.0,212.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Svájc
...,...,...,...,...,...,...,...,...,...,...,...
68680,RO,E3900,EXP,24.5,23.1,18.6,19.2,20.1,Termék és szolgáltatás vásárlások és személyze...,"Szennyeződésmentesítés, egyéb hulladékkezelés",Románia
68681,SE,E3900,EXP,82.7,82.4,87.3,76.8,76.3,Termék és szolgáltatás vásárlások és személyze...,"Szennyeződésmentesítés, egyéb hulladékkezelés",Svédország
68682,SI,E3900,EXP,19.3,27.4,20.9,24.1,22.2,Termék és szolgáltatás vásárlások és személyze...,"Szennyeződésmentesítés, egyéb hulladékkezelés",Szlovénia
68683,SK,E3900,EXP,6.4,7.1,8.5,8.6,4.4,Termék és szolgáltatás vásárlások és személyze...,"Szennyeződésmentesítés, egyéb hulladékkezelés",Szlovákia


## GDP értékek hozzárendelése

GDP értékek lekérése eurostatról

In [550]:
gdp_df = eurostat.get_data_df('nama_10_gdp')
gdp_df

Unnamed: 0,unit,na_item,geo\time,2020,2019,2018,2017,2016,2015,2014,...,1984,1983,1982,1981,1980,1979,1978,1977,1976,1975
0,CLV05_MEUR,B1G,AT,258371.1,277157.2,273213.7,266016.9,259996.4,255017.1,252879.7,...,,,,,,,,,,
1,CLV05_MEUR,B1G,BA,10523.9,10821.3,10515.0,10135.1,9811.3,9511.2,9224.4,...,,,,,,,,,,
2,CLV05_MEUR,B1G,BE,324188.6,342263.6,334746.8,328736.7,323677.5,320657.4,313684.3,...,,,,,,,,,,
3,CLV05_MEUR,B1G,BG,28387.3,29721.6,28654.5,27691.2,26806.7,26129.3,25373.6,...,,,,,,,,,,
4,CLV05_MEUR,B1G,CH,424629.5,434166.1,428690.5,415990.3,409449.3,401210.1,394744.2,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32508,PYP_MNAC,YA1,PT,-16.1,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,,,,,,,
32509,PYP_MNAC,YA1,RO,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,,,,,,,
32510,PYP_MNAC,YA1,SI,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,,,,,,,
32511,PYP_MNAC,YA1,UK,,,,,,,,...,,,,,,,,,,


Ugyancsak 2015-2019 évekre kellenek az adatok, ezért a többit eldobom

In [551]:
for i in range(1975, 2015, 1):
    gdp_df.drop(i, axis=1, inplace=True)
gdp_df.drop(2020, axis=1, inplace=True)
gdp_df

Unnamed: 0,unit,na_item,geo\time,2019,2018,2017,2016,2015
0,CLV05_MEUR,B1G,AT,277157.2,273213.7,266016.9,259996.4,255017.1
1,CLV05_MEUR,B1G,BA,10821.3,10515.0,10135.1,9811.3,9511.2
2,CLV05_MEUR,B1G,BE,342263.6,334746.8,328736.7,323677.5,320657.4
3,CLV05_MEUR,B1G,BG,29721.6,28654.5,27691.2,26806.7,26129.3
4,CLV05_MEUR,B1G,CH,434166.1,428690.5,415990.3,409449.3,401210.1
...,...,...,...,...,...,...,...,...
32508,PYP_MNAC,YA1,PT,0.0,0.0,0.0,0.0,0.0
32509,PYP_MNAC,YA1,RO,0.0,0.0,0.0,0.0,0.0
32510,PYP_MNAC,YA1,SI,0.0,0.0,0.0,0.0,0.0
32511,PYP_MNAC,YA1,UK,,,,,


A dataset-ből nekem csak a `Value added, gross` mutató kell 

In [552]:
gdp_indicators = eurostat.get_dic("na_item")

val_added = list(filter( lambda ind: gdp_indicators[ind] == 'Value added, gross' ,gdp_indicators.keys()))

gdp_df = gdp_df[gdp_df["na_item"].isin(val_added)]
gdp_df

Unnamed: 0,unit,na_item,geo\time,2019,2018,2017,2016,2015
0,CLV05_MEUR,B1G,AT,277157.2,273213.7,266016.9,259996.4,255017.1
1,CLV05_MEUR,B1G,BA,10821.3,10515.0,10135.1,9811.3,9511.2
2,CLV05_MEUR,B1G,BE,342263.6,334746.8,328736.7,323677.5,320657.4
3,CLV05_MEUR,B1G,BG,29721.6,28654.5,27691.2,26806.7,26129.3
4,CLV05_MEUR,B1G,CH,434166.1,428690.5,415990.3,409449.3,401210.1
...,...,...,...,...,...,...,...,...
31410,PYP_MNAC,B1G,SI,41337.0,39020.3,36829.0,34679.6,33233.0
31411,PYP_MNAC,B1G,SK,81834.8,78409.2,74696.6,73386.9,72087.4
31412,PYP_MNAC,B1G,TR,,,,,
31413,PYP_MNAC,B1G,UK,1940682.0,1868807.0,1808381.0,1740269.0,1697871.0


Ugyancsak a `Current prices, million euro` unit kell

In [553]:
units = eurostat.get_dic("unit")
curr_prices = list(filter(lambda key: units[key] == "Current prices, million euro" ,units.keys()))

gdp_df = gdp_df[gdp_df["unit"].isin(curr_prices)]
gdp_df = gdp_df.rename(columns={"geo\\time": "country"})
gdp_df

Unnamed: 0,unit,na_item,country,2019,2018,2017,2016,2015
10656,CP_MEUR,B1G,AL,12022.0,11220.0,10096.8,9400.1,9014.8
10657,CP_MEUR,B1G,AT,355290.9,344416.8,329416.8,318952.7,307037.7
10658,CP_MEUR,B1G,BA,15393.2,14593.3,13682.7,13000.9,12430.6
10659,CP_MEUR,B1G,BE,426900.3,410172.8,397034.3,384032.7,373301.6
10660,CP_MEUR,B1G,BG,53150.5,48715.6,45176.4,42000.4,39568.8
10661,CP_MEUR,B1G,CH,635883.8,605123.0,605146.0,610113.2,613124.3
10662,CP_MEUR,B1G,CY,20160.1,18829.4,17673.3,16562.0,15654.7
10663,CP_MEUR,B1G,CZ,203807.5,190081.5,174451.9,159603.4,152687.9
10664,CP_MEUR,B1G,DE,3130661.0,3035165.0,2944074.0,2822443.0,2722020.0
10665,CP_MEUR,B1G,DK,270437.7,262324.8,256348.6,245680.2,236921.5


Mielőtt összevonnánk a két táblát, ügyelni kell az előbb azonosított két hibás országkódra

In [554]:
gdp_df["country"].replace('EL', 'GR', inplace=True)
gdp_df["country"].replace('UK', 'GB', inplace=True)

Eldobom azokat az országokat (sorokat) amelyek nincsenek benne az én df-ben

In [555]:
gdp_df = gdp_df.loc[gdp_df["country"].isin(df.country_code.unique())]

Ezután olyan formára kell hozzuk mint amilyen a df-em, hogy tudjam concat-olni a két adatot

In [556]:
#unit, na_item oszlopokra nincs szükség
gdp_df.drop(["unit", "na_item"], axis=1, inplace=True)

# country átnevezése
gdp_df = gdp_df.rename(columns= {"country": "country_code"})

#az indicator beszúrása
gdp_df.insert(0, "indicator", ["GDP" for i in range (gdp_df["country_code"].size)])
gdp_df.insert(2, "nace_r2", ["GDP" for i in range (gdp_df["country_code"].size)])

# hozzáadjuk az indicator angol és magyar leírásait
gdp_df.loc[:, "indicators_desc_hu"] = "Bruttó hozzáadott érték - folyó áron"
gdp_df.loc[:, "nace_r2_desc_hu"] = "Bruttó hozzáadott érték - folyó áron"

# country_name oszlop hozzáadása
gdp_df.loc[:, "country_name"] =gdp_df.country_code.map(lambda code: country_iso.loc[code][0])

gdp_df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,indicator,country_code,nace_r2,2019,2018,2017,2016,2015,indicators_desc_hu,nace_r2_desc_hu,country_name
10657,GDP,AT,GDP,355290.9,344416.8,329416.8,318952.7,307037.7,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Ausztria
10658,GDP,BA,GDP,15393.2,14593.3,13682.7,13000.9,12430.6,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Bosznia-Hercegovina
10659,GDP,BE,GDP,426900.3,410172.8,397034.3,384032.7,373301.6,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Belgium
10660,GDP,BG,GDP,53150.5,48715.6,45176.4,42000.4,39568.8,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Bulgária
10661,GDP,CH,GDP,635883.8,605123.0,605146.0,610113.2,613124.3,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Svájc
10662,GDP,CY,GDP,20160.1,18829.4,17673.3,16562.0,15654.7,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Ciprus
10663,GDP,CZ,GDP,203807.5,190081.5,174451.9,159603.4,152687.9,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Csehország
10664,GDP,DE,GDP,3130661.0,3035165.0,2944074.0,2822443.0,2722020.0,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Németország
10665,GDP,DK,GDP,270437.7,262324.8,256348.6,245680.2,236921.5,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Dánia
10669,GDP,EE,GDP,24087.7,22445.3,20676.2,18745.7,17890.7,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Észtország


Végül pedig összefűzöm a `df` és `gdp_df` dataframeket

In [557]:
df = pd.concat([df, gdp_df], ignore_index=True)
df

Unnamed: 0,country_code,nace_r2,indicator,2019,2018,2017,2016,2015,indicators_desc_hu,nace_r2_desc_hu,country_name
0,AT,B,V11110,298.0,304.0,341.0,348.0,348.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Ausztria
1,BA,B,V11110,178.0,182.0,197.0,199.0,196.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Bosznia-Hercegovina
2,BE,B,V11110,174.0,147.0,218.0,192.0,213.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Belgium
3,BG,B,V11110,304.0,326.0,342.0,357.0,374.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Bulgária
4,CH,B,V11110,,209.0,205.0,212.0,212.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Svájc
...,...,...,...,...,...,...,...,...,...,...,...
68714,RS,GDP,GDP,38055.7,35536.2,32576.0,30507.2,29799.4,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Szerbia
68715,SE,GDP,GDP,423512.4,417117.7,425594.5,413017.1,404986.7,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Svédország
68716,SI,GDP,GDP,42328.5,39949.3,37370.0,35029.6,33591.7,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Szlovénia
68717,SK,GDP,GDP,84046.9,80072.7,75634.9,72984.8,71906.8,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Szlovákia


# NaN ÉRTÉKEK ELVETÉSE

Ne legyen olyan sor ahol az összes érték NaN

In [558]:
df.drop(df.loc[df[2019].isna()].loc[df[2018].isna()].loc[df[2017].isna()].loc[df[2016].isna()].loc[df[2015].isna()].index, axis=0, inplace=True)
df

Unnamed: 0,country_code,nace_r2,indicator,2019,2018,2017,2016,2015,indicators_desc_hu,nace_r2_desc_hu,country_name
0,AT,B,V11110,298.0,304.0,341.0,348.0,348.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Ausztria
1,BA,B,V11110,178.0,182.0,197.0,199.0,196.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Bosznia-Hercegovina
2,BE,B,V11110,174.0,147.0,218.0,192.0,213.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Belgium
3,BG,B,V11110,304.0,326.0,342.0,357.0,374.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Bulgária
4,CH,B,V11110,,209.0,205.0,212.0,212.0,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Svájc
...,...,...,...,...,...,...,...,...,...,...,...
68714,RS,GDP,GDP,38055.7,35536.2,32576.0,30507.2,29799.4,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Szerbia
68715,SE,GDP,GDP,423512.4,417117.7,425594.5,413017.1,404986.7,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Svédország
68716,SI,GDP,GDP,42328.5,39949.3,37370.0,35029.6,33591.7,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Szlovénia
68717,SK,GDP,GDP,84046.9,80072.7,75634.9,72984.8,71906.8,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Szlovákia


# SOR ALAPÚ FORMÁTUMRA HOZÁS

In [560]:
df = df.set_index(["indicator", "country_code", "nace_r2", "indicators_desc_hu", "nace_r2_desc_hu" ,"country_name"]).stack().reset_index()

In [561]:
df.columns=["indicator", "country_code", "nace_r2", "indicators_desc_hu", "nace_r2_desc_hu" , "country_name", "year", "value"]

In [562]:
df

Unnamed: 0,indicator,country_code,nace_r2,indicators_desc_hu,nace_r2_desc_hu,country_name,year,value
0,V11110,AT,B,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Ausztria,2019,298.0
1,V11110,AT,B,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Ausztria,2018,304.0
2,V11110,AT,B,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Ausztria,2017,341.0
3,V11110,AT,B,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Ausztria,2016,348.0
4,V11110,AT,B,Vállalatok száma,"BÁNYÁSZAT, KŐFEJTÉS",Ausztria,2015,348.0
...,...,...,...,...,...,...,...,...
266097,GDP,GB,GDP,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Egyesült Királyság,2019,2256819.0
266098,GDP,GB,GDP,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Egyesült Királyság,2018,2159178.7
266099,GDP,GB,GDP,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Egyesült Királyság,2017,2103425.5
266100,GDP,GB,GDP,Bruttó hozzáadott érték - folyó áron,Bruttó hozzáadott érték - folyó áron,Egyesült Királyság,2016,2168894.9


# ADATOK EXPORTÁLÁSA

In [563]:
df.to_csv('data.csv', index=False)