# Adatelőkészítés: megyei adatok

A KSH adatai alapján. Letöltés: 2019. május

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
def keep_county_or_capital(df, c="szintje"):
    '''Keep rows of df if iff df[c] is "főváros, régió" or "megye". Get rid of column c.'''
    return df[(df[c] == "főváros, régió") | (df[c] == "megye") | (df[c] == "megye, régió")].loc[:, [col for col in df.columns if col != c]]

In [3]:
def remove_whitespaces(x):
    return re.sub("\s", "", x)

## Adatok beimportálása

### Népesség adatok

In [4]:
nepesseg_014 = pd.read_excel("datain/6_1_2i-nepesseg-korcsoportszerint.xls", 
                             #header=[2], 
                             usecols="A:C,T",
                             skiprows=3, 
                             nrows=29)
nepesseg_014.columns=["neve", "szintje", "2001", "2018"]
nepesseg_014 = keep_county_or_capital(nepesseg_014)
nepesseg_014.columns = ["neve"] + list(map(lambda x: "lakónépesség_0-14_"+x, nepesseg_014.columns[1:]))
nepesseg_014.neve = nepesseg_014.neve.map(lambda x: remove_whitespaces(x))

In [5]:
nepesseg_1564 = pd.read_excel("datain/6_1_2i-nepesseg-korcsoportszerint.xls", 
                             #header=[2], 
                             usecols="A:C,T",
                             skiprows=3+30, 
                             nrows=29)
nepesseg_1564.columns=["neve", "szintje", "2001", "2018"]
nepesseg_1564 = keep_county_or_capital(nepesseg_1564)
nepesseg_1564.columns = ["neve"] + list(map(lambda x: "lakónépesség_15-64_"+x, nepesseg_1564.columns[1:]))
nepesseg_1564.neve = nepesseg_1564.neve.map(lambda x: remove_whitespaces(x))

In [6]:
nepesseg_65X = pd.read_excel("datain/6_1_2i-nepesseg-korcsoportszerint.xls", 
                             #header=[2], 
                             usecols="A:C,T",
                             skiprows=3+30+30, 
                             nrows=29)
nepesseg_65X.columns=["neve", "szintje", "2001", "2018"]
nepesseg_65X = keep_county_or_capital(nepesseg_65X)
nepesseg_65X.columns = ["neve"] + list(map(lambda x: "lakónépesség_65-_"+x, nepesseg_65X.columns[1:]))
nepesseg_65X.neve = nepesseg_65X.neve.map(lambda x: remove_whitespaces(x))

In [7]:
nepesseg = nepesseg_014
for df in [nepesseg_1564, nepesseg_65X]:
    nepesseg = nepesseg.merge(df, how='outer', on='neve', suffixes=['', '_Y'])
    for c in nepesseg.columns:
        if c != "neve":
            nepesseg[c] = nepesseg[c].astype('int')
        if c.endswith('_Y'):
            print("Deleting duplicate:", c)
            del nepesseg[c]
    

In [8]:
nepesseg["lakónépesség_arany_15-64_0-14_2001"] = nepesseg["lakónépesség_15-64_2001"] / nepesseg["lakónépesség_0-14_2001"]
nepesseg["lakónépesség_arany_15-64_65-_2001"]  = nepesseg["lakónépesség_15-64_2001"] / nepesseg["lakónépesség_65-_2001"]
nepesseg["lakónépesség_arany_15-64_0-14_2018"] = nepesseg["lakónépesség_15-64_2018"] / nepesseg["lakónépesség_0-14_2018"]
nepesseg["lakónépesség_arany_15-64_65-_2018"]  = nepesseg["lakónépesség_15-64_2018"] / nepesseg["lakónépesség_65-_2018"]

In [9]:
for c in set(map(lambda x: x[:-4], nepesseg.columns[1:])):
    nepesseg[c+"arany_2018_2001"] = nepesseg[c+"2018"] / nepesseg[c+"2001"]

In [10]:
np.shape(nepesseg)

(20, 16)

In [11]:
del nepesseg_014
del nepesseg_1564
del nepesseg_65X

### Népsűrűség, települések száma

In [12]:
nepsuruseg = pd.read_excel("datain/6_1_3i-nepsuruseg-telepulesekszama.xls", 
                             usecols="A:C,T",
                             skiprows=3, 
                             nrows=29)
nepsuruseg.columns=["neve", "szintje", "2001", "2018"]
nepsuruseg = keep_county_or_capital(nepsuruseg)
nepsuruseg.columns = ["neve"] + list(map(lambda x: "népsűrűség_fő_per_km2_"+x, nepsuruseg.columns[1:]))
nepsuruseg.neve = nepsuruseg.neve.map(lambda x: remove_whitespaces(x))

In [13]:
varosok = pd.read_excel("datain/6_1_3i-nepsuruseg-telepulesekszama.xls", 
                             usecols="A:C,T",
                             skiprows=3+30, 
                             nrows=29)
varosok.columns=["neve", "szintje", "2001", "2018"]
varosok = keep_county_or_capital(varosok)
varosok.columns = ["neve"] + list(map(lambda x: "városszám_"+x, varosok.columns[1:]))
for c in varosok.columns[1:]:
    varosok[c] = varosok[c].astype('int')
    
varosok.neve = varosok.neve.map(lambda x: remove_whitespaces(x))

In [14]:
kozsegek = pd.read_excel("datain/6_1_3i-nepsuruseg-telepulesekszama.xls", 
                             usecols="A:C,T",
                             skiprows=3+30+30, 
                             nrows=29)
kozsegek.columns=["neve", "szintje", "2001", "2018"]
kozsegek = keep_county_or_capital(kozsegek)
kozsegek.columns = ["neve"] + list(map(lambda x: "községszám_"+x, kozsegek.columns[1:]))
kozsegek.where(kozsegek != '–', other=0, inplace=True)
for c in kozsegek.columns[1:]:
    kozsegek[c] = kozsegek[c].astype('int')
    
kozsegek.neve = kozsegek.neve.map(lambda x: remove_whitespaces(x))

In [15]:
nepsuruseg_telepulesek = nepsuruseg
for df in [varosok, kozsegek]:
    nepsuruseg_telepulesek = nepsuruseg_telepulesek.merge(df, how='outer', on='neve', suffixes=['', '_Y'])
    for c in nepsuruseg_telepulesek.columns:
        if c.endswith('_Y'):
            print("Deleting duplicate:", c)
            del nepsuruseg_telepulesek[c]
    

In [16]:
for c in set(map(lambda x: x[:-4], nepsuruseg_telepulesek.columns[1:])):
    nepsuruseg_telepulesek[c+"arany_2018_2001"] = nepsuruseg_telepulesek[c+"2018"] / nepsuruseg_telepulesek[c+"2001"]

In [17]:
np.shape(nepsuruseg_telepulesek)

(20, 10)

In [18]:
del nepsuruseg
del varosok
del kozsegek

In [19]:
megyei_adatok = nepesseg.merge(nepsuruseg_telepulesek, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
    

In [20]:
del nepesseg
del nepsuruseg_telepulesek

### Várható élettartam, átlagéletkor

In [21]:
eletkor = pd.read_excel("datain/6_1_7i-atlageletkor.xls", 
                             usecols="A:C,E,F,H,I,K,L,N",
                             skiprows=4, 
                             nrows=29)
eletkor.columns=["neve", "szintje", "élettartam_ffi_2001", "élettartam_ffi_2017", "élettartam_nő_2001", "élettartam_nő_2017", "életkorátlag_ffi_2001", "életkorátlag_ffi_2018", "életkorátlag_nő_2001", "életkorátlag_nő_2018",]
eletkor = keep_county_or_capital(eletkor)
eletkor.neve = eletkor.neve.map(lambda x: remove_whitespaces(x))

In [22]:
for c in eletkor.columns:
    if c.endswith("2017"):
        col = c[:-4]
        eletkor[col+"arany_2017_2001"] = eletkor[c] / eletkor[col+"2001"]
    elif c.endswith("2018"):
        col = c[:-4]
        eletkor[col+"arany_2018_2001"] = eletkor[c] / eletkor[col+"2001"]

In [23]:
np.shape(eletkor)

(20, 13)

In [24]:
megyei_adatok = megyei_adatok.merge(eletkor, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
np.shape(megyei_adatok)

(20, 37)

In [25]:
del eletkor

### Átlagkereset

In [26]:
kereset = pd.read_excel("datain/6_2_1_16i-netto-atlagkereset.xls", 
                             usecols="A,B,D,T",
                             skiprows=3, 
                             nrows=29)
kereset.columns=["neve", "szintje", "nettókereset_2001", "nettókereset_2017"]
kereset = keep_county_or_capital(kereset)
kereset["nettókereset_2001"] = kereset["nettókereset_2001"].astype('int')
kereset.neve = kereset.neve.map(lambda x: remove_whitespaces(x))

In [27]:
kereset["nettókereset_arany_2017_2001"] = kereset["nettókereset_2017"] / kereset["nettókereset_2001"]

In [28]:
megyei_adatok = megyei_adatok.merge(kereset, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
np.shape(megyei_adatok)

(20, 40)

In [29]:
del kereset

### Gazdasági aktivitás

In [30]:
aktivitas2006 = pd.read_excel("datain/6_2_1_1i-gazdasagi-aktivitas.xls", 
                             usecols="A,B,H:J",
                             skiprows=3, 
                             nrows=29)
aktivitas2006.columns=["neve", "szintje", "Munkanélküliségi ráta", "Aktivitási arány", "Foglalkoztatási ráta"]
aktivitas2006 = keep_county_or_capital(aktivitas2006)
aktivitas2006.neve = aktivitas2006.neve.map(lambda x: remove_whitespaces(x))

In [31]:
aktivitas2018 = pd.read_excel("datain/6_2_1_1i-gazdasagi-aktivitas.xls", 
                             usecols="A,B,H:J",
                             skiprows=375, 
                             nrows=29)
aktivitas2018.columns=["neve", "szintje", "Munkanélküliségi ráta", "Aktivitási arány", "Foglalkoztatási ráta"]
aktivitas2018 = keep_county_or_capital(aktivitas2018)
aktivitas2018.neve = aktivitas2018.neve.map(lambda x: remove_whitespaces(x))

In [32]:
aktivitas = aktivitas2006.merge(aktivitas2018, on='neve', how='outer', suffixes=["_2006", "_2018"] )

In [33]:
del aktivitas2006
del aktivitas2018

In [34]:
for c in ["Munkanélküliségi ráta", "Aktivitási arány", "Foglalkoztatási ráta"]:
    aktivitas[c + "_arany_2018_2006"] = aktivitas[c+"_2018"] / aktivitas[c+"_2006"]

In [35]:
megyei_adatok = megyei_adatok.merge(aktivitas, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
np.shape(megyei_adatok)

(20, 49)

In [36]:
del aktivitas

### Egy főre jutó bruttó hazai termék, ezer Ft

In [37]:
gdp = pd.read_excel("datain/6_3_1_2i-egy-fore-juto-hazai-termek.xls", 
                             usecols="A,B,D,T",
                             skiprows=3, 
                             nrows=29)
gdp.columns=["neve", "szintje", "gdp_per_fo_ezerFt_2001", "gdp_per_fo_ezerFt_2017"]
gdp = keep_county_or_capital(gdp)
gdp.neve = gdp.neve.map(lambda x: remove_whitespaces(x))

In [38]:
gdp2 = pd.read_excel("datain/6_3_1_2i-egy-fore-juto-hazai-termek.xls", 
                             usecols="A,B,D,T",
                             skiprows=3+30, 
                             nrows=29)
gdp2.columns=["neve", "szintje", "gdp_orszagos_atlag_szazaleka_2001", "gdp_orszagos_atlag_szazaleka_2017"]
gdp2 = keep_county_or_capital(gdp2)
gdp2.neve = gdp2.neve.map(lambda x: remove_whitespaces(x))

In [39]:
gdp = gdp.merge(gdp2, on='neve', how='outer')

In [40]:
del gdp2

In [41]:
for c in ["gdp_per_fo_ezerFt", "gdp_orszagos_atlag_szazaleka"]:
    gdp[c + "_arany_2017_2001"] = gdp[c+"_2017"] / gdp[c+"_2001"]
np.shape(gdp)

(20, 7)

In [42]:
megyei_adatok = megyei_adatok.merge(gdp, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
np.shape(megyei_adatok)

(20, 55)

In [43]:
del gdp

### Az egy kiskereskedelmi üzletre jutó lakosok száma

In [44]:
kisker = pd.read_excel("datain/6_4_4_5i-kisker-uzlete-juto-lakosok-szama.xls",
                             usecols="A:E,AP:AR",
                             skiprows=3, 
                             nrows=29)
for c in kisker.columns[2:]:
    kisker[c] = (kisker[c].where(kisker[c] != '–', other=np.NaN)).astype('float')
kisker.columns=["neve", "szintje", "lakos_per_kiskerüzlet_összesen_2005", "lakos_per_kiskerüzlet_bevásárlóközpontokban_2005", "lakos_per_kiskerüzlet_hipermarketekben_2005", "lakos_per_kiskerüzlet_összesen_2018", "lakos_per_kiskerüzlet_bevásárlóközpontokban_2018", "lakos_per_kiskerüzlet_hipermarketekben_2018"]
kisker = keep_county_or_capital(kisker)
kisker.neve = kisker.neve.map(lambda x: remove_whitespaces(x))

  result = method(y)


In [45]:
for c in kisker.columns:
    if c.endswith("2018"):
        col = c[:-4]
        kisker[col+"arany_2018_2005"] = kisker[c] / kisker[col+"2005"]

In [46]:
kisker.describe()

Unnamed: 0,lakos_per_kiskerüzlet_összesen_2005,lakos_per_kiskerüzlet_bevásárlóközpontokban_2005,lakos_per_kiskerüzlet_hipermarketekben_2005,lakos_per_kiskerüzlet_összesen_2018,lakos_per_kiskerüzlet_bevásárlóközpontokban_2018,lakos_per_kiskerüzlet_hipermarketekben_2018,lakos_per_kiskerüzlet_összesen_arany_2018_2005,lakos_per_kiskerüzlet_bevásárlóközpontokban_arany_2018_2005,lakos_per_kiskerüzlet_hipermarketekben_arany_2018_2005
count,20.0,16.0,20.0,20.0,19.0,20.0,20.0,16.0,20.0
mean,65.890622,5093.648477,8402.061883,77.5,5690.631579,4467.6,1.179277,0.747311,0.57872
std,7.84084,2811.514367,3730.967367,9.610849,9317.431127,1336.770161,0.096079,0.248981,0.175277
min,49.65315,525.566698,3171.408219,62.0,476.0,2110.0,0.998393,0.397606,0.263937
25%,61.278166,3794.067584,6192.908744,69.75,2487.0,3527.25,1.137082,0.515102,0.425058
50%,65.198004,4845.718804,7488.212465,78.0,4038.0,4491.0,1.176344,0.750412,0.591682
75%,69.486835,5616.797391,9303.476847,84.0,5023.5,5321.25,1.228098,0.924774,0.699484
max,80.453043,11312.0,17902.0,95.0,43600.0,6827.0,1.429919,1.171362,0.882406


In [47]:
kisker.loc[:, ["neve", "lakos_per_kiskerüzlet_bevásárlóközpontokban_2005", "lakos_per_kiskerüzlet_bevásárlóközpontokban_2018"]]

Unnamed: 0,neve,lakos_per_kiskerüzlet_bevásárlóközpontokban_2005,lakos_per_kiskerüzlet_bevásárlóközpontokban_2018
0,Budapest,525.566698,476.0
1,Pest,6223.462366,4992.0
3,Fejér,5562.753247,6516.0
4,Komárom-Esztergom,,5642.0
5,Veszprém,5367.779412,4429.0
7,Győr-Moson-Sopron,2944.04,1521.0
8,Vas,11015.041667,4792.0
9,Zala,4596.484375,3573.0
11,Baranya,2329.561404,1667.0
12,Somogy,5778.929825,4181.0


In [48]:
megyei_adatok = megyei_adatok.merge(kisker, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)

del kisker

In [49]:
np.shape(megyei_adatok)

(20, 64)

### A kereskedelmi szálláshelyeken eltöltött vendégéjszakák

In [50]:
szallas = pd.read_excel("datain/6_4_5_2i-szallashelyek-vendegforgalma.xls",
                             usecols="A,B,D,U",
                             skiprows=65, 
                             nrows=29)
szallas.columns=["neve", "szintje", "vendégéjszakák_2001", "vendégéjszakák_2018"]
szallas = keep_county_or_capital(szallas)
szallas.neve = szallas.neve.map(lambda x: remove_whitespaces(x))

In [51]:
szallas2 = pd.read_excel("datain/6_4_5_2i-szallashelyek-vendegforgalma.xls",
                             usecols="A,B,D,U",
                             skiprows=96, 
                             nrows=29)
szallas2.columns=["neve", "szintje", "vendégéjszakák_külföldi_2001", "vendégéjszakák_külföldi_2018"]
szallas2 = keep_county_or_capital(szallas2)
szallas2.neve = szallas2.neve.map(lambda x: remove_whitespaces(x))

In [52]:
szallas = szallas.merge(szallas2, on='neve')
del szallas2

In [53]:
for c in szallas.columns:
    if c.endswith("2018"):
        col = c[:-4]
        szallas[col+"arany_2018_2001"] = szallas[c] / szallas[col+"2001"]
        
np.shape(szallas)

(20, 7)

In [54]:
megyei_adatok = megyei_adatok.merge(szallas, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del szallas
np.shape(megyei_adatok)

(20, 70)

### Gépjárműállomány

In [55]:
szgk = pd.read_excel("datain/6_4_6_2i-gepjarmuallomany.xls",
                             usecols="A,B,D,U",
                             skiprows=36, 
                             nrows=29)
szgk.columns=["neve", "szintje", "Személygépkocsik_2001", "Személygépkocsik_2018"]
szgk = keep_county_or_capital(szgk)
szgk.neve = szgk.neve.map(lambda x: remove_whitespaces(x))

In [56]:
for c in szgk.columns:
    if c.endswith("2018"):
        col = c[:-4]
        szgk[col+"arany_2018_2001"] = szgk[c] / szgk[col+"2001"]
        
np.shape(szgk)

(20, 4)

In [57]:
megyei_adatok = megyei_adatok.merge(szgk, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del szgk
np.shape(megyei_adatok)

(20, 73)

### Internetkapcsolat

In [58]:
internet = pd.read_excel("datain/6_4_7_4_2i-internetes-elofizetesek-szama.xls",
                             usecols="A,B,D",
                             skiprows=3, 
                             nrows=29)
internet.columns=["neve", "szintje", "internet_összes_vezetékes_2017"]
internet = keep_county_or_capital(internet)
internet.neve = internet.neve.map(lambda x: remove_whitespaces(x))

In [59]:
internet2 = pd.read_excel("datain/6_4_7_4_2i-internetes-elofizetesek-szama.xls",
                             usecols="A,B,D",
                             skiprows=35, 
                             nrows=29)
internet2.columns=["neve", "szintje", "internet_vezetékes_DSL_2017"]
internet2 = keep_county_or_capital(internet2)
internet2.neve = internet2.neve.map(lambda x: remove_whitespaces(x))
internet = internet.merge(internet2, on='neve')
del internet2

In [60]:
internet2 = pd.read_excel("datain/6_4_7_4_2i-internetes-elofizetesek-szama.xls",
                             usecols="A,B,D",
                             skiprows=66, 
                             nrows=29)
internet2.columns=["neve", "szintje", "internet_vezetékes_kábeltévé_2017"]
internet2 = keep_county_or_capital(internet2)
internet2.neve = internet2.neve.map(lambda x: remove_whitespaces(x))
internet = internet.merge(internet2, on='neve')
del internet2

In [61]:
internet2 = pd.read_excel("datain/6_4_7_4_2i-internetes-elofizetesek-szama.xls",
                             usecols="A,B,D",
                             skiprows=97, 
                             nrows=29)
internet2.columns=["neve", "szintje", "internet_vezetékes_optikaikábel_2017"]
internet2 = keep_county_or_capital(internet2)
internet2.neve = internet2.neve.map(lambda x: remove_whitespaces(x))
internet = internet.merge(internet2, on='neve')
del internet2

In [62]:
np.shape(internet)

(20, 5)

In [63]:
megyei_adatok = megyei_adatok.merge(internet, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del internet
np.shape(megyei_adatok)

(20, 77)

### Gyógyszertárak száma

In [64]:
patika = pd.read_excel("datain/6_4_4_1i-kiskeruzletek-gyogyszertarak-szama.xls",
                             usecols="A,B,D,U",
                             skiprows=65, 
                             nrows=29)
patika.columns=["neve", "szintje", "gyógyszertárak_2001", "gyógyszertárak_2018"]
patika = keep_county_or_capital(patika)
patika.neve = patika.neve.map(lambda x: remove_whitespaces(x))

In [65]:
patika["gyógyszertárak_arány_2018_2001"] = patika.gyógyszertárak_2018 / patika.gyógyszertárak_2001
np.shape(patika)

(20, 4)

In [66]:
megyei_adatok = megyei_adatok.merge(patika, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del patika
np.shape(megyei_adatok)

(20, 80)

### Nonprofit szervezetek

In [67]:
nonprofit2005 = pd.read_excel("datain/6_3_2_7i-nonprofit-szervezetek.xls",
                             usecols="A,B,L:R",
                             skiprows=3, 
                             nrows=29)
nonprofit2005.columns=["neve", "szintje", "Összesen", "kultúra", "sport", "szabadidő", "oktatás", "szociális ellátás", "szakmai, gazdasági érdekképviselet"]
nonprofit2005 = keep_county_or_capital(nonprofit2005)
nonprofit2005.neve = nonprofit2005.neve.map(lambda x: remove_whitespaces(x))

In [68]:
nonprofit2017 = pd.read_excel("datain/6_3_2_7i-nonprofit-szervezetek.xls",
                             usecols="A,B,L:R",
                             skiprows=375, 
                             nrows=29)
nonprofit2017.columns=["neve", "szintje", "Összesen", "kultúra", "sport", "szabadidő", "oktatás", "szociális ellátás", "szakmai, gazdasági érdekképviselet"]
nonprofit2017 = keep_county_or_capital(nonprofit2017)
nonprofit2017.neve = nonprofit2017.neve.map(lambda x: remove_whitespaces(x))

In [69]:
nonprofit2005.columns = ["neve"] + list(map(lambda x: x+"_2005", nonprofit2005.columns[1:]))
nonprofit2017.columns = ["neve"] + list(map(lambda x: x+"_2017", nonprofit2017.columns[1:]))

In [70]:
nonprofit = nonprofit2005.merge(nonprofit2017, on='neve')

In [71]:
del nonprofit2005
del nonprofit2017

In [72]:
for c in nonprofit.columns:
    if c.endswith("2017"):
        col = c[:-4]
        nonprofit[col+"arany_2017_2005"] = nonprofit[c] / nonprofit[col+"2005"]
nonprofit.columns = ["neve"] + list(map(lambda x: "nonprofit_"+x, nonprofit.columns[1:]))
np.shape(nonprofit)

(20, 22)

In [73]:
megyei_adatok = megyei_adatok.merge(nonprofit, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del nonprofit
np.shape(megyei_adatok)

(20, 101)

### Bűnelkövetők

In [74]:
bunelkov = pd.read_excel("datain/6_2_7_3i-bunelkovetok.xls",
                             usecols="A,B,D,T",
                             skiprows=3, 
                             nrows=29)
bunelkov.columns=["neve", "szintje", "bűnelkövetők_2001", "bűnelkövetők_2017"]
bunelkov = keep_county_or_capital(bunelkov)
bunelkov.neve = bunelkov.neve.map(lambda x: remove_whitespaces(x))

In [75]:
bunelkov2 = pd.read_excel("datain/6_2_7_3i-bunelkovetok.xls",
                             usecols="A,B,D,T",
                             skiprows=34, 
                             nrows=29)
bunelkov2.columns=["neve", "szintje", "bűnelkövetők_fiatalkorú_2001", "bűnelkövetők_fiatalkorú_2017"]
bunelkov2 = keep_county_or_capital(bunelkov2)
bunelkov2.neve = bunelkov2.neve.map(lambda x: remove_whitespaces(x))

In [76]:
bunelkov = bunelkov.merge(bunelkov2, on='neve', how='outer')

In [77]:
bunelkov["bűnelkövetők_arany_2017_2001"] = bunelkov["bűnelkövetők_2017"] / bunelkov["bűnelkövetők_2001"]
bunelkov["bűnelkövetők_fiatalkorú_arany_2017_2001"] = bunelkov["bűnelkövetők_fiatalkorú_2017"] / bunelkov["bűnelkövetők_fiatalkorú_2001"]
for c in ["_2001", "_2017"]:
    bunelkov["bűnelkövetők_arany_fiatalkorú_összes"+c] =  bunelkov["bűnelkövetők_fiatalkorú"+c]     / bunelkov["bűnelkövetők"+c]
bunelkov["bűnelkövetők_arany_összes_fiatalkorú_arany_2017_2001"] = bunelkov["bűnelkövetők_arany_fiatalkorú_összes_2017"] / bunelkov["bűnelkövetők_arany_fiatalkorú_összes_2001"] 
np.shape(bunelkov)

(20, 10)

In [78]:
megyei_adatok = megyei_adatok.merge(bunelkov, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del bunelkov
np.shape(megyei_adatok)

(20, 110)

### Bűncselekmények

In [79]:
buncsel = pd.read_excel("datain/6_2_7_1i-buncselekmenyek.xls",
                             usecols="A,B,D,T",
                             skiprows=3, 
                             nrows=29)
buncsel.columns=["neve", "szintje", "bűncselekmények_2001", "bűncselekmények_2017"]
buncsel = keep_county_or_capital(buncsel)
buncsel.neve = buncsel.neve.map(lambda x: remove_whitespaces(x))

In [80]:
buncsel["bűncselekmények_arany_2017_2001"] = buncsel["bűncselekmények_2017"] / buncsel["bűncselekmények_2001"]
np.shape(buncsel)

(20, 4)

In [81]:
megyei_adatok = megyei_adatok.merge(buncsel, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del buncsel
np.shape(megyei_adatok)

(20, 113)

### Felsőfokú hallgatók száma

In [82]:
hallgatok = pd.read_excel("datain/6_2_5_4i-felsofoku-nappali-hallgato-lakhelyszerint.xls",
                             usecols="A,B,C,S",
                             skiprows=2, 
                             nrows=29)
hallgatok.columns=["neve", "szintje", "felsőfokúnappalihallgatók_2001", "felsőfokúnappalihallgatók_2017"]
hallgatok = keep_county_or_capital(hallgatok)
hallgatok.neve = hallgatok.neve.map(lambda x: remove_whitespaces(x))

In [83]:
hallgatok["felsőfokúnappalihallgatók_arany_2017_2001"] = hallgatok["felsőfokúnappalihallgatók_2017"] / hallgatok["felsőfokúnappalihallgatók_2001"]
np.shape(hallgatok)

(20, 4)

In [84]:
megyei_adatok = megyei_adatok.merge(hallgatok, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del hallgatok
np.shape(megyei_adatok)

(20, 116)

### Oktatás

#### Pedagógusok száma

In [85]:
pedagogusok = pd.read_excel("datain/6_2_5_2i-pedagogusok-szama.xls",
                             usecols="A,B,D,T",
                             skiprows=3, 
                             nrows=29)
pedagogusok.columns=["neve", "szintje", "pedagógusok_óvodai_2001", "pedagógusok_óvodai_2017"]
pedagogusok = keep_county_or_capital(pedagogusok)
pedagogusok.neve = pedagogusok.neve.map(lambda x: remove_whitespaces(x))
for c in pedagogusok.columns[1:]:
    pedagogusok[c] = pedagogusok[c].astype('int')
pedagogusok["pedagógusok_óvodai_arany_2017_2001"] = pedagogusok["pedagógusok_óvodai_2017"] / pedagogusok["pedagógusok_óvodai_2001"]

In [86]:
pedagogusok2 = pd.read_excel("datain/6_2_5_2i-pedagogusok-szama.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31, 
                             nrows=29)
pedagogusok2.columns=["neve", "szintje", "pedagógusok_áltisk_2001", "pedagógusok_áltisk_2017"]
pedagogusok2 = keep_county_or_capital(pedagogusok2)
pedagogusok2.neve = pedagogusok2.neve.map(lambda x: remove_whitespaces(x))
for c in pedagogusok2.columns[1:]:
    pedagogusok2[c] = pedagogusok2[c].astype('int')
pedagogusok2["pedagógusok_áltisk_arany_2017_2001"] = pedagogusok2["pedagógusok_áltisk_2017"] / pedagogusok2["pedagógusok_áltisk_2001"]
pedagogusok = pedagogusok.merge(pedagogusok2, on='neve', how='outer')

In [87]:
pedagogusok2 = pd.read_excel("datain/6_2_5_2i-pedagogusok-szama.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31+31, 
                             nrows=29)
pedagogusok2.columns=["neve", "szintje", "pedagógusok_szakiskola_2001", "pedagógusok_szakiskola_2017"]
pedagogusok2 = keep_county_or_capital(pedagogusok2)
pedagogusok2.neve = pedagogusok2.neve.map(lambda x: remove_whitespaces(x))
for c in pedagogusok2.columns[1:]:
    pedagogusok2[c] = pedagogusok2[c].astype('int')
pedagogusok2["pedagógusok_szakiskola_arany_2017_2001"] = pedagogusok2["pedagógusok_szakiskola_2017"] / pedagogusok2["pedagógusok_szakiskola_2001"]
pedagogusok = pedagogusok.merge(pedagogusok2, on='neve', how='outer')

In [88]:
pedagogusok2 = pd.read_excel("datain/6_2_5_2i-pedagogusok-szama.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31+31+31, 
                             nrows=29)
pedagogusok2.columns=["neve", "szintje", "pedagógusok_szakközépiskola_2001", "pedagógusok_szakközépiskola_2017"]
pedagogusok2 = keep_county_or_capital(pedagogusok2)
pedagogusok2.neve = pedagogusok2.neve.map(lambda x: remove_whitespaces(x))
for c in pedagogusok2.columns[1:]:
    pedagogusok2[c] = pedagogusok2[c].astype('int')
pedagogusok2["pedagógusok_szakközépiskola_arany_2017_2001"] = pedagogusok2["pedagógusok_szakközépiskola_2017"] / pedagogusok2["pedagógusok_szakközépiskola_2001"]
pedagogusok = pedagogusok.merge(pedagogusok2, on='neve', how='outer')

In [89]:
pedagogusok2 = pd.read_excel("datain/6_2_5_2i-pedagogusok-szama.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31+31+31+31, 
                             nrows=29)
pedagogusok2.columns=["neve", "szintje", "pedagógusok_gimnázium_2001", "pedagógusok_gimnázium_2017"]
pedagogusok2 = keep_county_or_capital(pedagogusok2)
pedagogusok2.neve = pedagogusok2.neve.map(lambda x: remove_whitespaces(x))
for c in pedagogusok2.columns[1:]:
    pedagogusok2[c] = pedagogusok2[c].astype('int')
pedagogusok2["pedagógusok_gimnázium_arany_2017_2001"] = pedagogusok2["pedagógusok_gimnázium_2017"] / pedagogusok2["pedagógusok_gimnázium_2001"]
pedagogusok = pedagogusok.merge(pedagogusok2, on='neve', how='outer')

In [90]:
pedagogusok2 = pd.read_excel("datain/6_2_5_2i-pedagogusok-szama.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31+31+31+31+31, 
                             nrows=29)
pedagogusok2.columns=["neve", "szintje", "pedagógusok_szakgimnázium_2001", "pedagógusok_szakgimnázium_2017"]
pedagogusok2 = keep_county_or_capital(pedagogusok2)
pedagogusok2.neve = pedagogusok2.neve.map(lambda x: remove_whitespaces(x))
for c in pedagogusok2.columns[1:]:
    pedagogusok2[c] = pedagogusok2[c].astype('int')
pedagogusok2["pedagógusok_szakgimnázium_arany_2017_2001"] = pedagogusok2["pedagógusok_szakgimnázium_2017"] / pedagogusok2["pedagógusok_szakgimnázium_2001"]
pedagogusok = pedagogusok.merge(pedagogusok2, on='neve', how='outer')

In [91]:
np.shape(pedagogusok)

(20, 19)

In [92]:
megyei_adatok = megyei_adatok.merge(pedagogusok, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
np.shape(megyei_adatok)

(20, 134)

In [93]:
del pedagogusok
del pedagogusok2

#### Köznevelési helyek

In [94]:
koznevint = pd.read_excel("datain/6_2_5_1i-koznevelesi-feladatellatasihely.xls",
                             usecols="A,B,D,T",
                             skiprows=3, 
                             nrows=29)
koznevint.columns=["neve", "szintje", "köznevelési_intézmények_óvodai_2001", "köznevelési_intézmények_óvodai_2017"]
koznevint = keep_county_or_capital(koznevint)
koznevint.neve = koznevint.neve.map(lambda x: remove_whitespaces(x))
for c in koznevint.columns[1:]:
    koznevint[c] = koznevint[c].astype('int')
koznevint["köznevelési_intézmények_óvodai_arany_2017_2001"] = koznevint["köznevelési_intézmények_óvodai_2017"] / koznevint["köznevelési_intézmények_óvodai_2001"]

koznevint2 = pd.read_excel("datain/6_2_5_1i-koznevelesi-feladatellatasihely.xls",
                             usecols="A,B,D,T",
                             skiprows=3+30, 
                             nrows=29)
koznevint2.columns=["neve", "szintje", "köznevelési_intézmények_áltisk_2001", "köznevelési_intézmények_áltisk_2017"]
koznevint2 = keep_county_or_capital(koznevint2)
for c in koznevint2.columns[1:]:
    koznevint2[c] = koznevint2[c].astype('int')
koznevint2.neve = koznevint2.neve.map(lambda x: remove_whitespaces(x))
koznevint2["köznevelési_intézmények_áltisk_arany_2017_2001"] = koznevint2["köznevelési_intézmények_áltisk_2017"] / koznevint2["köznevelési_intézmények_áltisk_2001"]
koznevint = koznevint.merge(koznevint2, on='neve')

koznevint2 = pd.read_excel("datain/6_2_5_1i-koznevelesi-feladatellatasihely.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31+31, 
                             nrows=29)
koznevint2.columns=["neve", "szintje", "köznevelési_intézmények_szakiskola_2001", "köznevelési_intézmények_szakiskola_2017"]
koznevint2 = keep_county_or_capital(koznevint2)
for c in koznevint2.columns[1:]:
    koznevint2[c] = koznevint2[c].astype('int')
koznevint2.neve = koznevint2.neve.map(lambda x: remove_whitespaces(x))
koznevint2["köznevelési_intézmények_szakiskola_arany_2017_2001"] = koznevint2["köznevelési_intézmények_szakiskola_2017"] / koznevint2["köznevelési_intézmények_szakiskola_2001"]
koznevint = koznevint.merge(koznevint2, on='neve')

koznevint2 = pd.read_excel("datain/6_2_5_1i-koznevelesi-feladatellatasihely.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31+31+31, 
                             nrows=29)
koznevint2.columns=["neve", "szintje", "köznevelési_intézmények_szakközépiskola_2001", "köznevelési_intézmények_szakközépiskola_2017"]
koznevint2 = keep_county_or_capital(koznevint2)
for c in koznevint2.columns[1:]:
    koznevint2[c] = koznevint2[c].astype('int')
koznevint2.neve = koznevint2.neve.map(lambda x: remove_whitespaces(x))
koznevint2["köznevelési_intézmények_szakközépiskola_arany_2017_2001"] = koznevint2["köznevelési_intézmények_szakközépiskola_2017"] / koznevint2["köznevelési_intézmények_szakközépiskola_2001"]
koznevint = koznevint.merge(koznevint2, on='neve')

koznevint2 = pd.read_excel("datain/6_2_5_1i-koznevelesi-feladatellatasihely.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31+31+31+31, 
                             nrows=29)
koznevint2.columns=["neve", "szintje", "köznevelési_intézmények_gimnázium_2001", "köznevelési_intézmények_gimnázium_2017"]
koznevint2 = keep_county_or_capital(koznevint2)
for c in koznevint2.columns[1:]:
    koznevint2[c] = koznevint2[c].astype('int')
koznevint2.neve = koznevint2.neve.map(lambda x: remove_whitespaces(x))
koznevint2["köznevelési_intézmények_gimnázium_arany_2017_2001"] = koznevint2["köznevelési_intézmények_gimnázium_2017"] / koznevint2["köznevelési_intézmények_gimnázium_2001"]
koznevint = koznevint.merge(koznevint2, on='neve')

koznevint2 = pd.read_excel("datain/6_2_5_1i-koznevelesi-feladatellatasihely.xls",
                             usecols="A,B,D,T",
                             skiprows=3+31+31+31+31+31, 
                             nrows=29)
koznevint2.columns=["neve", "szintje", "köznevelési_intézmények_szakgimnázium_2001", "köznevelési_intézmények_szakgimnázium_2017"]
koznevint2 = keep_county_or_capital(koznevint2)
for c in koznevint2.columns[1:]:
    koznevint2[c] = koznevint2[c].astype('int')
koznevint2.neve = koznevint2.neve.map(lambda x: remove_whitespaces(x))
koznevint2["köznevelési_intézmények_szakgimnázium_arany_2017_2001"] = koznevint2["köznevelési_intézmények_szakgimnázium_2017"] / koznevint2["köznevelési_intézmények_szakgimnázium_2001"]
koznevint = koznevint.merge(koznevint2, on='neve')

print(np.shape(koznevint))

(20, 19)


In [95]:
megyei_adatok = megyei_adatok.merge(koznevint, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del koznevint
del koznevint2

np.shape(megyei_adatok)

(20, 152)

### Szociális étkeztetésben részesülők

In [96]:
szocel = pd.read_excel("datain/6_2_4_6i-szocialis-ellatottak.xls",
                             usecols="A,B,D,T",
                             skiprows=3, 
                             nrows=29)
szocel.columns=["neve", "szintje", "szociális_étkeztetésben_részesülők_2001", "szociális_étkeztetésben_részesülők_2018"]
szocel = keep_county_or_capital(szocel)
for c in szocel.columns[1:]:
    szocel[c] = szocel[c].astype('int')
szocel.neve = szocel.neve.map(lambda x: remove_whitespaces(x))
szocel["szociális_étkeztetésben_részesülők_arany_2018_2001"] = szocel["szociális_étkeztetésben_részesülők_2018"] / szocel["szociális_étkeztetésben_részesülők_2001"]
np.shape(szocel)

(20, 4)

In [97]:
megyei_adatok = megyei_adatok.merge(szocel, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del szocel
np.shape(megyei_adatok)

(20, 155)

### Hátrányos helyzetű gyermekek

In [98]:
hh = pd.read_excel("datain/6_2_4_3i-hatranyos-kiskoruak.xls",
                             usecols="A,B,C,G",
                             skiprows=3, 
                             nrows=29)
hh.columns=["neve", "szintje", "hátrányoshelyzetű_kiskorúak_2013", "hátrányoshelyzetű_kiskorúak_2017"]
hh = keep_county_or_capital(hh)
hh.neve = hh.neve.map(lambda x: remove_whitespaces(x))
hh["hátrányoshelyzetű_kiskorúak_arany_2017_2013"] = hh["hátrányoshelyzetű_kiskorúak_2017"] / hh["hátrányoshelyzetű_kiskorúak_2013"]

In [99]:
hh2 = pd.read_excel("datain/6_2_4_3i-hatranyos-kiskoruak.xls",
                             usecols="A,B,C,G",
                             skiprows=3+30, 
                             nrows=29)
hh2.columns=["neve", "szintje", "hátrányoshelyzetű_halmozottan_kiskorúak_2013", "hátrányoshelyzetű_halmozottan_kiskorúak_2017"]
hh2 = keep_county_or_capital(hh2)
hh2.neve = hh2.neve.map(lambda x: remove_whitespaces(x))
hh2["hátrányoshelyzetű_halmozottan_kiskorúak_arany_2017_2013"] = hh2["hátrányoshelyzetű_halmozottan_kiskorúak_2017"] / hh2["hátrányoshelyzetű_halmozottan_kiskorúak_2013"]
hh = hh.merge(hh2, on='neve')

In [100]:
np.shape(hh)

(20, 7)

In [101]:
megyei_adatok = megyei_adatok.merge(hh, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del hh
del hh2
np.shape(megyei_adatok)

(20, 161)

### Orvosok száma

In [102]:
orvosok = pd.read_excel("datain/6_2_3_1i-dolgozo-orvosok.xls",
                             usecols="A,B,C,R",
                             skiprows=3, 
                             nrows=29)
orvosok.columns=["neve", "szintje", "orvosok_száma_2002", "orvosok_száma_2017"]
orvosok = keep_county_or_capital(orvosok)
orvosok.neve = orvosok.neve.map(lambda x: remove_whitespaces(x))
orvosok["orvosok_száma_arany_2017_2002"] = orvosok["orvosok_száma_2017"] / orvosok["orvosok_száma_2002"]

orvosok2 = pd.read_excel("datain/6_2_3_1i-dolgozo-orvosok.xls",
                             usecols="A,B,C,R",
                             skiprows=3+30, 
                             nrows=29)
orvosok2.columns=["neve", "szintje", "orvosok_tízezer_lakosra_2002", "orvosok_tízezer_lakosra_2017"]
orvosok2 = keep_county_or_capital(orvosok2)
orvosok2.neve = orvosok2.neve.map(lambda x: remove_whitespaces(x))
orvosok2["orvosok_tízezer_lakosra_arany_2017_2002"] = orvosok2["orvosok_tízezer_lakosra_2017"] / orvosok2["orvosok_tízezer_lakosra_2002"]
orvosok = orvosok.merge(orvosok2, on='neve')
np.shape(orvosok)

(20, 7)

In [103]:
megyei_adatok = megyei_adatok.merge(orvosok, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del orvosok
del orvosok2
np.shape(megyei_adatok)

(20, 167)

### Gáz, villany fogyasztás

In [104]:
fogyasztas = pd.read_excel("datain/6_2_2_7i-gaz-villany-fogyasztas.xls",
                             usecols="A,B,D,T",
                             skiprows=3, 
                             nrows=29)
fogyasztas.columns=["neve", "szintje", "háztartás_gázfogyasztás_m3_2001", "háztartás_gázfogyasztás_m3_2017"]
fogyasztas = keep_county_or_capital(fogyasztas)
fogyasztas.neve = fogyasztas.neve.map(lambda x: remove_whitespaces(x))
fogyasztas["háztartás_gázfogyasztás_m3_arany_2017_2001"] = fogyasztas["háztartás_gázfogyasztás_m3_2017"] / fogyasztas["háztartás_gázfogyasztás_m3_2001"]

fogyasztas2 = pd.read_excel("datain/6_2_2_7i-gaz-villany-fogyasztas.xls",
                             usecols="A,B,D,T",
                             skiprows=3+30, 
                             nrows=29)
fogyasztas2.columns=["neve", "szintje", "háztartás_áramfogyasztás_kwh_2001", "háztartás_áramfogyasztás_kwh_2017"]
fogyasztas2 = keep_county_or_capital(fogyasztas2)
fogyasztas2.neve = fogyasztas2.neve.map(lambda x: remove_whitespaces(x))
fogyasztas2["háztartás_áramfogyasztás_kwh_arany_2017_2001"] = fogyasztas2["háztartás_áramfogyasztás_kwh_2017"] / fogyasztas2["háztartás_áramfogyasztás_kwh_2001"]
fogyasztas = fogyasztas.merge(fogyasztas2, on='neve')
np.shape(fogyasztas)

(20, 7)

In [105]:
megyei_adatok = megyei_adatok.merge(fogyasztas, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del fogyasztas
del fogyasztas2
np.shape(megyei_adatok)

(20, 173)

### Közműolló

In [106]:
kozmuollo = pd.read_excel("datain/6_2_2_6i-kozmuollo.xls",
                             usecols="A,B,D,T",
                             skiprows=3+30, 
                             nrows=29)
kozmuollo.columns=["neve", "szintje", "közműolló_csatornázott_lakások_vízközművezettek_százalékában_2001", "közműolló_csatornázott_lakások_vízközművezettek_százalékában_2017"]
kozmuollo = keep_county_or_capital(kozmuollo)
kozmuollo.neve = kozmuollo.neve.map(lambda x: remove_whitespaces(x))
kozmuollo["közműolló_csatornázott_lakások_vízközművezettek_százalékában_arany_2017_2001"] = kozmuollo["közműolló_csatornázott_lakások_vízközművezettek_százalékában_2017"] / kozmuollo["közműolló_csatornázott_lakások_vízközművezettek_százalékában_2001"]
np.shape(kozmuollo)

(20, 4)

In [107]:
megyei_adatok = megyei_adatok.merge(kozmuollo, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del kozmuollo
np.shape(megyei_adatok)

(20, 176)

### Építési engedélyek

In [108]:
epitesieng = pd.read_excel("datain/6_2_2_3i-epitesi-engedelyek.xls",
                             usecols="A,B,C,R",
                             skiprows=3, 
                             nrows=29)
epitesieng.columns=["neve", "szintje", "építési_engedélyek_lakóépületek_2003", "építési_engedélyek_lakóépületek_2018"]
epitesieng = keep_county_or_capital(epitesieng)
epitesieng.neve = epitesieng.neve.map(lambda x: remove_whitespaces(x))
epitesieng["építési_engedélyek_lakóépületek_arany_2018_2003"] = epitesieng["építési_engedélyek_lakóépületek_2018"] / epitesieng["építési_engedélyek_lakóépületek_2003"]

epitesieng2 = pd.read_excel("datain/6_2_2_3i-epitesi-engedelyek.xls",
                             usecols="A,B,C,R",
                             skiprows=3+31, 
                             nrows=29)
epitesieng2.columns=["neve", "szintje", "építési_engedélyek_lakóépület_terület_ezer_m2_2003", "építési_engedélyek_lakóépület_terület_ezer_m2_2018"]
epitesieng2 = keep_county_or_capital(epitesieng2)
epitesieng2.neve = epitesieng2.neve.map(lambda x: remove_whitespaces(x))
epitesieng2["építési_engedélyek_lakóépület_terület_ezer_m2_arany_2018_2003"] = epitesieng2["építési_engedélyek_lakóépület_terület_ezer_m2_2018"] / epitesieng2["építési_engedélyek_lakóépület_terület_ezer_m2_2003"]
epitesieng = epitesieng.merge(epitesieng2, on='neve')

epitesieng2 = pd.read_excel("datain/6_2_2_3i-epitesi-engedelyek.xls",
                             usecols="A,B,C,R",
                             skiprows=3+31+31, 
                             nrows=29)
epitesieng2.columns=["neve", "szintje", "építési_engedélyek_lakóépületek_egylakásos_2003", "építési_engedélyek_lakóépületek_egylakásos_2018"]
epitesieng2 = keep_county_or_capital(epitesieng2)
epitesieng2.neve = epitesieng2.neve.map(lambda x: remove_whitespaces(x))
epitesieng2["építési_engedélyek_lakóépületek_egylakásos_arany_2018_2003"] = epitesieng2["építési_engedélyek_lakóépületek_egylakásos_2018"] / epitesieng2["építési_engedélyek_lakóépületek_egylakásos_2003"]
epitesieng = epitesieng.merge(epitesieng2, on='neve')

epitesieng2 = pd.read_excel("datain/6_2_2_3i-epitesi-engedelyek.xls",
                             usecols="A,B,C,R",
                             skiprows=3+31+31+31, 
                             nrows=29)
epitesieng2.columns=["neve", "szintje", "építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_2003", "építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_2018"]
epitesieng2 = keep_county_or_capital(epitesieng2)
epitesieng2.neve = epitesieng2.neve.map(lambda x: remove_whitespaces(x))
epitesieng2["építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_arany_2018_2003"] = epitesieng2["építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_2018"] / epitesieng2["építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_2003"]
epitesieng = epitesieng.merge(epitesieng2, on='neve')

epitesieng2 = pd.read_excel("datain/6_2_2_3i-epitesi-engedelyek.xls",
                             usecols="A,B,C,R",
                             skiprows=3+31+31+31+31, 
                             nrows=29)
epitesieng2.columns=["neve", "szintje", "építési_engedélyek_nem_lakóépület_2003", "építési_engedélyek_nem_lakóépület_2018"]
epitesieng2 = keep_county_or_capital(epitesieng2)
epitesieng2.neve = epitesieng2.neve.map(lambda x: remove_whitespaces(x))
epitesieng2["építési_engedélyek_nem_lakóépület_arany_2018_2003"] = epitesieng2["építési_engedélyek_nem_lakóépület_2018"] / epitesieng2["építési_engedélyek_nem_lakóépület_2003"]
epitesieng = epitesieng.merge(epitesieng2, on='neve')

epitesieng2 = pd.read_excel("datain/6_2_2_3i-epitesi-engedelyek.xls",
                             usecols="A,B,C,R",
                             skiprows=3+31+31+31+31+31, 
                             nrows=29)
epitesieng2.columns=["neve", "szintje", "építési_engedélyek_nem_lakóépület_terület_ezer_m2_2003", "építési_engedélyek_nem_lakóépület_terület_ezer_m2_2018"]
epitesieng2 = keep_county_or_capital(epitesieng2)
epitesieng2.neve = epitesieng2.neve.map(lambda x: remove_whitespaces(x))
epitesieng2["építési_engedélyek_nem_lakóépület_terület_ezer_m2_arany_2018_2003"] = epitesieng2["építési_engedélyek_nem_lakóépület_terület_ezer_m2_2018"] / epitesieng2["építési_engedélyek_nem_lakóépület_terület_ezer_m2_2003"]
epitesieng = epitesieng.merge(epitesieng2, on='neve')
np.shape(epitesieng)

(20, 19)

In [109]:
for c in epitesieng.columns:
    if (c!='neve') and ("terület" not in c) and ("_arany_" not in c):
        epitesieng[c] = epitesieng[c].astype('int')

In [110]:
megyei_adatok = megyei_adatok.merge(epitesieng, how='outer', on='neve', suffixes=['', '_Y'])
for c in megyei_adatok.columns:
    if c.endswith('_Y'):
        print("Duplicate column:", c)
        
del epitesieng
del epitesieng2
np.shape(megyei_adatok)

(20, 194)

## Megyei adatok

In [111]:
megyei_adatok.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20 entries, 0 to 19
Columns: 194 entries, neve to építési_engedélyek_nem_lakóépület_terület_ezer_m2_arany_2018_2003
dtypes: float64(109), int64(84), object(1)
memory usage: 30.5+ KB


In [112]:
for c in megyei_adatok.columns:
    if len(megyei_adatok[c].dropna()) != 20:
        print(c)

községszám_arany_2018_2001
lakos_per_kiskerüzlet_bevásárlóközpontokban_2005
lakos_per_kiskerüzlet_bevásárlóközpontokban_2018
lakos_per_kiskerüzlet_bevásárlóközpontokban_arany_2018_2005


In [113]:
megyei_adatok

Unnamed: 0,neve,lakónépesség_0-14_2001,lakónépesség_0-14_2018,lakónépesség_15-64_2001,lakónépesség_15-64_2018,lakónépesség_65-_2001,lakónépesség_65-_2018,lakónépesség_arany_15-64_0-14_2001,lakónépesség_arany_15-64_65-_2001,lakónépesség_arany_15-64_0-14_2018,...,építési_engedélyek_lakóépületek_egylakásos_arany_2018_2003,építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_2003,építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_2018,építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_arany_2018_2003,építési_engedélyek_nem_lakóépület_2003,építési_engedélyek_nem_lakóépület_2018,építési_engedélyek_nem_lakóépület_arany_2018_2003,építési_engedélyek_nem_lakóépület_terület_ezer_m2_2003,építési_engedélyek_nem_lakóépület_terület_ezer_m2_2018,építési_engedélyek_nem_lakóépület_terület_ezer_m2_arany_2018_2003
0,Budapest,226546,236591,1219448,1161897,313215,351246,5.382783,3.893326,4.910994,...,0.354015,162.4,74.449,0.45843,316,139,0.439873,575.6,1173.192,2.038207
1,Pest,189764,211624,741430,838010,140704,212230,3.907116,5.269431,3.959901,...,0.542566,776.4,451.919,0.58207,1341,402,0.299776,529.7,737.307,1.391933
2,Fejér,74418,60574,295874,279871,57823,76246,3.975839,5.116891,4.620316,...,0.172073,178.2,37.769,0.211947,840,229,0.272619,219.3,172.612,0.787104
3,Komárom-Esztergom,53788,43600,219803,199417,43407,54437,4.086469,5.063769,4.573784,...,0.533654,92.3,47.658,0.516338,520,177,0.342308,154.3,239.305,1.550907
4,Veszprém,62531,47646,259311,226615,53775,67164,4.146919,4.822148,4.756223,...,0.536199,124.7,73.298,0.587795,563,204,0.364121,125.8,55.356,0.440032
5,Győr-Moson-Sopron,69288,68452,301745,311916,63176,81150,4.354939,4.77626,4.556711,...,0.812456,197.6,156.899,0.794023,767,216,0.281617,198.7,142.89,0.719124
6,Vas,43431,33550,184698,170405,41020,49350,4.252677,4.502633,5.079136,...,0.619382,91.9,59.155,0.643689,356,79,0.22191,117.9,45.458,0.385564
7,Zala,46955,34753,205578,178550,47963,57331,4.378192,4.286179,5.137686,...,0.490642,101.1,62.255,0.615776,459,84,0.185185,116.9,41.628,0.356099
8,Baranya,65908,50191,281500,241350,60739,72180,4.271105,4.634584,4.808631,...,0.261598,107.9,32.881,0.304736,540,120,0.222222,123.0,87.866,0.714358
9,Somogy,56790,41137,229096,200064,52044,62601,4.034091,4.401968,4.863359,...,0.450526,116.0,56.832,0.489931,721,221,0.307906,131.3,74.138,0.564646


In [114]:
megyei_adatok.describe()

Unnamed: 0,lakónépesség_0-14_2001,lakónépesség_0-14_2018,lakónépesség_15-64_2001,lakónépesség_15-64_2018,lakónépesség_65-_2001,lakónépesség_65-_2018,lakónépesség_arany_15-64_0-14_2001,lakónépesség_arany_15-64_65-_2001,lakónépesség_arany_15-64_0-14_2018,lakónépesség_arany_15-64_65-_2018,...,építési_engedélyek_lakóépületek_egylakásos_arany_2018_2003,építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_2003,építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_2018,építési_engedélyek_lakóépületek_egylakásos_terület_ezer_m2_arany_2018_2003,építési_engedélyek_nem_lakóépület_2003,építési_engedélyek_nem_lakóépület_2018,építési_engedélyek_nem_lakóépület_arany_2018_2003,építési_engedélyek_nem_lakóépület_terület_ezer_m2_2003,építési_engedélyek_nem_lakóépület_terület_ezer_m2_2018,építési_engedélyek_nem_lakóépület_terület_ezer_m2_arany_2018_2003
count,20.0,20.0,20.0,20.0,20.0,20.0,20.0,20.0,20.0,20.0,...,20.0,20.0,20.0,20.0,20.0,20.0,20.0,20.0,20.0,20.0
mean,84599.85,71095.8,348166.0,325224.5,77249.0,92598.25,4.070809,4.570819,4.673321,3.473271,...,0.395314,153.53,76.22225,0.459378,657.1,217.0,0.341571,202.56,237.09105,1.043232
std,50242.418152,56102.456537,244605.7,249691.6,60817.858389,71083.46863,0.415242,0.399741,0.302104,0.322223,...,0.185105,155.072981,95.095717,0.16993,292.011337,107.086291,0.109832,144.260132,287.738105,0.585743
min,37054.0,26462.0,149465.0,125490.0,35086.0,38985.0,3.266914,3.893326,3.959901,3.085229,...,0.155136,39.8,8.478,0.211947,245.0,79.0,0.15583,39.3,41.628,0.226753
25%,53716.75,41939.5,220158.5,197848.8,51023.75,59663.5,3.927533,4.311754,4.542437,3.251545,...,0.227333,91.15,31.91075,0.311941,433.25,139.0,0.279367,121.725,57.39875,0.65982
50%,67887.0,52142.5,281455.0,242718.0,61957.5,72559.5,4.033899,4.470889,4.681294,3.35407,...,0.359839,111.95,53.916,0.47418,588.5,209.0,0.347338,155.75,141.719,0.807517
75%,96118.0,74177.75,370730.5,339639.2,75651.5,89538.25,4.255896,4.857712,4.874666,3.665105,...,0.536791,166.35,73.58575,0.583501,853.0,238.0,0.389254,226.6,245.72875,1.431677
max,226546.0,236591.0,1219448.0,1161897.0,313215.0,351246.0,5.382783,5.269431,5.137686,4.332845,...,0.812456,776.4,451.919,0.794023,1341.0,435.0,0.64939,575.6,1173.192,2.038207


## Exportálás

Átnevezések exportálás előtt

In [115]:
megyei_adatok.rename(columns={'neve': 'megye'}, inplace=True)
megyei_adatok.rename(columns=lambda x: re.sub("_arany_", "_arány_", x), inplace=True)
megyei_adatok.rename(columns=lambda x: re.sub(" ", "_", x), inplace=True)
megyei_adatok.rename(columns=lambda x: x.lower(), inplace=True)

In [116]:
list(enumerate(megyei_adatok.columns))

[(0, 'megye'),
 (1, 'lakónépesség_0-14_2001'),
 (2, 'lakónépesség_0-14_2018'),
 (3, 'lakónépesség_15-64_2001'),
 (4, 'lakónépesség_15-64_2018'),
 (5, 'lakónépesség_65-_2001'),
 (6, 'lakónépesség_65-_2018'),
 (7, 'lakónépesség_arány_15-64_0-14_2001'),
 (8, 'lakónépesség_arány_15-64_65-_2001'),
 (9, 'lakónépesség_arány_15-64_0-14_2018'),
 (10, 'lakónépesség_arány_15-64_65-_2018'),
 (11, 'lakónépesség_arány_15-64_65-_arány_2018_2001'),
 (12, 'lakónépesség_15-64_arány_2018_2001'),
 (13, 'lakónépesség_arány_15-64_0-14_arány_2018_2001'),
 (14, 'lakónépesség_0-14_arány_2018_2001'),
 (15, 'lakónépesség_65-_arány_2018_2001'),
 (16, 'népsűrűség_fő_per_km2_2001'),
 (17, 'népsűrűség_fő_per_km2_2018'),
 (18, 'városszám_2001'),
 (19, 'városszám_2018'),
 (20, 'községszám_2001'),
 (21, 'községszám_2018'),
 (22, 'városszám_arány_2018_2001'),
 (23, 'népsűrűség_fő_per_km2_arány_2018_2001'),
 (24, 'községszám_arány_2018_2001'),
 (25, 'élettartam_ffi_2001'),
 (26, 'élettartam_ffi_2017'),
 (27, 'élettartam_

In [117]:
megyei_adatok.to_csv('dataout/megyei_adatok.csv', index=False, header=True)

## Korrelációk

In [124]:
%run definitions.ipynb

In [126]:
megyei_corr = megyei_adatok.corr()
#display(megyei_corr.style.background_gradient(cmap='coolwarm'))
colour_cm(megyei_corr, pwidth=0.25, pheight=0.25)