# Adatelőkészítés: 2011-es helyiségnév adatok

A KSH adatai alapján. Letöltés: 2019. május.

In [1]:
import pandas as pd
import numpy as np
import re

## Adatok beimportálása

In [2]:
valasztasi_adatok = pd.read_csv("dataout/valasztasi_eredmenyek.csv")

In [3]:
helyisegnevkonyv = pd.read_excel("datain/Helysegnevkonyv_adattar_2011.xls",
                                skiprows=3,
                                header=None,
                                usecols="A,C,D,G,J:L,N:Z")
helyisegnevkonyv = helyisegnevkonyv.iloc[:-1, :] ## utolsó sor csak összesítés
helyisegnevkonyv.columns = ["község_neve", "község_jogállása", "megye", "kistérség_székhelye", "terület_hektár", "lakónépesség", "lakások_száma"] + \
                        list(map(lambda x: "önkormányzat_"+x, ["bolgár", "cigány", "görög", "horvát", "lengyel", "német", "örmény", "román", "ruszin", "szerb", "szlovák", "szlovén", "ukrán"]))

helyisegnevkonyv.rename(columns = lambda x: x+"_2011", inplace=True)

In [4]:
def to_bool(x):
    if pd.isna(x):
        return False
    else:
        if x:
            return True
        return False
    
## csak 0/1 értékű legyen, hogy van-e nemzetiségi önkormányzat
for c in helyisegnevkonyv.columns:
    if c.startswith("önkormányzat_"):
        helyisegnevkonyv[c] = helyisegnevkonyv[c].map(lambda x: to_bool(x)).astype('int')

In [5]:
helyisegnevkonyv["megye_2011"].where(helyisegnevkonyv["megye_2011"] != "főváros", other='Budapest', inplace=True)

In [6]:
print(sorted(helyisegnevkonyv.megye_2011.unique()) == sorted(valasztasi_adatok.Megye.unique()))

True


Kerületek másként vannak elnevezve, egységesítsük:

In [7]:
helyisegnevkonyv.loc[helyisegnevkonyv["község_neve_2011"].map(lambda x: x.startswith("Budapest")), "község_neve_2011"] = ['Budapest 01',
                                                                                                                     'Budapest 02',
                                                                                                                     'Budapest 03',
                                                                                                                     'Budapest 04',
                                                                                                                     'Budapest 05',
                                                                                                                     'Budapest 06',
                                                                                                                     'Budapest 07',
                                                                                                                     'Budapest 08',
                                                                                                                     'Budapest 09',
                                                                                                                     'Budapest 10',
                                                                                                                     'Budapest 11',
                                                                                                                     'Budapest 12',
                                                                                                                     'Budapest 13',
                                                                                                                     'Budapest 14',
                                                                                                                     'Budapest 15',
                                                                                                                     'Budapest 16',
                                                                                                                     'Budapest 17',
                                                                                                                     'Budapest 18',
                                                                                                                     'Budapest 19',
                                                                                                                     'Budapest 20',
                                                                                                                     'Budapest 21',
                                                                                                                     'Budapest 22',
                                                                                                                     'Budapest 23',] 

In [8]:
helyisegnevkonyv.loc[helyisegnevkonyv["község_neve_2011"].map(lambda x: x.startswith("Budapest")), "község_neve_2011"]

392    Budapest 01
393    Budapest 02
394    Budapest 03
395    Budapest 04
396    Budapest 05
397    Budapest 06
398    Budapest 07
399    Budapest 08
400    Budapest 09
401    Budapest 10
402    Budapest 11
403    Budapest 12
404    Budapest 13
405    Budapest 14
406    Budapest 15
407    Budapest 16
408    Budapest 17
409    Budapest 18
410    Budapest 19
411    Budapest 20
412    Budapest 21
413    Budapest 22
414    Budapest 23
Name: község_neve_2011, dtype: object

In [9]:
print("A választási adatok közt szereplő, a 2011-es helyiségnévadatok közt nem szereplő település:")
[i for i in valasztasi_adatok["Település"] if i not in helyisegnevkonyv["község_neve_2011"].tolist()]

A választási adatok közt szereplő, a 2011-es helyiségnévadatok közt nem szereplő település:


['Balatonakarattya']

Balatonakarattya 2014-ben önállósodott. Sajnos nem találtam 2011-esnél későbbi helyiségnévadattárat.

In [10]:
helyisegnevkonyv["fő_per_hektár"] = helyisegnevkonyv["lakónépesség_2011"] / helyisegnevkonyv["terület_hektár_2011"]

In [11]:
helyisegnevkonyv["fő_per_lakás"] = helyisegnevkonyv["lakónépesség_2011"] / helyisegnevkonyv["lakások_száma_2011"]

In [12]:
helyisegnevkonyv = helyisegnevkonyv.loc[:, [c for c in helyisegnevkonyv if not c.startswith("önkormányzat_")]+[c for c in helyisegnevkonyv if c.startswith("önkormányzat_")]]

In [13]:
pd.concat([helyisegnevkonyv.describe(),
           pd.DataFrame(helyisegnevkonyv.iloc[:, 4:].sum(0), columns=["összesen"]).transpose()])

Unnamed: 0,terület_hektár_2011,lakónépesség_2011,lakások_száma_2011,fő_per_hektár,fő_per_lakás,önkormányzat_bolgár_2011,önkormányzat_cigány_2011,önkormányzat_görög_2011,önkormányzat_horvát_2011,önkormányzat_lengyel_2011,önkormányzat_német_2011,önkormányzat_örmény_2011,önkormányzat_román_2011,önkormányzat_ruszin_2011,önkormányzat_szerb_2011,önkormányzat_szlovák_2011,önkormányzat_szlovén_2011,önkormányzat_ukrán_2011
count,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0,3176.0
mean,2929.041,3144.119,1369.318,1.157787,2.301849,0.013224,0.388854,0.011965,0.039673,0.015428,0.133501,0.011965,0.022355,0.023615,0.015113,0.038413,0.003463,0.007242
std,3559.007,11446.7,5344.942,7.795201,0.492356,0.114252,0.487567,0.108744,0.195219,0.123268,0.340169,0.108744,0.147859,0.151869,0.122023,0.192222,0.058759,0.084804
min,56.0,11.0,13.0,0.015777,0.52,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1068.0,355.0,160.0,0.255473,2.001599,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,1867.5,821.0,354.0,0.419294,2.327982,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,3479.5,1953.0,794.75,0.715886,2.614489,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,48798.0,208016.0,90342.0,308.37799,5.433735,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
összesen,9302633.0,9985722.0,4348955.0,3677.132294,7310.673026,42.0,1235.0,38.0,126.0,49.0,424.0,38.0,71.0,75.0,48.0,122.0,11.0,23.0


In [14]:
helyisegnevkonyv[helyisegnevkonyv["fő_per_hektár"] > 200]

Unnamed: 0,község_neve_2011,község_jogállása_2011,megye_2011,kistérség_székhelye_2011,terület_hektár_2011,lakónépesség_2011,lakások_száma_2011,fő_per_hektár,fő_per_lakás,önkormányzat_bolgár_2011,...,önkormányzat_horvát_2011,önkormányzat_lengyel_2011,önkormányzat_német_2011,önkormányzat_örmény_2011,önkormányzat_román_2011,önkormányzat_ruszin_2011,önkormányzat_szerb_2011,önkormányzat_szlovák_2011,önkormányzat_szlovén_2011,önkormányzat_ukrán_2011
399,Budapest 08,fővárosi kerület,Budapest,Budapest,209,64451,36944,308.37799,1.744559,1,...,1,1,0,1,1,1,1,0,0,0


In [15]:
helyisegnevkonyv.to_csv("dataout/helyisegnevkonyv.csv", index=False)

## Korrelációk

In [16]:
%run definitions.ipynb

In [17]:
korrelaciok = helyisegnevkonyv.corr()
colour_cm(korrelaciok)