In [1]:
from glob import glob
import os

import pandas as pd
import numpy as np

In [2]:
def read_dataframe(filename):
    basename = os.path.basename(filename)
    parts = basename.split('.')[0].split('-')
    df = pd.read_csv(filename, encoding='latin-1', delimiter=';', converters={'Irányítószám': str})
    df['year'] = int(parts[2])
    return df

df = pd.concat([read_dataframe(fn) for fn in glob('data/*.csv')])
df.head(20)

Unnamed: 0,Név,Irányítószám,Város,Cím,Jogcím,Alap,Forrás,Támogatás összege (Ft),year
0,Kovács Lászlóné,1028,Budapest,Golfütõ utca 3,HOP Akvakultúra,EHA,EU,12025196,2014
1,magánszemély,1032,Budapest,,HOP Halastavi Környezetgazdálkodási Program,EHA,EU,153247,2014
2,Biharugrai Halgazdaság Kft.,1037,Budapest,Montevideo utca 7,HOP Akvakultúra,EHA,EU,91204793,2014
3,Biharugrai Halgazdaság Kft.,1037,Budapest,Montevideo utca 7,HOP Halastavi Környezetgazdálkodási Program,EHA,EU,15074830,2014
4,Földmûvelésügyi Minisztérium,1055,Budapest,Kossuth Lajos tér 11,HOP Technikai Segítségnyújtás,EHA,EU,54833168,2014
5,CREATIVE FIELD Kereskedelmi és Szolgáltató Kft.,1062,Budapest,Lehel utca 1/C,HOP Technikai Segítségnyújtás,EHA,EU,1514100,2014
6,Stáció Kft.,1075,Budapest,Holló utca 3-9/A III.11,HOP Halastavi Környezetgazdálkodási Program,EHA,EU,2565327,2014
7,Stáció Kft.,1075,Budapest,Holló utca 3-9/A III.11,HOP Akvakultúra,EHA,EU,32267013,2014
8,Mezõgazdasági És Vidékfejlesztési Hivatal,1095,Budapest,Soroksári út 22-24.,HOP Technikai Segítségnyújtás,EHA,EU,30543284,2014
9,Magyar Haltermelõk és Halászati Vízterület-has...,1113,Budapest,Bartók Béla út 152 3/316,HOP Halastavi Környezetgazdálkodási Program,EHA,EU,1847239,2014


In [3]:
df = df.rename(columns={
        'Támogatás összege (Ft)': 'amount',
        'Név': 'recipient_name',
        'Irányítószám': 'recipient_postcode',
        'Cím': 'recipient_address',
        'Város': 'recipient_location',
        'Jogcím': 'scheme_detail'
    })
df['recipient_name'] = df['recipient_name'].apply(lambda x: np.nan if x == 'magánszemély' else x)
df['scheme'] = df.apply(lambda x: '%s (%s, %s)' % (x['scheme_detail'], x['Alap'], x['Forrás']), 1)
df.head()

Unnamed: 0,recipient_name,recipient_postcode,recipient_location,recipient_address,scheme_detail,Alap,Forrás,amount,year,scheme
0,Kovács Lászlóné,1028,Budapest,Golfütõ utca 3,HOP Akvakultúra,EHA,EU,12025196,2014,"HOP Akvakultúra (EHA, EU)"
1,,1032,Budapest,,HOP Halastavi Környezetgazdálkodási Program,EHA,EU,153247,2014,HOP Halastavi Környezetgazdálkodási Program (E...
2,Biharugrai Halgazdaság Kft.,1037,Budapest,Montevideo utca 7,HOP Akvakultúra,EHA,EU,91204793,2014,"HOP Akvakultúra (EHA, EU)"
3,Biharugrai Halgazdaság Kft.,1037,Budapest,Montevideo utca 7,HOP Halastavi Környezetgazdálkodási Program,EHA,EU,15074830,2014,HOP Halastavi Környezetgazdálkodási Program (E...
4,Földmûvelésügyi Minisztérium,1055,Budapest,Kossuth Lajos tér 11,HOP Technikai Segítségnyújtás,EHA,EU,54833168,2014,"HOP Technikai Segítségnyújtás (EHA, EU)"


In [4]:
df['currency'] = 'HUF'
df['country'] = 'HU'
if 'Alap' in df.columns:
    df = df.drop(['Alap', 'Forrás', 'scheme_detail'], 1)

In [5]:
len(df[df['recipient_name'].notnull()])

622097

In [6]:
len(df)

892990

In [7]:
len(df['scheme'].value_counts())

274

In [8]:
df.head()

Unnamed: 0,recipient_name,recipient_postcode,recipient_location,recipient_address,amount,year,scheme,currency,country
0,Kovács Lászlóné,1028,Budapest,Golfütõ utca 3,12025196,2014,"HOP Akvakultúra (EHA, EU)",HUF,HU
1,,1032,Budapest,,153247,2014,HOP Halastavi Környezetgazdálkodási Program (E...,HUF,HU
2,Biharugrai Halgazdaság Kft.,1037,Budapest,Montevideo utca 7,91204793,2014,"HOP Akvakultúra (EHA, EU)",HUF,HU
3,Biharugrai Halgazdaság Kft.,1037,Budapest,Montevideo utca 7,15074830,2014,HOP Halastavi Környezetgazdálkodási Program (E...,HUF,HU
4,Földmûvelésügyi Minisztérium,1055,Budapest,Kossuth Lajos tér 11,54833168,2014,"HOP Technikai Segítségnyújtás (EHA, EU)",HUF,HU


In [9]:
df[df['year'] == 2014].to_csv('hu_2014.csv', encoding='utf-8', index=False)
df[df['year'] == 2015].to_csv('hu_2015.csv', encoding='utf-8', index=False)