# Strukturální fondy
Loni jsem [se hrabal](https://gist.github.com/kokes/052cc2a63e6366fc92b1) v datech od MMR, konkrétně v tabulce projektů za období 2007-2013. A jelikož to [nikoho nezajímalo](https://twitter.com/kondrej/status/604406720471961600), rozhodl jsem se to udělat znovu a pořádněji.

Vše níže uvedné je na základě [dat na webu MMR](http://www.strukturalni-fondy.cz/cs/Informace-o-cerpani/Seznamy-prijemcu). Rozdíl od loňských hrátek je v tom, že MMR v mezičase dodalo mnohem čistší tabulku. Dříve člověk musel párovat projekty na vládní instituce, NACE kategorie atd. Teď to za nás udělalo ministerstvo, takže můžeme stratifikaci prohlížet mnohem snadněji.

Stížnosti do [twitterů](http://twitter.com/kondrej) nebo [mailů](mailto:ondrej.kokes@gmail.com)

*(Kód používá víceméně jen Python 3 a knihovnu `pandas`, klidně si to pusťte)*

In [1]:
import pandas as pd
import numpy as np
import urllib.request
import os
%matplotlib inline

In [62]:
url = 'http://www.strukturalni-fondy.cz/getmedia/d10fe3b0-15f5-4cdb-b916-64be5b4c5c4d/Prehled_projektu_20160406u.xlsx?ext=.xlsx'
fn = 'vstupy/prehled.xlsx'
dvs = 'vystupy' # kam se budou ukladat vystupy

if not os.path.exists(fn):
    urllib.request.urlretrieve(url, fn)

In [3]:
df = pd.read_excel(fn)
df = df.loc[df.loc[:, 'Pořadí v rámci v projektu (filtr)'] == 1] # kazdy projekt ma vic radku

Celkem máme 75 tisíc projektů z období 2007-2013, ke každému 28 indikátorů, většina je celkem sebevysvětlující.

In [4]:
df.shape

(75137, 28)

In [5]:
df.columns

Index(['Číslo a název programu', 'Číslo prioritní osy',
       'Číslo oblasti podpory', 'Číslo projektu', 'Název projektu',
       'Popis projektu', 'Žadatel', 'IČ žadatele', 'Hosp.právní forma',
       'Hosp.právní forma - skupina', 'Stav projektu',
       'Datum podpisu smlouvy/rozhodnutí', 'Adresa žadatele',
       'Kraj žadatele - kód', 'Kraj žadatele - název', 'Obec žadatele - kód',
       'Obec žadatele - název', 'Celkové zdroje - Sml/Dod',
       'Rozhodnutí/Smlouva o poskytnutí dotace (celkové zdroje)',
       'Rozhodnutí/Smlouva o poskytnutí dotace (veřejné prostředky celkem)',
       'Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)',
       'Proplacené prostředky příjemcům - vyúčtované (veřejné prostředky celkem)',
       'Proplacené prostředky příjemcům - vyúčtované (EU zdroje)',
       'Certifikované prostředky (veřejné prostředky celkem)',
       'Certifikované prostředky (EU zdroje)', 'Název NUTS',
       'Pořadí v rámci v projektu (filtr)', 'Počet míst realizace'],
  

In [6]:
# nazvy sloupcu, at se to lip filtruje
prfo = 'Hosp.právní forma'
prfos = 'Hosp.právní forma - skupina'
prog = 'Číslo a název programu'
nuts = 'Název NUTS'
ico = 'IČ žadatele'
zad = 'Žadatel'
stav = 'Stav projektu'
popis = 'Popis projektu'
nazev = 'Název projektu'
celk = 'Celkové zdroje - Sml/Dod'
euz = 'Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)'

***V datasetu od MMR je několik metrik pro částku hrazenou z dotací. Jde o Rozhodnutí, Proplacené prostředky a Certifikované prostředky. Je tak možné měřit objem dotací více způsoby. V celém tomto dokumentu se měří pouze ono Rozhodnutí. Změnou proměnné `euz` výše tuto funkcionalitu změníte.***

První tři projekty vypadají takto

In [7]:
df.head(3).T

Unnamed: 0,0,10,26
Číslo a název programu,CZ.1.01 OP Doprava,CZ.1.01 OP Doprava,CZ.1.01 OP Doprava
Číslo prioritní osy,1.1,1.1,1.1
Číslo oblasti podpory,1.1.1,1.1.1,1.1.1
Číslo projektu,CZ.1.01/1.1.00/06.0019,CZ.1.01/1.1.00/07.0006,CZ.1.01/1.1.00/07.0015
Název projektu,Optimalizace trati Benešov u Prahy - Strančice,Optimalizace trati Horní Dvořiště st. hranice ...,"Rekonstrukce kolejí č.1 a 2 v km 224,391-226,0..."
Popis projektu,"Délka rekonstruovaného úseku je 23,95 km. Stáv...",Vzhledem k již proběhlé částečné optimalizaci ...,V rámci stavby se předpokládá řešit rekonstruk...
Žadatel,"Správa železniční dopravní cesty, státní organ...","Správa železniční dopravní cesty, státní organ...","Správa železniční dopravní cesty, státní organ..."
IČ žadatele,70994234,70994234,70994234
Hosp.právní forma,Správa žel.dopr.cesty,Správa žel.dopr.cesty,Správa žel.dopr.cesty
Hosp.právní forma - skupina,Stát a jeho instituce a organizace,Stát a jeho instituce a organizace,Stát a jeho instituce a organizace


### Další datasety na napojení - veřejné podniky
Sice náš MMR dataset obsahuje informace o státních institucích, seznam není kompletní. Podniky s výrazným podílem státu nebo firmy plně vlastněné kraji, obcemi atd., jsou v datasetu často označené jako běžné akciové společnosti.

Můžeme ale použít dva datasety of ministerstva financí:
- [Seznam vládních institucí v ČR](http://www.mfcr.cz/cs/verejny-sektor/rozpoctove-ramce-statisticke-informace/verejny-sektor/sektor-vladnich-instituci/2016/seznam-vladnich-instituci-v-cr-2016-24749)
- [Seznam veřejných společností v ČR](http://www.mfcr.cz/cs/verejny-sektor/rozpoctove-ramce-statisticke-informace/verejny-sektor/verejne-spolecnosti/2016/seznam-verejnych-spolecnosti-v-cr-2016-24752)

In [8]:
url = 'http://www.mfcr.cz/assets/cs/media/Rozp-ramce-EU-85-2011_2016_Seznam-verejnych-spolecnosti-v-CR.xlsx'
fn = 'vstupy/verejne-instituce.xlsx'

if not os.path.exists(fn):
    urllib.request.urlretrieve(url, fn)
    
url = 'http://www.mfcr.cz/assets/cs/media/Rozp-ramce-EU-85-2011_2016_Seznam-vladnich-instituci-v-CR.xls'
fn = 'vstupy/vladni-instituce.xls'

if not os.path.exists(fn):
    urllib.request.urlretrieve(url, fn)

In [9]:
ver = pd.read_excel('vstupy/verejne-instituce.xlsx', skiprows=4)
ver = ver.iloc[:, 1:]
ver.head(5)

Unnamed: 0,IČO,NÁZEV,DATUM VZNIKU,FORMA,NACE,SUBSEKTOR
0,46967036,"JUPITER club, s.r.o.",1992-08-03,112,90040,11001
1,48909467,"Služby města Konice, spol. s r.o.",1993-08-18,112,38110,11001
2,25013599,TS HRÁDEK s.r.o.,1996-12-19,112,38110,11001
3,25013866,"Klášterecká kyselka, s.r.o.",1996-12-31,112,47190,11001
4,25020307,Podnik služeb Jirkov s.r.o.,1997-05-06,112,81290,11001


In [10]:
vlad = pd.read_excel('vstupy/vladni-instituce.xls', skiprows=4)
vlad = vlad.iloc[:, 1:]
vlad.head(5)

Unnamed: 0,IČO,NÁZEV,DATUM VZNIKU,FORMA,NACE,COFOG,SUBSEKTOR
0,26925974,Nemocnice Boskovice s.r.o,2004-04-22,112,86100,,13130
1,3960765,Lesy Drmoul s.r.o.,2015-04-03,112,2100,,13130
2,27577708,Divadla Kladno s.r.o.,2006-08-02,112,90020,,13130
3,26076357,"Strakonická televize, s.r.o.",2004-07-10,112,60200,,13130
4,4510984,"Pošumavská odpadová, s.r.o.",2015-10-26,112,38,,13130


In [11]:
len(ver), len(vlad)

(1172, 18117)

In [12]:
vvico = list(ver.loc[:, 'IČO'].values) + list(vlad.loc[:, 'IČO'].values)
vvico = [str(l).rjust(8, '0') for l in vvico]
vvico = set(vvico)

## První prohrab

Hlavní přídavek oproti předchozímu datasetu je přítomnost klasifikací dle pravních forem.

In [47]:
df.loc[:, prfo].unique()[:10]

array(['Správa žel.dopr.cesty',
       'Správa železniční dopravní cesty, státní organizace',
       'Společnost s r.o.', 'Akciová společnost', 'Příspěvková organizace',
       'Státní příspěvková organizace', 'Kraj', 'Dobrovolný svazek obcí',
       'Obec nebo m.část hl.m.', 'Org. složka státu'], dtype=object)

Ty jsou seskupené do skupin. Nejvíc projektů (ne nutně peněz) připadá na obce.

In [48]:
df.loc[:, prfos].value_counts()

Obce                                   25192
Podnikatelské subjekty                 22118
Ostatní                                15068
Komory, profesní a zájmové sdružení     3221
Stát a jeho instituce a organizace      2542
Neziskový sektor                        1601
Kraje                                   1584
Vzdělávací a výzkumné instituce         1550
Name: Hosp.právní forma - skupina, dtype: int64

## Očista

### Nesprávné IČO
Je spousta projektů, kde IČO není správné české IČO. U zhruba čtyř tisíc případů IČO chybí, u cca 1800 jde o zahraniční IČO (většina projektů ze spolupráce Česko-Polsko).

In [29]:
df.loc[:, ico].isnull().sum()

4131

In [24]:
nims = df.loc[:, ico].apply(lambda x: len(str(x)) == 8)
len(df)-nims.sum()

5799

Celkem jde o projekty za skoro 19 miliard

In [35]:
(df.loc[~nims, euz].sum()/10**9).round(2)

18.84

O tyto projekty náš dataset očistíme.

In [36]:
df = df.loc[nims,:]

### Duplikované skupiny

In [37]:
df.loc[:, prfo] = df.loc[:, prfo].replace('Společen.vlast.jednot.', 'Společenství vlastníků jednotek')
df.loc[:, prfo] = df.loc[:, prfo].replace('Reg.rada regionu soudr.', 'Regionální rada regionu soudržnosti')

In [38]:
df.loc[:, prfo] = df.loc[:, prfo].replace('Vysoká škola (veřejná, státní)', 'Vysoká škola')

In [39]:
# df.loc[df.loc[:, prfo].str.contains('Vysok'), prfo].unique()

In [40]:
df.loc[:, prfo] = df.loc[:, prfo].replace('Příspěvková organizace', 'Státní příspěvková organizace')

In [41]:
df.loc[:, prfo] = df.loc[:, prfo].replace('Veř. výzkumná instituce', 'Veřejná výzkumná instituce')

### Veřejné instituce
Čtyři skupiny institucí patří mezi veřejné - obce, kraje, stát, vzdělávací a výzkumné instituce.

In [42]:
erar = 'veřejná instituce'
df.loc[:, erar] = False
df.loc[df.loc[:, prfos].isin(['Obce', 'Kraje', 'Stát a jeho instituce a organizace', 'Vzdělávací a výzkumné instituce']), erar] = True

...ale v 'Ostatní' je i několik skupin, které jsou veřejné.

In [43]:
list(df.loc[df.loc[:, prfos] == 'Ostatní', prfo].unique())

['Státní příspěvková organizace',
 'Příspěvková organizace zřízená územním samosprávným celkem',
 'Ústav',
 'Odštěp.záv.zaps.v ob.r.',
 'Společenství vlastníků jednotek',
 'Regionální rada regionu soudržnosti',
 'Zatím neurčeno']

In [44]:
df.loc[df.loc[:, prfo].isin(['Státní příspěvková organizace',
 'Příspěvková organizace zřízená územním samosprávným celkem',
 'Regionální rada regionu soudržnosti']), erar] = True

Taky je pár veřejných institucí mezi žadateli, kteří nemají hlavní nadskupinu.

In [45]:
df.loc[df.loc[:, prfos].isnull(),prfo].unique()[:6]

array(['Veřejná výzkumná instituce', 'Školská právnická osoba',
       'Evropská společnost',
       'Odborová organizace a organizace zaměstnavatelů', 'Ostatní',
       'Zem.podnik.FO nez.v OR'], dtype=object)

In [46]:
df.loc[df.loc[:,prfo].isin(['Veřejná výzkumná instituce', 'Školská právnická osoba']), erar] = True

Poslední zdroj informací budou ty dva datasety of MFČR, které jsme načetli výše. Projdeme tedy podniky, které jsou označené jako soukromé a podíváme se, jestli jeji IČO není v těch dvou datasetech.

In [47]:
dd = df.loc[df.loc[:,erar] == False, [ico, erar]]
for j in dd.iterrows():
    if j[1].loc[ico] not in vvico: continue
    df.loc[j[0], erar] = True

### EIB
Poslední výjimka, v datech je pod IČO 00000000 Evropská investiční banka, EIB. Tak ji přepneme do veřejných.

In [48]:
df.loc[df.loc[:, ico] == '00000000']

Unnamed: 0,Číslo a název programu,Číslo prioritní osy,Číslo oblasti podpory,Číslo projektu,Název projektu,Popis projektu,Žadatel,IČ žadatele,Hosp.právní forma,Hosp.právní forma - skupina,...,Rozhodnutí/Smlouva o poskytnutí dotace (veřejné prostředky celkem),Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje),Proplacené prostředky příjemcům - vyúčtované (veřejné prostředky celkem),Proplacené prostředky příjemcům - vyúčtované (EU zdroje),Certifikované prostředky (veřejné prostředky celkem),Certifikované prostředky (EU zdroje),Název NUTS,Pořadí v rámci v projektu (filtr),Počet míst realizace,veřejná instituce
100818,CZ.1.10 ROP NUTS II Moravskoslezsko,10.2,10.2.3,CZ.1.10/2.3.00/02.00976,JESSICA Holdingový fond Moravskoslezsko,Evidence financování JESSICA Holdingového fond...,Evropská investiční banka,0,Zahraniční osoba,Podnikatelské subjekty,...,430882000.0,506920000.0,430882000.0,506920000.0,430882000.0,CZ0802598003,Frýdek-Místek,1.0,5.0,False


In [49]:
df.loc[df.loc[:, ico] == '00000000', erar] = True

### Kofinancování

In [50]:
kofi = 'poměr vlastních financí (0-1)'
df.loc[:, kofi] = np.nan
fr = 1-df.loc[:, euz] / df.loc[:, celk]

fr = fr[fr >= 0] # mám pocit že u těch českopolských projektů je celková cena v eurech, ale dotace v korunách (a zlotých)
df.loc[fr.index, kofi] = fr.values

### Čištění o.p.s.

ops bylo někde špatně

In [51]:
df.loc[:, prfo] = df.loc[:, prfo].replace('Obecně prospěšná spol.', 'Obecně prospěšná společnost')

### Negativní dotace

**Negativní dotace.** Nezkoumal sem, jestli chyba nebo pokuta nebo co.

In [52]:
df.loc[df.loc[:, euz]<0, [zad, euz]]

Unnamed: 0,Žadatel,Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)
79295,Odborná střední škola podnikatelská Kolín s.r.o.,-5.820766e-11
112983,AAA BYTY.CZ akciová společnost,-284953.0


### Duplikovaní žadatelé
Máme víc žadatelů než IČO.

In [53]:
print(len(df.loc[:, zad].unique()))


print(len(df.loc[:, ico].unique()))

26229
24338


In [55]:
dd = df.loc[:, [zad,ico]].drop_duplicates().sort_values(by=ico)
dd.index = range(len(dd))
dd.head(3)

Unnamed: 0,Žadatel,IČ žadatele
0,Evropská investiční banka,0
1,"Vojenské lesy a statky ČR, s.p.",205
2,Česká agentura na podporu obchodu,1171


In [57]:
df.loc[:, [zad, ico]].drop_duplicates().shape

(26866, 2)

In [58]:
dd = df.loc[:, [zad, ico]].drop_duplicates()
dd = dd.loc[dd.duplicated(subset=ico, keep=False)].sort_values(by=ico)
dd.head(10)

Unnamed: 0,Žadatel,IČ žadatele
54040,MINISTERSTVO FINANCÍ,6947
54269,Ministerstvo financí,6947
6075,ČESKÁ SPRÁVA SOCIÁLNÍHO ZABEZPEČENÍ,6963
10340,Česká správa sociálního zabezpečení,6963
50573,MINISTERSTVO VNITRA,7064
7752,Ministerstvo vnitra,7064
54096,STÁTNÍ VETERINÁRNÍ SPRÁVA ČR,18562
54236,Státní veterinární správa,18562
54001,MINISTERSTVO ZEMĚDĚLSTVÍ,20478
54267,Ministerstvo zemědělství,20478


Můžem nahradit duplikovaný názvy.

In [59]:
for j in dd.drop_duplicates(subset=ico).iterrows():
    df.loc[df.loc[:, ico] == j[1].loc[ico], zad] = j[1].loc[zad]

**Furt nějaký zbývaj**

In [60]:
print(len(df.loc[:, zad].unique()))

print(len(df.loc[:, ico].unique()))

23860
24338


Bude možná tím, že v datech jsou mezery.

## Operační programy

In [64]:
prdf = df.loc[:, [prog, euz, erar]].groupby([prog, erar]).sum()
prdf /= 10**6
prdf = prdf.round(1).sort_values(by=euz, ascending=False).unstack()
prdf

Unnamed: 0_level_0,Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje),Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)
veřejná instituce,False,True
Číslo a název programu,Unnamed: 1_level_2,Unnamed: 2_level_2
CZ.1.01 OP Doprava,198.1,191090.5
CZ.1.02 OP Životní prostředí,20809.5,119224.1
CZ.1.03 OP Podnikání a inovace,83765.9,3403.3
CZ.1.04 OP Lidské zdroje a zaměstnanost,15346.1,40853.6
CZ.1.05 OP Výzkum a vývoj pro inovace,4631.9,50119.7
CZ.1.06 Integrovaný operační program,5483.1,39111.9
CZ.1.07 OP Vzdělávání pro konkurenceschopnost,9282.3,41291.8
CZ.1.08 OP Technická pomoc,106.5,3980.3
CZ.1.09 ROP NUTS II Severozápad,1873.1,19759.8
CZ.1.10 ROP NUTS II Moravskoslezsko,1766.8,20866.1


In [65]:
prdf.to_csv(os.path.join(dvs, 'programy.csv'))

In [66]:
(df.loc[:, [celk, euz, erar]].groupby(erar).sum()/10**9).round(0)

Unnamed: 0_level_0,Celkové zdroje - Sml/Dod,Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)
veřejná instituce,Unnamed: 1_level_1,Unnamed: 2_level_1
False,324.0,157.0
True,851.0,632.0


Jde tedy o cca 800 mld na projekty za 1.2 bilionu, kofinance jsou tedy zhruba třetinová.

In [67]:
df.loc[:, [kofi,erar]].groupby(erar).describe().unstack()

Unnamed: 0_level_0,poměr vlastních financí (0-1),poměr vlastních financí (0-1),poměr vlastních financí (0-1),poměr vlastních financí (0-1),poměr vlastních financí (0-1),poměr vlastních financí (0-1),poměr vlastních financí (0-1),poměr vlastních financí (0-1)
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
veřejná instituce,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
False,24593.0,0.40102,0.250348,0.0,0.141056,0.5,0.600012,1.358232
True,42726.0,0.166738,0.18279,0.0,0.005986,0.114204,0.259389,1.0


**chyba v mejch počtech (max > 1)**

## Nejvíc

### Veřejné

In [69]:
top = df.groupby([zad,ico]).sum().loc[:, [euz]].sort_values(by=euz, ascending=False)/10**9
top.round(1).head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)
Žadatel,IČ žadatele,Unnamed: 2_level_1
Ředitelství silnic a dálnic ČR,65993390,96.1
"Správa železniční dopravní cesty, státní organizace",70994234,79.5
MINISTERSTVO PRÁCE A SOCIÁLNÍCH VĚCÍ,551023,20.2
"Dopravní podnik hl.m. Prahy ,akciová společnost",5886,11.9
Moravskoslezský kraj,70890692,10.9
Masarykova univerzita,216224,10.8
MINISTERSTVO VNITRA,7064,7.8
"Úřad práce ČR - Krajská pobočka v Brně, kontaktní pracoviště Blansko",72496991,7.7
"České dráhy, a.s.",70994226,7.6
Univerzita Palackého v Olomouci,61989592,7.5


In [72]:
top.head(1000).to_csv(os.path.join(dvs, 'top-verejne.csv'))

### Privátní

In [74]:
top_priv = df.loc[~df.loc[:, erar], :]
top_priv = top_priv.groupby([zad,ico]).sum().loc[:, [euz]].sort_values(by=euz, ascending=False)/10**9
top_priv.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)
Žadatel,IČ žadatele,Unnamed: 2_level_1
"TŘINECKÉ ŽELEZÁRNY, a. s.",18050646,2.300128
ArcelorMittal Ostrava a.s.,45193258,1.676587
Dolní oblast VÍTKOVICE,75125285,1.273931
"Veolia Energie ČR, a.s.",45193410,0.956849
"VÚTS, a.s.",46709002,0.770943
Svaz VKMO s.r.o.,25572245,0.703694
SVAZ MĚST A OBCÍ ČESKÉ REPUBLIKY,63113074,0.657223
"Unipetrol výzkumně vzdělávací centrum, a.s.",62243136,0.587261
"Elektrárny Opatovice, a.s.",28800621,0.582806
VÝZKUMNÝ A ŠLECHTITELSKÝ ÚSTAV OVOCNÁŘSKÝ HOLOVOUSY s.r.o.,25271121,0.581367


In [76]:
top_priv.head(1000).to_csv(os.path.join(dvs, 'top-soukrome.csv'))

## Golf a hotely

In [77]:
len(df.loc[df.loc[:, nazev].str.contains('golf')])

6

In [78]:
df.loc[df.loc[:, 'Název projektu'].str.contains('golf')].sum()/10**6

Celkové zdroje - Sml/Dod                                                    254.482285
Rozhodnutí/Smlouva o poskytnutí dotace (celkové zdroje)                      99.682815
Rozhodnutí/Smlouva o poskytnutí dotace (veřejné prostředky celkem)           85.169353
Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)                           83.445630
Proplacené prostředky příjemcům - vyúčtované (veřejné prostředky celkem)     70.928785
Proplacené prostředky příjemcům - vyúčtované (EU zdroje)                     83.445630
Certifikované prostředky (veřejné prostředky celkem)                         70.928785
Pořadí v rámci v projektu (filtr)                                             0.000006
Počet míst realizace                                                          0.000008
veřejná instituce                                                             0.000001
poměr vlastních financí (0-1)                                                 0.000003
dtype: float64

## Neziskovky

**Nekompletní, bude až z právní formy z RES, tohle obšancovávání je nepřesný**

In [108]:
df.loc[df.loc[:, prfos] == 'Komory, profesní a zájmové sdružení', prfo].unique()

array(['Zájmové sdružení právnických osob', 'Spolek', 'Pobočný spolek',
       'Zájm.sdružení práv.osob', 'Komora s vyj.prof.komor',
       'Sdruž.(svaz,spolek,spol', 'Org.jednotka sdružení',
       'Stav.org.-profesní kom.', 'Komora (hospodářská, agrární)',
       'Mezinár. org.a sdružení', 'Zájmové sdružení',
       'Organizační jednotka občanského sdružení',
       'Mezinárodní nevládní organizace'], dtype=object)

In [104]:
nzs = df.loc[(df.loc[:, prfos] == 'Neziskový sektor') | (df.loc[:, prfo] == 'Ústav')]
nzs.sum()/10**6

Celkové zdroje - Sml/Dod                                                    12389.733936
Rozhodnutí/Smlouva o poskytnutí dotace (celkové zdroje)                     11048.307980
Rozhodnutí/Smlouva o poskytnutí dotace (veřejné prostředky celkem)           9527.357691
Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)                          10003.198079
Proplacené prostředky příjemcům - vyúčtované (veřejné prostředky celkem)     8625.621203
Proplacené prostředky příjemcům - vyúčtované (EU zdroje)                     6708.710529
Certifikované prostředky (veřejné prostředky celkem)                         5777.701690
Pořadí v rámci v projektu (filtr)                                               0.001609
Počet míst realizace                                                            0.005024
veřejná instituce                                                               0.000032
poměr vlastních financí (0-1)                                                   0.000181
dtype: float64

1600 projektů

In [105]:
nzs.shape

(1609, 30)

In [81]:
nejnzs = nzs.groupby(zad).sum().sort_values(ascending=False, by=euz)/10**6

nejnzs.loc[:, [euz]].head(10).round(0)

Unnamed: 0_level_0,Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)
Žadatel,Unnamed: 1_level_1
Techmania Science Center o.p.s.,572.0
Kanonie premonstrátů Teplá,497.0
Římskokatolická farnost Velehrad,408.0
"IQLANDIA, o.p.s.",407.0
Federace židovských obcí v České republice,285.0
"Energeia, o.p.s.",254.0
"Člověk v tísni, o.p.s.",244.0
Benediktinské opatství sv. Václava v Broumově,196.0
"Muzeum a společenské centrum Dobrovice, o.p.s.",163.0
"Centrála cestovního ruchu Východní Moravy, o.p.s.",136.0


In [89]:
nejnzs.loc[:, [euz]].head(1000).to_csv(os.path.join(dvs, 'neziskovky.csv'))

neziskovky bez církví

In [91]:
nzsb = nzs.loc[~nzs.loc[:, prfo].str.contains('írk')]

In [92]:
dfn = pd.DataFrame(nzsb.groupby([prfo, zad]).sum().loc[:, euz]/10**6)
dfn.sort_values(by=euz, ascending=False).head(10).round(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)
Hosp.právní forma,Žadatel,Unnamed: 2_level_1
Obecně prospěšná společnost,Techmania Science Center o.p.s.,572.0
Obecně prospěšná společnost,"IQLANDIA, o.p.s.",407.0
Obecně prospěšná společnost,"Energeia, o.p.s.",254.0
Obecně prospěšná společnost,"Člověk v tísni, o.p.s.",244.0
Obecně prospěšná společnost,"Muzeum a společenské centrum Dobrovice, o.p.s.",163.0
Obecně prospěšná společnost,"Centrála cestovního ruchu Východní Moravy, o.p.s.",136.0
Obecně prospěšná společnost,OSTROV ZDRAVÍ o.p.s.,128.0
Nadace,",, Nadace Josefa Viewegha Sklářská huť František """,127.0
Nadace,"Nadace Partnerství (v mezinárodním styku ""Czech Environmental Partnership Foundation - CEPF)",92.0
Obecně prospěšná společnost,"Vyšší odborná škola DAKOL a Střední škola DAKOL, o.p.s.",85.0


In [94]:
dfn.sort_values(by=euz, ascending=False).head(1000).to_csv(os.path.join(dvs, 'neziskovky-bez-cirkvi.csv'))

## Obce
per capita? jsou někde deviace?

Škromachovic

In [85]:
df.loc[:, zad].str.contains('Rohatec').sum()

4

In [86]:
df.loc[df.loc[:, nuts] == 'Rohatec'].sum()/10**6

Celkové zdroje - Sml/Dod                                                    326.411804
Rozhodnutí/Smlouva o poskytnutí dotace (celkové zdroje)                     183.536061
Rozhodnutí/Smlouva o poskytnutí dotace (veřejné prostředky celkem)          163.902748
Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)                          168.626124
Proplacené prostředky příjemcům - vyúčtované (veřejné prostředky celkem)    150.920879
Proplacené prostředky příjemcům - vyúčtované (EU zdroje)                    144.642873
Certifikované prostředky (veřejné prostředky celkem)                        129.313003
Pořadí v rámci v projektu (filtr)                                             0.000037
Počet míst realizace                                                          0.000037
veřejná instituce                                                             0.000011
poměr vlastních financí (0-1)                                                 0.000016
dtype: float64

In [87]:
(df.loc[df.loc[:, nuts] == 'Rohatec', [prog, euz, erar]].groupby([erar, prog]).sum()/10**6).unstack().round(0)

Unnamed: 0_level_0,Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje),Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje),Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje),Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje),Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje),Rozhodnutí/Smlouva o poskytnutí dotace (EU zdroje)
Číslo a název programu,CZ.1.02 OP Životní prostředí,CZ.1.03 OP Podnikání a inovace,CZ.1.04 OP Lidské zdroje a zaměstnanost,CZ.1.06 Integrovaný operační program,CZ.1.07 OP Vzdělávání pro konkurenceschopnost,CZ.1.11 ROP NUTS II Jihovýchod
veřejná instituce,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
False,15.0,111.0,4.0,,,
True,26.0,,,0.0,3.0,9.0


In [88]:
ver.loc[:, 'NÁZEV'].str.contains('Holovo').sum()

0

### TODO
- <strike>kontroluj erár (po implementaci Ostatní) vůči MFČR seznamu (v dubnu novej)</strike>
- <strike>**dopravní podnik prahy je vedenej jako podnikatelskej subjekt**</strike>
 - <strike>45274649 28196678 26827719 00005886 25508881 61974757 - tohle jsou příklady IČA eráru, který jsou podnikatelé v datasetu</strike>
 - <strike>jinej mfcr seznam http://www.mfcr.cz/cs/verejny-sektor/rozpoctove-ramce-statisticke-informace/verejny-sektor/verejne-spolecnosti/2016/seznam-verejnych-spolecnosti-v-cr-2016-24752 -nezapomeň lpadnout nulama (třeba DPP je bez nul)</strike>
- vyřešit pořadí projektů - jsou ty skrytý řádky důležitý?
- <strike>roztřídit Ostatní mezi soukromý a veřejný (je tam toho pár)</strike>
- rozkouskovat na stages - příprava, realizace, zaplacení, certifikace
- všechny tabulky dělat pro všechny peněžní metriky
- <strike>Česko-Polsko vyřešit (je to ale jen cca 1 mld)</strike>
- <strike>uložit názvy sloupců do proměnných</strike>
- kofinance + histogram kofinančních poměrů
- <strike>přidat dummy sloupec - veřejné či ne</strike>
- <strike>rozdělení na operační programy</strike>
- dotace per capita (dotace pro veřejnost i soukromníky)
- Agrofert, jako minule, ze závěrky (+ ARES); + pivovary, škoda, soukromý sš/vš, učiliště, ...; scio; křetinský, penta, ppf atd., soláry
- doprava - SŽDC, ŘSD atd.
- CzechTrade, Czech Tourism atd.; Odbory
- <strike>rozlišit v rámci neziskovek na církve, ops, ...</strike>
- uklidit
 - <strike>např. obecně prospěšný společnosti (viz výše)</strike>
 - <strike>VŠ a VŠ (státní) jsou zvlášť, ale ve skutečnosti jsou jedno (soukromý VŠ jsou v podnikatelích)</strike>
 - <strike>Ostatní -> ústav zařadit mezi neziskovky (je to forma ops)</strike>
- <strike>najít firmy s významným podílem státu (ČD, Ruzyň, ČEZ)</strike>
- <strike>IČO a názvů žadatelů jsou různý počty - unifikuj</strike>
- podnikatelský subjekty rozkouskovat podle Čísla prioritní osy (a/nebo Čísla oblasti podpory) - 3.2.2 je CZC nebo Zoner

- <strike>len(ico) != 8 vyhodit, spocitat jejich miliardy</strike>
- najit mezi komorama neziskovky
- najit neziskovky a zahranicne vlastneny podniky v ESA klasifikaci v RES
- group by pravni forma (ESA z RES) a NACE (RES)
