In [1]:
import pandas as pd
import re
import goodtables

In [2]:
df = pd.read_csv('Haushalt_2014-17.csv', sep=',')
df

Unnamed: 0,OE,Produkt,Teilprodukt,Aufwand/ Ertrag,ILV,Kostenartengruppe,2014,2015,2016,2017,Abweichung 2016-2015,Abweichung 2017-2016
0,(010) Referat Strategische Steuerung und Rat,,,,,,-4896975.38,-5544374.44,-5560713.32,-5777045.08,-16338.88,-216331.76
1,,1.100.1.1.1.01 Außenkontakte,,,,,-1241126.14,-1114154.66,-1176551.67,-1254032.64,-62397.01,-77480.97
2,,,1.100.1.1.1.01.01 Außenkontakte,,,,-856764.8,-762857.7,-826938.67,-893713.4,-64080.97,-66774.73
3,,,,Aufwand,,,-878932.66,-807857.7,-870060.64,-913449.56,-62202.94,-43388.92
4,,,,,nein,,-878932.66,-807857.7,-870060.64,-913449.56,-62202.94,-43388.92
5,,,,,,13 Aufwendungen für aktives Personal,-489050.42,-473196.69,-514763,-545567.28,-41566.31,-30804.28
6,,,,,,14 Aufwendungen für Versorgung,-27017.5,-19563.25,-42018.84,-50740.2,-22455.59,-8721.36
7,,,,,,15 Aufwendungen für Sach-/Dienstleistungen,-91494.09,-73400,-71000,-71000,2400,-
8,,,,,,16 Abschreibungen,-340.6,-338.04,-341,-332,-2.96,9
9,,,,,,18 Transferaufwendungen,-10100,-10000,-2000,-2000,8000,-


In [3]:
list(df)

['OE',
 'Produkt',
 'Teilprodukt',
 'Aufwand/\r\nErtrag',
 'ILV',
 'Kostenartengruppe',
 '2014',
 '2015',
 '2016',
 '2017',
 'Abweichung 2016-2015',
 'Abweichung 2017-2016']

In [4]:
df.dtypes

OE                      object
Produkt                 object
Teilprodukt             object
Aufwand/\r\nErtrag      object
ILV                     object
Kostenartengruppe       object
2014                    object
2015                    object
2016                    object
2017                    object
Abweichung 2016-2015    object
Abweichung 2017-2016    object
dtype: object

## Remove internal ids, as they have no meaning for us.

In [5]:
df = pd.read_csv('Haushalt_2014-17.csv', sep=',')

# Remove all product IDs like 1.100.1.1.1.01 Außenkontakte -> Außenkontakte .
product_id_regex = r'(\d+\.?)+\s'
df['Produkt'] = df['Produkt'].replace(to_replace=product_id_regex, value='', regex=True)
df['Teilprodukt'] = df['Teilprodukt'].replace(to_replace=product_id_regex, value='', regex=True)
# Remove OE ID and redundant abbreviation. "(10) FB Personal und Organisation" -> "FB Personal und Organisation"
oe_num_regex = r'\(?\d+\)?\s'
df['OE'] = df['OE'].replace(to_replace=oe_num_regex, value='', regex=True)
df['Kostenartengruppe'] = df['Kostenartengruppe'].replace(to_replace=oe_num_regex, value='', regex=True)
# Remove FB prefix.
df['OE'] = df['OE'].replace(to_replace=r'^FB\s', value='', regex=True)

# Strip everything as there are sometimes white spaces.
for col in df.columns:
    df[col] = df[col].str.strip()
df

Unnamed: 0,OE,Produkt,Teilprodukt,Aufwand/ Ertrag,ILV,Kostenartengruppe,2014,2015,2016,2017,Abweichung 2016-2015,Abweichung 2017-2016
0,Referat Strategische Steuerung und Rat,,,,,,-4896975.38,-5544374.44,-5560713.32,-5777045.08,-16338.88,-216331.76
1,,Außenkontakte,,,,,-1241126.14,-1114154.66,-1176551.67,-1254032.64,-62397.01,-77480.97
2,,,Außenkontakte,,,,-856764.8,-762857.7,-826938.67,-893713.4,-64080.97,-66774.73
3,,,,Aufwand,,,-878932.66,-807857.7,-870060.64,-913449.56,-62202.94,-43388.92
4,,,,,nein,,-878932.66,-807857.7,-870060.64,-913449.56,-62202.94,-43388.92
5,,,,,,Aufwendungen für aktives Personal,-489050.42,-473196.69,-514763,-545567.28,-41566.31,-30804.28
6,,,,,,Aufwendungen für Versorgung,-27017.5,-19563.25,-42018.84,-50740.2,-22455.59,-8721.36
7,,,,,,Aufwendungen für Sach-/Dienstleistungen,-91494.09,-73400,-71000,-71000,2400,-
8,,,,,,Abschreibungen,-340.6,-338.04,-341,-332,-2.96,9
9,,,,,,Transferaufwendungen,-10100,-10000,-2000,-2000,8000,-


Remove columns with ILV values as the are otherwise duplicates of the row above.

In [6]:
df.shape

(7451, 12)

In [7]:
df = df[pd.isnull(df['ILV'])]
df.shape

(6418, 12)

Check for duplicates.

In [8]:
df.shape, df.drop_duplicates().shape

((6418, 12), (6094, 12))

While there are some duplicates, this just means that some sub product received the same amount of money. Let us first fill the empty values and look then again.

## Fixing dtypes
Everything was parsed as object.

In [9]:
df.dtypes

OE                      object
Produkt                 object
Teilprodukt             object
Aufwand/\r\nErtrag      object
ILV                     object
Kostenartengruppe       object
2014                    object
2015                    object
2016                    object
2017                    object
Abweichung 2016-2015    object
Abweichung 2017-2016    object
dtype: object

In [10]:
def floatify_money_col(df, col):
    """Turn strings of amounts of money, to floats."""
    df[col] = df[col].str.strip()
    df.loc[df[col] == '-', col] = '0'
    df[col] = df[col].apply(pd.to_numeric)
    return df

for year in range(2014, 2018):
    floatify_money_col(df, str(year))
    
df.dtypes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/ind

OE                       object
Produkt                  object
Teilprodukt              object
Aufwand/\r\nErtrag       object
ILV                      object
Kostenartengruppe        object
2014                    float64
2015                    float64
2016                    float64
2017                    float64
Abweichung 2016-2015     object
Abweichung 2017-2016     object
dtype: object

## Clean up column names

In [11]:
df = df.rename(columns={'OE': 'Organisationseinheit', 
                        'Aufwand/\r\nErtrag': 'Aufwand/Ertrag'})
df.head()

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,ILV,Kostenartengruppe,2014,2015,2016,2017,Abweichung 2016-2015,Abweichung 2017-2016
0,Referat Strategische Steuerung und Rat,,,,,,-4896975.38,-5544374.44,-5560713.32,-5777045.08,-16338.88,-216331.76
1,,Außenkontakte,,,,,-1241126.14,-1114154.66,-1176551.67,-1254032.64,-62397.01,-77480.97
2,,,Außenkontakte,,,,-856764.8,-762857.7,-826938.67,-893713.4,-64080.97,-66774.73
3,,,,Aufwand,,,-878932.66,-807857.7,-870060.64,-913449.56,-62202.94,-43388.92
5,,,,,,Aufwendungen für aktives Personal,-489050.42,-473196.69,-514763.0,-545567.28,-41566.31,-30804.28


## Remove useless columns

In [12]:
df = df.drop(columns=['ILV', 'Abweichung 2016-2015', 'Abweichung 2017-2016'])
df.head()

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,Kostenartengruppe,2014,2015,2016,2017
0,Referat Strategische Steuerung und Rat,,,,,-4896975.38,-5544374.44,-5560713.32,-5777045.08
1,,Außenkontakte,,,,-1241126.14,-1114154.66,-1176551.67,-1254032.64
2,,,Außenkontakte,,,-856764.8,-762857.7,-826938.67,-893713.4
3,,,,Aufwand,,-878932.66,-807857.7,-870060.64,-913449.56
5,,,,,Aufwendungen für aktives Personal,-489050.42,-473196.69,-514763.0,-545567.28


## Fill NA values
Forward fill columns except for "Kostenartengruppe" as ths NaN values will be used to drop summated rows.

In [13]:
for col in ['Organisationseinheit', 'Produkt', 'Teilprodukt', 'Aufwand/Ertrag']:
    df[col] = df[col].fillna(method='ffill')
df

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,Kostenartengruppe,2014,2015,2016,2017
0,Referat Strategische Steuerung und Rat,,,,,-4896975.38,-5544374.44,-5560713.32,-5777045.08
1,Referat Strategische Steuerung und Rat,Außenkontakte,,,,-1241126.14,-1114154.66,-1176551.67,-1254032.64
2,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,,,-856764.80,-762857.70,-826938.67,-893713.40
3,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,,-878932.66,-807857.70,-870060.64,-913449.56
5,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für aktives Personal,-489050.42,-473196.69,-514763.00,-545567.28
6,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für Versorgung,-27017.50,-19563.25,-42018.84,-50740.20
7,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für Sach-/Dienstleistungen,-91494.09,-73400.00,-71000.00,-71000.00
8,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Abschreibungen,-340.60,-338.04,-341.00,-332.00
9,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Transferaufwendungen,-10100.00,-10000.00,-2000.00,-2000.00
10,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,sonstige ordentliche Aufwendungen,-231128.38,-231359.72,-239937.80,-243810.08


In [14]:
# for checking correctness after next step
df_with_sums = df


## Remove sums

In [15]:
df = df[~pd.isnull(df['Kostenartengruppe'])]
df

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,Kostenartengruppe,2014,2015,2016,2017
5,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für aktives Personal,-489050.42,-473196.69,-514763.00,-545567.28
6,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für Versorgung,-27017.50,-19563.25,-42018.84,-50740.20
7,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für Sach-/Dienstleistungen,-91494.09,-73400.00,-71000.00,-71000.00
8,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Abschreibungen,-340.60,-338.04,-341.00,-332.00
9,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Transferaufwendungen,-10100.00,-10000.00,-2000.00,-2000.00
10,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,sonstige ordentliche Aufwendungen,-231128.38,-231359.72,-239937.80,-243810.08
11,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,außerordentliche Aufwendungen,-29801.67,0.00,0.00,0.00
14,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,Zuwendungen und allgemeine Umlagen,7500.00,0.00,0.00,0.00
15,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,privatrechtliche Entgelte,3950.11,45000.00,15000.00,15000.00
16,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,sonstige ordentliche Erträge,10717.75,0.00,28121.97,4736.16


In [20]:
df_without_sums = df

In [17]:
df_with_sums.loc[(df_with_sums["Organisationseinheit"]=="Referat Strategische Steuerung und Rat") & (pd.isnull(df_with_sums["Kostenartengruppe"]))]

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,Kostenartengruppe,2014,2015,2016,2017
0,Referat Strategische Steuerung und Rat,,,,,-4896975.38,-5544374.44,-5560713.32,-5777045.08
1,Referat Strategische Steuerung und Rat,Außenkontakte,,,,-1241126.14,-1114154.66,-1176551.67,-1254032.64
2,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,,,-856764.8,-762857.7,-826938.67,-893713.4
3,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,,-878932.66,-807857.7,-870060.64,-913449.56
12,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,,22167.86,45000.0,43121.97,19736.16
17,Referat Strategische Steuerung und Rat,Außenkontakte,Städtepartnerschaften,Ertrag,,-384361.34,-351296.96,-349613.0,-360319.24
18,Referat Strategische Steuerung und Rat,Außenkontakte,Städtepartnerschaften,Aufwand,,-431270.65,-416296.96,-422836.52,-422336.32
27,Referat Strategische Steuerung und Rat,Außenkontakte,Städtepartnerschaften,Ertrag,,46909.31,65000.0,73223.52,62017.08
31,Referat Strategische Steuerung und Rat,Verwaltungs- und Ratskoordination,Städtepartnerschaften,Ertrag,,-3022819.75,-3062410.89,-3026398.89,-3194466.92
32,Referat Strategische Steuerung und Rat,Verwaltungs- und Ratskoordination,Verwaltungsführung,Ertrag,,-2643722.55,-2669450.72,-2629176.29,-2761903.6


In [47]:
#checking 2014 for a random unit
df_sums = df_without_sums.groupby(["Organisationseinheit",'Produkt','Teilprodukt','Aufwand/Ertrag'])['2014'].sum().reset_index()
df_sums[df_sums["Organisationseinheit"]== "Referat Strategische Steuerung und Rat"]

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,2014
881,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,-878932.66
882,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,22167.86
883,Referat Strategische Steuerung und Rat,Außenkontakte,Städtepartnerschaften,Aufwand,-431270.65
884,Referat Strategische Steuerung und Rat,Außenkontakte,Städtepartnerschaften,Ertrag,46909.31
885,Referat Strategische Steuerung und Rat,Fraktionsgeschäftsstellen,CDU-Fraktion,Aufwand,-145768.9
886,Referat Strategische Steuerung und Rat,Fraktionsgeschäftsstellen,F.D.P.-Fraktion,Aufwand,-75290.46
887,Referat Strategische Steuerung und Rat,Fraktionsgeschäftsstellen,Fraktion Die Grünen,Aufwand,-139010.64
888,Referat Strategische Steuerung und Rat,Fraktionsgeschäftsstellen,Fraktion Die Linke,Aufwand,-64021.8
889,Referat Strategische Steuerung und Rat,Fraktionsgeschäftsstellen,Fraktion Die Linke,Ertrag,4289.73
890,Referat Strategische Steuerung und Rat,Fraktionsgeschäftsstellen,Gruppe UWG/Piraten,Aufwand,-63672.12


## Melt on year


In [25]:
df = df.melt(id_vars=['Organisationseinheit', 'Produkt', 'Teilprodukt', 'Aufwand/Ertrag',
       'Kostenartengruppe'], value_vars=['2014', '2015', '2016', '2017'], var_name='date', value_name='amount')
df

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,Kostenartengruppe,date,amount
0,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für aktives Personal,2014,-489050.42
1,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für Versorgung,2014,-27017.50
2,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für Sach-/Dienstleistungen,2014,-91494.09
3,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Abschreibungen,2014,-340.60
4,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Transferaufwendungen,2014,-10100.00
5,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,sonstige ordentliche Aufwendungen,2014,-231128.38
6,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,außerordentliche Aufwendungen,2014,-29801.67
7,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,Zuwendungen und allgemeine Umlagen,2014,7500.00
8,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,privatrechtliche Entgelte,2014,3950.11
9,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,sonstige ordentliche Erträge,2014,10717.75


In [54]:
df[df["Organisationseinheit"]== "Referat Strategische Steuerung und Rat"]

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,Kostenartengruppe,date,amount
0,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für aktives Personal,2014,-489050.42
1,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für Versorgung,2014,-27017.50
2,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Aufwendungen für Sach-/Dienstleistungen,2014,-91494.09
3,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Abschreibungen,2014,-340.60
4,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,Transferaufwendungen,2014,-10100.00
5,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,sonstige ordentliche Aufwendungen,2014,-231128.38
6,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,außerordentliche Aufwendungen,2014,-29801.67
7,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,Zuwendungen und allgemeine Umlagen,2014,7500.00
8,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,privatrechtliche Entgelte,2014,3950.11
9,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,sonstige ordentliche Erträge,2014,10717.75


## Checking whether sums are still correct

In [51]:
df_sums_after_melting = df.groupby(['Organisationseinheit','Produkt','Teilprodukt','Aufwand/Ertrag','date']).sum().reset_index()


In [52]:
df_sums_after_melting[df_sums_after_melting["Organisationseinheit"]== "Referat Strategische Steuerung und Rat"]

Unnamed: 0,Organisationseinheit,Produkt,Teilprodukt,Aufwand/Ertrag,date,amount
3524,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,2014,-878932.66
3525,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,2015,-807857.70
3526,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,2016,-870060.64
3527,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Aufwand,2017,-913449.56
3528,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,2014,22167.86
3529,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,2015,45000.00
3530,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,2016,43121.97
3531,Referat Strategische Steuerung und Rat,Außenkontakte,Außenkontakte,Ertrag,2017,19736.16
3532,Referat Strategische Steuerung und Rat,Außenkontakte,Städtepartnerschaften,Aufwand,2014,-431270.65
3533,Referat Strategische Steuerung und Rat,Außenkontakte,Städtepartnerschaften,Aufwand,2015,-416296.96


Finally save cleaned up CSV.

In [147]:
filename = 'haushalt_2014-17_clean.csv'
df.to_csv(filename, index=False)

In [148]:
report = goodtables.validate(filename)
report

{'error-count': 0,
 'preset': 'table',
 'table-count': 1,
 'tables': [{'encoding': 'utf-8',
   'error-count': 0,
   'errors': [],
   'format': 'csv',
   'headers': ['Organisationseinheit',
    'Produkt',
    'Teilprodukt',
    'Aufwand/Ertrag',
    'Kostenartengruppe',
    'date',
    'amount'],
   'row-count': 1000,
   'schema': None,
   'scheme': 'file',
   'source': 'haushalt_2014-17_clean.csv',
   'time': 0.052,
   'valid': True}],
 'time': 0.054,
 'valid': True,