## Ukrainian Open Data issues

[data.gov.ua](data.gov.ua)

### Pandas

* Some datasets are non-Unicode. They are encoded as Code Page 1251. Use parameter `encoding` of [pandas.read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). 


* Floating point numbers have comma as a `decimal` point separator and space as `thousand` separator, use respective paramaters of [pandas.read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).


* Hence instead of coma csv files can be separated by tab or semicolon. Adjust using `sep` argument of [pandas.read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).


In [1]:
import pandas as pd

In [2]:
filename = 'nabir-16-2020-2021-roki_03-12-2018.csv'
df = pd.read_csv(filename, sep=';', decimal=',', thousands=' ', encoding='cp1251')
df.head()

Unnamed: 0.1,Unnamed: 0,Показник,Прогноз 2020 сценарій 1,Прогноз 2020 сценарій 2,Прогноз 2020 сценарій 3,Прогноз 2021 сценарій 1,Прогноз 2021 сценарій 2,Прогноз 2021 сценарій 3
0,1,"Валовий внутрішній продукт номінальний, млрд. ...",4450.9,4609.0,4502.6,4972.6,5223.9,5045.3
1,2,"Валовий внутрішній продукт, відсотків до попер...",103.8,105.0,101.6,104.1,105.4,102.1
2,3,Індекс споживчих цін у середньому до попереднь...,106.7,107.9,109.9,105.5,106.1,107.8
3,4,Індекс споживчих цін грудень до грудня поперед...,105.6,107.0,108.6,105.0,105.2,106.7
4,5,Індекс цін виробників промислової продукції (г...,108.2,109.0,110.9,105.9,106.5,108.2


### Without pandas

See helper function `read_csv` below that reads and decodes a file line by line and yields them. But converting floarting numbers with _space_ thousand separator and _comma_ as decimal point is on you (see example of converting column 2 into float).

In [3]:
def read_csv(filename, enc, sep):
    with open(filename, 'rb') as f:
        header = next(f).decode(enc)[:-1].split(sep)
        for row in f:
            #row.decode('cp1251').encode('utf8')
            row = row[:-1].decode(enc).split(sep)
            yield {k:v for k,v in zip(header, row) }


In [4]:
df1 = pd.DataFrame(read_csv('nabir-16-2020-2021-roki_03-12-2018.csv', 'cp1251', ';'))

# convert column 2 into float 
df1.iloc[:, 2] = df1.iloc[:, 2].apply(lambda x: float(x.replace(',','.').replace(' ', '')))

df1.head()

Unnamed: 0,Unnamed: 1,Показник,Прогноз 2020 сценарій 1,Прогноз 2020 сценарій 2,Прогноз 2020 сценарій 3,Прогноз 2021 сценарій 1,Прогноз 2021 сценарій 2,Прогноз 2021 сценарій 3
0,1,"Валовий внутрішній продукт номінальний, млрд. ...",4450.9,4 609,"4 502,60","4 972,60","5 223,90","5 045,30\r"
1,2,"Валовий внутрішній продукт, відсотків до попер...",103.8,105,1016,1041,1054,"102,1\r"
2,3,Індекс споживчих цін у середньому до попереднь...,106.7,1079,1099,1055,1061,"107,8\r"
3,4,Індекс споживчих цін грудень до грудня поперед...,105.6,107,1086,105,1052,"106,7\r"
4,5,Індекс цін виробників промислової продукції (г...,108.2,109,1109,1059,1065,"108,2\r"
