# gpkg2csv

Przygotowanie danych:
 - odczyt z pliku `gpkg/shp`
 - zapis wybranych kolumn jako `csv`

In [1]:
import fiona
import json
import pandas as pd
import numpy as np
from pathlib import Path

In [2]:
pd.options.display.width = 250
np.set_printoptions(linewidth=250)

In [7]:
%ls ../testy/

cros01.csv  dane01.gpkg   r02_trueFalse.csv   r04_modern1.csv  raport.html
dane01.csv  r01_cros.csv  r03_classicAcc.csv  r05_modern2.csv


### Adresy plików
- do otwarcia
- do zapisu wyników

In [4]:
# adres pliku z danymi wejściowymi 'gpkg/shp'
adGpkg = Path('daneWyniki/dane01.gpkg').resolve()

# adres pliku z wybranymi kolumnami
adDf = adGpkg.with_suffix('.csv')

# adres do zapisania cross matrix
adCros = Path('daneWyniki/cros01.csv').resolve()

# adres pliku z etykietami referencyjnymi
adLabels = Path('daneWyniki/labels01.json').resolve().as_posix()

print(f'{adGpkg}\n{adDf}\n{adCros}\n{adLabels}')

/home/u1/03_Programowanie/03Python/skrypty/accuracy/jupyter/daneWyniki/dane01.gpkg
/home/u1/03_Programowanie/03Python/skrypty/accuracy/jupyter/daneWyniki/dane01.csv
/home/u1/03_Programowanie/03Python/skrypty/accuracy/jupyter/daneWyniki/cros01.csv
/home/u1/03_Programowanie/03Python/skrypty/accuracy/jupyter/daneWyniki/labels01.json


# 1. Przegląd danych pliku gpkg

In [5]:
with fiona.open(adGpkg.as_posix(),encoding='Windows-1250') as src:
    print(src[1]['properties'].keys(),'\n\n')
    print(src[1]['properties']['roslinaFul'],'\n\n')
    rosl = []
    for it in src:
        #print(it['properties'].keys(),'\n')
        rosl.append(it['properties']['roslinaFul'])
        
print(set(rosl))

DriverError: /home/u1/03_Programowanie/03Python/skrypty/accuracy/jupyter/daneWyniki/dane01.gpkg: No such file or directory

# 2. DataFRame
Pobranie danych z pliku `gpkg` - zapis do pd.DataFrame


In [None]:
gid,rosl,ml1,ml2 = [],[],[],[]

with fiona.open(adGpkg.as_posix(),encoding='Windows-1250') as src:
    for it in src:
        #gid.append(it['properties'].get('gid'))
        rosl.append(it['properties'].get('roslinaFul'))
        #ml1.append(it['properties'].get('_ML_20medi'))
        ml2.append(int(it['properties'].get('_ML_20majo')))


In [None]:
#df = pd.DataFrame({'gid':gid,'roslFul':rosl, 'ML20majo':ml2})
df = pd.DataFrame({'roslFul':rosl, 'ML20majo':ml2})
df.columns = ['nazwa','predict']
df.head()

In [None]:
# pokaz unikalne wartości kolumn
for col in df.columns:
    print(f'{col}:\n{pd.unique(df.loc[:,col])}\n')

# 3. Kodowanie polskich znaków
Poprawa nazw z polskimi literami

In [None]:
# get kolumn nazwa
old = pd.unique(df.loc[:,'nazwa']).tolist()
print(old)

In [None]:
new = ['kukurydza','burakC','rzepakO','jeczmienO','lucerna','trawy','pszenicaO','TUZ','zytoO','pszenicaJ',
 'rzepikO','pszenzytoO','jeczmienJ','ziemniak','owies']
print(new)

In [None]:
for o,n in zip(old,new):
    idx = df.loc[:,'nazwa']==o
    df.loc[idx,'nazwa'] = n

In [None]:
# sprawdzenie
pd.unique(df.loc[:,'nazwa'])

In [None]:
df

# 4. Zapis danych do pliku

In [None]:
# zapisz dane jako csv
#adDf = adGpkg.with_suffix('.csv')
#df.to_csv(adDf,sep=';',index=False)

# 5. Mapowanie etykiet referencyjnych do nowej kolumny

- każdej nazwie rośliny przypisz etykietę liczbową lub znakową - `etykieta referencyjna`
- zapisz te dane jako słownik - plik `json`

### etykiety ręcznie podane i zapisane jako plik `json`
```python
labels = {'kukurydza':0,'pszenica jara':1, 'rzepik ozimy':2, 'pszenzyto ozime':3, 'jeczmien jary':4,\
         'ziemniak':5, 'owies':6, 'burak cukrowy':7, 'rzepak ozimy':8, 'jeczmien ozimy':9, 'lucerna':10, \
         'trawy':11, 'pszenica ozima':12, 'TUZ': 13, 'zyto ozime':14 }```

In [None]:
# ustala referencyjne etykiety liczbowe 
kod = list(range(len(new)))
labels = dict(zip(new,kod))
labels

In [None]:
for nazwa,kod in zip(new,kod):
    idx = df.loc[:,'nazwa']==nazwa
    df.loc[idx,'referencja'] = kod

df = df.astype({'referencja':int})
df

In [None]:
# zapisz dane jako csv
#adDf = adGpkg.with_suffix('.csv')
df.to_csv(adDf,sep=';',index=False)

# cross matrix

### 1. Układ macierzy
  >- każda kolumna zawiera wyniki klasyfikacji czyli etykiety 'przewidywane' (`predicted`)
  >- wiersze zawierają dane referencyjne czyli etykiety służące sprawdzeniu poprawności klasyfikacji
  
### 2. Sprawdzenie na danych próbnych układu kolumn

In [None]:
refTest = pd.Series(['Adam','Ewa','Marek'])
predictTest = pd.Series(['men','kob','men'])
print(refTest,'\n\n',predictTest)

In [None]:
pd.crosstab(refTest,predictTest,rownames=['referencje'],colnames=['predicted'])

### 3. Cross
 - utworzenie nowych, skróconych nazw roślin - żeby mieściły się w kolumnach tabeli

In [None]:
cros = pd.crosstab(df.referencja,df.predict,rownames=['referencje'],colnames=['predicted'])
cros

In [None]:
# na podstawie kolumn 'nazwa' i referencja tworzy słownik: {nazwa:referencja}
nazwy = pd.unique(df.nazwa)
kod = []
for n in nazwy:
    idx = df.loc[:,'nazwa'] == n
    val = pd.unique(df.loc[idx,'referencja'])[0]
    #print(val)
    kod.append(val)
    

mapaNazw = dict((zip(kod,nazwy)))
print(mapaNazw)

In [None]:
# na podstawie 'mapaNazw' tworzy indeks nazw dla cross matrix
newIndex = []
tmp = cros.columns.values.tolist()

for i,k in enumerate(mapaNazw.keys()):
    if tmp[i] == k:
        newIndex.append(mapaNazw.get(k))

newIndex

In [None]:
# ustaw nazwy kolumn i wierszy
cros.columns = newIndex
cros.axes[1].name='predicted'

cros.index = newIndex
cros.axes[0].name='referencje'

cros

In [None]:
sum1 = cros.sum(axis=0)
cros.loc['TotalKol',:] = sum1
sum1

In [None]:
sum2 = cros.sum(axis=1)
cros.loc[:,'TotalRow'] = sum2
sum2

In [None]:
cros

### 4. Zapisz cros matrix do `csv`
>  `adCros = Path('cros1.csv').resolve()`

In [None]:
%ls