# 5. PDF-linkityskonversio

## 5.1 PDF-linkittäjä

### 5.1.1 Linkitystaulu

PDF-liitteiden linkittäminen yhtenäisessä muodossa kaavojen paikkatietoihin on mahdollista, jos tiedetään, mihin kaavaindeksitunnukseen kukin liite kytkeytyy. VOOKA-pilottiprojektissa tämä tieto puuttui lähes poikkeuksetta kaavojen paikkatietoaineistoista. Tästä syystä kaavaliitteiden ja niitä vastaavien kaavaindeksien tunnistustyö toteutettiin manuaalisena työnä.

Työssä PDF-linkitystä varten koostettiin liitostaulu, jossa jokaisella rivillä on tieto kaavan indeksitunnuksesta (KTJ, kunnan aineisto tai molemmat) sekä kaavan dokumenttityypistä (esim. osallistamis- ja arviointisuunnitelma). Kaiken kaikkiaan liitostaulun skeema oli seuraavanlainen:

| Ominaisuustieto | Selite |
| :--- | :--- |
| Kunta | Kunnan virallinen kuntakoodi |
| Kunnan indeksitunnus | Kunnan paikkatietomuotoisen kaava-aineiston kaavaindeksitunnus |
| KTJ-indeksitunnus | KTJ-aineiston kaavaindeksitunnus ("kaavatunnus_1") |
| Original filename | Kunnalta saadun kaavaliitteen alkuperäinen tiedostonimi |
| Kaavalaji | Kaavalajikoodisto ylätasolla |
| Dokumentin tyyppi | Dokumenttityyppikoodisto, sanallinen |
| Dokumentin tyyppi2 | Dokumenttityyppikoodisto, numeerinen |
| Tila | Koodisto, joka kertoo, onko kaavaliite validi |
| Voimassa oleva | Onko liite voimassa vai ei (boolean) |
| Multipage | Onko liitteessä useampi kuin yksi sivu (boolean) |

Kaavalaji-koodisto:
- ak
- rak
- yk

Dokumentin tyyppi -koodisto (sanallinen ja numeerinen):
- 1 = kaavakartta (sis. merkinnät ja määräykset)
- 2 = kaavakartta (ei sis. merkinnät ja määräykset)
- 3 = merkinnät ja määräykset (erillisenä)
- 4 = kaavaselostus
- 5 = osallistamis- ja arviointisuunnitelma
- 6 = muu

Tila-koodisto:
- ok
- ei ok

### 5.1.2 Kaavaliitteiden hakemistorakenne

Kunnilta saadut kaavaliitteet tallennettiin vakioituun hakemistorakenteeseen resurssienhallintaan. Hakemistorakenteen runko oli muotoa:

```bash
documents   
│
└───kuntakoodi
│   │   
│   │
│   └───ak
│   │   liite.pdf
│   │   liite2.pdf
│   │   ...
│   └───rak
│   │   liite.pdf
│   │   liite2.pdf
│   │   ...
│   └───yk
│       liite.pdf
│       liite2.pdf
│       ...
...
```

**PDF-linkityskonversion ETL-funktiot on rakennettu kyseisen hakemistorakenteen varaan!**

### 5.1.3 Multipage

<span style="color:red">**Tämä vaihe ei ole pakollinen!**</span>

ETL-työkalun avulla on mahdollista kertoa liitostaululle, mikäli kaavaliitteessä on enemmäni kuin yksi sivu.

In [None]:
# Käytettävien Python moduulien ja kehitettyjen funktioiden sisäänluku
import pandas as pd
from lib.pdf_parser import declareMultipage

In [None]:
# Liitostaulu
data = pd.read_csv(r"<insert filepath here>.csv", delimiter=',',  encoding='utf-8-sig') # vaihda delimiter muotoon ";" tarvittaessa

# Laskenta
multipage = declareMultipage(data=data,
                             master_dir=r"<insert filepath here>", # documents, koko hakemistorakenne
                             kuntakoodi="<insert kuntakoodi here>",
                             kaavalaji="ak") # hakemistorakenteen kaavalaji-kansionimi ("ak", "rak" tai "yk")

### 5.1.4 Kaavaliitetiedostojen uudelleennimeäminen

Liitetiedostojen uudelleennimeämisen periaatteena on yhdenmukaisten liitenimien muodostus. ETL-työkalu muodostaa vakioidut liitenimet liitostauluun new_name-ominaisuustietokenttään seuraavin periaattein:

1) Liitenimi huomioi [virallisen kuntakoodin](https://www2.tilastokeskus.fi/fi/luokitukset/kunta/)
2) Liitenimi huomioi [Rakennetun ympäristön tietojärjestelmän (Ryhti) koodistojen mukaisesti kaavalajin](https://koodistot.suomi.fi/codescheme;registryCode=rytj;schemeCode=RY_Kaavalaji)
3) Liitenimi huomioi [Ryhti:n koodistojen mukaisesti asiakirjan lajin](https://koodistot.suomi.fi/codescheme;registryCode=rytj;schemeCode=RY_AsiakirjanLaji_YKAK)
4) Liitenimi huomioi kaavatunnuksen
5) Kaksi tai useampi liite ei saa olla samanniminen

Esimerkki ETL-työkalun tuottamasta liitenimestä on "491-31-05-13030-2.pdf", jossa:
- 491 on Mikkelin virallinen kuntakoodi
- 31 on Ryhti:n kaavalaji-koodiston mukaisesti asemakaava
- 05 viittaa Ryhti:n asiakirjan laji -koodiston mukaisesti siihen, että liite sisältää sekä kaavakartan että määräykset
- 13030 on kunnan indeksitunnus
- 2 on liukuva järjestysnumero (491-31-05-13030-1.pdf on jo olemassa, eli voimassa olevalle kaavalle on löytynyt kaksi samannimistä liitettä)

ETL-työkalu mahdollistaa liitetiedoston uudelleennimeämisen joko KTJ-indeksitunnukseen tai kunnan omaan indeksitunnukseen perustuen

<span style="color:red">**HUOM! Kaavaliitetiedostojen uudelleennimeämiskäytäntö on ainoastaan ehdotus liitteiden nimeämiselle Ryhti:ssä! Vakioitu nimeämiskäytäntö voi muuttua Ryhti-toteutusprojektin aikana!**</span>

In [None]:
# Käytettävien Python moduulien ja kehitettyjen funktioiden sisäänluku
import geopandas as gpd
from lib.pdf_parser import createNewAttachmentName, renamePdfAttachments

In [None]:
# Master geopackage
kaava_data_yk = gpd.read_file(r"<insert filepath here>.gpkg", layer="yleiskaavat_ktj") # vaihda kunnan aineisto tarvittaessa tilalle
kaava_data_ak = gpd.read_file(r"<insert filepath here>.gpkg", layer="asemakaavat_ktj") # vaihda kunnan aineisto tarvittaessa tilalle

# Voit myös yhdistää kaavadatat uudelleennimeämistä helpottaksesi.
# HUOM! Dataframe-skeemojen olisi syytä olla samat, jotta concat toimii järkevästi
kaava_data = pd.concat([kaava_data_ak, kaava_data_yk], ignore_index=True)

# Funktio palauttaa liitostaulun, jossa on liitteiden uudet nimet "New_name"-sarakkeessa
# Funktion voi ajaa monta kertaa samalle datalle eri parametrein (uusia, jo muodostettuja liitenimiä ei kirjoiteta yli)
data_newname = createNewAttachmentName(kaava_data=kaava_data,
                                       kaavadata_tunnus_column='kaavatunnus_1', # vaihda tarvittaessa "kaavatunnus" tilalle, jos haluat käyttää kunnan kaavatunnusta
                                       table_data=data, # liitostaulu
                                       table_tunnus_column='KTJ-indeksitunnus') # vaihda tarvittaessa "Kunnan indeksitunnus" tilalle

# Valitaan kunta, jonka liitteitä aletaan uudelleennimeämään
# Ei pakollista, mutta nopeuttaa uudeelleennimeämisprosessia
kunta = data_newname.loc[data_newname['Kunta'] == <insert kuntakoodi here>]

# Uudelleennimeäminen
renamePdfAttachments(data=kunta, # tai data_newname suoraan
                     master_dir=r"<insert filepath here>", # documents, koko hakemistorakenne
                     kuntakoodi="<insert kuntakoodi here>", # kuntakoodi-kansio hakemistorakenteessa
                     kaavalaji="ak") # vaihda "rak", "yk" uusiin ajoihin

### 5.1.5 Liitetiedostojen linkitys paikkatietoaineistoon

In [None]:
# Kehitettyjen funktioiden sisäänluku
from lib.pdf_parser import joinPDFsToKaavadata

In [None]:
# Esimerkkinä KTJ:n yleiskaavat
joined = joinPDFsToKaavadata(kaavadata=kaava_data_yk,
                             link_table=data_newname,
                             kuntakoodi="<insert kuntakoodi here>",
                             kaavalaji="yk", # kaavalaji hakemistorakenteessa, "ak", "rak" tai "yk"
                             kaavadata_tunnus_column="kaavatunnus_1", # vaihda tarvittaessa "kaavatunnus" tilalle, jos haluat käyttää kunnan kaavatunnusta
                             table_tunnus_column='KTJ-indeksitunnus') # vaihda tarvittaessa "Kunnan indeksitunnus" tilalle

# Tallennus
joined.to_file(r"<insert filepath here>.gpkg", layer='yleiskaavat_ktj', driver="GPKG")

## 5.2 PDF/A-konversio

ETL-työkalu konvertoi kunnilta saadut liite-PDF-tiedostot automatisoidusti Ghostscript-muuntimella PDF/A-arkistoformaattiin. Muunnin perustuu soveltuvin osin GitHubista avoimesti saatavilla olevaan [Python-Ghostscript-konvertteriin](https://github.com/Rajasekaran85/Python-PDF-A-Conversion). VOOKA-projektin tarpeisiin muokattu muunnin löytyy omana versionaan projektin [GitHub-sivuilta](https://github.com/ubigu/vooka).

Jos saatu PDF-formaatti on toteutettu versiolla, jota ei saada PDF/A-muotoon, se tallennetaan sellaisenaan. Mikäli jotkin kunnan PDF-tiedostot eivät käänny kunnan aineistosta johtuvista teknisistä syistä PDF/A-muotoon, tallennetaan nämä normaalissa PDF-muodossa.

ETL-työkalun PDF/A-konvertteri kysyy käyttäjältä tiedostopolkuja input- ja output-kansioihin. Muuntaja kääntää kaikki input-kansiossa olevat PDF-tiedostot PDF/A-formaattiin ja tallentaa ne output-kansioon.

In [None]:
from lib.pdf_a_conv import writePdfA
writePdfA()