# SUUNNITTELU

## 1. Valittu aineisto

Kotimaan lentoasemien kuukausittaiset matkustajamäärät (2019–2024) haetaan StatFin‐PX-Webistä JSON-stat2‐muodossa. Aineistosta poimitaan kunkin kuukauden kokonaismatkustajamäärät lentoasemittain (esim. Helsinki-Vantaa, Oulu, Kuopio). Havaintoja kertyy noin 15–20 lentoasemalta joka kuukausi, mikä riittää korrelaatioiden ja tilastollisten testien tekemiseen.

## 2. Mitä halutaan selvittää

- Selvitetään, miten kuukausittaiset matkustajamäärät kehittyvät vuosina 2019–2024 (pandemian vaikutus ja toipuminen).
- Tarkastellaan, ovatko eri lentoasemien kausivaihtelut samankaltaisia (esim. Helsinki-Vantaa vs. Oulu). Lasketaan Pearson-korrelaatio Helsinki-Vantaan ja Oulun kuukausimäärien välillä vuosilta 2019–2024.
- Suoritetaan tilastollinen testi (Levene + t-testi tai Mann–Whitney U, jos normaalijakautumisen oletus ei toteudu) vertaamaan “suurten lentoasemien” (Helsinki, Oulu) ja “pienten maakuntakenttien” (Kuopio, Rovaniemi) kuukausimääriä vuonna 2023.

## 3. Datan käsittely ja esikäsittely

- **Lataus:** Tehdään JSON-stat2‐pyyntö, jossa rajataan “Lennon tyyppi” = “Saapuneet/lähteet yhteensä” ja “Saa” = “Yhteensä”. Näin saadaan pelkät kuukausikohtaiset kokonaismatkustajamäärät.
- **Sarakenimet ja tyypit:** Uudelleennimetään sarakkeet seuraavasti:
    - Vuosi → `Year`
    - Kuukausi → `MonthCode`
    - Ilmoittava lentoasema → `Airport`
    - Value → `Passengers`
  Lisäksi muunnetaan `MonthCode` (esim. “2023M05”) datetime-muotoon ja asetetaan se indeksiksi.
- **Ryhmittely:** Lisätään sarake `AirportGroup`, jossa arvona on "Large" (Helsinki-Vantaa, Oulu) tai "Small" (Kuopio, Rovaniemi ja muut maakuntakentät), jotta voidaan vertailla lentoasemaryhmiä tilastollisesti.
- **Puuttuvien arvojen tarkistus:** Tarkistetaan ja poistetaan (`dropna`) kuukaudet, joilta matkustajamäärä puuttuu.

## 4. Analyysi ja visualisoinnit

- **Aikasarjakuvaaja:** Piirretään line plot Helsinki-Vantaan kuukausimäärille vuosilta 2019–2024 trendin ja kausivaihtelun havainnollistamiseksi.
- **Kausivertailu:** Verrataan Oulun ja Kuopion kesä- vs. talvikuukausien matkustajamääriä vuoden 2023 osalta pylväsdiagrammilla.
- **Korrelaatio:** Lasketaan korrelaatio `df["Helsinki-Vantaa"].corr(df["Oulu"])` ajanjaksolle 2019–2024.
- **Tilastollinen testi:**
    1. Tehdään Levene-testi varianssien homogeenisuuden tarkistamiseksi (`stats.levene(large_2023, small_2023)`).
    2. Suoritetaan t-testi (tai Mann–Whitney U -testi, jos normaalijakautumisolettama ei toteudu) vertaamaan “suuret” vs. “pienet” lentoasemat vuoden 2023 kuukausimääriin. Tulostetaan testisuureet ja p-arvot.

## 5. Miksi projekti toteutetaan

Projektin tarkoituksena on saada ymmärrys siitä, miten Suomen lentoasemien matkustajamäärät kehittyivät pandemia-ajan jälkeen ja onko eri lentoasemilla samankaltaisia kausivaihteluita. Lisäksi selvitetään, kuinka tiiviisti suurten lentoasemien (Helsinki-Vantaa ja Oulu) matkustajamäärät seuraavat toisiaan (korrelaatio) sekä onko suurten ja pienten lentoasemien kuukausimääriin eroja tilastollisesti merkitsevästi (t-testi tai Mann–Whitney U). Näin hankittu tieto tukee päätöksentekoa esimerkiksi lentoasemien resurssisuunnittelussa ja antaa mallin aikasarjaennusteisiin.

## 6. Miksi toimenpiteet ovat tarpeellisia

- JSON-stat2‐muoto mahdollistaa dimensioiden suoran lataamisen ilman monimutkaista “skiprows”‐puhdistusta.
- Sarakenimien uudelleennimeäminen ja datetime‐indeksin käyttö helpottavat Pythonissa suodatusta ja ryhmittelyä.
- Ryhmittely “Large” vs. “Small” lentoasemiin on tarpeen, jotta voidaan vertailla kahta ryhmää tilastollisesti.
- Aikasarjakuvaajat antavat ymmärryksen pandemian vaikutuksista ja toipumisesta.
- Korrelaatio havainnollistaa, kuinka synkronisesti suuret lentoasemat liikkuvat.
- Levene + t-testi (tai Mann–Whitney U) paljastavat, onko keskimääräisissä kuukausimäärissä merkitseviä eroja ryhmien välillä (α = 0,05).
- Ennustemalli (jos toteutetaan) näyttää, kuinka hyvin menneet havainnot ennustavat tulevia arvoja.
