# Tehtävä 1: Excel-tiedoston tuonti ja perusrakenne

Tässä Jupyter-notebookissa suoritetaan seuraavat vaiheet:
1. Luetaan Excel-tiedosto (`Opinnäytetyökysely.xlsx`) pandas‐DataFrameen.
2. Tarkastellaan aineiston rakennetta eri näkökulmista (alku, loppu, sarakkeiden määrä, puuttuvat arvot, tietotyypit).
3. Laaditaan frekvenssitaulukko yhdestä kategorisesta sarakkeesta (`Opiskeluala`).

In [32]:
import pandas as pd

file_path = r"D:\GitHub\PythonDataAnalytics\doc\Opinnäytetyökysely.xlsx"
df = pd.read_excel(file_path)

## 1) Tarkastellaan aineiston alkua ja loppua

Näytetään DataFrame-olion ensimmäiset ja viimeiset rivit:
- `df.head()` näyttää 5 ensimmäistä riviä.
- `df.tail()` näyttää 5 viimeistä riviä.

In [33]:
# Ensimmäiset 5 riviä
print("First 5 rows (head)")
print(df.head(), end="\n\n")

# Viimeiset 5 riviä
print("Last 5 rows (tail)")
print(df.tail(), end="\n\n")

First 5 rows (head)
             Aikaleima  Kuinka löysit aiheesi?  \
0  26.10.2015 21:11:28                    Itse   
1  26.10.2015 21:11:28                    Itse   
2  26.10.2015 21:11:28                    Itse   
3  26.10.2015 21:11:28                    Itse   
4  26.10.2015 21:11:28  Työharjoittelupaikasta   

  Opinnäytetyöni oli hankkeistettu  \
0                            Kyllä   
1                               Ei   
2                            Kyllä   
3                               Ei   
4                            Kyllä   

   Oliko työsi teoreettinen vai käytännöllinen? Teoreettinen (1) - Käytännöllinen (5)  \
0                                                  3                                    
1                                                  1                                    
2                                                  3                                    
3                                                  4                                    
4    

## 2) Sarakkeiden otsikot ja niiden alla olevien arvojen lukumäärä

`df.count()` antaa kullekin sarakkeelle (kolonnille) sen 
ei-tyhjien solujen lukumäärän. Näin näemme, kuinka monta havaintoa 
kussakin sarakkeessa on.

In [34]:
print("Column names with non-null counts")
print(df.count(), end="\n\n")

Column names with non-null counts
Aikaleima                                                                                                 242
Kuinka löysit aiheesi?                                                                                    242
Opinnäytetyöni oli hankkeistettu                                                                          242
Oliko työsi teoreettinen vai käytännöllinen? Teoreettinen (1) - Käytännöllinen (5)                        242
Pystyin itse vaikuttamaan aiheen valintaan                                                                242
Olin innostunut opinnäytetyötä tehdessäni                                                                 242
Pystyin itse vaikuttamaan opinnäytetyöni ohjaajan valintaan                                               242
Sain riittävästi ohjausta                                                                                 242
Hankin itse aktiivisesti tietoa työni aiheesta                                        

## 3) Puuttuvien arvojen (NaN) lukumäärät sarakkeittain

`df.isnull().sum()` laskee jokaisen sarakkeen NaN-arvojen määrän.
Kaikissa sarakkeissa, joissa on puuttuvia havaintoja, tämä näyttää 
tarkalleen montako riviä on tyhjänä.

In [35]:
print("Missing values per column")
print(df.isnull().sum(), end="\n\n")

Missing values per column
Aikaleima                                                                                                   0
Kuinka löysit aiheesi?                                                                                      0
Opinnäytetyöni oli hankkeistettu                                                                            0
Oliko työsi teoreettinen vai käytännöllinen? Teoreettinen (1) - Käytännöllinen (5)                          0
Pystyin itse vaikuttamaan aiheen valintaan                                                                  0
Olin innostunut opinnäytetyötä tehdessäni                                                                   0
Pystyin itse vaikuttamaan opinnäytetyöni ohjaajan valintaan                                                 0
Sain riittävästi ohjausta                                                                                   0
Hankin itse aktiivisesti tietoa työni aiheesta                                                

## 4) Sarakkeiden tietotyypit

`df.dtypes` näyttää jokaisen sarakkeen (kolonin) tietotyypin.
Tyypillisesti:
- `object` = merkkijonoja (kategoria/data-kysymykset)
- `float64` / `int64` = numeroarvot
- `datetime64[ns]` = päivämäärä-aikatyyppi

In [36]:
print("Data types of each column")
print(df.dtypes, end="\n\n")

Data types of each column
Aikaleima                                                                                                  object
Kuinka löysit aiheesi?                                                                                     object
Opinnäytetyöni oli hankkeistettu                                                                           object
Oliko työsi teoreettinen vai käytännöllinen? Teoreettinen (1) - Käytännöllinen (5)                          int64
Pystyin itse vaikuttamaan aiheen valintaan                                                                  int64
Olin innostunut opinnäytetyötä tehdessäni                                                                   int64
Pystyin itse vaikuttamaan opinnäytetyöni ohjaajan valintaan                                                 int64
Sain riittävästi ohjausta                                                                                   int64
Hankin itse aktiivisesti tietoa työni aiheesta                

## 5) Frekvenssitaulukko esimerkkisarakkeesta

Tehtävänannossa pyydettiin "teknisesti 5 pisteeseen vaadittavaa frekvenssitaulukkoa". 
Yleensä se tarkoittaa jonkin kategorisen (tekstimuotoisen) sarakkeen arvojen 
esiintymistiheyksiä. Tässä tehdään frekvenssitaulukko sarakkeesta **“Opiskeluala”**.

Voit halutessasi korvata “Opiskeluala” jollain muulla kategorisella sarakkeella,
esim. “Sukupuoli” tai “Olin innostunut opinnäytetyötä tehdessäni” tms.

In [37]:
# Frequency table: montako kappaletta kutakin "Opiskeluala"-arvoa
print("Frequency table for 'Opiskeluala'")
freq = df["Opiskeluala"].value_counts(dropna=False)
print(freq)

Frequency table for 'Opiskeluala'
Opiskeluala
Kulttuuri      124
Liiketalous     64
Tekniikka       54
Name: count, dtype: int64


## Yhteenveto

Jupyter-notebookin:

    - Ensimmäiset ja viimeiset rivit (`.head()`, `.tail()`)
    - Sarakkeiden nimet ja ei-tyhjien solujen määrä (`.count()`)
    - Puuttuvien arvojen määrä (`.isnull().sum()`)
    - Sarakkeiden tietotyypit (`.dtypes`)
    - Frekvenssitaulukko (`.value_counts()`)