In [2]:
import pandas as pd

df = pd.read_csv("andmed/toorandmed.csv")

# Andmepunktide (ridade) ja tunnuste (veergude) arv
print(f"Andmepunktide arv (read): {df.shape[0]}")
print(f"Tunnuste arv (veerud):    {df.shape[1]}")
print(f"Kogu andmepunkte:         {df.shape[0] * df.shape[1]}")

Andmepunktide arv (read): 3031
Tunnuste arv (veerud):    223
Kogu andmepunkte:         675913


In [2]:
# Ühe andmerea (esimese aine) põhjalik läbivaatus
rida = df.iloc[0]

# Kuvame kõik tunnused ja nende väärtused
pd.set_option("display.max_colwidth", 120)
pd.set_option("display.max_rows", 250)

print(f"Aine: {rida['title__et']} ({rida['code']})\n")
print(f"{'='*60}")
print(f"Tunnuseid kokku: {len(rida)}")
print(f"Tühjad (NaN) väärtused: {rida.isna().sum()}")
print(f"Täidetud väärtused: {rida.notna().sum()}")
print(f"{'='*60}\n")

# Kuvame kõik veerud ja väärtused
for col in df.columns:
    val = rida[col]
    tyyp = type(val).__name__
    on_tyhi = pd.isna(val) if not isinstance(val, str) else (val.strip() == "")
    print(f"  {col}")
    print(f"    Tüüp: {tyyp} | Tühi: {on_tyhi}")
    if isinstance(val, str) and len(val) > 200:
        print(f"    Väärtus: {val[:200]}...")
    else:
        print(f"    Väärtus: {val}")
    print()

Aine: Mikrobioloogia ja viroloogia praktikum (LOMR.03.021)

Tunnuseid kokku: 223
Tühjad (NaN) väärtused: 91
Täidetud väärtused: 132

  course_uuid
    Tüüp: str | Tühi: False
    Väärtus: eefb3a8d-7669-a5dc-9e13-6f95d719ebdf

  code
    Tüüp: str | Tühi: False
    Väärtus: LOMR.03.021

  title__en
    Tüüp: str | Tühi: False
    Väärtus: Practical Course of Microbiology and Virology

  version__title__en
    Tüüp: str | Tühi: False
    Väärtus: Practical Course of Microbiology and Virology

  credits
    Tüüp: float64 | Tühi: False
    Väärtus: 6.0

  overview__description__en
    Tüüp: str | Tühi: False
    Väärtus: Gaining practical skills to work with microbes and bacteriophages, doing research, growing and identifying microbes and bacteriophages.

  version__overview__description__en
    Tüüp: str | Tühi: False
    Väärtus: Gaining practical skills to work with microbes and bacteriophages, doing research, growing and identifying microbes and bacteriophages.

  overview__learning_ou

In [3]:
# Tähelepanekud tunnuste vorminduse kohta
rida = df.iloc[0]

print("=== TÄHELEPANEKUD TUNNUSTE VORMINDUSE KOHTA ===\n")

# 1. JSON-sõned (listid/sõnastikud stringina)
json_veerud = []
for col in df.columns:
    val = rida[col]
    if isinstance(val, str) and (val.strip().startswith("[{") or val.strip().startswith("{")):
        json_veerud.append(col)
print(f"1) JSON-vormingus sõned (list/dict stringina): {len(json_veerud)} tk")
for v in json_veerud[:5]:
    print(f"   - {v}: {str(rida[v])[:100]}...")
print()

# 2. Mitmekeelsed tunnused (en/et paarid)
en_veerud = [c for c in df.columns if c.endswith("__en")]
et_veerud = [c for c in df.columns if c.endswith("__et")]
print(f"2) Mitmekeelsed tunnused:")
print(f"   - Ingliskeelsed (__en): {len(en_veerud)} tk")
print(f"   - Eestikeelsed (__et):  {len(et_veerud)} tk")
print()

# 3. Hierarhiline nimetus (__ eraldajaga)
tasemete_arv = [col.count("__") for col in df.columns]
print(f"3) Hierarhiline nimetusstruktuur (__ eraldajaga):")
print(f"   - Max pesastumissügavus: {max(tasemete_arv)} taset")
print(f"   - Näide sügavaimast: {df.columns[tasemete_arv.index(max(tasemete_arv))]}")
print()

# 4. Tühjad väärtused
tyhjad = rida.isna().sum()
print(f"4) Tühjad väärtused selles reas: {tyhjad}/{len(rida)} ({tyhjad/len(rida)*100:.1f}%)")
print()

# 5. Andmetüübid
print(f"5) Veergude andmetüübid:")
for dtype, count in df.dtypes.value_counts().items():
    print(f"   - {dtype}: {count} veergu")
print()

# 6. UUID-d
uuid_veerud = [c for c in df.columns if "uuid" in c.lower()]
print(f"6) UUID-tunnused: {len(uuid_veerud)} tk")
for v in uuid_veerud:
    print(f"   - {v}")
print()

# 7. Kuupäevad
date_veerud = [c for c in df.columns if "update" in c.lower() or "date" in c.lower()]
print(f"7) Kuupäeva/aja tunnused: {len(date_veerud)} tk")
for v in date_veerud:
    print(f"   - {v}: {rida[v]}")
print()

# 8. Boolean tunnused
bool_veerud = [c for c in df.columns if rida[c] in [True, False, "True", "False"]]
print(f"8) Tõeväärtus (boolean) tunnused: {len(bool_veerud)} tk")
for v in bool_veerud[:5]:
    print(f"   - {v}: {rida[v]}")
if len(bool_veerud) > 5:
    print(f"   ... ja veel {len(bool_veerud) - 5} tk")

=== TÄHELEPANEKUD TUNNUSTE VORMINDUSE KOHTA ===

1) JSON-vormingus sõned (list/dict stringina): 17 tk
   - general__input_languages: [{"code": "en", "en": "English", "et": "inglise keel"}]...
   - general__structural_unit_shares: [{"coordinating": true, "course_share_percent": 100, "structural_unit_code": "LTMR03", "structural_u...
   - general__structural_units: [{"academic": true, "address": "Riia 23, ruumid 101-117, 301, 302\n51010 Tartu linn, \nTartu linn, T...
   - additional_info__prerequisites: [{"code": "LOMR.03.010", "credits": 3, "last_update": "2024-02-05T11:04:36", "required": true, "stat...
   - overview__objectives: [{"en": "The aim of the Practical Course of Microbiology and Virology is to provide basic knowledge ...

2) Mitmekeelsed tunnused:
   - Ingliskeelsed (__en): 43 tk
   - Eestikeelsed (__et):  45 tk

3) Hierarhiline nimetusstruktuur (__ eraldajaga):
   - Max pesastumissügavus: 4 taset
   - Näide sügavaimast: version__target__faculty__name__en

4) Tühjad väärtuse

In [3]:
# Kontroll: tühjad vs täidetud tunnused
rida = df.iloc[0]
print(f"Tühjad (NaN):  {rida.isna().sum()}")
print(f"Täidetud:      {rida.notna().sum()}")
print(f"Kokku:         {len(rida)}")

Tühjad (NaN):  91
Täidetud:      132
Kokku:         223


## Üldised tähelepanekud andmerea kohta

Toorandmestik sisaldab **3031 ainet** (andmepunkti) ja **223 tunnust** – tegemist on väga laia andmestikuga, kus ühe aine kohta on salvestatud rohkelt metaandmeid. Vaadeldud esimene andmerida kirjeldab ainet **"Mikrobioloogia ja viroloogia praktikum" (LOMR.03.021)**.

**Peamised tähelepanekud:**

- **Suur tühjuse osakaal:** isegi esimeses reas on 91 tunnust 223-st (40,8%) tühjad, mis viitab sellele, et paljud väljad on valikulised või kehtivad ainult teatud ainete puhul (nt keeleõppe tunnused, hindamistingimused hindele A–F jne).
- **Pesastatud JSON-sõned:** 17 veergu sisaldavad andmeid JSON-vormingus stringina (nt õppejõud, struktuuriüksused, eeldusained, õpiväljundid). Nende kasutamiseks tuleb need eraldi parsida.
- **Mitmekeelsus:** andmestik sisaldab paralleelselt eesti- ja ingliskeelseid tunnuseid (~45 et/~43 en lõpuga veergu), mis dubleerivad infot eri keeltes.
- **Hierarhiline veergude struktuur:** veergude nimed kasutavad topelt-allkriipsu (`__`) eraldajana pesastatud info tähistamiseks (nt `version__target__faculty__name__en`), sügavusega kuni 4 taset. See viitab algandmete API pesastatud JSON-struktuurile.
- **UUID-d identifikaatoritena:** ainete identifitseerimiseks kasutatakse UUID-formaadis tunnuseid (6 tk), mitte ainult ainekoodide.
- **Kuupäevad ISO-formaadis:** ajatemplid on ISO 8601 vormingus stringidena (nt `2024-02-05T11:04:36`), mida peaks analüüsiks datetime-tüübiks teisendama.
- **Andmetüübid on peamiselt tekstilised:** 194 veergu 223-st on `object`-tüüpi, mis tähendab, et enamik andmeid on sõned (sh numbrilised ja boolean-väärtused, mis vajavad teisendamist).