# Andmete puhastamine

Siin t√∂√∂tleme varasemas etapis kogutud toorandmeid (`course_details_merged.csv`).
Faili leiad projekti √úHISEST repositooriumist. 

**Sisend:** `../data/toorandmed_aasta.csv`

**V√§ljund:** `../data/andmed_aasta.csv`

### Samm 0: Teekide laadimine ja failiteede seadistamine 
Laeme vajalikud Pythoni teegid ja fikseerime sisend- ja v√§ljundfailide asukohad. Loeme sisse puhastamata andmed.

In [44]:
import pandas as pd
import json
import numpy as np
import os

# Konfigureerime Pandase s√§tteid loetavuse huvides
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 100)

# Sisend- ja v√§ljundfailid
INPUT_FILE = 'data/toorandmed_aasta.csv'
OUTPUT_FILE = 'data/andmed_aasta.csv'


if os.path.exists(INPUT_FILE):
    df = pd.read_csv(INPUT_FILE, low_memory=False)
    print(f"Toorandmed loetud. Andmestiku suurus: {df.shape[0]} rida, {df.shape[1]} veergu.")
else:
    # Kui faili pole, loome testimiseks t√ºhja DataFrame'i v√µi viskame vea
    raise FileNotFoundError(f"Viga: Sisendfaili '{INPUT_FILE}' ei leitud! Kontrolli failiteed.")

# Kiire pilk andmestruktuurile
df.head(2)

print("Samm 1: Teegid laetud ja seadistused tehtud. Andmed sisse loetud.")

Toorandmed loetud. Andmestiku suurus: 3416 rida, 229 veergu.
Samm 1: Teegid laetud ja seadistused tehtud. Andmed sisse loetud.


### Samm 1: eemaldame andmed, mida me ei taha

Siin v√µib filtreerida v√§lja ridu m√µne tunnuse alusel kui teame, et oma rakenduses vajame ainult teatud t√º√ºpi andmeid, hetkel me seda ei teinud, aga kui tahaksime nt ainult kevade aineid, saaksime seda siin teha.

In [45]:
# Filtreeime v√§lja ained, mis on kaitsmisega seotud v√µi kompleksained ja mille kestus on 1 semester
target_types = ['regular', 'practice']
df = df[(df['additional_info__duration_in_semesters'] == 1) & (df['general__type__code'].isin(target_types))]
print(f"Filtreerimine tehtud. J√§relej√§√§nud ridu: {len(df)}")

Filtreerimine tehtud. J√§relej√§√§nud ridu: 2900


### Samm 2: Puhastatud veergude lisamine

Valime v√§lja huvipakkuvad veerud ning puhastame need. Antud sammu juures seisneb puhastamine √µige veeru valimises - juhul kui huvipakkuv sisu v√µib olla kahes erinevas veerus, eelistame aine konkreetse versiooni infot.


T√§psem kirjeldus aine √ºldine info vs versiooni info probleemist:
* **Probleem:** Meil on topelt veerge eeldatavasti sama infoga (√ºldine aine info vs aine konkreetse versiooni info). Nt eestikeelne pealkiri v√µiks peituda nii `title__et` kui ka `version__title__et` veerus.
* **Lahendus:** Eelistame alati `version__` prefiksiga veerge, sest need kajastavad tegelikku aineprogrammi. Kui see puudub, v√µtame √ºldise info.

In [46]:
def resolve_fields(df):
    """
    Loob uued puhtad veerud, eelistades versiooni-p√µhist infot.
    Tagastab t√§iendatud DataFrame'i.
    """

    # 1. Veerud, kus √ºhendame √ºldise info ja versiooni info (eelistades versiooni)
    # (uus nimi, √ºldise info veerg, versiooni info veerg)
    merge_mapping = [
        ('nimi_et', 'title__et', 'version__title__et'),
        ('eap', 'credits', 'version__credits'),
        ('kirjeldus', 'overview__description__et', 'version__overview__description__et'),
        ('opivaljundid', 'overview__learning_outcomes_text_et', 'version__overview__learning_outcomes_text_et')
    ]

    # 2. Veerud, mis v√µetakse √ºhest konkreetsest kohast (lihtne √ºmbernimetamine)
    # (uus nimi, vana nimi)
    rename_mapping = [
        ('aine_kood', 'code'),
        ('semester', 'version__target__semester__et'),
        ('oppejoud_json', 'version__participants__lecturers'),
        ('toimumisajad_json', 'version__schedule__entries'),
        ('keel', 'version__target__language__et'),
        ('hindamisskaala', 'additional_info__assessment_scale__et'),
        ('asukoht', 'version__target__course_main_structural_unit__city'),
        ('oppeaste_json', 'version__additional_info__study_levels'),
        ('hindmaismeetod', 'version__grading__grade_evaluation__et'),
        ('miinimumnouded', 'version__grading__grade_preconditions__et')
    ]

    print("Alustan veergude filtreerimist ja √ºhendamist...")
    
    for new_col, base, version in merge_mapping:
        base_exists = base in df.columns if base else False
        ver_exists = version in df.columns if version else False
        
        if base_exists and ver_exists:
            df[new_col] = df[version].fillna(df[base])
        elif ver_exists:
            df[new_col] = df[version]
        elif base_exists:
            df[new_col] = df[base]
        else:
            df[new_col] = np.nan
    for new_col, source in rename_mapping:
        if source in df.columns:
            df[new_col] = df[source]
        else:
            df[new_col] = np.nan
    return df


# Rakendame funktsiooni
df_resolved = resolve_fields(df.copy())

# Kontrollime tulemust
print(f"Samm 2: Puhastatud veergude lisamine tehtud.")
print(df_resolved[['aine_kood', 'semester']].isnull().sum())
print(df_resolved['semester'].unique())

Alustan veergude filtreerimist ja √ºhendamist...
Samm 2: Puhastatud veergude lisamine tehtud.
aine_kood     0
semester     14
dtype: int64
['kevad' 's√ºgis' nan]



### Samm 3: JSON v√§ljade parsimine

See koodiplokk tegeleb tehniliste JSON-formaadis veergude teisendamisega inimloetavaks tekstiks. Eesm√§rk on eraldada keerulisest struktuurist vaid oluline sisu (nt nimed v√µi n√§dalap√§evad) ja vormistada see komadega eraldatud loeteluks.

N√§ide teisendamisest (√µppej√µud):
* Enne (Toores JSON): ``'[{"person_name": "Mari Mets", "id": 101}, {"person_name": "Jaan Kask", "id": 102}]'``
* P√§rast (Puhastatud): ``"Jaan Kask, Mari Mets"``

In [47]:
# --- Abifunktsioonid JSON t√∂√∂tlemiseks ---

def parse_json_safe(json_str):
    """
    Teisendab JSON-stringi turvaliselt Pythoni objektiks (list v√µi dict).
    K√§sitleb t√ºhje v√§√§rtusi (NaN, None) ja katkist JSON-it, tagastades vea korral None.
    """
    if pd.isna(json_str) or json_str == '': 
        return None
    try:
        return json.loads(json_str)
    except (json.JSONDecodeError, TypeError):
        return None


def extract_lecturers(json_str):
    """
    Eraldab JSON-struktuurist √µppej√µudude nimed ('person_name').
    Tagastab komadega eraldatud stringi unikaalsetest nimedest t√§hestikulises j√§rjekorras.
    """
    data = parse_json_safe(json_str)
    if not data: return None
    names = [p.get('person_name') for p in data if isinstance(p, dict) and p.get('person_name')]
    return ", ".join(sorted(list(set(names)))) if names else None
 

def extract_schedule_days_et(json_str):
    """
    Anal√º√ºsib tunniplaani aegu ja leiab, mis n√§dalap√§evadel aine toimub.
    1. Parsib kuup√§eva/kellaaja.
    2. Teisendab p√§eva nime eesti keelde (nt Monday -> Esmasp√§ev).
    3. Sorteerib p√§evad loogilises j√§rjekorras (Esmasp√§evast P√ºhap√§evani), mitte t√§hestiku j√§rgi.
    """
    data = parse_json_safe(json_str)
    if not data: return None
    
    days = set()
    day_map = {
        'Monday': 'Esmasp√§ev', 'Tuesday': 'Teisip√§ev', 'Wednesday': 'Kolmap√§ev',
        'Thursday': 'Neljap√§ev', 'Friday': 'Reede', 'Saturday': 'Laup√§ev', 'Sunday': 'P√ºhap√§ev'
    }
    
    for entry in data:
        if not isinstance(entry, dict): continue
        time_str = entry.get('time') or entry.get('start_time')
        if time_str:
            dt = pd.to_datetime(time_str, errors='coerce')
            if not pd.isna(dt):
                en_day = dt.day_name()
                days.add(day_map.get(en_day, en_day))
    
    week_order = ['Esmasp√§ev', 'Teisip√§ev', 'Kolmap√§ev', 'Neljap√§ev', 'Reede', 'Laup√§ev', 'P√ºhap√§ev']
    sorted_days = sorted(list(days), key=lambda d: week_order.index(d) if d in week_order else 99)
    
    return ", ".join(sorted_days) if sorted_days else None

def extract_study_levels_et(json_str):
    """
    Eraldab JSON-struktuurist √µppeastmed.
    Tagastab komadega eraldatud stringi unikaalsetest √µppeastmetest.
    """
    data = parse_json_safe(json_str)
    if not data: return None

    values = [item.get('et') for item in data if isinstance(item, dict) and item.get('et')]
    return ", ".join(sorted(list(set(values)))) if values else None

def extract_prerequisites(json_str):
    """
    V√µtab JSON-ist eeldusainete koodid ja nimed ning paneb need kokku stringiks.
    N√§ide v√§ljundist: "LTAT.01.001 Programmeerimine, MTAT.03.100 Andmebaasid"
    """
    data = parse_json_safe(json_str)
    if not data: return None
    
    try:
        # Puhastame stringi, kui seal on topelt-jutum√§rke (faili erip√§ra)
        cleaned_str = json_str.replace('""', '"')
        data = json.loads(cleaned_str)
        
        res = []
        for item in data:
            code = item.get('code', '')
            name = item.get('title', {}).get('et', '')
            
            if code and name:
                res.append(f"{code} {name}")
            elif code:
                res.append(code)
                
        return ", ".join(res) if res else None
    except:
        return None

# --- Funktsioonide rakendamine ---
print("Ekstraheerime JSON v√§ljadest infot...")

df_resolved['oppejoud'] = df_resolved['oppejoud_json'].apply(extract_lecturers)
df_resolved['toimumisajad'] = df_resolved['toimumisajad_json'].apply(extract_schedule_days_et)
df_resolved['oppeaste'] = df_resolved['oppeaste_json'].apply(extract_study_levels_et)
df_resolved['eeldusained'] = df_resolved['additional_info__prerequisites'].apply(extract_prerequisites)
  
print("Samm 3: JSON t√∂√∂tlemine valmis.")
print(df_resolved[['aine_kood', 'oppejoud', 'toimumisajad', 'oppeaste', 'eeldusained']].head(3))


Ekstraheerime JSON v√§ljadest infot...
Samm 3: JSON t√∂√∂tlemine valmis.
     aine_kood  \
0  OIEO.06.046   
2  KKSB.05.092   
3  ARKI.02.030   

                                                                             oppejoud  \
0                                                                           Gea Lepik   
2                                                                    Kadri Medijainen   
3  Jekaterina Nerman, J√ºrgen R√ºnk, Pille-Riin V√§rk, Ragnar L√µivukene, Viljo K√ºbarsepp   

         toimumisajad                                    oppeaste  \
0                None                                 magistri√µpe   
2  Neljap√§ev, Laup√§ev                             bakalaureuse√µpe   
3                None  integreeritud bakalaureuse- ja magistri√µpe   

                      eeldusained  
0                            None  
2                            None  
3  AR00.00.016 Diagnostika alused  


### Samm 4 (Valikuline): Info koondamine mitmest allikast

Kui vajalik info on mitmes veerus, saame need √ºhendada. Hetkel teeme seda n√§iteks hindamisinfoga.

### Samm 5: L√µplik viimistlus

Valime l√µplikud veerud. 

In [48]:
final_cols = [
    'aine_kood', 'nimi_et', 'nimi_en', 'eap', 'semester',
    'kirjeldus', 'hindamine_info','toimumisajad','oppejoud', 
    'opivaljundid', 'keel', 'hindamisskaala', 'asukoht', 
    'oppeaste', 'hindmaismeetod', 'miinimumnouded', 'eeldusained'
]


existing_cols = [c for c in final_cols if c in df_resolved.columns]
df_final = df_resolved[existing_cols].copy()

print(f"L√µplik ridade arv: {len(df_final)}, l√µplik veergude arv: {len(df_final.columns)}")
print("Samm 5: L√µplik andmestik koostatud.")

L√µplik ridade arv: 2900, l√µplik veergude arv: 15
Samm 5: L√µplik andmestik koostatud.


### Samm 6: Salvestamine ja kontroll

Kontrollime m√µningaid kvaliteediaspekte ning salvestame puhastatud faili.

* Salvesta puhastatud fail.
* Arvuta puuduvate v√§√§rtuste hulk igas veerus.
* Leia kategooriliste tunnustega veergude [keel, semester, √µppeaste, ‚Ä¶] enim levinud v√§√§rtused (n√§iteks df[tunnus].count().head(5))
* N√§ita "Sissejuhatus andmeteadusesse‚Äù aine kogu puhastatud kujul v√§ljund lihtsasti loetaval kujul (v√µid k√ºsida LLMilt abi, et v√§ljund h√§sti kenasti vormistada, et see ei oleks lihtsalt v√§lja prinditud andmerida).
* Lisada tunnus kirjeldus, sisaldab √ºhe aine koguinfot (k√µik veerud √ºhendatud suureks tekstiks. Teha tunnuse kirjeldus t√§hem√§rkide arvu statistika (describe() funktsioon v√µib aidata, aga v√µib kasutada ka visualiseerimist), et teaksime, kui palju infot me RAGile ette anda kavatseme

In [49]:
# salvesta fail
df_final.to_csv(OUTPUT_FILE, index=False)
print(f"Samm 6: Andmestik salvestatud faili '{OUTPUT_FILE}'.")

#TODO

Samm 6: Andmestik salvestatud faili 'data/andmed_aasta.csv'.


### Samm 7: Info puhastatud andmete kohta

In [50]:
print("--- Puuduvate v√§√§rtuste hulk ja osakaal veergudes ---")
missing_data = pd.DataFrame({
    'Puuduvaid v√§√§rtusi': df_final.isnull().sum(),
    'Osakaal (%)': (df_final.isnull().sum() / len(df_final) * 100).round(2)
})

# N√§itame ainult neid veerge, kus on v√§hemalt √ºks puuduv v√§√§rtus
print(missing_data[missing_data['Puuduvaid v√§√§rtusi'] > 0].sort_values(by='Puuduvaid v√§√§rtusi', ascending=False))

categorical_cols = ['keel', 'semester', 'oppeaste', 'toimumisajad', 'hindamisskaala', 'asukoht'] 

print("\n--- Kategooriliste tunnuste TOP 5 v√§√§rtust ---")
for col in categorical_cols:
    if col in df_final.columns:
        print(f"\nVeerg: {col}")
        print(df_final[col].value_counts().head(5))

from IPython.display import display, Markdown

# Leiame aine (eeldame, et aine_kood on veeru nimi)
aine_row = df_final[df_final['aine_kood'] == 'LTAT.02.002']

if not aine_row.empty:
    aine = aine_row.iloc[0]
    
    # Koostame ilusa esituse
    html_output = f"## üìò Aine detailvaade: {aine['nimi_et']} ({aine['aine_kood']})\n\n"
    html_output += "| V√§li | Sisu |\n| :--- | :--- |\n"
    
    for col in final_cols:
        if col in aine:
            v√§√§rtus = aine[col] if pd.notna(aine[col]) else "*Puudub*"
            html_output += f"| **{col}** | {v√§√§rtus} |\n"
    
    display(Markdown(html_output))
else:
    print("\nAinet 'LTAT.02.002' ei leitud.")

def koonda_tekst(row):
    tekstiosad = []
    for col in final_cols:
        if col in row and pd.notna(row[col]):
            tekstiosad.append(f"{col}: {row[col]}")
    return "\n".join(tekstiosad)

df_final['kirjeldus_koond'] = df_final.apply(koonda_tekst, axis=1)

df_final['kirjelduse_pikkus'] = df_final['kirjeldus_koond'].str.len()

print("\n--- Tunnuse 'kirjeldus_koond' t√§hem√§rkide statistika ---")
print(df_final['kirjelduse_pikkus'].describe())

--- Puuduvate v√§√§rtuste hulk ja osakaal veergudes ---
                Puuduvaid v√§√§rtusi  Osakaal (%)
eeldusained                   2370        81.72
toimumisajad                  1836        63.31
opivaljundid                  1560        53.79
asukoht                       1073        37.00
miinimumnouded                 361        12.45
hindmaismeetod                 347        11.97
oppeaste                        47         1.62
oppejoud                        15         0.52
semester                        14         0.48
keel                            14         0.48

--- Kategooriliste tunnuste TOP 5 v√§√§rtust ---

Veerg: keel
keel
eesti keel      2132
inglise keel     754
Name: count, dtype: int64

Veerg: semester
semester
kevad    1524
s√ºgis    1362
Name: count, dtype: int64

Veerg: oppeaste
oppeaste
bakalaureuse√µpe                               905
magistri√µpe                                   535
bakalaureuse√µpe, magistri√µpe                  306
integreeritud bak