Knižnice a inicializácia SparkSwssion

In [14]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum

spark = SparkSession.builder.appName("zadanieTSVD").getOrCreate()

Načítanie dát

In [37]:
# header=True –> použije prvý riadok ako názvy stĺpcov
# inferSchema=True –> automaticky určí dátové typy
accidents = spark.read.csv("DATA/Accidents.csv",header=True,inferSchema=True)
casualties = spark.read.csv("DATA/Casualties.csv",header=True,inferSchema=True)
vehicles = spark.read.csv("DATA/Vehicles.csv",header=True,inferSchema=True)

# Exploračná analýza

In [18]:
# Funkcia na základnú exploračnú analýzu dát.
# Parametre:
# df -> PySpark DataFrame na  analýzu
# name -> Názov datasetu (len pre výpis)
def eda_summary(df, name="Dataset"):
    print(f"\n{30*'#'} ANALÝZA {name} {30*'#'}\n")
    # Dátové typy
    print("\nDátové typy:\n")
    for column, dtype in df.dtypes:
        print(f"{column}: {dtype}")
    # Prvý záznam (vertikálne)
    print("\nPrvý záznam (vertikálne):\n")
    df.show(n=1, truncate=True, vertical=True)
    # Schéma datasetu
    print("\nSchéma datasetu:\n")
    df.printSchema()
    # Základné štatistiky
    print("\nZákladné štatistiky:\n")
    df.describe().show(vertical=True)
    # Chýbajúce hodnoty
    print("\nChýbajúce hodnoty v datasetu:\n")
    df.select([sum(col(c).isNull().cast("int")).alias(c) for c in df.columns]).show(vertical=True)
    print(f"\n{30*'#'} KONIEC ANALÝZY {name} {30*'#'}\n")

### Accidents
Accident_Index – Unikátny identifikátor nehody.  
Location_Easting_OSGR, Location_Northing_OSGR – Súradnice v britskom súradnicovom systéme (OSGR).  
Longitude, Latitude – Geografická poloha nehody.  
Police_Force – Kód policajnej jednotky, ktorá nehodu riešila.  
Accident_Severity – Závažnosť nehody (napr. mierna, vážna, smrteľná).  
Number_of_Vehicles – Počet vozidiel zapojených do nehody.  
Number_of_Casualties – Počet zranených/osôb postihnutých nehodou.  
Date, Time – Dátum a čas nehody.  
Day_of_Week – Deň v týždni, kedy k nehode došlo.  
Local_Authority_(District), Local_Authority_(Highway) – Miestne samosprávy zodpovedné za danú lokalitu.  
1st_Road_Class, 2nd_Road_Class – Kategória cesty (napr. diaľnica, hlavná cesta).  
1st_Road_Number, 2nd_Road_Number – Číslo cesty (ak existuje).  
Road_Type – Typ cesty (napr. jednosmerná, kruhový objazd).  
Speed_limit – Maximálna povolená rýchlosť v mieste nehody.  
Junction_Detail, Junction_Control – Informácie o križovatke (napr. semafory, kruhový objazd).  
Pedestrian_Crossing-Human_Control, Pedestrian_Crossing-Physical_Facilities – Prítomnosť priechodu pre chodcov a jeho typ.  
Light_Conditions – Svetelné podmienky (napr. denné svetlo, tma).  
Weather_Conditions – Počasie v čase nehody.  
Road_Surface_Conditions – Stav vozovky (suchá, mokrá, zľadovatená).  
Special_Conditions_at_Site – Špeciálne okolnosti (napr. výtlky, olejová škvrna).  
Carriageway_Hazards – Prekážky na ceste (napr. spadnutý strom, stojace vozidlo).  
Urban_or_Rural_Area – Mesto alebo vidiek.  
Did_Police_Officer_Attend_Scene_of_Accident – Či polícia bola na mieste nehody.  
LSOA_of_Accident_Location – Kód malej geografickej oblasti (Lower Super Output Area).  

In [19]:
eda_summary(accidents,"Accidents Dataset")


############################## ANALÝZA Accidents Dataset ##############################


Dátové typy:

Accident_Index: string
Location_Easting_OSGR: int
Location_Northing_OSGR: int
Longitude: double
Latitude: double
Police_Force: int
Accident_Severity: int
Number_of_Vehicles: int
Number_of_Casualties: int
Date: string
Day_of_Week: int
Time: timestamp
Local_Authority_(District): int
Local_Authority_(Highway): string
1st_Road_Class: int
1st_Road_Number: int
Road_Type: int
Speed_limit: int
Junction_Detail: int
Junction_Control: int
2nd_Road_Class: int
2nd_Road_Number: int
Pedestrian_Crossing-Human_Control: int
Pedestrian_Crossing-Physical_Facilities: int
Light_Conditions: int
Weather_Conditions: int
Road_Surface_Conditions: int
Special_Conditions_at_Site: int
Carriageway_Hazards: int
Urban_or_Rural_Area: int
Did_Police_Officer_Attend_Scene_of_Accident: int
LSOA_of_Accident_Location: string

Prvý záznam (vertikálne):

-RECORD 0----------------------------------------------------------
 A

In [20]:
eda_summary(casualities,"Casu")


############################## ANALÝZA Casualities Dataset ##############################


Dátové typy:

Accident_Index: string
Vehicle_Reference: int
Casualty_Reference: int
Casualty_Class: int
Sex_of_Casualty: int
Age_of_Casualty: int
Age_Band_of_Casualty: int
Casualty_Severity: int
Pedestrian_Location: int
Pedestrian_Movement: int
Car_Passenger: int
Bus_or_Coach_Passenger: int
Pedestrian_Road_Maintenance_Worker: int
Casualty_Type: int
Casualty_Home_Area_Type: int

Prvý záznam (vertikálne):

-RECORD 0-------------------------------------------
 Accident_Index                     | 200501BS00001 
 Vehicle_Reference                  | 1             
 Casualty_Reference                 | 1             
 Casualty_Class                     | 3             
 Sex_of_Casualty                    | 1             
 Age_of_Casualty                    | 37            
 Age_Band_of_Casualty               | 7             
 Casualty_Severity                  | 2             
 Pedestrian_Location  

Vechicles

In [21]:
eda_summary(vechicles, "Vechicles Dataset")


############################## ANALÝZA Vechicles Dataset ##############################


Dátové typy:

Accident_Index: string
Vehicle_Reference: int
Vehicle_Type: int
Towing_and_Articulation: int
Vehicle_Manoeuvre: int
Vehicle_Location-Restricted_Lane: int
Junction_Location: int
Skidding_and_Overturning: int
Hit_Object_in_Carriageway: int
Vehicle_Leaving_Carriageway: int
Hit_Object_off_Carriageway: int
1st_Point_of_Impact: int
Was_Vehicle_Left_Hand_Drive?: int
Journey_Purpose_of_Driver: int
Sex_of_Driver: int
Age_of_Driver: int
Age_Band_of_Driver: int
Engine_Capacity_(CC): int
Propulsion_Code: int
Age_of_Vehicle: int
Driver_IMD_Decile: int
Driver_Home_Area_Type: int

Prvý záznam (vertikálne):

-RECORD 0-----------------------------------------
 Accident_Index                   | 200501BS00001 
 Vehicle_Reference                | 1             
 Vehicle_Type                     | 9             
 Towing_and_Articulation          | 0             
 Vehicle_Manoeuvre                | 18  

In [25]:
vechicles.columns

['Accident_Index',
 'Vehicle_Reference',
 'Vehicle_Type',
 'Towing_and_Articulation',
 'Vehicle_Manoeuvre',
 'Vehicle_Location-Restricted_Lane',
 'Junction_Location',
 'Skidding_and_Overturning',
 'Hit_Object_in_Carriageway',
 'Vehicle_Leaving_Carriageway',
 'Hit_Object_off_Carriageway',
 '1st_Point_of_Impact',
 'Was_Vehicle_Left_Hand_Drive?',
 'Journey_Purpose_of_Driver',
 'Sex_of_Driver',
 'Age_of_Driver',
 'Age_Band_of_Driver',
 'Engine_Capacity_(CC)',
 'Propulsion_Code',
 'Age_of_Vehicle',
 'Driver_IMD_Decile',
 'Driver_Home_Area_Type']

### Casualties
Accident_Index – Prepojenie na konkrétnu nehodu.  
Vehicle_Reference – Identifikátor vozidla, v ktorom bola osoba.  
Casualty_Reference – Unikátne ID pre každú obeť v rámci nehody.  
Casualty_Class – Typ účastníka (napr. vodič, spolujazdec, chodec).  
Sex_of_Casualty – Pohlavie zranenej osoby.  
Age_of_Casualty, Age_Band_of_Casualty – Vek obete (presný a vo vekových kategóriách).  
Casualty_Severity – Závažnosť zranenia (mierne, vážne, smrteľné).  
Pedestrian_Location – Kde sa chodec nachádzal (napr. priechod pre chodcov).  
Pedestrian_Movement – Pohyb chodca v čase nehody (napr. bežal, prechádzal cez cestu).  
Car_Passenger – Či bol zranený ako spolujazdec v aute.  
Bus_or_Coach_Passenger – Či bol zranený ako cestujúci v autobuse.  
Pedestrian_Road_Maintenance_Worker – Či bol chodec pracovník údržby ciest.  
Casualty_Type – Typ účastníka nehody (napr. cyklista, motocyklista).  
Casualty_Home_Area_Type – Mestská alebo vidiecka oblasť bydliska obete.

In [34]:
eda_summary(casualities,"Casualties Dataset")


############################## ANALÝZA Casualties Dataset ##############################


Dátové typy:

Accident_Index: string
Vehicle_Reference: int
Casualty_Reference: int
Casualty_Class: int
Sex_of_Casualty: int
Age_of_Casualty: int
Age_Band_of_Casualty: int
Casualty_Severity: int
Pedestrian_Location: int
Pedestrian_Movement: int
Car_Passenger: int
Bus_or_Coach_Passenger: int
Pedestrian_Road_Maintenance_Worker: int
Casualty_Type: int
Casualty_Home_Area_Type: int

Prvý záznam (vertikálne):

-RECORD 0-------------------------------------------
 Accident_Index                     | 200501BS00001 
 Vehicle_Reference                  | 1             
 Casualty_Reference                 | 1             
 Casualty_Class                     | 3             
 Sex_of_Casualty                    | 1             
 Age_of_Casualty                    | 37            
 Age_Band_of_Casualty               | 7             
 Casualty_Severity                  | 2             
 Pedestrian_Location   

### Vehicles
Accident_Index – Prepojenie na konkrétnu nehodu.  
Vehicle_Reference – Unikátne ID vozidla v rámci nehody.  
Vehicle_Type – Typ vozidla (napr. osobné auto, nákladné auto, motorka).  
Towing_and_Articulation – Či vozidlo ťahalo príves alebo bolo kĺbové.  
Vehicle_Manoeuvre – Manéver vozidla pred nehodou (napr. odbočovanie, cúvanie).  
Vehicle_Location-Restricted_Lane – Či bolo vozidlo v pruhu s obmedzením (napr. bus pruh).  
Junction_Location – Poloha vozidla na križovatke (napr. hlavná cesta, vedľajšia cesta).  
Skidding_and_Overturning – Či vozidlo dostalo šmyk alebo sa prevrátilo.  
Hit_Object_in_Carriageway – Či narazilo do objektu na ceste (napr. zvodidlá).  
Vehicle_Leaving_Carriageway – Či vozidlo opustilo vozovku.  
Hit_Object_off_Carriageway – Či narazilo do objektu mimo cesty.  
1st_Point_of_Impact – Miesto prvého nárazu na vozidle (napr. predná časť, bočná časť).  
Was_Vehicle_Left_Hand_Drive? – Či malo vozidlo ľavostranné riadenie.  
Journey_Purpose_of_Driver – Účel jazdy (napr. dochádzanie do práce).  
Sex_of_Driver – Pohlavie vodiča.  
Age_of_Driver, Age_Band_of_Driver – Vek vodiča (presný a kategorizovaný).  
Engine_Capacity_(CC) – Objem motora vozidla.  
Propulsion_Code – Typ pohonu (napr. benzín, diesel, elektrický).  
Age_of_Vehicle – Vek vozidla v rokoch.  
Driver_IMD_Decile – Sociálno-ekonomická situácia oblasti, kde vodič býva (Index Multiple Deprivation).  
Driver_Home_Area_Type – Mestská alebo vidiecka oblasť bydliska vodiča.

In [1]:
eda_summary(vehicles, "Vehicles Dataset")

NameError: name 'eda_summary' is not defined

In [None]:
# Prvé spojenie accidents + casualities
accidents_casualties = accidents.join(casualties,on="Accident_Index",how="left")
#  Druhé spojenie (accidents + casualities) + vechicles
full_df = accidents_casualties.join(vehicles,on="Accident_Index",how="left")

In [None]:
full_df.show(n=1,vertical=True)

-RECORD 0----------------------------------------------------------
 Accident_Index                              | 200501BS00001       
 Location_Easting_OSGR                       | 525680              
 Location_Northing_OSGR                      | 178240              
 Longitude                                   | -0.19117            
 Latitude                                    | 51.489096           
 Police_Force                                | 1                   
 Accident_Severity                           | 2                   
 Number_of_Vehicles                          | 1                   
 Number_of_Casualties                        | 1                   
 Date                                        | 04/01/2005          
 Day_of_Week                                 | 3                   
 Time                                        | 2025-03-27 17:42:00 
 Local_Authority_(District)                  | 12                  
 Local_Authority_(Highway)                   | E

In [None]:
datasets = {"Accidents": accidents, "Casualties": casualties, "Vehicles": vehicles}

for name, df in datasets.items():
    print(f"Počet atribútov v {name}: {len(df.columns)}")

Počet atribútov v Accidents: 32
Počet atribútov v Casualties: 15
Počet atribútov v Vehicles: 22


In [None]:
merged_df = accidents.join(casualties, on="Accident_Index", how="left") \
                     .join(vehicles, on="Accident_Index", how="left")

print(f"Počet atribútov v zlúčenom DataFrame: {len(merged_df.columns)}")

Počet atribútov v zlúčenom DataFrame: 67


In [None]:
# 32 + 15 + 22 = 69
# 69 - 67 = tri datasety -> tri kľúče (atribút Accident_Index) a po spojení ostal len ako jeden atribút

1. Sampling a Rozdelenie na Tréningovaciu a Testovaciu Množinu
Najprv vytvoríme stratifikovanú vzorku (napr. 10 %) podľa cieľového atribútu. Predpokladáme, že cieľovým atribútom je napr. Accident_Severity (môžete upraviť podľa potreby). Potom vzorku rozdelíme na trénovaciu (60 %) a testovaciu (40 %).

In [None]:
# Predpokladáme, že merged_df je výsledný DataFrame po integrácii dát (viacnásobné spojenie)
merged_df = accidents.join(casualties, on="Accident_Index", how="left") \
                     .join(vehicles, on="Accident_Index", how="left")

# Zobrazenie počtu záznamov
print("Celkový počet záznamov:", merged_df.count())

# Definujte hodnoty cieľového atribútu a nastavené fraction pre stratifikované sampling
# Napríklad, ak sú hodnoty 1, 2, 3 (kódovanie podľa závažnosti nehody)
target_col = "Accident_Severity"
fractions = {row[target_col]: 0.1 for row in merged_df.select(target_col).distinct().collect()}

# Stratifikované vzorkovanie
sample_df = merged_df.sampleBy(target_col, fractions, seed=42)
print("Počet záznamov vo vzorke (10%):", sample_df.count())

# Rozdelenie vzorky na tréningovú a testovaciu množinu (60/40)
train_df, test_df = sample_df.randomSplit([0.6, 0.4], seed=42)
print("Tréningová množina:", train_df.count(), "záznamov")
print("Testovacia množina:", test_df.count(), "záznamov")


2. Predspracovanie Dát
a) Transformácia nominálnych atribútov na numerické
Použijeme StringIndexer pre atribúty ako Accident_Severity a iné kategorizované stĺpce. Pre ilustráciu prevedieme cieľový atribút a jeden ďalší atribút (napr. Weather_Conditions).

In [None]:
from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler, Bucketizer
from pyspark.ml import Pipeline

# StringIndexery pre kategóriové atribúty
severity_indexer = StringIndexer(inputCol="Accident_Severity", outputCol="Accident_Severity_Index", handleInvalid="keep")
weather_indexer = StringIndexer(inputCol="Weather_Conditions", outputCol="Weather_Conditions_Index", handleInvalid="keep")

# Prípadne môžeme použiť aj OneHotEncoder, ak budeme potrebovať one-hot reprezentáciu
weather_encoder = OneHotEncoder(inputCol="Weather_Conditions_Index", outputCol="Weather_Conditions_Encoded")

# Ako príklad budeme discretizovať aj numerický atribút, napr. 'Speed_limit'
# Definujte prahy pre Bucketizer – tieto hodnoty upravte podľa rozsahu v dátach
speed_splits = [0, 30, 50, 70, 100, float("Inf")]
speed_bucketizer = Bucketizer(splits=speed_splits, inputCol="Speed_limit", outputCol="Speed_limit_Bucket", handleInvalid="keep")

# Vytvorenie zoznamu vstupných atribútov pre klasifikačný model (príklad)
# Zvoľte atribúty, ktoré budú použité ako vstupy (toto je len ilustrácia – prispôsobte podľa analýzy)
feature_cols = ["Number_of_Vehicles", "Number_of_Casualties", "Speed_limit_Bucket", "Weather_Conditions_Index"]

# Pre zostavenie feature vektora
assembler = VectorAssembler(inputCols=feature_cols, outputCol="features", handleInvalid="keep")

# Zostavenie Pipeline pre predspracovanie
preprocessing_pipeline = Pipeline(stages=[
    severity_indexer,
    weather_indexer,
    weather_encoder,
    speed_bucketizer,
    assembler
])
preprocessed_model = preprocessing_pipeline.fit(train_df)
train_preprocessed = preprocessed_model.transform(train_df)
test_preprocessed = preprocessed_model.transform(test_df)

# Overenie výsledkov
train_preprocessed.select("Accident_Severity", "Accident_Severity_Index", "Speed_limit", "Speed_limit_Bucket", "features").show(3, truncate=False)


b) Spracovanie chýbajúcich hodnôt
Ukážeme, ako nahradiť chýbajúce hodnoty, pričom hodnoty "-1" považujeme za neplatné. Tu je príklad pre jeden numerický atribút. Môžete tento prístup aplikovať na viacero stĺpcov.

In [None]:
from pyspark.sql.functions import when, avg

# Príklad: Nahradenie neplatných hodnôt v stĺpci 'Speed_limit'
# Najprv prepočítame priemer, pričom vynecháme hodnoty -1
mean_speed = merged_df.filter(merged_df["Speed_limit"] != -1).select(avg("Speed_limit")).first()[0]
print("Priemerná hodnota Speed_limit:", mean_speed)

# Vytvorenie DataFrame, kde nahradíme -1 priemerom
merged_df_clean = merged_df.withColumn("Speed_limit_clean",
                                       when(col("Speed_limit") == -1, mean_speed)
                                       .otherwise(col("Speed_limit")))
merged_df_clean.select("Speed_limit", "Speed_limit_clean").show(3)


Pre kategóriové atribúty by ste mohli zvoliť najčastejšiu hodnotu (mode). Rovnaký prístup potom opakujte pre ostatné relevantné atribúty.

c) Výpočet informačného zisku pre nominálne atribúty
Jednoduchý spôsob je použiť vstavané metódy modelov (napr. Decision Tree), ktoré dokážu poskytnúť dôležitosť atribútov. 
Ak však potrebujete explicitne vypočítať informačný zisk, môžete si vytvoriť vlastnú funkciu. Tu je ilustratívny príklad 
pre jeden atribút:

import math
from pyspark.sql import functions as F

def compute_entropy(df, col_name):
    # Počet celkových záznamov
    total = df.count()
    # Počet výskytov jednotlivých kategórií
    counts = df.groupBy(col_name).count().collect()
    entropy = 0.0
    for row in counts:
        p = row["count"] / total
        entropy -= p * math.log(p, 2)
    return entropy

# Výpočet entropie cieľového atribútu
entropy_target = compute_entropy(train_df, "Accident_Severity")
print("Entropia cieľového atribútu (Accident_Severity):", entropy_target)

# Pre výpočet informačného zisku pre atribút napr. 'Weather_Conditions'
entropy_weather = compute_entropy(train_df, "Weather_Conditions")

# Spočítanie podmienenej entropie
# Rozdelenie podľa 'Weather_Conditions' a výpočet entropie v každej skupine
group_entropy = train_df.groupBy("Weather_Conditions").agg(F.count("*").alias("cnt")).collect()
weighted_entropy = 0.0
total = train_df.count()
for row in group_entropy:
    p = row["cnt"] / total
    sub_df = train_df.filter(train_df["Weather_Conditions"] == row["Weather_Conditions"])
    weighted_entropy += p * compute_entropy(sub_df, "Accident_Severity")

information_gain = entropy_target - weighted_entropy
print("Informačný zisk pre Weather_Conditions:", information_gain)


3. Modelovanie
a) K-means Clustering a Detekcia Anomálií
Najprv vytvoríme K-means model s predspracovanými dátami a následne zistíme anomálie podľa vzdialenosti od centroidu.

from pyspark.ml.clustering import KMeans
from pyspark.ml.evaluation import ClusteringEvaluator

# Použijeme pre clustering atribút 'features' vytvorený v pipeline
kmeans = KMeans(featuresCol="features", predictionCol="cluster", k=5, seed=42)
kmeans_model = kmeans.fit(train_preprocessed)

# Pridanie clusterov pre tréningovú množinu
train_clustered = kmeans_model.transform(train_preprocessed)
train_clustered.select("features", "cluster").show(3)

# Vyhodnotenie clusteringu (napr. pomocou silhouette score)
evaluator = ClusteringEvaluator(featuresCol="features", predictionCol="cluster", metricName="silhouette", distanceMeasure="squaredEuclidean")
silhouette = evaluator.evaluate(train_clustered)
print("Silhouette score:", silhouette)

# Detekcia anomálií:
# Vypočítame vzdialenosť každého bodu od príslušného centroidu
centers = kmeans_model.clusterCenters()
def compute_distance(features, center):
    return float(features.squared_distance(center))  # Funkcia squared_distance nie je priamo dostupná; budeme pracovať pomocou operácií

# Pre ilustráciu využijeme User Defined Function (UDF) pre výpočet Euklidovskej vzdialenosti
from pyspark.sql.functions import udf
from pyspark.sql.types import DoubleType
import numpy as np

def euclidean_distance(v, center):
    return float(np.sqrt(np.sum((np.array(v) - np.array(center))**2)))

# UDF: pre každý riadok vypočíta vzdialenosť od príslušného centroidu
def distance_from_center(features, cluster):
    center = centers[int(cluster)]
    return euclidean_distance(features, center)

distance_udf = udf(distance_from_center, DoubleType())
train_clustered = train_clustered.withColumn("distance", distance_udf(col("features"), col("cluster")))
train_clustered.select("cluster", "distance").show(3)

# Označenie anomálií: napr. tie záznamy, ktorých vzdialenosť presahuje prah – tento prah môžete nastaviť napr. ako percentil vzdialeností
distances = train_clustered.select("distance").rdd.flatMap(lambda x: x).collect()
threshold = np.percentile(distances, 95)  # 95. percentil
print("Prahová hodnota pre anomáliu (95. percentil):", threshold)

anomalies = train_clustered.filter(col("distance") > threshold)
print("Počet detekovaných anomálií:", anomalies.count())


b) Klasifikačné Modely
V nasledujúcom bloku vytvoríme viacero klasifikačných modelov pomocou pipeline – Decision Tree, Linear SVM, Naive Bayes a Random Forest. Ako príklad využijeme už vytvorený pipeline pre predspracovanie. Cieľovým atribútom je Accident_Severity_Index.

In [None]:
from pyspark.ml.classification import DecisionTreeClassifier, LinearSVC, NaiveBayes, RandomForestClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# Príprava dát už máme v train_preprocessed a test_preprocessed
# Použijeme "features" a "Accident_Severity_Index" ako target

# 1. Decision Tree
dt = DecisionTreeClassifier(featuresCol="features", labelCol="Accident_Severity_Index", seed=42)
dt_model = dt.fit(train_preprocessed)
dt_predictions = dt_model.transform(test_preprocessed)

# 2. Linear SVM
# Upozornenie: LinearSVC vyžaduje, aby cieľové hodnoty boli indexované a v tvare Double
svm = LinearSVC(featuresCol="features", labelCol="Accident_Severity_Index", maxIter=10, regParam=0.1)
svm_model = svm.fit(train_preprocessed)
svm_predictions = svm_model.transform(test_preprocessed)

# 3. Naive Bayes
nb = NaiveBayes(featuresCol="features", labelCol="Accident_Severity_Index", modelType="multinomial")
nb_model = nb.fit(train_preprocessed)
nb_predictions = nb_model.transform(test_preprocessed)

# 4. Random Forest
rf = RandomForestClassifier(featuresCol="features", labelCol="Accident_Severity_Index", numTrees=20, seed=42)
rf_model = rf.fit(train_preprocessed)
rf_predictions = rf_model.transform(test_preprocessed)

# Funkcia na vyhodnotenie modelu
def evaluate_model(predictions, model_name="Model"):
    evaluator_acc = MulticlassClassificationEvaluator(labelCol="Accident_Severity_Index", predictionCol="prediction", metricName="accuracy")
    evaluator_f1 = MulticlassClassificationEvaluator(labelCol="Accident_Severity_Index", predictionCol="prediction", metricName="f1")
    accuracy = evaluator_acc.evaluate(predictions)
    f1 = evaluator_f1.evaluate(predictions)
    print(f"{model_name} - Accuracy: {accuracy:.4f}, F1-score: {f1:.4f}")
    
    # Kontingenčná tabuľka (confusion matrix)
    predictions.groupBy("Accident_Severity_Index", "prediction").count().orderBy("Accident_Severity_Index", "prediction").show()

print("\nVyhodnotenie Decision Tree:")
evaluate_model(dt_predictions, "Decision Tree")

print("\nVyhodnotenie Linear SVM:")
evaluate_model(svm_predictions, "Linear SVM")

print("\nVyhodnotenie Naive Bayes:")
evaluate_model(nb_predictions, "Naive Bayes")

print("\nVyhodnotenie Random Forest:")
evaluate_model(rf_predictions, "Random Forest")


4. Výpočet Ďalších Metrík
Pre MCC (Matthews Correlation Coefficient) a ďalšie metriky je možné vypočítať manuálne na základe confusion matrix. Tu je jednoduchý príklad pre binárny prípad; pre viactriedne problémy by bolo potrebné rozšíriť výpočet.

In [None]:
import numpy as np
import pandas as pd

# Funkcia pre výpočet MCC z confusion matrix pre binárny prípad
def compute_mcc(confusion_pd):
    # Predpokladáme, že confusion_pd má stĺpce: label, prediction, count
    # Najprv extrahujeme TP, TN, FP, FN – toto funguje len pre binárnu klasifikáciu
    # Upravte podľa potreby pre viac tried
    tp = confusion_pd[(confusion_pd['label'] == 1) & (confusion_pd['prediction'] == 1)]['count'].sum()
    tn = confusion_pd[(confusion_pd['label'] == 0) & (confusion_pd['prediction'] == 0)]['count'].sum()
    fp = confusion_pd[(confusion_pd['label'] == 0) & (confusion_pd['prediction'] == 1)]['count'].sum()
    fn = confusion_pd[(confusion_pd['label'] == 1) & (confusion_pd['prediction'] == 0)]['count'].sum()
    numerator = tp * tn - fp * fn
    denominator = np.sqrt((tp+fp)*(tp+fn)*(tn+fp)*(tn+fn))
    if denominator == 0:
        return 0
    return numerator/denominator

# Príklad pre Decision Tree (ak máte binárnu klasifikáciu)
dt_conf_df = dt_predictions.groupBy("Accident_Severity_Index", "prediction").count().toPandas()
print("Confusion matrix (Decision Tree):")
print(dt_conf_df)
# Ak je to viactriedna klasifikácia, MCC sa zvyčajne počíta inak.
# print("MCC (Decision Tree):", compute_mcc(dt_conf_df))


Zhrnutie
Tento návrh kódu rozširuje Váš pôvodný .ipynb súbor o:

Stratifikované sampling a rozdelenie dát.

Predspracovanie (transformácia kategórií, discretizácia numerických atribútov, nahradenie chýbajúcich hodnôt).

Výpočet informačného zisku pre vybraný atribút.

Vytvorenie K-means modelu a jednoduchú detekciu anomálií.

Viaceré klasifikačné modely (Decision Tree, Linear SVM, Naive Bayes, Random Forest) a ich vyhodnotenie pomocou confusion matrix a základných metrík.

Ak by ste chceli prebrať konkrétnu časť podrobnejšie alebo upraviť niektoré kroky, dajte vedieť, rád pomôžem ďalej.