In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_text
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn import tree

In [None]:
# Učitavanje dataset-a
data = {
    'Maticna planeta': ['Earth', 'Europa', 'Europa', 'Europa', 'Mars', 'Earth', 'Mars', 'Earth', 'Mars', 'Earth', 'Earth', 'Earth', 'Earth', 'Earth', 'Earth', 'Earth', 'Europa', 'Earth', 'Europa', 'Mars', 'Mars', 'Europa', 'Earth', 'Earth'],

    'Kabina': ['F/0/5', 'B/1/P', 'B/1/P', 'B/1/P', 'F/1/P', 'G/1/S', 'F/3/P', 'F/4/P', 'F/5/P', 'G/0/P', 'F/6/P', 'E/0/S', 'E/0/S', 'E/0/S', 'E/0/S', 'E/0/S', 'C/2/S', 'F/6/S', 'C/0/P', 'F/9/P', 'F/9/P', 'D/1/S', 'G/3/P', 'G/7/S'],

    'Destinacija': ['TRAPPIST-1e', '55 Cancri e', 'TRAPPIST-1e', '55 Cancri e', 'TRAPPIST-1e', 'TRAPPIST-1e', '55 Cancri e', '55 Cancri e', 'TRAPPIST-1e', 'TRAPPIST-1e', '55 Cancri e', 'TRAPPIST-1e', '55 Cancri e', 'TRAPPIST-1e', 'PSO J318.5-22', 'TRAPPIST-1e', 'TRAPPIST-1e', 'TRAPPIST-1e', '55 Cancri e', 'TRAPPIST-1e', 'TRAPPIST-1e', '55 Cancri e', 'PSO J318.5-22', 'PSO J318.5-22'],

    'Starost': [24, 14, 34, 45, 32, 48, 27, 24, 45, 0, 14, 1, 49, 10, 1, 7, 62, 15, 34, 47, 2, 28, 21, 36],

    'VIP': [False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False],

    'Ime': ['Juanna Vines', 'Erraiam Flatic', 'Altmair Flatic', 'Wezena Flatic', 'Berens Barne', 'Rensey Baketton', 'Flats Eccle', 'Carry Hugh', 'Alus Upread',  'Lyde Brightt', 'Philda Brightt', 'Almary Bratmaez', 'Glendy Bratmaez', 'Brenley Jacostanley', 'Mael Brantuarez', 'Terta Mcfaddemnon', 'Penton Fullided', 'Karard Brookenson', 'Anoyoni Unconsary', 'Coobix Datie', 'Cinets Datie', 'Ziba Qingwhedly', 'Cassa Cooperlandez', 'Warry Ayalazquez'],

    'Da li je prevezen': [True, True, True, True, True, False, False, False, True, True, False, False, False, True, False, False, True, False, False, True, True, True, True, False]
}

df = pd.DataFrame(data)

In [None]:
# Predprocesiranje podataka (kodiranje kategoričkih varijabli ili normalizacija numeričkih varijabli)
label_encoder = LabelEncoder()
df['Maticna planeta'] = label_encoder.fit_transform(df['Maticna planeta']) #kodiranje 'Maticna' Planeta kolone
df['Kabina'] = label_encoder.fit_transform(df['Kabina']) #Kodiranje 'Kabina' kolone
df['Destinacija'] = label_encoder.fit_transform(df['Destinacija']) #Kodiranje 'Destinacija' kolone


In [None]:
# Ispis kodiranog dataset-a
df

In [None]:
# Podjela podataka na skupove za treniranje i testiranje

X = df.drop(['Da li je prevezen', 'Ime'], axis=1)
y = df['Da li je prevezen']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.25, random_state=17)

In [None]:
''''''
from sklearn.feature_selection import SelectKBest, f_classif
selector = SelectKBest(score_func=f_classif, k=3)
X_train_selected = selector.fit_transform(X_train, y_train)
X_test_selected = selector.transform(X_test)
''''''

In [None]:
X_train

In [None]:
X_train_selected

In [None]:
# Izgradnja stabla odlučivanja i klasifikacija
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

In [None]:
# Pretvaranje indeksa u listu
feature_names = list(X.columns)

# Ispis stabla odlučivanja
tree_text = export_text(clf, feature_names=feature_names)
print(tree_text)

In [None]:
# Ispis stabla odlučivanja
fig = plt.figure(figsize=(20, 20))
_ = tree.plot_tree(clf, feature_names=X.columns, class_names=['False', 'True'], filled=True)
plt.show()

In [None]:
# Predviđanje testnog skupa (PREDIKCIJA)
y_pred = clf.predict(X_test)
y_pred

In [None]:
# Tačnost predikcije
accuracy = accuracy_score(y_test, y_pred)
print("Tačnost predikcije: ", accuracy)

In [None]:
# Matrica konfuzije
cm = confusion_matrix(y_test, y_pred)
print("Matrica konfuzije:\n", cm)

In [None]:
report = classification_report(y_test, y_pred)
print("Izvještaj klasifikacije:\n", report)

In [None]:
# Filterovana predikcija

# Filtriranje podataka za putnike iz matične planete Europa i koji nisu VIP
filtered_data = df[(df['Maticna planeta'] == 0) & (df['VIP'] == False)]
# Izdvajanje karakteristika za klasifikaciju
X_pred = filtered_data.drop(['Da li je prevezen', 'Ime'], axis=1)

# Napravi predikciju
y_pred = clf.predict(X_pred)

# Ispis predikcija
print(y_pred)

In [None]:
# Izvršavanje klasifikacije nad jednim podatkom
new_data = {
    'Maticna planeta': [0],
    'Kabina': [4],
    'Destinacija': [7],
    'Starost': [28],
    'VIP': [False],
    'Ime': ['John Doe'],
    'Da li je prevezen': [False]
}

# Pretvaranje riječnika u DataFrame
new_data_df = pd.DataFrame(new_data)

# Izdvajanje karakteristika za predikciju
X_new = new_data_df.drop(['Da li je prevezen', 'Ime'], axis=1)

# Izvršavanje predikcije na novim podacima
y_new_pred = clf.predict(X_new)

# Ispis predikcije
print("Da li će osoba biti pronađena: ", y_new_pred)