In [15]:
import numpy as np 
import pandas as pd 
from sklearn.metrics import confusion_matrix 
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier 
from sklearn.metrics import accuracy_score 
from sklearn.metrics import classification_report 
  

def importdata(): 
    balance_data = pd.read_csv( 
'https://archive.ics.uci.edu/ml/machine-learning-'+
'databases/balance-scale/balance-scale.data', 
    sep= ',', header = None) 
      
   # Wypisanie zestawu danych
    print ("Długość zestawu danych: ", len(balance_data)) 
    print ("Kształt zestawu danych: ", balance_data.shape) 
    print ("Zestaw danych: \n ",balance_data.head()) 
    return balance_data 
  
# Funkcja dzielenia zestawu danych
def splitdataset(balance_data): 
  
    # Rozdzielanie zmiennej docelowej
    X = balance_data.values[:, 1:5] 
    Y = balance_data.values[:, 0] 
  
    # Podział zbioru danych do trenowania i testowania
    X_train, X_test, y_train, y_test = train_test_split(  
    X, Y, test_size = 0.3, random_state = 100) 
      
    return X, Y, X_train, X_test, y_train, y_test 
      
#Funkcja wykonywania treningu z Gini Index.
def train_using_gini(X_train, X_test, y_train): 
  
    # Tworzenie obiektu klasyfikatora
    clf_gini = DecisionTreeClassifier(criterion = "gini", 
            random_state = 100,max_depth=3, min_samples_leaf=5) 
  
    # Wykonywanie treningu
    clf_gini.fit(X_train, y_train) 
    return clf_gini 
      
# Funkcja wykonywania treningu z entropią. 
def tarin_using_entropy(X_train, X_test, y_train): 
  
    # Drzewo decyzyjne z entropią
    clf_entropy = DecisionTreeClassifier( 
            criterion = "entropy", random_state = 100, 
            max_depth = 3, min_samples_leaf = 5) 
  
    # Wykonywanie treningu
    clf_entropy.fit(X_train, y_train) 
    return clf_entropy 

  
# Funkcja do prognozowania
def prediction(X_test, clf_object): 
  
    # Predicton on test with giniIndex 
    y_pred = clf_object.predict(X_test) 
    print("Prognozowane wartości:") 
    print(y_pred) 
    return y_pred 
      
# Funkcja do obliczania dokładności
def cal_accuracy(y_test, y_pred): 
      
    print("Macierz błędów : ", 
        confusion_matrix(y_test, y_pred)) 
      
    print ("Precyzja : ", 
    accuracy_score(y_test,y_pred)*100) 
      
    print("Raport : ", 
    classification_report(y_test, y_pred)) 
    
    
def main(): 
      
    # Faza budowy
    data = importdata() 
    X, Y, X_train, X_test, y_train, y_test = splitdataset(data) 
    clf_gini = train_using_gini(X_train, X_test, y_train) 
    clf_entropy = tarin_using_entropy(X_train, X_test, y_train) 
      
    # Faza operacyjna
    print("Wyniki przy użyciu indeksu Gini:") 
      
   # Prognozowanie za pomocą gini
    y_pred_gini = prediction(X_test, clf_gini) 
    cal_accuracy(y_test, y_pred_gini) 
      
    print("Wyniki przy użyciu Entropii:") 
    # Prognozowanie za pomocą entropii
    y_pred_entropy = prediction(X_test, clf_entropy) 
    cal_accuracy(y_test, y_pred_entropy) 
      
# Wywołanie głównej funkcji
if __name__=="__main__": 
    main()

Długość zestawu danych:  625
Kształt zestawu danych:  (625, 5)
Zestaw danych: 
     0  1  2  3  4
0  B  1  1  1  1
1  R  1  1  1  2
2  R  1  1  1  3
3  R  1  1  1  4
4  R  1  1  1  5
Wyniki przy użyciu indeksu Gini:
Prognozowane wartości:
['R' 'L' 'R' 'R' 'R' 'L' 'R' 'L' 'L' 'L' 'R' 'L' 'L' 'L' 'R' 'L' 'R' 'L'
 'L' 'R' 'L' 'R' 'L' 'L' 'R' 'L' 'L' 'L' 'R' 'L' 'L' 'L' 'R' 'L' 'L' 'L'
 'L' 'R' 'L' 'L' 'R' 'L' 'R' 'L' 'R' 'R' 'L' 'L' 'R' 'L' 'R' 'R' 'L' 'R'
 'R' 'L' 'R' 'R' 'L' 'L' 'R' 'R' 'L' 'L' 'L' 'L' 'L' 'R' 'R' 'L' 'L' 'R'
 'R' 'L' 'R' 'L' 'R' 'R' 'R' 'L' 'R' 'L' 'L' 'L' 'L' 'R' 'R' 'L' 'R' 'L'
 'R' 'R' 'L' 'L' 'L' 'R' 'R' 'L' 'L' 'L' 'R' 'L' 'R' 'R' 'R' 'R' 'R' 'R'
 'R' 'L' 'R' 'L' 'R' 'R' 'L' 'R' 'R' 'R' 'R' 'R' 'L' 'R' 'L' 'L' 'L' 'L'
 'L' 'L' 'L' 'R' 'R' 'R' 'R' 'L' 'R' 'R' 'R' 'L' 'L' 'R' 'L' 'R' 'L' 'R'
 'L' 'L' 'R' 'L' 'L' 'R' 'L' 'R' 'L' 'R' 'R' 'R' 'L' 'R' 'R' 'R' 'R' 'R'
 'L' 'L' 'R' 'R' 'R' 'R' 'L' 'R' 'R' 'R' 'L' 'R' 'L' 'L' 'L' 'L' 'R' 'R'
 'L' 'R' 'R' 'L' 'L' 'R' 'R' 'R

  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
