In [None]:
#!/usr/bin/env python
# coding: utf-8

# Author: Daniele Berto
# 
# SID: 1163243
#
# In questo lavoro, provo ad utilizzare la classe DecisionTreeClassifier su due set di dati abbastanza noti:
# MNIST e il TITANIC dataset
#
# Con MNIST, l'albero di decisione che viene creato da sklearn con impostazioni di default, dà risultati interessanti.
# Infatti, nel test set riesce ad avere una precisione superiore all'80% (a fronte del 10% che darebbe una selezione casuale).
# 
# Tuttavia, penso che il MNIST dataset non sia un bel campo di applicazione per un dt.
#
# Un punto di forza di questo metodo è quello di creare una struttura intelleggibile. Non ha molto senso, secondo me,
# utilizzare un dt valutando ad ogni nodo il "grigiore" dei pixel. Funziona in modo apprezzabile, certo, ma, probabilmente,
# ci sono campi di applicazione migliori.
#
# Secondo me il TITANIC dataset è un campo migliore in cui usare un decision tree. Quello che ho creato si può sicuramente
# migliorare molto.
#
# E' stato interessante perché mi sono dovuto subito confrontare con il concetto di bias: quali sono, infatti, gli attributi
# rilevanti dei passeggeri per valutare se sono sopravvissuti o no?
#
# Alcuni attributi possono nascondere informazioni rilevanti, come la collacazione nella nave mediante il numero del
# biglietto.
#
# La conoscenza settoriale e quella del Machine Learning si devono per forza incontrare per ottenere una buona soluzione
#
# Quella che propongo non è secondo me una buona soluzione: nel test set ha una precisione di solo il 75% circa.
# Considerando che la maggior parte dei passeggeri sono morti, è probabile che la funzione costante "predict(idPassenger)
# = dead for each idPassenger" abbia una precisione paragonabile.
#
# Tuttavia, sono convinto che, con un dt sul TITANIC dataset, si possa far molto meglio e sono convinto che un decision
# tree possa essere un valido strumento per problemi come questo.
#
# Date: 2020/10/28

import numpy as np
import math
import random
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import tree

In [None]:
#loading MNIST dataset
mnist_train = pd.read_csv("../input/mnist-in-csv/mnist_train.csv")
mnist_test = pd.read_csv("../input/mnist-in-csv/mnist_test.csv")

In [None]:
array_train = mnist_train.values
y_train = array_train[:,0]
X_train = array_train[:,1:]

clf = tree.DecisionTreeClassifier()
clf = clf.fit(X_train, y_train)

array_test = mnist_test.values

y_test = array_test[:,0]

X_test = array_test[:,1:]

mnist_prediction = clf.predict(X_test)

mismatching_count = 0

for i in range(len(y_test)):
    if y_test[i] != mnist_prediction[i]:
       mismatching_count+=1

In [None]:
matching = len(y_test) - mismatching_count

In [None]:
precision = matching/len(y_test)

print(precision)

In [None]:
titanic_train = pd.read_csv("../input/titanic-cleaned-data/train_clean.csv")

In [None]:
titanic_train.loc[titanic_train['Sex'] == 'male', 'Sex'] = 0
titanic_train.loc[titanic_train['Sex'] == 'female', 'Sex'] = 1

titanic_array = titanic_train.values

#Splitting the array between training set and test set
#I underline that, during the official competition, there was a specific test set
#with the survived column left blank.

titanic_train_array = titanic_array[0:500,:]
titanic_test_array = titanic_array[500:,:]

In [None]:
titanic_train

In [None]:
#I've decided to use these features:
#Age (0), Fare(3), Parch(5), Pclass(7), Sex(8), SibSp(9) and family_size(13)

titanic_train_X = titanic_train_array[:,[0,3,5,7,8,9,13]]
titanic_train_X= titanic_train_X.astype('float')
titanic_train_y = titanic_train_array[:,[10]]
titanic_train_y= titanic_train_y.astype('float')

titanic_test_X = titanic_test_array[:,[0,3,5,7,8,9,13]]
titanic_test_X = titanic_test_X.astype('float')
titanic_test_y = titanic_test_array[:,[10]]
titanic_test_y = titanic_test_y.astype('float')

In [None]:
titanic_test_y = titanic_test_y[:,0]

In [None]:
titanicf = tree.DecisionTreeClassifier()
titanicf = titanicf.fit(titanic_train_X, titanic_train_y)

titanic_prediction = titanicf.predict(titanic_test_X)

mismatching_count = 0

#mismatching_count
for i in range(len(titanic_test_y)):
    if titanic_test_y[i] != titanic_prediction[i]:
       mismatching_count+=1

In [None]:
matching = len(titanic_test_y) - mismatching_count

In [None]:
precision = matching/len(titanic_test_y)

print(precision)