Χατζηλίγος Γιώργος 4835 με 2 free passes

In [1]:
import pandas as pd
import numpy as np

from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import cross_validate, StratifiedKFold
from sklearn.metrics import make_scorer, accuracy_score, precision_score, recall_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier



df = pd.read_csv('Census_Data_cleaned_sample.csv')


In [2]:
#Make of target (y) and features (X)


df['target'] = (df['income'] > 50000).astype(int)


X = df.drop(columns=['income', 'target'])  # όλα τα υπόλοιπα πεδία
y = df['target']


In [3]:
X_dict = X.to_dict('records')

vec = DictVectorizer(sparse=False)
X_transformed = vec.fit_transform(X_dict)


In [21]:
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)

scoring = {
    'accuracy': make_scorer(accuracy_score),
    'precision': make_scorer(precision_score, average='macro'),  
    'recall': make_scorer(recall_score, average='macro')
}


decision_tree = DecisionTreeClassifier(random_state=0)
knn = KNeighborsClassifier()
logistic_regression = LogisticRegression(solver='liblinear', random_state=0)
svm = SVC(random_state=0)
mlp = MLPClassifier(solver='lbfgs',max_iter=10000, random_state=0)


#------------ Begin of Classifiers --------------#

# 4.1. Decision Tree
cv_scores_dt = cross_validate(
    estimator=decision_tree,
    X=X_transformed,
    y=y,
    cv=cv,
    scoring=scoring,
    return_train_score=False
)

dt_accuracy_mean = np.mean(cv_scores_dt['test_accuracy'])
dt_precision_mean = np.mean(cv_scores_dt['test_precision'])
dt_recall_mean    = np.mean(cv_scores_dt['test_recall'])

# 4.2. kNN
cv_scores_knn = cross_validate(
    estimator=knn,
    X=X_transformed,
    y=y,
    cv=cv,
    scoring=scoring,
    return_train_score=False
)

knn_accuracy_mean = np.mean(cv_scores_knn['test_accuracy'])
knn_precision_mean = np.mean(cv_scores_knn['test_precision'])
knn_recall_mean    = np.mean(cv_scores_knn['test_recall'])

# 4.3. Logistic Regression
cv_scores_logistic_regression = cross_validate(
    estimator=logistic_regression,
    X=X_transformed,
    y=y,
    cv=cv,
    scoring=scoring,
    return_train_score=False
)

logistic_regression_accuracy_mean = np.mean(cv_scores_logistic_regression['test_accuracy'])
logistic_regression_precision_mean = np.mean(cv_scores_logistic_regression['test_precision'])
logistic_regression_recall_mean    = np.mean(cv_scores_logistic_regression['test_recall'])

# 4.4. SVM
cv_scores_svm = cross_validate(
    estimator=svm,
    X=X_transformed,
    y=y,
    cv=cv,
    scoring=scoring,
    return_train_score=False
)

svm_accuracy_mean = np.mean(cv_scores_svm['test_accuracy'])
svm_precision_mean = np.mean(cv_scores_svm['test_precision'])
svm_recall_mean    = np.mean(cv_scores_svm['test_recall'])

# 4.5. MLP
cv_scores_mlp = cross_validate(
    estimator=mlp,
    X=X_transformed,
    y=y,
    cv=cv,
    scoring=scoring,
    return_train_score=False
)

mlp_accuracy_mean = np.mean(cv_scores_mlp['test_accuracy'])
mlp_precision_mean = np.mean(cv_scores_mlp['test_precision'])
mlp_recall_mean    = np.mean(cv_scores_mlp['test_recall'])


#------------ End of Classifiers --------------#


results = []

results.append({
    'Classifier': 'DecisionTree',
    'Accuracy': dt_accuracy_mean,
    'Precision': dt_precision_mean,
    'Recall': dt_recall_mean
})

results.append({
    'Classifier': 'kNN',
    'Accuracy': knn_accuracy_mean,
    'Precision': knn_precision_mean,
    'Recall': knn_recall_mean
})

results.append({
    'Classifier': 'LogisticRegression',
    'Accuracy': logistic_regression_accuracy_mean,
    'Precision': logistic_regression_precision_mean,
    'Recall': logistic_regression_recall_mean
})

results.append({
    'Classifier': 'SVM',
    'Accuracy': svm_accuracy_mean,
    'Precision': svm_precision_mean,
    'Recall': svm_recall_mean
})

results.append({
    'Classifier': 'MLP',
    'Accuracy': mlp_accuracy_mean,
    'Precision': mlp_precision_mean,
    'Recall': mlp_recall_mean
})

results_df = pd.DataFrame(results)
print("========================== Results ==============================")
print(results_df)


           Classifier  Accuracy  Precision    Recall
0        DecisionTree   0.72740   0.706374  0.706161
1                 kNN   0.76080   0.742446  0.738508
2  LogisticRegression   0.77515   0.760990  0.743906
3                 SVM   0.70610   0.687121  0.646919
4                 MLP   0.75720   0.741166  0.722473


Σχολιασμος Αποτελεσματων 

Accuracy = (Αρ.Σωστων Προβλεψεων) / (Συνολικος Αριθμος Δειγματων)

Precision = (True Positive) / (True Positive + False Positive)

Recall = True Positive) / (True Positive + False Negatives)

Γενικοτερη Ερμηνεια των Αποτελεσματων 



1.DecisionTree : 

Accuracy  : το μοντελο ταξινομει σωστα το 72%

Precision :το να προλεψει καποιον που εχει εισοδημα ανω 50Κ εχει ποσοστο 70%     

Recall: απο ολους αυτους που οντως εχουν ειδοδημα ανω 50Κ εχει ποσοστο 70%


2.kNN:

Accuracy  : το μοντελο ταξινομει σωστα το 75.96% το δευτερο μεγαλυτερο ποσοστο

Precision :το να προλεψει καποιον που εχει εισοδημα ανω 50Κ εχει ποσοστο 74.08% δηλαδη η προβλεψη θα ισχυει για αυτο το ποσοστο 

Recall: Αναγνωριζει απο ολους αυτους που οντως εχουν ειδοδημα ανω 50Κ το 73.79%


3.LogisticRegression:

Accuracy  : το μοντελο ταξινομει σωστα το 77.295% εχει το μεγαλυτερο ποσοστο

Precision :το να προλεψει καποιον που εχει εισοδημα ανω 50Κ εχει ποσοστο 75.88% δηλαδη η προβλεψη θα ισχυει για αυτο το ποσοστο αρκετα ικανοποιητικο

Recall: Αναγνωριζει απο ολους αυτους που οντως εχουν ειδοδημα ανω 50Κ το 73.07%



4.SVM:

Accuracy  : το μοντελο ταξινομει σωστα το 70.601% 

Precision :το να προλεψει καποιον που εχει εισοδημα ανω 50Κ εχει ποσοστο 68.7% δηλαδη η προβλεψη θα ισχυει για αυτο το ποσοστο 

Recall: Αναγνωριζει απο ολους αυτους που οντως εχουν ειδοδημα ανω 50Κ το 64.7%



5.MLP:

Accuracy  : το μοντελο ταξινομει σωστα το 72% 

Precision :το να προλεψει καποιον που εχει εισοδημα ανω 50Κ εχει ποσοστο 73% δηλαδη η προβλεψη θα ισχυει για αυτο το ποσοστο 

Recall: Αναγνωριζει απο ολους αυτους που οντως εχουν ειδοδημα ανω 50Κ το 69%


Την καλυτερη αποδοση την εχει ο LogisticRegression με τις τρεχουσες ρυθμισεις που εχω διοτι μπορει το προβλημα να ειναι γραμμικο και οι μετρικες precision και recall ειναι σχετικα κοντα η μια με τη αλλη 

Επισης εγιναν και δοκιμες για μεγαλυτερο n_splits = 10  για περισσοτερες επαναληψεις σε mlp με διαφορετα settings, τροποποιησεις χωρις μεγαλες αλλαγες που θα μπορουσαν να επιρεασουν το αποτελεσμα οπως average='macro' χωρις να επηρεασουν τα accuracy , precision και recall με αποτελεσματα: 
========================== Results ==============================
           Classifier  Accuracy  Precision   Recall
0        DecisionTree   0.73310   0.733864  0.73310
1                 kNN   0.76025   0.758540  0.76025
2  LogisticRegression   0.77305   0.769196  0.77305
3                 SVM   0.70630   0.697186  0.70630
4                 MLP   0.75635   0.751977  0.75635

In [29]:
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=20)

scoring = {
    'accuracy': make_scorer(accuracy_score),
    'precision': make_scorer(precision_score, average='macro'),
    'recall': make_scorer(recall_score, average='macro')
}

random_forest = RandomForestClassifier(
    n_estimators=100,
    max_depth=5,
    min_samples_split=5,
    random_state=20
)

gradient_boosting = GradientBoostingClassifier(
    n_estimators=100,
    learning_rate=0.05,
    max_depth=5,
    subsample=1,
    random_state=20
)




def evaluate_classifier(classifier, classifier_name):
    cv_scores = cross_validate(
        estimator=classifier,
        X=X_transformed,
        y=y,
        cv=cv,
        scoring=scoring,
        return_train_score=False
    )
    
    acc_mean   = np.mean(cv_scores['test_accuracy'])
    prec_mean  = np.mean(cv_scores['test_precision'])
    rec_mean   = np.mean(cv_scores['test_recall'])
    
    return {
        'Classifier': classifier_name,
        'Accuracy': acc_mean,
        'Precision': prec_mean,
        'Recall': rec_mean
    }

#RandomForest
res_randomforest = evaluate_classifier(random_forest, "RandomForest ")

#GradientBoosting
res_gradient = evaluate_classifier(gradient_boosting, "GradientBoosting ")

res = [res_randomforest, res_gradient]
res_df = pd.DataFrame(res)
print("========================== Classifiers ==============================")
print(res_df)


          Classifier  Accuracy  Precision    Recall
0      RandomForest    0.76115   0.768544  0.702114
1  GradientBoosting    0.79695   0.783904  0.771897


Δυο ακομη Classifiers που χρησιμοπιηθηκαν για καλυτερη αποδοση στο προβλημα ηταν 

1.RandomForest ο οποιος δημιουργει δεντρα αποφασης και λαμβανει αυτη μεσω πλειοψηφιας ψηφου
και εκπαιδευει τα δεδομενα σε υποσυνολα .

2.GradientBoosting ο οποιος οπου χτιζει δεντρα για να βελτιωσει τα λαθη του προηγουμενου

Επισης θα μπορουσαμε να χρησιμοποιησουμε και αλλους classifiers που μοιαζουν να πετυχαινει καλυτερη αποδοση με γραμμικους Classifiers απο τα παραπανω αποτελεσματα . Δοκιμασα και τον Ridge και τον LDA χωρις ομως να δω καποια σπουδαια αλλαγη οι οποιοι λυνουν με καλυτερη αποδοση γραμμικα προβληματα.


In [30]:
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)

scoring = {
    'accuracy': make_scorer(accuracy_score),
    'precision': make_scorer(precision_score, average='weighted'),
    'recall': make_scorer(recall_score, average='weighted')
}


mlp = MLPClassifier(
    solver='adam',
    hidden_layer_sizes=(60,50,40),
    alpha=0.1,
    activation='relu',
    max_iter=10000,
    random_state=0
)


cv_scores_mlp_mod = cross_validate(
    estimator=mlp,
    X=X_transformed,
    y=y,
    cv=cv,
    scoring=scoring,
    return_train_score=False
)

mlp_accuracy = np.mean(cv_scores_mlp_mod['test_accuracy'])
mlp_precision = np.mean(cv_scores_mlp_mod['test_precision'])
mlp_recall = np.mean(cv_scores_mlp_mod['test_recall'])


res_mlp = {
    'Classifier': 'MLP ',
    'Accuracy': mlp_accuracy,
    'Precision': mlp_precision,
    'Recall': mlp_recall
}

print("========================== Results ============================")
print(pd.DataFrame([res_mlp]))




  Classifier  Accuracy  Precision   Recall
0       MLP    0.73515   0.744824  0.73515


Εκανα δοκιμη για ενα πιο βαθυ νευρωνικο δικτυο με τροποποιησεις αρχικα στους νευρωνες (πχ [10 , 20] , [10 , 20 ,10] κτλπ), επειτα στο βαθος του (πχ με 2,3,4 κρυφα επιπεδα) και διαφορετικους solvers και activation οπως relu και tanh συναρτησεις οπως adam και και το αποτελεσματα δεν ηταν τοσο ικανοποιητικα οπως φαινεται 