In [None]:
# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sb
import os
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from collections import Counter

In [None]:
# Caminho do dataset
path = 'C:/Users/Thiago/Documents/CSV/felicidade_2017.csv'

In [None]:
# Criando o dataframe
df = pd.read_csv(path)

In [None]:
# Renomeando as colunas
df.columns = 'Pais Ranking Pontuação wh wl PIB Familia Exp_vida Liberdade Generosidade Confiança_governo Distopia_residual'.split()

In [None]:
# Excluindo duas colunas redundantes
df.drop(['wh','wl','Familia'],axis=1,inplace=True)

In [None]:
# Visualizando os 5 primeiros registros
df.head()

In [None]:
# Scatter plot de duas colunas do dataframe
sb.jointplot(x=df['PIB'],y=df['Pontuação'],kind='scatter');

In [None]:
# Heatmap de correlação entre as variáveis
plt.figure(figsize=(12,8))
sb.heatmap(df.corr(),annot=True,cmap='magma',fmt='.2f')
plt.title('Heatmap de correlação')
plt.xticks(rotation=45)
plt.tight_layout()

In [None]:
# Pair plot das variáveis: Score, PIB e expectativa de vida
sb.pairplot(df, 
            vars = ['Pontuação','Exp_vida','Confiança_governo'],
            diag_kind ='kde',
            plot_kws = {'alpha': 0.4, 's': 80, 'edgecolor': 'k'},
            size=3.5);
plt.savefig('pairplot.png',dpi=70)

In [None]:
# KDE das variáveis: Score e PIB
sb.jointplot(x=df['Score'],y=df['PIB'],kind='kde');

In [None]:
# Função para classificar os países pelo seu score
# Se score >= media(score) = país feliz
# Senão = país triste
def Rotular(df):
    lista_target = []
    for score in df['Pontuação']:
        if score >= df['Pontuação'].mean():
            lista_target.append(1)
        else:
            lista_target.append(0)
    return lista_target

# Criando uma nova coluna no dataframe
df['Target'] = Rotular(df)

In [None]:
# Contagem de países felizes e infelizes
sb.countplot(df['Target'])
plt.title('0 - Infeliz | 1 - Feliz')
plt.ylabel('Contagem')

In [None]:
# Divide os dados em características e varíavel preditiva
# onde X são as características (Score, PIB, etc..)
# e y é o Target
def SplitData():
    X = np.array([])
    y = np.array([])
    
    X = df.drop(['Pais','Ranking','Target'],axis=1)
    y = df['Target']
    
    # Não é necessário, pois os dados já estão na mesma escala
    #X = MinMaxScaler().fit_transform(X)
    
    return X,y

X,y = SplitData()

In [None]:
# Dividindo os dados em 70% para treinamento e 30% para teste
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.3)

In [None]:
# Print das divisões
print('Total de amostras:', X.shape[0])
print('Amostras p/ treino:', X_train.shape[0])
print('Amostras p/ teste:', X_test.shape[0])

In [None]:
# Print da distribuição dos países
print('Países felizes/infelizes p/ treino:',Counter(y_train))
print('Paiíses infelizes/felizes p/ teste:',Counter(y_test))

In [None]:
# Definindo o modelo. profundidade da árvore = 3
model = DecisionTreeClassifier(max_depth=3)

In [None]:
# Treinando o modelo
model.fit(X_train,y_train);

In [None]:
# Armazenando as predições
y_pred = model.predict(X_test)

In [None]:
# Comparativo dos valores reais contra as predições
for real,predito in zip(y_test,y_pred):
    print('Real:{} | Predito:{}'.format(real,predito))

In [None]:
# Acurácia no treinamento e no teste
print('Acurácia treino:',model.score(X_train,y_train))
print('Acurácia teste:',model.score(X_test,y_test))

In [None]:
# Relatório de classificação
print('| Classification Report |\n')
print(classification_report(y_test,y_test))

In [None]:
# Matriz de confusão
print('| Matriz de confusão |\n')
print(pd.crosstab(y_test, y_pred, rownames=['Real'], colnames=['Predito'], margins=True))

In [None]:
# https://www.linkedin.com/in/thiagomunich