### Base de dados census

In [1]:
import pandas as pd

df = pd.read_csv("../input/adult-census-income/adult.csv")

In [2]:
df.head(3)

Unnamed: 0,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,90,?,77053,HS-grad,9,Widowed,?,Not-in-family,White,Female,0,4356,40,United-States,<=50K
1,82,Private,132870,HS-grad,9,Widowed,Exec-managerial,Not-in-family,White,Female,0,4356,18,United-States,<=50K
2,66,?,186061,Some-college,10,Widowed,?,Unmarried,Black,Female,0,4356,40,United-States,<=50K


Temos 14 colunas presentes no dataset fornecido, sendo 13 delas variáveis características (dados de entrada) e um delas uma variável-alvo (que queremos que o nosso modelo seja capaz de prever).

As variáveis características são:

    age             - A idade do usuário
    Workclass       - Profissão do usuário
    final-weight    - Renda final do usuário
    education       - Educação do usuário
    education-num   - ID da educação do usuário
    marital-status  - Estado-civil do usuário
    occupation      - Ocupação do usuário
    relationship    - Relacionamento do usuário
    race            - Raça do usuário
    sex             - Sexo do usuário
    capital-gain    - Capital ganho
    capital-loss    - Capital perdido
    hour-per-week   - Horas por semana
    native-country  - Cidade natal

A variável-alvo é:

    income    - um tipo *binário* que indica a renda do usuário: 
            <=50k      - Usuário com renda menor ou igual a 50000
             >50k      - Usuário com renda maior a 50000

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education.num   32561 non-null  int64 
 5   marital.status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital.gain    32561 non-null  int64 
 11  capital.loss    32561 non-null  int64 
 12  hours.per.week  32561 non-null  int64 
 13  native.country  32561 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


É notado que existem variáveis do tipo ``float64`` (números "decimais"), variáveis do tipo ``int64`` (números inteiros) e do tipo ``object`` (nesse caso são *strings*, ou texto). 

Como a maioria dos algoritmos de aprendizado estatístico supervisionado só aceita valores numéricos como entrada, é necessário então o pré-processamento das variáveis do tipo "object" antes de usar esse dataset como entrada para o treinamento de um modelo.

A função ``describe()`` gera várias informações sobre as variáveis numéricas que também podem ser úteis:

In [4]:
df.describe()

Unnamed: 0,age,fnlwgt,education.num,capital.gain,capital.loss,hours.per.week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


### Definição das features do nosso modelo
Para isso, criaremos a váriavel X que receberá as variáveis características do nosso modelo, e a variavel y que receberá a variável-alvo do nosso modelo.

Também retiraremos as colunas 'clientid' que não terá relevância no nosso modelo

In [5]:
# Checando as colunas do nosso dataset
df.columns

Index(['age', 'workclass', 'fnlwgt', 'education', 'education.num',
       'marital.status', 'occupation', 'relationship', 'race', 'sex',
       'capital.gain', 'capital.loss', 'hours.per.week', 'native.country',
       'income'],
      dtype='object')

In [6]:
# Definição das colunas que serão features (nota-se que a coluna 'clientid' não está presente)
features = [
    'age', 'workclass', 'fnlwgt', 'education', 'education.num',
    'marital.status', 'occupation', 'relationship', 'race', 'sex',
    'capital.gain', 'capital.loss', 'hours.per.week', 'native.country'
]

# Definição da variável-alvo
target = ["income"]

# Preparação dos argumentos para os métodos da biblioteca ``scikit-learn``
X = df[features].values
y = df[target].values

### Tratamento de variáveis categóricas

Como mencionado antes, os computadores não são bons com variáveis "categóricas" (ou strings).

Dado uma coluna com variável categórica, o que podemos realizar é a codificação dessa coluna em múltiplas colunas contendo variáveis binárias. Esse processo é chamado de "one-hot-encoding" ou "dummy encoding".

In [7]:
from sklearn.preprocessing import LabelEncoder

lbp = LabelEncoder()

In [8]:
# Parte da transformação de categóricos para inteiros

X[:, 1] = lbp.fit_transform(X[:, 1])

X[:, 3] = lbp.fit_transform(X[:, 3])

X[:, 5] = lbp.fit_transform(X[:, 5])

X[:, 6] = lbp.fit_transform(X[:, 6])

X[:, 7] = lbp.fit_transform(X[:, 7])
X
X[:, 8] = lbp.fit_transform(X[:, 8])

X[:, 9] = lbp.fit_transform(X[:, 9])

X[:, 13] = lbp.fit_transform(X[:, 13])

###### Checando se os dados foram alterados das três primeiras linhas

In [9]:
df.head(3)

Unnamed: 0,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,90,?,77053,HS-grad,9,Widowed,?,Not-in-family,White,Female,0,4356,40,United-States,<=50K
1,82,Private,132870,HS-grad,9,Widowed,Exec-managerial,Not-in-family,White,Female,0,4356,18,United-States,<=50K
2,66,?,186061,Some-college,10,Widowed,?,Unmarried,Black,Female,0,4356,40,United-States,<=50K


In [10]:
X[0:3]

array([[90, 0, 77053, 11, 9, 6, 0, 1, 4, 0, 0, 4356, 40, 39],
       [82, 4, 132870, 11, 9, 6, 4, 1, 4, 0, 0, 4356, 18, 39],
       [66, 0, 186061, 15, 10, 6, 0, 4, 2, 0, 0, 4356, 40, 39]],
      dtype=object)

Dados alterados :D

#### Escalonamento dos dados númericos
Como podemos ver nos dados há uma grande diferença de números altos e números baixos, por isso devemos fazer o escalonamento dos dados para deixa-los na mesma escala.

In [11]:
from sklearn.preprocessing import StandardScaler

In [12]:
scaler = StandardScaler()

In [13]:
X = scaler.fit_transform(X)

In [14]:
X

array([[ 3.76961234, -2.65732045, -1.06799736, ..., 10.59350656,
        -0.03542945,  0.29156857],
       [ 3.18311167,  0.09005041, -0.53916866, ..., 10.59350656,
        -1.81720429,  0.29156857],
       [ 2.01011032, -2.65732045, -0.03521956, ..., 10.59350656,
        -0.03542945,  0.29156857],
       ...,
       [ 0.10398314,  0.09005041, -0.33543266, ..., -0.21665953,
        -0.03542945,  0.29156857],
       [ 1.42360965,  0.09005041, -0.35877741, ..., -0.21665953,
        -0.03542945,  0.29156857],
       [-1.21564337,  0.09005041,  0.11095988, ..., -0.21665953,
        -1.65522476,  0.29156857]])

### Treinando os modelos de classificação
Finalizado o pré-processamento, já temos o conjunto de dados no formato necessário para o treinamento do nosso modelo

### Importações dos algoritmos de ML

In [15]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
# Redes neurais com keras
import keras
from keras.models import Sequential
from keras.layers import Dense

#### Separando o dataset em um conjunto de treino e um conjunto de teste
Iremos separar o dataset fornecido em dois grupos: um para treinar nosso modelo, e outro para testarmos o resultado através de um teste cego.

In [16]:
# Separação dos dados em um conjunto de treino e um conjunto de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

### Naive Bayes 
O algoritmo Naive Bayes é um algoritmo simples de classificação, que utiliza dados históricos para prever a classificação de um novo dado. Ele funciona calculando a probabilidade de um evento ocorrer dado que outro evento já ocorreu

In [17]:
nb = GaussianNB()

In [18]:
# Parte do treinamento
nb.fit(X_train, y_train)
# Parte do teste, predict serve para testar
y_pred_nb = nb.predict(X_test)

  return f(*args, **kwargs)


In [19]:
# Acurácia alcançada pelo algortimo Naive Bayes
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_nb), 2)))

Acurácia: 80.0%


In [20]:
print(classification_report(y_test, y_pred_nb))

              precision    recall  f1-score   support

       <=50K       0.82      0.95      0.88      6193
        >50K       0.68      0.33      0.44      1948

    accuracy                           0.80      8141
   macro avg       0.75      0.64      0.66      8141
weighted avg       0.79      0.80      0.78      8141



In [21]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_nb)

array([[5899,  294],
       [1311,  637]])

#### Resultados Finais do algoritmo Naive Bayes
Tive que fazer vários testes cada um com a transformação diferente, e cheguei a estes resultados:

    47,67% Naive Bayes (labelencoder + onehotencoder + escalonamento)
    79,52% Naive Bayes (labelencoder)
    79,50% Naive Bayes (labelencoder + onehotencoder)
    80,57% Naive Bayes (labelencoder + escalonamento)

### Decision Tree
O algoritmo Decision Tree são modelos estatísticos que utilizam um treinamento supervisionado para a classificação e previsão de dados, Estes modelos utilizam a estratégia de dividir para conquistar: um problema complexo é decomposto em sub-problemas mais simples e recursivamente esta técnica é aplicada a cada sub-problema

In [22]:
dt = DecisionTreeClassifier(criterion='entropy', random_state = 0)

In [23]:
dt.fit(X_train, y_train)

DecisionTreeClassifier(criterion='entropy', random_state=0)

In [24]:
y_pred_dt = dt.predict(X_test)

In [25]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_dt), 2)))

Acurácia: 82.0%


In [26]:
print(classification_report(y_test, y_pred_dt))

              precision    recall  f1-score   support

       <=50K       0.88      0.88      0.88      6193
        >50K       0.62      0.62      0.62      1948

    accuracy                           0.82      8141
   macro avg       0.75      0.75      0.75      8141
weighted avg       0.82      0.82      0.82      8141



In [27]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_dt)

array([[5444,  749],
       [ 732, 1216]])

#### Resultados Finais do algoritmo Decision Tree
Fiz vários testes porém com o algoritmo Decision Tree não houve tanta diferença nos resultados, como podemos observar abaixo:

    81,02% Árvore de decisão (labelencoder + onehotencoder + escalonamento)
    81,28% Árvore de decisão (labelencoder)
    81,02% Árvore de decisão (labelencoder + onehotencoder)
    81,28% Árvore de decisão (labelencoder + escalonamento) 

### Random Forest
O algoritmo Random Forest cria uma floresta de um modo aleatório, criando várias árvores de decisão e as combinando,cada árvore tenta estimar uma classificação e isso é chamado como “voto”, assim, para obter uma predição com maior acurácia e mais estável.

In [28]:
rf = RandomForestClassifier(n_estimators=40, criterion= 'entropy', random_state= 0)

In [29]:
rf.fit(X_train, y_train)

  """Entry point for launching an IPython kernel.


RandomForestClassifier(criterion='entropy', n_estimators=40, random_state=0)

In [30]:
y_pred_rf = rf.predict(X_test)

In [31]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_rf), 2)))

Acurácia: 85.0%


In [32]:
print(classification_report(y_test, y_pred_rf))

              precision    recall  f1-score   support

       <=50K       0.88      0.94      0.91      6193
        >50K       0.74      0.60      0.66      1948

    accuracy                           0.85      8141
   macro avg       0.81      0.77      0.79      8141
weighted avg       0.85      0.85      0.85      8141



In [33]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_rf)

array([[5793,  400],
       [ 783, 1165]])

#### Resultados Finais do algoritmo Random Forest
No algoritmo Random Forest como já era esperado, não houve tanta diferença, e cheguei a estes resultados:
    
    84.76% Random Forest (labelencoder + onehotencoder + escalonamento)
    84.81% Random Forest (labelencoder)
    84.89% Random Forest (labelencoder + onehotencoder)
    84.79% Random Forest (labelencoder + escalonamento)

### kNN (Vizinhos mais próximos)
O algoritmo KNN ou k-vizinhos mais próximos é um algoritmo bem simples de machine learning. Ele usa algum tipo de medida de similaridade para dizer em qual classe o novo dado se classifica, neste caso utilizaremos 5 vizinhos mais próximos.

In [34]:
knn = KNeighborsClassifier(n_neighbors=5, metric = 'minkowski', p = 2)

In [35]:
knn.fit(X_train, y_train)

  return self._fit(X, y)


KNeighborsClassifier()

In [36]:
y_pred_knn = knn.predict(X_test)

In [37]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_knn), 2)))

Acurácia: 83.0%


In [38]:
print(classification_report(y_test, y_pred_knn))

              precision    recall  f1-score   support

       <=50K       0.87      0.91      0.89      6193
        >50K       0.66      0.58      0.62      1948

    accuracy                           0.83      8141
   macro avg       0.77      0.74      0.75      8141
weighted avg       0.82      0.83      0.83      8141



In [39]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_dt)

array([[5444,  749],
       [ 732, 1216]])

#### Resultados Finais do algoritmo kNN
Aqui podemos observar que houve diferença dos resultados, com os testes feitos cheguei a estes resultados:
    
    82.23% kNN  (labelencoder + onehotencoder + escalonamento)
    77.46% kNN (labelencoder)
    77.60% kNN  (labelencoder + onehotencoder)
    82.19% kNN (labelencoder + escalonamento)

### Regressão Logistica
O algoritmo de regressão logística é usada onde uma saída discreta é esperada, (ex. Prever se um usuário é um bom ou mal pagador).Normalmente, a regressão logística usa alguma função para espremer valores para um determinado intervalo.

In [40]:
rl = LogisticRegression(random_state=0)

In [41]:
rl.fit(X_test, y_test)

  return f(*args, **kwargs)


LogisticRegression(random_state=0)

In [42]:
y_pred_rl = rl.predict(X_test)

In [43]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_rl), 2)))

Acurácia: 82.0%


In [44]:
print(classification_report(y_test, y_pred_rl))

              precision    recall  f1-score   support

       <=50K       0.84      0.95      0.89      6193
        >50K       0.71      0.43      0.54      1948

    accuracy                           0.82      8141
   macro avg       0.78      0.69      0.71      8141
weighted avg       0.81      0.82      0.80      8141



In [45]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_rl)

array([[5853,  340],
       [1112,  836]])

#### Resultados Finais do algoritmo Regressão Logística
Na regressão Logística houve diferença apenas utilizando todos os pré-processamentos, assim cheguei a estes resultados:

    84.95% Regressão Log  (labelencoder + onehotencoder + escalonamento)
    79.09% Regressão Log (labelencoder)
    79.54% Regressão Log (labelencoder + onehotencoder)
    81.84% Regressão Log (labelencoder + escalonamento)

### SVM (Máquinas de vetores de suporte)
O algoritmo de SVM separa os pontos de dados usando uma linha. Esta linha é escolhida de tal forma que será mais importante dos pontos de dados mais próximos em 2 categorias.

In [46]:
svm = SVC(kernel = 'linear', random_state=0)

In [47]:
svm.fit(X_train, y_train)

  return f(*args, **kwargs)


SVC(kernel='linear', random_state=0)

In [48]:
y_pred_svm = svm.predict(X_test)

In [49]:
# Acurácia alcançada pelo algortimo SVM
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_svm), 2)))

Acurácia: 82.0%


In [50]:
print(classification_report(y_test, y_pred_svm))

              precision    recall  f1-score   support

       <=50K       0.82      0.97      0.89      6193
        >50K       0.80      0.31      0.45      1948

    accuracy                           0.82      8141
   macro avg       0.81      0.64      0.67      8141
weighted avg       0.81      0.82      0.78      8141



In [51]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_svm)

array([[6038,  155],
       [1341,  607]])

#### Resultados Finais do algoritmo SVM
Tive que fazer vários testes cada um com a transformação diferente, e cheguei a estes resultados:

     0.8507% SVM(labelencoder + onehotencoder + escalonamento)
     0.8507% SVM (labelencoder + escalonamento)
     
     ? SVM (labelencoder) - Muito lento
     ? SVM (labelencoder + onehotencoder) - Muito lento

### Redes Neurais
O objetivo do algoritmo de Redes neurais é imitar o sistema nervoso de humanos no processo de aprendizagem, ela é inspirada nas redes neurais biológicas

Redes Neurais com a biblioteca ``sklearn``

In [52]:
rn_sk = MLPClassifier(verbose = True, max_iter= 1000, tol = 0.000010)

In [53]:
rn_sk.fit(X_train, y_train)

  return f(*args, **kwargs)


Iteration 1, loss = 0.45981313
Iteration 2, loss = 0.36776139
Iteration 3, loss = 0.34318264
Iteration 4, loss = 0.33091068
Iteration 5, loss = 0.32585110
Iteration 6, loss = 0.32346737
Iteration 7, loss = 0.32177964
Iteration 8, loss = 0.32099361
Iteration 9, loss = 0.32001429
Iteration 10, loss = 0.31908879
Iteration 11, loss = 0.31851921
Iteration 12, loss = 0.31840379
Iteration 13, loss = 0.31769381
Iteration 14, loss = 0.31711734
Iteration 15, loss = 0.31659533
Iteration 16, loss = 0.31620241
Iteration 17, loss = 0.31579014
Iteration 18, loss = 0.31531808
Iteration 19, loss = 0.31576069
Iteration 20, loss = 0.31515326
Iteration 21, loss = 0.31408817
Iteration 22, loss = 0.31379924
Iteration 23, loss = 0.31352223
Iteration 24, loss = 0.31372689
Iteration 25, loss = 0.31274330
Iteration 26, loss = 0.31279652
Iteration 27, loss = 0.31211817
Iteration 28, loss = 0.31194263
Iteration 29, loss = 0.31155954
Iteration 30, loss = 0.31167439
Iteration 31, loss = 0.31105270
Iteration 32, los

MLPClassifier(max_iter=1000, tol=1e-05, verbose=True)

In [54]:
y_pred_rn_sk = rn_sk.predict(X_test)

In [55]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_rn_sk), 2)))

Acurácia: 85.0%


In [56]:
print(classification_report(y_test, y_pred_rn_sk))

              precision    recall  f1-score   support

       <=50K       0.88      0.92      0.90      6193
        >50K       0.70      0.62      0.66      1948

    accuracy                           0.85      8141
   macro avg       0.79      0.77      0.78      8141
weighted avg       0.84      0.85      0.84      8141



In [57]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_rn_sk)

array([[5680,  513],
       [ 747, 1201]])

#### Resultados Finais do algoritmo Redes Neurais com sklearn
Desta maneira podemos observar que não fazer o escalonamento e o onehotencoder nas Redes Neurais pode ter uma diferença grande, com os testes cheguei a estes resultados:

    83.5% Neural Networks(labelencoder + onehotencoder + escalonamento)
    84.8% Neural Networks (labelencoder + escalonamento)
    
    24.4% Neural Networks (labelencoder) - Muito lento
    78.8% Neural Networks (labelencoder + onehotencoder) - Muito lento