### Etapas executadas da tarefa:

* Leitura do conjunto de dados census.csv;

* Verificaçãose todas a linhas do dataframe contêm valores;

* Observou-se que o número de amostras do conjunto de dados é 5533 e na contagem de dados das variáveis contínuas do *dataset* temos um valor faltante para as variáveis *capital-gain*, *capital-loss* e *hours-per-week*. Como foram identificados valores faltantes em apenas uma linha (inclusive o rótulo estava sem valor), a mesma foi eliminada.

* Foi feito um *pairplot* para analisar a relação das variáveis duas a duas e identificar possíveis *outliers*. Foi possível observar no *pairplot* das variáveis contínuas que as variáveis *capital-gain* e *capital-loss* apresentavam distribuições enviesadas (com pouca variância, dificultando a separação entre as duas classes desejadas). Para evitar os *outliers* foi feita uma transformação logarítmica nessas duas colunas a fim de comprimir os dados em um intervalo menores valores;

* Em seguida, as variáveis numéricas foram normalizadas de modo que ficassem no intervalo [0, 1] e dessa forma todos os dados de entrada estariam na mesma escala (alguns algoritmos de *Machine Learning* são variantes à escala). A equação de normalização usada foi:

$$\ x_{scaled}=\frac{X - X_{min}}{X_{max} - X_{min}}$$

* Visto que a variável *occupation* é irregular e pode atrapalhar na classificação, uma vez que não segue valores padronizados, ela foi ignorada. Como para cada valor de *education_level* temos um valor correspondente em *education-num*, essas informações são redundantes e, por isso, vamos ignorar a coluna categórica *education_level*.

* O próximo passo foi codificar as variáveis categóricas usando a técnica *Binary Encoding*, que em comparação à codificação em variáveis *dummy*, gera dados de menor dimensão. Portanto, ao realizar a codificação das variáveis categóricas em *Binary Encoding* acabou-se gerando novas variáveis, a fim de que as variáveis categóricas originais pudessem ser representadas numericamente e, assim, entendidas pelos algoritmos de *Machine Learning* que poderiam precisar.

* Uma vez que o conjunto de dados está limpo, iniciou-se a etapa de modelagem de *Machine Learning* para realizar o processo de classificação.

* A ideia foi testar 3 algoritmos supervisionados: Árvore de Decisão (*Decision tree*), Floresta Aleatória (*Random Forest*) e Máquina de Vetores Suporte (*SVM - Support Vector Machine*).

* Para treinar o modelo, o conjunto de dados foi separado em dados de treino e de teste. Foi feito um *k-fold cross-validation* com *k* = 10 para os três algoritmos, sendo que os dados de treino separados inicialmente foram separado ainda em um menor conjunto de treino e um de validação para realizar o *k-fold cross-validation*.


* Para o algoritmo *Decision Tree* foi feito um *Grid* com variação dos parâmetros de profundidade máxima da árvore gerada e e o número máximo de *features* usadas para construí-la. Os melhores parâmetros para a *Decision Tree* foram {'max_depth': 5, 'max_features': 4}.

In [2]:
parameter_grid = {'max_depth': [1, 2, 3, 4, 5],
                  'max_features': [1, 2, 3, 4]}

* Para o algoritmo *Random Forest* foi feito um *Grid* com variação dos parâmetros de profundidade máxima da floresta (conjunto de árvores combinadas), número de estimadores e critério de parada. Os melhores parâmetros para a *Random Forest* foram {'max_features': 4, 'n_estimators': 25, 'criterion': 'entropy'}.

In [4]:
parameter_grid = {'n_estimators': [10, 25, 50, 100],
                  'criterion': ['gini', 'entropy'],
                  'max_features': [1, 2, 3, 4]}

* Para o algoritmo *SVM* foi feito um *Grid* com variação do parâmetro *C* e da função *kernel* usada. Os melhores parâmetros para a *SVM* foram {'C': 100, 'kernel': 'linear'}.

In [3]:
parameter_grid = [{'kernel': ['rbf'], 'gamma': [1e-3, 1e-4],
                     'C': [1, 10, 100]},
                    {'kernel': ['linear'], 'C': [1, 10, 100]}]

|                             | Decision Tree    | Random Forest    |   SVM   |
|-----------------------------|---------------   |---------------   |-------- |
| Acurácia                    |      79.25%      |      82.98%      |  82.62% |
| Log loss (entropia cruzada) |       6.29       |       5.64       |  5.89   |

Como se pode observar na tabel acima, a maior taxa de acurácia foi alcançada pelo *Random Forest*, bem como teve sua função perda *Log loss* com menor valor. Entretanto, houve uma pequena diferença em relação ao *SVM* em termos de acurácia e, além disso, o *Random Forest* é um algoritmo mais demorado para ser treinado. Já era esperado que a *Decision Tree* fosse ter uma taxa  de acurácia inferior aos demais, uma vez que é apenas uma árvore que é contruída, enquanto no *Random Forest* são criadas várias árvores de decisão e estas são mescladas para se obter uma previsão mais precisa e estável.