<img src="./imgs/mais_brasil.png" />
<h1> CLassificação de Risco em Transferências Voluntárias Federais Utilizando XGBoost </h1>
<hr>
<p>Estes experimentos buscam criar um classificador de risco em transferências voluntárias federais, baseado no modelo de gradient boosting, XGBoost. O objetivo é comparar a perforance deste modelo com modelos de regressão logística.</p>
<p> 
<hr>
<h2>Dados Utilizados</h2>
<p><a href="http://www.plataformamaisbrasil.gov.br/">Acesso à plataforma +Brasil</a></p>
<p><a href="http://www.plataformamaisbrasil.gov.br/download-de-dados">Download de Dados</a></p>
<p><a href="http://www.plataformamaisbrasil.gov.br/images/docs/CGSIS/csv/siconv.zip">SICONV - Dados completos</a></p>

<h1>Metodologia</h1>
<p>O presente estudo foi conduzido com base no modelo de referência da metodologia para mineração de dados \textit{Cross Industry Standard Process for Data Mining} (CRISP-DM). Esse modelo fornece uma visão geral do ciclo de vida de um projeto de mineração de dados.</p>
<img src="./imgs/crisp_dm.png" />

\begin{figure}[!ht]
	\centering
	\includegraphics[width=1.0\linewidth]{CRISP-DM.PNG}
	\caption{Visão geral da metodologia CRISP-DM.}
	\label{fig:crisp-dm}
\end{figure}

A metodologia CRISP-DM divide um projeto de mineração de dados em 6 grandes fases:
\begin{itemize}
	\item{Entendimento do Negócio;}
	\item{Compreensão dos Dados;}
	\item{Preparação dos Dados;}
	\item{Modelagem;}
	\item{Avaliação;}
	\item{Implantação.}
\end{itemize}

Cada fase da metodologia é descrita a seguir, para detalhamento do processo.

\subsection{Entendimento do Negócio}
Nesta fase, o foco está no entendimento do problema de negócio a ser solucionado. A figura \ref{fig:processo-convenio} apresenta um processo de negócio simplificado\footnote{Adaptado de \url{http://plataformamaisbrasil.gov.br/images/docs/mapeamento_de_processos/convenio/Visao_Geral-Macroprocesso-Convenio.png}}, com as etapas necessárias à celebração de um convênio.

\begin{figure*}[!th]
	\centering
	\includegraphics[width=1.0\linewidth]{processo-convenio.png}
	\caption{Macroprocesso de celebração de convênios\protect\footnotemark[\value{footnote}]}
	\label{fig:processo-convenio}
\end{figure*}

Ao longo do processo, várias informações são produzidas e inseridas no sistema Siconv. Algumas informações são conhecidas \textit{a priori}, como as informações do proponente, valores pactuados, datas inciais previstas, etc. Porém, outras informações só serão conhecidas ao longo da execução do instrumento ou quando do momento da prestação de contas, como a quantidade de prorrogações e termos aditivos, data final de prestação de contas, etc.

Nesta etapa da pesquisa, concentrou-se em utilizar as informações disponíveis no momento da prestação de contas do instrumento de repasse, com a finalidade de indicar aos responsáveis pela análise das contas aquelas prestações que apresentam os maiores riscos de reprovação.

\subsection{Compreensão dos Dados}
Nesta fase, o objetivo é o contato inicial com os dados, compreendendo a sua relação com o modelo de negócio em análise. No presente caso, os dados do Siconv estão disponíveis para \textit{download} na Plataforma +Brasil\footnote{\url{http://plataformamaisbrasil.gov.br/download-de-dados}}.

Buscou-se, neste momento, uma maior compreensão do modelo de dados\footnote{\url{http://plataformamaisbrasil.gov.br/images/docs/CGSIS/modelo_dados_siconv.zip}} utilizado pelo sistema, verificação da qualidade dos dados disponíveis, a fim de indentificar as principais características a serem utilizadas para treinamento do modelo proposto. O modelo de dados é dividido em 22 tabelas, das quais se destacam as tabelas "convenio", "proposta" e "proponentes", de onde foram retiradas as principais características utilizadas no treinamento.

\subsection{Preparação dos Dados}
Nesta etapa, as principais atividades dizem respeito ao tratamento dos dados para a construção das bases de treinamento e teste. Foram utilizados \textit{scripts} em SQL para juntar informações que estavam normalizadas nas várias tabelas do banco de dados em uma única tabela.

Cabe destacar que nesta etapa algumas características utilizadas no modelo foram calculadas, a exemplo dos percentuais de recursos repassados e de contrapartida, calculados a partir dos valores totais previstos.  Como os valores dos instrumentos variam bastante entre si, utilizar esta característica na forma original poderia, em alguma medida, enviesar o modelo favorecendo aqueles em que os valores são mais vultosos. Desta forma, fizemos uma normalização destes valores, fazendo com que os valores de todos os instrumentos fiquem na faixa entre 0 e 1.

Outras informações que se buscou foram se o instrumento deriva de emendas orçamentárias, visto que podem ser recursos direcionados que acabem não trazendo os resultados adequados, se o proponente é um consórcio de municípios, diferença, em dias, entre a data de início e fim originais previstas no instrumento e, em caso de prorrogações, os acréscimos para a data de fim da vigência.

\subsection{Modelagem}
Nesta fase do projeto é onde são aplicados os modelos selecionados às bases de treinamento e teste. Tipicamente, poderiam ser utilizadas várias técnicas de aprendizagem de máquina porém, conforme abordado anteriormente, o XGBOost apresenta excelentes performances em problemas similares e será utilizado para classificar as transferências. 

\subsection{Avaliação}
Nesta etapa são avaliados os vários resultados apresentados pelo modelo. É importante ressaltar que se deve testar várias combinações de parâmetros do modelo e características utilizadas, a fim de identificar os melhores resultados.
Os experimentos foram comparados utilizando-se os parâmetros de acurácia, precisão, sensibilidade e área sob a curva, do inglês \textit{area under curve} (AUC).

\subsection{Implantação}
Esta etapa busca, efetivamente, implantar o modelo que apresentou os melhores resultados em ambiente de produção. Este trabalho, apesar de sua aplicabilidade prática, não colocou em produção a ferramenta de classificação de transferências. Não obstante, a confecção de uma ferraamenta mais robusta está em análise para a sua utilização por parte dos principáis órgãos de controle e da sociedade como um todo.


# experimentos

# * com todas as features --> avaliar influencia das variaveis q identificam algo unicamente para overfit
# * tirando identificacao de orgao/municipio/estado(?)
# * anterior, apenas de orgaos selecionados?ex.: 22000, possui 15k convenios


# * selecao de caracteristicas
# * otimizacao de hiperparametros
# * problemas de dimensionalidade
#     - como "criar" novos casos positivos
#     - como "diminuir/escolher" casos negativos >>> positivos
#     - testar SMOTE
#
# # fluxo dos experimentos:
# * definir quais features devem entrar nos testes
# * gerar um arquivo SVM esparso para as features
#     - assim, evita de ter que ficar calculando toda vez que for executar os testes
# * ler o arquivo svm e fazer um split treino/teste
#     - criar uma matrix DMatrix e um X, y sparso sklearn
# * rodar o treinamento cross validation, definindo quantos rodadas de boost serão feitas (100 parece razoável)
#     - usar a API python do XGboost para isso (xgb.cv) --> os resultados do CV podem ser plotados média e desvio
#     - usar a matrix DMatrix
# * depois, rodar um fit com X,y usando a API sklearn
#     - comparação de resultados utilizando acc, precision, recall e auc
#     - análise de features
# * os resultados devem ser analisados usando as previsões do API sklearn
# * para executar os testes balanceados, o ideal é gerar alguns splits aleatórios, depois do get_dummies
#     - assim, teremos todas as caracterísicas, mesmo que alguns exemplos não as possuam

In [1]:
```python
#gráfico em barra para visualizar órgãos que mais gastaram
plt.style.use('fivethirtyeight')
plt.figure(figsize=(20,10))  
ax = sns.barplot(x='Valor total passagens', y='Nome do órgão superior', data=agrupado) #valor médio viagem
ax.set_xlabel('Gastos com viagens por órgão')
```

SyntaxError: invalid syntax (<ipython-input-1-2e03b71bf9f5>, line 1)