# Dê-me algum crédito!
### Por Peterson Katagiri Zilli ([peterson.zilli@gmail.com](mailto:peterson.zilli@gmail.com))

A palavra _crédito_ está relacionada a _fé_ e significa [confiança na reputação de alguém](http://www.priberam.pt/dlpo/cr%C3%A9dito) segundo o dicionário.

Na Economia, também usamos esta palavra a fim de nos referimos à _concessão de crédito_, que é quando 'deixamos um valor à disposição de alguém' -- geralmente com a _fé_ de que este valor retorne para nossos bolsos com juros e correção monetária. 

A concessão de crédito é um instrumento necessário para a manutenção e crescimento da nossa economia e está muito presente no nosso dia-a-dia: seja quando o governo busca recursos para seu custeio e investimentos lançando papéis no mercado com a promessa de pagar valores nos prazos definidos (Crédito Público), ou quando as empresas ou pessoas físicas buscam dinheiro para antecipar as necessidades de consumo, investimento ou para cobrir capital de giro (Crédito Privado), com a promessa de pagar um valor ajustado, no futuro.

Conceder crédito é uma função extremamente importante -- tanto para quem recebe o crédito e a partir daí é capaz de realizações ainda maiores, quanto para quem empresta e é remunerado por isso. Contudo, emprestar é uma tarefa que deve ser realizada com muito cuidado...

Afinal, o que acontece quando quem emprestou não consegue reaver o valor corrigido de volta?

O objetivo neste ensaio é apresentar métodos para auxílio à tomada de decisão para concessão de crédito através de algorithmos baseados em aprendizado de máquina, mas este certamente [não é a única forma da tecnologia ajudar o processo de empréstimo](https://techcrunch.com/2016/06/23/how-new-tech-can-improve-the-loan-process/).

Limitei o assunto a métodos de análise de crédito pulverizado e de pouco valor e para pessoas físicas, assumindo a visão de uma instituição financeira que cede empréstimos no varejo - como um banco, financeira ou fintechs. Naturalmente, análise de crédido para valores maiores necessitam de atenção individual -- o que não quer dizer que os métodos apresentados aqui não possoam agregar como mais uma das informações para se levar em consideração 

> ## Resultados Principais
> * Desenvolvemos modelos computacionais de aprendizagem de máquina para análise de crédito para pessoa física
> * Comparamos estes modelos ao método tradicional de _Credit Scoring_ apresentados no livro "Análise e Avaliação de Crédito" de J. R. Securato
> * Mostramos que o conhecimento do domínio do problema na preparação dos dados e escolha dosd métodos faz diferença no resultado final
> * Métodos que combinam modelos - mesmo que fracos - trazem os melhores resultados

# Métodos

## Modelos Utilizados

Há uma série de métodos de classificação discutidos na literatura de Machine Learning quando se trata de problemas de classificação. Trouxemos alguns para esta avaliação:

* **_Nearest Neighbor_**: prediz a classe de uma instância qualquer (aqui, "instância" significa o registro dos dados da pessoa que você quer classificar para conceder crédito ou não) a partir da instância mais próxima dela no conjunto de instâncias de treinamento (aquele conjunto de instâncias que usamos para criar o modelo, que além dos dados da pessoa também tem a classe a que ela pertence). Chamamos esta instância mais próxima de "vizinha". Instâncias são "vizinhas" da instância consultada são aquelas do conjunto do treinamento cujas características mais se assemelham aos da consulta por alguma métrica de distância. 
* **Regressão Logística (Logistic Regression)**: Prediz a classe da instância a partir do resultado de uma regressão logística:  "Se o resultado da regressão sobre os dados da instância for maior que um número limite então é de uma classe, caso contrário, pertence à outra."
* **Árvores de Classificação e Regressão (CART)**: Método baseado em árvores de decisão no qual cada nó interno representa uma decisão sobre uma variável e cada nó folha define a previsão da classe da consulta. Mais detalhes [aqui](https://en.wikipedia.org/wiki/Decision_tree_learning) e [aqui](https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/lecture-notes/MIT15_097S12_lec08.pdf)
* **Florestas Aleatórias sobre sobre Árvores de Classificação**: Classificam uma instância de acordo com a [moda](https://pt.wikipedia.org/wiki/Moda_(estat%C3%ADstica)) dos resultados de um conjunto de árvores de decisão cuidadosamente treinadas em diferentes partes do conjunto de treinamento, a fim de construir árvores de decisão com variância controlada. Mais detalhes [aqui](https://www.stat.berkeley.edu/~breiman/randomforest2001.pdf) e [aqui](https://en.wikipedia.org/wiki/Random_forest).
* **Gradient Boosting Tree (GBT ou Algoritmos de _Boosting_ sobre Árvores de Classificação)**: este algorithmo melhora a acurácia de uma função preditiva através da minimização incremental do erro residual. Parece grego? [aqui(em inglês)](http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting/) está a explicação intuitiva de como este método funciona.
* **_Support Vector Machines_**: prediz a classe de uma variável binária dependendo de que lado de que lado de um hiperplano a amostra cai. Há um tutorial simples com implementação [aqui](http://blog.hackerearth.com/simple-tutorial-svm-parameter-tuning-python-r), mas neste artigo vamos usar uma outra implementação do pacote GraphLab.
* **Neural Networks**: Utiliza [redes neurais artificiais](https://pt.wikipedia.org/wiki/Rede_neural_artificial) inspiradas nas redes neurais naturais para classificar instâncias.
* **Bagging de Métodos de Classificação **: Neste caso, a cada instância que queremos testar, juntamos todas as respostas de um conjunto de classificadores criados a partir dos métodos acima. A classe que a maioria dos classificadores respondeu será a classe final da instância. Este tipo de _ensemble_ é chamado de bagging, entretanto há uma série de outros modos de combinar classificadores fracos para se chegar a uma performance melhor. Dá uma olhadela [aqui](https://en.wikipedia.org/wiki/Ensemble_learning#Common_types_of_ensembles). Ah! Tem mais... _Florestas Aleatórias_ e _Gradient Boosting Trees_ são por si mesmas métodos de _ensemble_ de modelos mais fracos. 

## Dados

### Estrutura dos dados utilizados neste ensaio

Usamos aqui o conjunto de dados de empréstimos disponibilizados na competição "Give me some credit" (veja [website da Kaggle](https://www.kaggle.com/c/GiveMeSomeCredit/data)).

A base de dados é dividida em dois grupos: o de treinamento (com 150000 registros) e o de testes (com 101503 registros)

Cada registro desta base traz as 10 características abaixo:

* idade do mutuário (o tomador do empréstimo)
* renda mensal
* percentual dos gastos mensais em relação à renda mensal
* número de dependentes
* número de hipotecas e empréstimos imobiliários
* número de linhas de crédito e empréstimos abertos (sem contar hipotecas ou empréstimos imobiliários)
* saldo total no cartão de crédito dividido pela soma dos limites de crédito
* número de vezes que o mutuário atrasou pagamentos entre 30 a 59 dias nos últimos 2 anos  
* número de vezes que o mutuário atrasou pagamentos entre 60 a 89 dias nos últimos 2 anos  
* número de vezes que o mutuário atrasou pagamentos 90 dias.  

O objetivo é saber se a pessoa atrasou pagamentos de 90 dias ou mais nos últimos dois anos (1 se sim, 0 se não).

### Análise exploratória e transformação dos dados de aprovação de crédito (ou melhor, Que dados são estes?!)

*árvores de classificação tem dificuldade de tratar de relacões não lineares entre os dados

* O que fazer com o DebtRatio? Dados muito distantes da média 

* DTI: http://www.moneycrashers.com/how-to-calculate-debt-to-income-ratio-mortgage-loan/

* Idade acima dos 60 anos pode receber aposentadoria

* Número real (e não percentual) de quanto sobra no final do mês

Os dados São bastante desbalanceados, como fazer para aumentar a proporção para 30%? através de selecionar aleatoriamente uma saída positiva e adicionar no conjunto de dados de treinamento.


In [81]:
import graphlab
from graphlab import SFrame
graphlab.canvas.set_target('ipynb')

In [71]:
sf = SFrame(data="C:\\Users\\peter\\Developer\\ML\\Kaggle_GiveMeSomeCredit\\data\\cs-training.csv")

------------------------------------------------------
Inferred types from first 100 line(s) of file as 
column_type_hints=[long,long,float,long,long,float,long,long,long,long,long,long]
If parsing fails due to incorrect types, you can correct
the inferred type list above and pass it to read_csv in
the column_type_hints argument
------------------------------------------------------


In [83]:
sf.head()

X1,SeriousDlqin2yrs,RevolvingUtilizationOfUns ecuredLines ...,age,NumberOfTime30-59DaysPast DueNotWorse ...,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAn dLoans ...
1,1,0.766126609,45,2,0.802982129,9120.0,13
2,0,0.957151019,40,0,0.121876201,2600.0,4
3,0,0.65818014,38,1,0.085113375,3042.0,2
4,0,0.233809776,30,0,0.036049682,3300.0,5
5,0,0.9072394,49,1,0.024925695,63588.0,7
6,0,0.213178682,74,0,0.375606969,3500.0,3
7,0,0.305682465,57,0,5710.0,,8
8,0,0.754463648,39,0,0.209940017,3500.0,8
9,0,0.116950644,27,0,46.0,,2
10,0,0.189169052,57,0,0.606290901,23684.0,9

NumberOfTimes90DaysLate,NumberRealEstateLoansOrLi nes ...,NumberOfTime60-89DaysPast DueNotWorse ...,NumberOfDependents,Is60orMoreYearsOld
0,6,0,2.0,0
0,0,0,1.0,0
1,0,0,0.0,0
0,0,0,0.0,0
0,1,0,0.0,0
0,1,0,1.0,1
0,3,0,0.0,0
0,0,0,0.0,0
0,0,0,,0
0,4,0,2.0,0

DTI,TotalResidualMothlyIncome
1,1796.80298352
0,2283.1218774
0,2783.08511325
0,3181.0360494
0,62003.0249063
0,2185.3756085
1,
0,2765.2099405
1,
0,9324.60630072


In [84]:
sf['Is60orMoreYearsOld'] = sf['age'] >= 60
sf['DTI'] = (1 - sf['DebtRatio']) <= .36
sf['TotalResidualMothlyIncome'] = (1-sf['DebtRatio']) * sf['MonthlyIncome']b

In [85]:
sf.head()

X1,SeriousDlqin2yrs,RevolvingUtilizationOfUns ecuredLines ...,age,NumberOfTime30-59DaysPast DueNotWorse ...,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAn dLoans ...
1,1,0.766126609,45,2,0.802982129,9120.0,13
2,0,0.957151019,40,0,0.121876201,2600.0,4
3,0,0.65818014,38,1,0.085113375,3042.0,2
4,0,0.233809776,30,0,0.036049682,3300.0,5
5,0,0.9072394,49,1,0.024925695,63588.0,7
6,0,0.213178682,74,0,0.375606969,3500.0,3
7,0,0.305682465,57,0,5710.0,,8
8,0,0.754463648,39,0,0.209940017,3500.0,8
9,0,0.116950644,27,0,46.0,,2
10,0,0.189169052,57,0,0.606290901,23684.0,9

NumberOfTimes90DaysLate,NumberRealEstateLoansOrLi nes ...,NumberOfTime60-89DaysPast DueNotWorse ...,NumberOfDependents,Is60orMoreYearsOld
0,6,0,2.0,0
0,0,0,1.0,0
1,0,0,0.0,0
0,0,0,0.0,0
0,1,0,0.0,0
0,1,0,1.0,1
0,3,0,0.0,0
0,0,0,0.0,0
0,0,0,,0
0,4,0,2.0,0

DTI,TotalResidualMothlyIncome
1,1796.80298352
0,2283.1218774
0,2783.08511325
0,3181.0360494
0,62003.0249063
0,2185.3756085
1,
0,2765.2099405
1,
0,9324.60630072


In [91]:
target = 'SeriousDlqin2yrs'

features = ['RevolvingUtilizationOfUnsecuredLines',
 'age',
 'MonthlyIncome',
 'DebtRatio',
 'NumberOfDependents',
 'NumberRealEstateLoansOrLines',
 'NumberOfOpenCreditLinesAndLoans',
 'NumberOfTime30-59DaysPastDueNotWorse',
 'NumberOfTime60-89DaysPastDueNotWorse',
 'NumberOfTimes90DaysLate']

features_ext = [x for x in features]
features_ext.extend(['Is60orMoreYearsOld','DTI','TotalResidualMothlyIncome'])

features_ext_cat = [x for x in features_ext if x not in ['RevolvingUtilizationOfUnsecuredLines', 'DebtRatio']]

In [87]:
graphlab.canvas.set_target('ipynb')
sf.head()
sf.column_types()

[int,
 int,
 float,
 int,
 int,
 float,
 int,
 int,
 int,
 int,
 int,
 int,
 int,
 int,
 float]

In [93]:
sf['age'].show()
sf['DebtRatio'].show()
sf[features_ext_cat].show()

In [94]:
sf_no_NA, sf_bad = sf.dropna_split()
train_data, test_data = sf_no_NA.random_split(.7, seed=0)

## Nearest Neighbor Model

In [57]:
nearest_neighbor_model = graphlab.nearest_neighbor_classifier.create(train_data, target=target, features=features)

In [95]:
nearest_neighbor_model.show()

In [96]:
nearest_neighbor_model.summary()

Class                                : NearestNeighborClassifier

Schema
------
Number of examples                   : 84284
Number of feature columns            : 13
Number of unpacked features          : 13
Number of distance components        : 1
Number of classes                    : 2

Training Summary
----------------
Training time (seconds)              : 2.324



In [97]:
nearest_neighbor_model.evaluate(test_data)

{'accuracy': 0.9294984021119911, 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        0        | 33437 |
 |      1       |        0        |  2504 |
 |      1       |        1        |   11  |
 |      0       |        1        |   33  |
 +--------------+-----------------+-------+
 [4 rows x 3 columns], 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+-----+-----+------+-------+
 | threshold | fpr | tpr |  p   |   n   |
 +-----------+-----+-----+------+-------+
 |    0.0    | 1.0 | 1.0 | 2515 | 33470 |
 |   1e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   2e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   3e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   4e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   5e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   6e

In [64]:
nearest_neighbor_model_ext = graphlab.nearest_neighbor_classifier.create(train_data, target=target, features=features_ext)

In [65]:
nearest_neighbor_model_ext.show()

In [68]:
nearest_neighbor_model_ext.summary()

Class                                : NearestNeighborClassifier

Schema
------
Number of examples                   : 84284
Number of feature columns            : 13
Number of unpacked features          : 13
Number of distance components        : 1
Number of classes                    : 2

Training Summary
----------------
Training time (seconds)              : 0.808



In [69]:
nearest_neighbor_model_ext.evaluate(test_data)

{'accuracy': 0.9295261914686676, 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        0        | 33439 |
 |      1       |        0        |  2505 |
 |      1       |        1        |   10  |
 |      0       |        1        |   31  |
 +--------------+-----------------+-------+
 [4 rows x 3 columns], 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+-----+-----+------+-------+
 | threshold | fpr | tpr |  p   |   n   |
 +-----------+-----+-----+------+-------+
 |    0.0    | 1.0 | 1.0 | 2515 | 33470 |
 |   1e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   2e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   3e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   4e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   5e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   6e

## Logistic Model

In [105]:
logistic_model = graphlab.logistic_classifier.create(train_data, target=target, features=features, validation_set=None)
logistic_model_ext = graphlab.logistic_classifier.create(train_data, target=target, features=features_ext, validation_set=None)

In [106]:
logistic_model.evaluate(test_data)

{'accuracy': 0.9311101847992219,
 'auc': 0.6896791168139145,
 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        1        |   65  |
 |      1       |        1        |  101  |
 |      1       |        0        |  2414 |
 |      0       |        0        | 33405 |
 +--------------+-----------------+-------+
 [4 rows x 3 columns],
 'f1_score': 0.07534502051473331,
 'log_loss': 0.23323328207247054,
 'precision': 0.608433734939759,
 'recall': 0.040159045725646124,
 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+----------------+-----+------+-------+
 | threshold |      fpr       | tpr |  p   |   n   |
 +-----------+----------------+-----+------+-------+
 |    0.0    |      1.0       | 1.0 | 2515 | 33470 |
 |   1e-0

In [107]:
logistic_model_ext.evaluate(test_data)

{'accuracy': 0.9309990273725163,
 'auc': 0.6963051449296394,
 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        1        |   70  |
 |      1       |        1        |  102  |
 |      1       |        0        |  2413 |
 |      0       |        0        | 33400 |
 +--------------+-----------------+-------+
 [4 rows x 3 columns],
 'f1_score': 0.07592110160029773,
 'log_loss': 0.23239655490835867,
 'precision': 0.5930232558139535,
 'recall': 0.04055666003976143,
 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+----------------+-----+------+-------+
 | threshold |      fpr       | tpr |  p   |   n   |
 +-----------+----------------+-----+------+-------+
 |    0.0    |      1.0       | 1.0 | 2515 | 33470 |
 |   1e-0

## CART

In [102]:
decision_tree_model = graphlab.decision_tree_classifier.create(train_data, target=target, features=features, validation_set=None)
decision_tree_model_ext = graphlab.decision_tree_classifier.create(train_data, target=target, features=features_ext, validation_set=None)

In [103]:
decision_tree_model.evaluate(test_data)

{'accuracy': 0.931610393219397,
 'auc': 0.8388234679167301,
 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      1       |        1        |  413  |
 |      0       |        1        |  359  |
 |      1       |        0        |  2102 |
 |      0       |        0        | 33111 |
 +--------------+-----------------+-------+
 [4 rows x 3 columns],
 'f1_score': 0.251292972315181,
 'log_loss': 0.4911777053742578,
 'precision': 0.5349740932642487,
 'recall': 0.16421471172962226,
 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+-----+-----+------+-------+
 | threshold | fpr | tpr |  p   |   n   |
 +-----------+-----+-----+------+-------+
 |    0.0    | 1.0 | 1.0 | 2515 | 33470 |
 |   1e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   2e-05   | 

In [104]:
decision_tree_model_ext.evaluate(test_data)

{'accuracy': 0.9315270251493678,
 'auc': 0.8383202725683546,
 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      1       |        1        |  458  |
 |      0       |        1        |  407  |
 |      1       |        0        |  2057 |
 |      0       |        0        | 33063 |
 +--------------+-----------------+-------+
 [4 rows x 3 columns],
 'f1_score': 0.27100591715976335,
 'log_loss': 0.4912085931561307,
 'precision': 0.5294797687861271,
 'recall': 0.18210735586481114,
 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+-----+-----+------+-------+
 | threshold | fpr | tpr |  p   |   n   |
 +-----------+-----+-----+------+-------+
 |    0.0    | 1.0 | 1.0 | 2515 | 33470 |
 |   1e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   2e-05  

## Random Forest Model

In [108]:
random_forest_model = graphlab.random_forest_classifier.create(train_data, target=target, features=features, validation_set=None)
random_forest_model_ext = graphlab.random_forest_classifier.create(train_data, target=target, features=features_ext, validation_set=None)

In [109]:
random_forest_model.evaluate(test_data)

{'accuracy': 0.9338891204668612,
 'auc': 0.8513474753510625,
 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        1        |  179  |
 |      1       |        0        |  2200 |
 |      1       |        1        |  315  |
 |      0       |        0        | 33291 |
 +--------------+-----------------+-------+
 [4 rows x 3 columns],
 'f1_score': 0.2093718843469591,
 'log_loss': 0.2516434058042047,
 'precision': 0.6376518218623481,
 'recall': 0.12524850894632206,
 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+-----+-----+------+-------+
 | threshold | fpr | tpr |  p   |   n   |
 +-----------+-----+-----+------+-------+
 |    0.0    | 1.0 | 1.0 | 2515 | 33470 |
 |   1e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   2e-05   

In [110]:
random_forest_model_ext.evaluate(test_data)

{'accuracy': 0.9335278588300681,
 'auc': 0.8520561780200139,
 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        1        |  105  |
 |      1       |        1        |  228  |
 |      1       |        0        |  2287 |
 |      0       |        0        | 33365 |
 +--------------+-----------------+-------+
 [4 rows x 3 columns],
 'f1_score': 0.1601123595505618,
 'log_loss': 0.2536593911902796,
 'precision': 0.6846846846846847,
 'recall': 0.09065606361829026,
 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+-----+-----+------+-------+
 | threshold | fpr | tpr |  p   |   n   |
 +-----------+-----+-----+------+-------+
 |    0.0    | 1.0 | 1.0 | 2515 | 33470 |
 |   1e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   2e-05   

## Gradient Boosted Trees

In [111]:
gbt_model = graphlab.boosted_trees_classifier.create(train_data, target=target, features=features, validation_set=None)
gbt_model_ext = graphlab.boosted_trees_classifier.create(train_data, target=target, features=features_ext, validation_set=None)

In [112]:
gbt_model.evaluate(test_data)

{'accuracy': 0.9338891204668612,
 'auc': 0.852362633283061,
 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        1        |  284  |
 |      1       |        0        |  2095 |
 |      1       |        1        |  420  |
 |      0       |        0        | 33186 |
 +--------------+-----------------+-------+
 [4 rows x 3 columns],
 'f1_score': 0.26095060577819196,
 'log_loss': 0.1948454767040466,
 'precision': 0.5965909090909091,
 'recall': 0.16699801192842942,
 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+-----+-----+------+-------+
 | threshold | fpr | tpr |  p   |   n   |
 +-----------+-----+-----+------+-------+
 |    0.0    | 1.0 | 1.0 | 2515 | 33470 |
 |   1e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   2e-05   

In [113]:
gbt_model_ext.evaluate(test_data)

{'accuracy': 0.9334167014033625,
 'auc': 0.8527018587607859,
 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 4
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        1        |  297  |
 |      1       |        0        |  2099 |
 |      1       |        1        |  416  |
 |      0       |        0        | 33173 |
 +--------------+-----------------+-------+
 [4 rows x 3 columns],
 'f1_score': 0.2577447335811648,
 'log_loss': 0.19462835758809857,
 'precision': 0.5834502103786816,
 'recall': 0.1654075546719682,
 'roc_curve': Columns:
 	threshold	float
 	fpr	float
 	tpr	float
 	p	int
 	n	int
 
 Rows: 100001
 
 Data:
 +-----------+-----+-----+------+-------+
 | threshold | fpr | tpr |  p   |   n   |
 +-----------+-----+-----+------+-------+
 |    0.0    | 1.0 | 1.0 | 2515 | 33470 |
 |   1e-05   | 1.0 | 1.0 | 2515 | 33470 |
 |   2e-05   

## Support Vector Machine

In [120]:
svm_model = graphlab.svm_classifier.create(train_data, target=target, features=features, validation_set=None, feature_rescaling=True)
svm_model_ext = graphlab.svm_classifier.create(train_data, target=target, features=features_ext, validation_set=None, feature_rescaling=True)

In [121]:
svm_model.evaluate(test_data)

{'accuracy': 0.9301097679588718, 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 2
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      1       |        0        |  2515 |
 |      0       |        0        | 33470 |
 +--------------+-----------------+-------+
 [2 rows x 3 columns], 'f1_score': 0.0, 'precision': None, 'recall': 0.0}

In [122]:
svm_model_ext.evaluate(test_data)

{'accuracy': 0.06997360011115743, 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 3
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        0        |   3   |
 |      1       |        1        |  2515 |
 |      0       |        1        | 33467 |
 +--------------+-----------------+-------+
 [3 rows x 3 columns], 'f1_score': 0.13065953191157753, 'precision': 0.06989605914068145, 'recall': 1.0}

## Neural Network

In [123]:
neuralnet_model = graphlab.neuralnet_classifier.create(train_data, target=target, features=features, validation_set=None)
neuralnet_model_ext = graphlab.neuralnet_classifier.create(train_data, target=target, features=features_ext, validation_set=None)

Using network:

### network layers ###
layer[0]: FullConnectionLayer
  init_sigma = 0.01
  init_random = gaussian
  init_bias = 0
  num_hidden_units = 10
layer[1]: SigmoidLayer
layer[2]: FullConnectionLayer
  init_sigma = 0.01
  init_random = gaussian
  init_bias = 0
  num_hidden_units = 2
layer[3]: SoftmaxLayer
### end network layers ###

### network parameters ###
learning_rate = 0.001
momentum = 0.9
### end network parameters ###



Using network:

### network layers ###
layer[0]: FullConnectionLayer
  init_sigma = 0.01
  init_random = gaussian
  init_bias = 0
  num_hidden_units = 10
layer[1]: SigmoidLayer
layer[2]: FullConnectionLayer
  init_sigma = 0.01
  init_random = gaussian
  init_bias = 0
  num_hidden_units = 2
layer[3]: SoftmaxLayer
### end network layers ###

### network parameters ###
learning_rate = 0.001
momentum = 0.9
### end network parameters ###



In [124]:
neuralnet_model.evaluate(test_data)

{'accuracy': 0.9301097393035889, 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 2
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        0        | 33470 |
 |      1       |        0        |  2515 |
 +--------------+-----------------+-------+
 [2 rows x 3 columns]}

In [128]:
neuralnet_model_ext.evaluate(test_data)

{'accuracy': 0.9301097393035889, 'confusion_matrix': Columns:
 	target_label	int
 	predicted_label	int
 	count	int
 
 Rows: 2
 
 Data:
 +--------------+-----------------+-------+
 | target_label | predicted_label | count |
 +--------------+-----------------+-------+
 |      0       |        0        | 33470 |
 |      1       |        0        |  2515 |
 +--------------+-----------------+-------+
 [2 rows x 3 columns]}

# Resultados

## Apresentação dos Resultados

## Interpretação dos resultados

# Conclusões

# Trabalhos Futuros
* Testar para outros datasets como estes que estão [aqui](http://www.rcreditscoring.com/credit-scoring-datasets/)
* Evoluir modelos para englobar a análise de crédito para microempresas, ver motivação [aqui](https://bib.irb.hr/datoteka/182478.zekic-sarlija-bensicITI2004_revised.pdf) e [aqui](http://www.rieti.go.jp/jp/publications/dp/10e029.pdf)
* Estender os modelos apresentados para abranger a relação entre a microempresa e seu don, ver motivação [aqui](http://www.bci2experian.com/library/LeadingLagStudy.pdf)
* Estender os modelos apresentados a fim de considerar a relação entre pessoas físicas e microempresas
* Comparamos os métodos tradicionais de Credit Scoring e Small Business Scoring com as abordagens desenvolvidas
* Crédito em tempo real
* Processamento dos dados de entrada
* Métodos para detecção de fraudes nos dados cadastrais de entrada para os algoritmos


