# Projeto Floresta Aleatória
Para este projeto, exploraremos dados disponíveis publicamente do [LendingClub.com](www.lendingclub.com). Lending Club conecta pessoas que precisam de dinheiro (mutuários) com pessoas que têm dinheiro (investidores). Felizmente, como investidor, você gostaria de investir em pessoas que mostrassem um perfil de alta probabilidade de pagar de volta. Tentaremos criar um modelo que ajude a prever isso.

O Lending Club teve um [ano muito interessante em 2016](https://en.wikipedia.org/wiki/Lending_Club#2016), então vamos verificar alguns de seus dados e manter o contexto em mente. Esses dados são de antes mesmo de serem divulgados.

Usaremos dados de empréstimos de 2007-2010 e tentaremos classificar e prever se o mutuário pagou ou não seu empréstimo integralmente. Você pode baixar os dados de [aqui](https://www.lendingclub.com/info/download-data.action) ou apenas use o csv já fornecido. É recomendável que você use o csv fornecido, pois ele foi limpo de valores NA.

Aqui está o que as colunas representam:
* credit.policy: 1 se o cliente atender aos critérios de subscrição de crédito do LendingClub.com e 0 caso contrário.
* purpose: A finalidade do empréstimo (toma os valores "credit_card", "debt_consolidation", "educational", "major_purchase", "small_business", e "all_other").
* int.rate: A taxa de juros do empréstimo, como proporção (uma taxa de 11% seria armazenada como 0,11). Os mutuários considerados mais arriscados pelo LendingClub.com recebem taxas de juros mais altas.
* parcela: As parcelas mensais devidas pelo mutuário se o empréstimo for financiado.
* log.annual.inc: O log natural da renda anual autodeclarada do mutuário.
* dti: A relação dívida/renda do mutuário (valor da dívida dividido pela renda anual).
* fico: A pontuação de crédito FICO do mutuário.
* days.with.cr.line: O número de dias que o mutuário tem uma linha de crédito.
* revol.bal: saldo rotativo do tomador (valor não pago ao final do ciclo de cobrança do cartão de crédito).
* revol.util: a taxa de utilização da linha rotativa do mutuário (o valor da linha de crédito usada em relação ao crédito total disponível).
* inq.last.6mths: Número de consultas do mutuário por parte dos credores nos últimos 6 meses.
* delinq.2yrs: O número de vezes que o mutuário teve mais de 30 dias de atraso em um pagamento nos últimos 2 anos.
* pub.rec: O número de registros públicos depreciativos do mutuário (declarações de falência, ônus fiscais ou sentenças).

# Importar Bibliotecas

** Importe as bibliotecas usuais para pandas e plotagem. Você pode importar o sklearn mais tarde.**

## Obtenha os dados

** Use pandas para ler loan_data.csv como um dataframe chamado loans.**

In [None]:
# Esse trecho do código é obrigatório para quem estiver fazendo tudo pelo colab
# Caso você esteja utilizando o jupyter pode comentar/apagar
import os
from google.colab import drive

drive.mount('/content/drive')
os.chdir("drive/My Drive/Colab Notebooks/IA/15_Árvores_de_Decisão")
os.listdir()

** Confira os métodos info(), head() e describe() em loans.**

#Análise exploratória de dados

Vamos fazer alguma visualização de dados! Usaremos recursos de plotagem incorporados do seaborn e pandas, mas sinta-se à vontade para usar qualquer biblioteca que desejar. Não se preocupe com a correspondência de cores, apenas se preocupe em obter a ideia principal.

** Crie um histograma de duas distribuições FICO uma sobre a outra, uma para cada resultado credit.policy.**

*Observação: isso é bastante complicado, sinta-se à vontade para consultar as soluções. Você provavelmente precisará de uma linha de código para cada histograma, também recomendo usar pandas embutidos em .hist()*

**Crie uma figura semelhante, exceto que desta vez selecione pela coluna not.fully.paid.**

**Crie um gráfico de contagem usando seaborn mostrando as contagens de empréstimos por finalidade, com o tom de cor definido por not.fully.paid**

**Vamos ver a tendência entre a pontuação FICO e a taxa de juros. Recrie o seguinte gráfico conjunto.**

**Crie os seguintes lmplots para ver se a tendência diferiu entre not.fully.paid e credit.policy. Verifique a documentação de lmplot() se você não consegue descobrir como separá-lo em colunas.**

# Configurando os dados

Vamos nos preparar para configurar nossos dados para nosso Modelo de Classificação de Floresta Aleatória!

**Verifique loans.info() novamente.**

## Características categóricas

Observe que a coluna **purpose** é categórica

Isso significa que precisamos transformá-los usando variáveis ​​fictícias para que o sklearn seja capaz de entendê-los. Faremos isso utilizando pd.get_dummies.

Vamos mostrar uma maneira de lidar com essas colunas que podem ser expandidas para vários recursos categóricos, se necessário.

**Crie uma lista de 1 elemento contendo a string 'purpose'. Chame esta lista de cat_feats.**

**Agora use pd.get_dummies(loans,columns=cat_feats,drop_first=True) para criar um dataframe fixo maior que tenha novas colunas de recursos com variáveis ​​fictícias. Defina este dataframe como final_data.**

## Divisão de teste de trem

Agora é hora de dividir nossos dados em um conjunto de treinamento e um conjunto de teste!

** Use sklearn para dividir seus dados em um conjunto de treinamento e um conjunto de teste, como fizemos no passado.**

## Treinando um modelo de árvore de decisão

Vamos começar treinando uma única árvore de decisão primeiro!

** Importar DecisionTreeClassifier**

**Crie uma instância de DecisionTreeClassifier() chamada dtree e ajuste-a aos dados de treinamento.**

## Previsões e Avaliação da Árvore de Decisão

**Crie previsões a partir do conjunto de testes e crie um relatório de classificação e uma matriz de confusão.**


## Treinando o modelo Random Forest

Agora é hora de treinar nosso modelo!

**Crie uma instância da classe RandomForestClassifier e ajuste-a aos nossos dados de treinamento da etapa anterior.**

## Previsões e Avaliação

Vamos prever os valores de y_test e avaliar nosso modelo.

** Preveja a classe de not.fully.paid para os dados do X_test.**

**Agora crie um relatório de classificação a partir dos resultados. Você recebe algo estranho ou algum tipo de aviso?**

**Mostre a Matriz de Confusão para as previsões.**

**O que teve melhor desempenho a floresta aleatória ou a árvore de decisão?**

In [None]:
# Depende de qual métrica você está tentando otimizar.
# Observe o recall de cada classe para os modelos.
# Nenhum dos dois foi muito bem, é necessário mais engenharia de recursos.