## Random Forest e Decision Tree
Neste projeto foram utilizados dados públicos do site LendingClub.com. Lending Club conecta pessoas que precisam de dinheiro (mutuários) com pessoas que tem dinheiro (investidores). Um investidor, por sua vez, gostaria de investir em pessoas que tenham uma grande probabilidade de pagar de volta. Com base nisso, sera feito um modelo que ira prever se o mutuário ira pagar o empréstimo integralmente ou não.

___

## Os dados

o que as colunas representam:

   - **credit.policy**: 1 se o cliente atender aos critérios de subscrição de crédito, e 0 caso contrário.
   - **purpose**: O propósito do empréstimo (leva os valores "credit_card", "debt_consolidation", "educational", "major_purchase", "small_business", and "all_other").
   - **int.rate**: TA taxa de juros do empréstimo, como proporção (uma taxa de 11% seria armazenada como 0,11). Os mutuários considerados pelo LendingClub.com como mais arriscados recebem taxas de juros mais altas.
   - **installment**: As prestações mensais devidas pelo mutuário se o empréstimo for financiado.
   - **log.annual.inc**: renda anual auto-relatada do mutuário.
   - **dti**: rendimento do mutuário (montante da dívida dividido pelo rendimento anual).
   - **fico**: A pontuação de crédito FICO do mutuário.
   - **days.with.cr.line**: O número de dias que o mutuário tem uma linha de crédito.
   - **revol.bal**: oOsaldo rotativo do mutuário (valor não pago no final do ciclo de faturamento do cartão de crédito).
   - **revol.util**: A taxa de utilização da linha rotativa do mutuário (o valor da linha de crédito usado em relação ao crédito total disponível).
   - **inq.last.6mths**: O número de consultas do mutuário por credores nos últimos 6 meses.
   - **delinq.2yrs**: O número de vezes que o mutuário estava com mais de 30 dias de atraso em um pagamento nos últimos 2 anos.
   - **pub.rec** : O número de registros públicos depreciativos do mutuário (pedidos de falência, gravames fiscais ou julgamentos).
   - **not.fully.paid**: 0 pagou tudo, 1 falta pagar.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report,confusion_matrix
from pandas_profiling import ProfileReport

In [None]:
df = pd.read_csv('../input/lending-club-loan-data-analysis/loan_data.csv')
df.head()

In [None]:
report = ProfileReport(df)
report

In [None]:
df.info()

In [None]:
df.describe()

## Análise exploratória de dados

In [None]:
sns.set_style('whitegrid')

plt.figure(figsize=(10,6))
df[df['credit.policy']==1]['fico'].hist(alpha=0.5,color='blue',
                                              bins=30,label='Credit.Policy=1')
df[df['credit.policy']==0]['fico'].hist(alpha=0.5,color='red',
                                              bins=30,label='Credit.Policy=0')
plt.legend()
plt.xlabel('FICO')

In [None]:
plt.figure(figsize=(10,6))
df[df['not.fully.paid']==1]['fico'].hist(alpha=0.5,color='blue',
                                              bins=30,label='not.fully.paid=1')
df[df['not.fully.paid']==0]['fico'].hist(alpha=0.5,color='red',
                                              bins=30,label='not.fully.paid=0')
plt.legend()
plt.xlabel('FICO')

In [None]:
plt.figure(figsize=(12,7))
sns.countplot(x='purpose',hue='not.fully.paid',data=df,palette='Set1')

In [None]:
sns.jointplot(x='fico',y='int.rate',data=df,color='purple')

## Características Categóricas

A coluna de purpose é categórica. Isso significa que é necessário usar variáveis dummy para que o sklearn seja capaz de interpretá-la.

In [None]:
cat_feats = ['purpose']

final_data = pd.get_dummies(df,columns=cat_feats,drop_first=True)
final_data.info()

## Train Test Split

In [None]:
X = final_data.drop('not.fully.paid',axis=1)
y = final_data['not.fully.paid']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=101)

## Treinando o Modelo de Decision Tree

In [None]:
dtree = DecisionTreeClassifier()
dtree.fit(X_train,y_train)

## Previsões e avaliação da Decision Tree

In [None]:
predictions = dtree.predict(X_test)
print(classification_report(y_test,predictions))

In [None]:
print(confusion_matrix(y_test,predictions))

## Treinando o Modelo de Random Forest

In [None]:
rfc = RandomForestClassifier(n_estimators=600)
rfc.fit(X_train,y_train)

## Previsões e avaliação da Random Forest

In [None]:
predictions = rfc.predict(X_test)
print(classification_report(y_test,predictions))

In [None]:
print(confusion_matrix(y_test,predictions))