**Analise de Crédito**

In [22]:
import pandas as pd
import numpy as np
import statistics
from scipy import stats
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [3]:
dataset = pd.read_csv('credit_data.csv')
dataset.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [4]:
dataset.isna().sum()

i#clientid    0
income        0
age           3
loan          0
c#default     0
dtype: int64

In [5]:
# Removendo valores NA
dataset.dropna(inplace=True)
dataset.isna().sum()

i#clientid    0
income        0
age           0
loan          0
c#default     0
dtype: int64

In [6]:
X = dataset.iloc[:, 1:4].values
X

array([[6.61559251e+04, 5.90170151e+01, 8.10653213e+03],
       [3.44151540e+04, 4.81171531e+01, 6.56474502e+03],
       [5.73171701e+04, 6.31080495e+01, 8.02095330e+03],
       ...,
       [4.43114493e+04, 2.80171669e+01, 5.52278669e+03],
       [4.37560566e+04, 6.39717958e+01, 1.62272260e+03],
       [6.94365796e+04, 5.61526170e+01, 7.37883360e+03]])

In [8]:
y = dataset.iloc[:,4].values
y

array([0, 0, 0, ..., 1, 0, 0])

**Testando Algoritimos**

Executaremos 30 testes ( Que é o que é recomendado pela comunidade cientifica)

In [10]:
from sklearn import naive_bayes

resultados_naive_bayes = []
resultados_logistica = []
resultados_forest = []

for i in range(30):
  X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X,y, test_size=0.2, 
                                                                    stratify=y,
                                                                    random_state=i)
  
  # Algoritimo NaiveBayes
  naive_bayes = GaussianNB()
  naive_bayes.fit(X_treinamento, y_treinamento)
  resultados_naive_bayes.append(accuracy_score(y_teste, naive_bayes.predict(X_teste)))

  # Algoritimo Regressão Logistica
  logistic = LogisticRegression()
  logistic.fit(X_treinamento, y_treinamento)
  resultados_logistica.append(accuracy_score(y_teste, logistic.predict(X_teste)))

  # Algoritimo RandomForest
  random_forest = RandomForestClassifier()
  random_forest.fit(X_treinamento, y_treinamento)
  resultados_forest.append(accuracy_score(y_teste, random_forest.predict(X_teste)))


In [11]:
print(resultados_naive_bayes)

[0.925, 0.925, 0.9325, 0.925, 0.92, 0.905, 0.9175, 0.9175, 0.9125, 0.9325, 0.9225, 0.9125, 0.935, 0.9175, 0.925, 0.9175, 0.9275, 0.92, 0.9325, 0.92, 0.93, 0.905, 0.9175, 0.9325, 0.9425, 0.9375, 0.94, 0.92, 0.935, 0.925]


In [12]:
print(resultados_logistica)

[0.9325, 0.91, 0.9125, 0.9225, 0.9075, 0.89, 0.91, 0.9075, 0.8775, 0.915, 0.9175, 0.9, 0.925, 0.9175, 0.9025, 0.9125, 0.9525, 0.91, 0.9225, 0.9075, 0.925, 0.905, 0.9075, 0.945, 0.9225, 0.9275, 0.9225, 0.9175, 0.91, 0.9]


In [13]:
print(resultados_forest)

[0.9775, 0.9875, 0.9825, 0.995, 0.98, 0.9875, 0.985, 0.9825, 0.975, 0.99, 0.985, 0.98, 0.975, 0.9875, 0.98, 0.9775, 0.985, 0.985, 0.99, 0.9875, 0.98, 0.975, 0.985, 0.985, 0.9925, 0.995, 0.9925, 0.985, 0.99, 0.9875]


# Avaliando Resultados

**Média**

In [37]:
# Como os resultados foram armazenados em lista, precisaremos converter em Array
resultados_naive_bayes = np.array(resultados_naive_bayes)
resultados_logistica = np.array(resultados_logistica)
resultados_forest = np.array(resultados_forest)

In [19]:
# Média dos 30 testes
resultados_naive_bayes.mean(), resultados_logistica.mean(), resultados_forest.mean()
# R: (0.92425, 0.9145, 0.98475)

(0.92425, 0.9145, 0.98475)

Moda

In [25]:
stats.mode(resultados_naive_bayes), stats.mode(resultados_logistica), stats.mode(resultados_forest)

(ModeResult(mode=array([0.9175]), count=array([5])),
 ModeResult(mode=array([0.9075]), count=array([4])),
 ModeResult(mode=array([0.985]), count=array([7])))

**Mediana**

In [26]:
np.median(resultados_naive_bayes), np.median(resultados_logistica), np.median(resultados_forest)

(0.925, 0.9125, 0.985)

**Variância**

In [28]:
np.set_printoptions(suppress=True)
np.var(resultados_naive_bayes), np.var(resultados_logistica), np.var(resultados_forest)

(8.756250000000001e-05, 0.00020933333333333337, 3.139583333333343e-05)

In [30]:
# Como os dados estão em notação cientifica, utilizaremos uma funçã odo numpy
# para encontrar-mos o algoritimo com menor variância
# Podemos dizer que o algoritimo random_forest é mais consistente dentre os demais
# pois possui uma menor variação entre a média
np.min([8.756250000000001e-05, 0.00020933333333333337, 3.139583333333343e-05])

3.139583333333343e-05

In [31]:
# Algoritimo com a maior variação
np.max([8.756250000000001e-05, 0.00020933333333333337, 3.139583333333343e-05])

0.00020933333333333337

**Desvio Padrão**

In [32]:
np.std(resultados_naive_bayes), np.std(resultados_logistica), np.std(resultados_forest)

(0.00935748363610645, 0.014468356276140472, 0.0056031984913380885)

**Coeficiente de Variação**

In [36]:
# O Algoritimo random forest varia cerca de 0.5% do valor da média
stats.variation(resultados_naive_bayes) * 100, stats.variation(resultados_logistica) * 100, stats.variation(resultados_forest) * 100

(1.0124407504578252, 1.5821056616884057, 0.5689970542105193)