In [29]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import joblib

**Lendo o Dataset**

In [30]:
credit_risk = pd.read_csv('/content/drive/MyDrive/Trabalho de dados  - UNIT /original.csv')

**Exibindo todas as colunas**

In [31]:
credit_risk.columns

Index(['clientid', 'income', 'age', 'loan', 'default'], dtype='object')

**Mostrando as primeiras 10 linhas**

In [32]:
credit_risk.head(10)

Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1
5,6,24904.06414,57.471607,15.498598,0
6,7,48430.359613,26.809132,5722.581981,0
7,8,24500.141984,32.897548,2971.00331,1
8,9,40654.892537,55.496853,4755.82528,0
9,10,25075.872771,39.776378,1409.230371,0


**Mostrando a quantidade de dados e colunas -
Dados: 2000
Colunas: 5**



In [33]:
credit_risk.shape

(2000, 5)

**Renomeando as colunas e exibindo apenas as colunas** *sem o* ```inplace=True``` *o dataset não é alterado*

---




In [34]:
credit_risk.rename(columns={
    'clientid' : 'clienteId',
    'income' : 'renda',
    'age' : 'idade',
    'loan' : 'emprestimo',
    'default' : 'Inadimplencia'
}, inplace=True)

**Verificando se tem valores nulos em alguma coluna**

In [35]:
credit_risk.isnull().sum()

Unnamed: 0,0
clienteId,0
renda,0
idade,3
emprestimo,0
Inadimplencia,0


**Verificando de existe valores NaN**

In [36]:
credit_risk.isna().sum()

Unnamed: 0,0
clienteId,0
renda,0
idade,3
emprestimo,0
Inadimplencia,0


In [37]:
credit_risk.isna().any()

Unnamed: 0,0
clienteId,False
renda,False
idade,True
emprestimo,False
Inadimplencia,False


**Aplicando um filtro para retornar as linhas que contem NaN**

In [38]:
credit_risk[credit_risk.isna().any(axis=1)]


Unnamed: 0,clienteId,renda,idade,emprestimo,Inadimplencia
28,29,59417.805406,,2082.625938,0
30,31,48528.852796,,6155.78467,0
31,32,23526.302555,,2862.010139,0


**Verificando quais são os valores nulos** ps.: Nulo e NaN são diferentes, por isso é bom pesquisar se são os mesmos dados

In [39]:
credit_risk[credit_risk.isnull().any(axis=1)]

Unnamed: 0,clienteId,renda,idade,emprestimo,Inadimplencia
28,29,59417.805406,,2082.625938,0
30,31,48528.852796,,6155.78467,0
31,32,23526.302555,,2862.010139,0


**Mostrando a descrição da base**

In [40]:
credit_risk.describe()

Unnamed: 0,clienteId,renda,idade,emprestimo,Inadimplencia
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


**Aplicando condicional sem a necessidade do ```if```**

In [41]:
credit_risk[credit_risk['renda'] > 50000].count()

Unnamed: 0,0
clienteId,822
renda,822
idade,821
emprestimo,822
Inadimplencia,822


**Verificando a idade mínima**

In [42]:
credit_risk['idade'].min()

-52.4232799196616

**Verificando a idade máxima**

In [43]:
credit_risk['idade'].max()

63.971795841120205

**Verificando o tipo dos dados na planilha**

In [44]:
credit_risk.dtypes

Unnamed: 0,0
clienteId,int64
renda,float64
idade,float64
emprestimo,float64
Inadimplencia,int64


**Verifica a correlação**

In [45]:
credit_risk.corr()['Inadimplencia']

Unnamed: 0,Inadimplencia
clienteId,-0.020145
renda,0.002284
idade,-0.429759
emprestimo,0.37716
Inadimplencia,1.0


**Verificando se existe idade negativa**

**Somando a quantidade de valores nulos na base**

In [46]:
credit_risk.corr()['Inadimplencia']

Unnamed: 0,Inadimplencia
clienteId,-0.020145
renda,0.002284
idade,-0.429759
emprestimo,0.37716
Inadimplencia,1.0


In [47]:
credit_risk.mean()

Unnamed: 0,0
clienteId,1000.5
renda,45331.600018
idade,40.807559
emprestimo,4444.369695
Inadimplencia,0.1415


**Alterando o tipo dos dados**

In [48]:
credit_risk['renda'] = credit_risk['renda'].astype('float')
credit_risk['emprestimo'] = credit_risk['emprestimo'].astype('float')
credit_risk['renda'] = credit_risk['renda'].round(2)
credit_risk['emprestimo'] = credit_risk['emprestimo'].round(2)

In [49]:
credit_risk['emprestimo']

Unnamed: 0,emprestimo
0,8106.53
1,6564.75
2,8020.95
3,6103.64
4,8770.10
...,...
1995,1926.73
1996,3503.18
1997,5522.79
1998,1622.72


In [50]:
credit_risk['Inadimplencia'].value_counts()
# 0 é que nao esta inadimplente e 1 é o que está

Unnamed: 0_level_0,count
Inadimplencia,Unnamed: 1_level_1
0,1717
1,283


**Todo modelo preditivo, analitico etc. precisa das variaveis indepentende e a variavel dependendo para que assim eles consigam fazer uma predição ou análise**

In [51]:
# X -> armazena as variaveis independentes, elas são as variaveis que fazem sentido para a Inadimplencia
x = credit_risk.drop(['clienteId', 'Inadimplencia', 'idade'], axis=1)
# Y-> armazena a variavel dependente, variavel essa que depende das independentes para ser previsa
y = credit_risk['Inadimplencia'].values

In [52]:
x.columns

Index(['renda', 'emprestimo'], dtype='object')

**Modelo de decisão**

In [53]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

**Separa os dados em variaveis de treino e teste**

In [54]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=1/3, random_state=0) #test_size=1/3 separa 1 terço para o teste

In [55]:
arvore_de_decisao = DecisionTreeClassifier(max_depth=7)

In [56]:
arvore_de_decisao.fit(x,y)

In [57]:
y_pred = arvore_de_decisao.predict(x_test)

In [58]:
from sklearn.metrics import accuracy_score

In [59]:
acuracia = accuracy_score(y_test, y_pred)

In [60]:
acuracia *= 100

In [64]:
print(f'acurácia: {acuracia:.0f}%')

acurácia: 91%


In [62]:
joblib.dump(arvore_de_decisao, "modelo_ml.pkl")