In [1]:
import pandas as pd
import json
import math

In [2]:
df = pd.read_csv('./credit_risk.csv')

df

Unnamed: 0,História de crédito,Dívida,Garantias,Renda Anual,Risco
0,Ruim,Alta,Nenhuma,< 15000,Alto
1,Desconhecida,Alta,Nenhuma,>= 15000 e <=35000,Alto
2,Desconhecida,Baixa,Nenhuma,>= 15000 e <=35000,Moderado
3,Desconhecida,Baixa,Nenhuma,> 35000,Alto
4,Desconhecida,Baixa,Nenhuma,> 35000,Baixo
5,Desconhecida,Baixa,Adequada,> 35000,Baixo
6,Ruim,Baixa,Nenhuma,< 15000,Alto
7,Ruim,Baixa,Adequada,> 35000,Moderado
8,Boa,Baixa,Nenhuma,> 35000,Baixo
9,Boa,Alta,Adequada,> 35000,Baixo


In [3]:
high_risk = df.loc[df['Risco'] == 'Alto']
medium_risk = df.loc[df['Risco'] == 'Moderado']
low_risk = df.loc[df['Risco'] == 'Baixo']

print(f'Alto risco: {high_risk.count()["Risco"]}/{df.count()["Risco"]}')
print(f'Moderado risco: {medium_risk.count()["Risco"]}/{df.count()["Risco"]}')
print(f'Baixo risco: {low_risk.count()["Risco"]}/{df.count()["Risco"]}')


Alto risco: 6/14
Moderado risco: 3/14
Baixo risco: 5/14


In [12]:
risk_entropy = -6/14 * math.log2(6/14) - 3/14 * math.log2(3/14) - 5/14 * math.log2(5/14)
good_history_entropy = -1/5 * math.log2(1/5) - 1/5 * math.log2(1/5) - 3/5 * math.log2(3/5)
unknown_history_entropy = -2/5 * math.log2(2/5) - 1/5 * math.log2(1/5) - 2/5 * math.log2(2/5)
bad_history_entropy = -3/4 * math.log2(3/4) - 1/4 * math.log2(1/4)

print(f'Entropia de risco: {risk_entropy}')
print(f'Entropia de historico bom: {good_history_entropy}')
print(f'Entropia de historico desconhecido: {unknown_history_entropy}')
print(f'Entropia de historico ruim: {bad_history_entropy}')

Entropia de risco: 1.5306189948485174
Entropia de historico bom: 1.3709505944546687
Entropia de historico desconhecido: 1.5219280948873621
Entropia de historico ruim: 0.8112781244591328


In [13]:
gain = risk_entropy - (5/14 * good_history_entropy) - (5/14 * unknown_history_entropy) - (4/14 * bad_history_entropy)
print(f'Ganho de informação: {gain}')

Ganho de informação: 0.26565428452375406


In [5]:
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values


print(X)
print(y)

[['Ruim' 'Alta' 'Nenhuma' '< 15000']
 ['Desconhecida' 'Alta' 'Nenhuma' '>= 15000 e <=35000']
 ['Desconhecida' 'Baixa' 'Nenhuma' '>= 15000 e <=35000']
 ['Desconhecida' 'Baixa' 'Nenhuma' '> 35000']
 ['Desconhecida' 'Baixa' 'Nenhuma' '> 35000']
 ['Desconhecida' 'Baixa' 'Adequada' '> 35000']
 ['Ruim' 'Baixa' 'Nenhuma' '< 15000']
 ['Ruim' 'Baixa' 'Adequada' '> 35000']
 ['Boa' 'Baixa' 'Nenhuma' '> 35000']
 ['Boa' 'Alta' 'Adequada' '> 35000']
 ['Boa' 'Alta' 'Nenhuma' '< 15000']
 ['Boa' 'Alta' 'Nenhuma' '>= 15000 e <=35000']
 ['Boa' 'Alta' 'Nenhuma' '> 35000']
 ['Ruim' 'Alta' 'Nenhuma' '>= 15000 e <=35000']]
['Alto' 'Alto' 'Moderado' 'Alto' 'Baixo' 'Baixo' 'Alto' 'Moderado' 'Baixo'
 'Baixo' 'Alto' 'Moderado' 'Baixo' 'Alto']
