In [95]:
import pandas as pd
import numpy as np

url = r"D:\donwloads\risco_credito.csv"
df = pd.read_csv(url)
df

Unnamed: 0,historia,divida,garantias,renda,risco
0,ruim,alta,nenhuma,0_15,alto
1,desconhecida,alta,nenhuma,15_35,alto
2,desconhecida,baixa,nenhuma,15_35,moderado
3,desconhecida,baixa,nenhuma,acima_35,alto
4,desconhecida,baixa,nenhuma,acima_35,baixo
5,desconhecida,baixa,adequada,acima_35,baixo
6,ruim,baixa,nenhuma,0_15,alto
7,ruim,baixa,adequada,acima_35,moderado
8,boa,baixa,nenhuma,acima_35,baixo
9,boa,alta,adequada,acima_35,baixo


In [96]:
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder, OneHotEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix


#  Aplica o OrdinalEncoder para Machine Learning entender que se trata de uma ordem 
lista = ['desconhecida', 'ruim', 'boa']
encoder = OrdinalEncoder(categories=[lista])
df['historia'] = encoder.fit_transform(df[['historia']])


# Aplicando para renda
lista = ['0_15', '15_35', 'acima_35']
encoder = OrdinalEncoder(categories=[lista])
df['renda'] = encoder.fit_transform(df[['renda']])


# Aplica o OneHotEncoder
df = pd.get_dummies(df, columns=['divida', 'garantias'])
# df = pd.get_dummies(df, columns=['garantias'])
display(df)

Unnamed: 0,historia,renda,risco,divida_alta,divida_baixa,garantias_adequada,garantias_nenhuma
0,1.0,0.0,alto,True,False,False,True
1,0.0,1.0,alto,True,False,False,True
2,0.0,1.0,moderado,False,True,False,True
3,0.0,2.0,alto,False,True,False,True
4,0.0,2.0,baixo,False,True,False,True
5,0.0,2.0,baixo,False,True,True,False
6,1.0,0.0,alto,False,True,False,True
7,1.0,2.0,moderado,False,True,True,False
8,2.0,2.0,baixo,False,True,False,True
9,2.0,2.0,baixo,True,False,True,False


In [97]:
# Seleciona a classe teste
x = df.drop('risco', axis=1)
y = df[['risco']]
x_train, x_teste, y_train, y_teste = train_test_split(x, y, test_size=0.25,  random_state=42)

# Cria e testa a arvore
arvore = DecisionTreeClassifier(criterion='entropy')
arvore.fit(x_train, y_train)
print(arvore.feature_importances_)
previsao = arvore.predict(x_teste)


# Avaliando o modelo
print("Acurácia:", accuracy_score(y_teste, previsao))
print("\nRelatório de Classificação:\n", classification_report(y_teste, previsao))

[0.3395264  0.34153589 0.15558448 0.         0.         0.16335323]
Acurácia: 0.5

Relatório de Classificação:
               precision    recall  f1-score   support

        alto       0.50      1.00      0.67         1
       baixo       1.00      0.50      0.67         2
    moderado       0.00      0.00      0.00         1

    accuracy                           0.50         4
   macro avg       0.50      0.50      0.44         4
weighted avg       0.62      0.50      0.50         4



### Versão Numero 2 Simplificada

In [99]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OrdinalEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# Carregar o dataset
url = r"D:\donwloads\risco_credito.csv"
df = pd.read_csv(url)

# 1. Aplicar OrdinalEncoder para colunas com ordem
ord_cols = ['historia', 'renda']



ord_categories = [
    ['desconhecida', 'ruim', 'boa'],  # historia
    ['0_15', '15_35', 'acima_35']     # renda
]

encoder = OrdinalEncoder(categories=ord_categories)
df[ord_cols] = encoder.fit_transform(df[ord_cols])

# 2. Aplicar OneHotEncoder com pd.get_dummies
df = pd.get_dummies(df, columns=['divida', 'garantias'])

# 3. Separar features (X) e rótulo (y)
X = df.drop('risco', axis=1)
y = df['risco']



# 4. Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)


# 5. Criar e treinar a árvore de decisão
arvore = DecisionTreeClassifier(criterion='entropy', random_state=42)
arvore.fit(X_train, y_train)



# 6. Avaliar o modelo
y_pred = arvore.predict(X_test)

print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))

# Exibir as importâncias das features
importances = pd.Series(arvore.feature_importances_, index=X.columns)
print("\nImportância das Features:\n", importances.sort_values(ascending=False))


Acurácia: 0.5

Relatório de Classificação:
               precision    recall  f1-score   support

        alto       0.50      1.00      0.67         1
       baixo       1.00      0.50      0.67         2
    moderado       0.00      0.00      0.00         1

    accuracy                           0.50         4
   macro avg       0.50      0.50      0.44         4
weighted avg       0.62      0.50      0.50         4


Importância das Features:
 renda                 0.497120
historia              0.163353
garantias_nenhuma     0.155584
divida_baixa          0.125218
garantias_adequada    0.058724
divida_alta           0.000000
dtype: float64
