# Projeto Python IA: Inteligência Artificial e Previsões

### Case: Score de Crédito dos Clientes

Você foi contratado por um banco para conseguir definir o score de crédito dos clientes. Você precisa analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele: Ruim, Ok, Bom

## Primeiro o passo a passo de como sera trabalhado o projeto

0 - Entender o desafio da empresa para saber qual o "accuracy" que buscamos

1 - Importar a base de dados

2 - Estudo previo do banco de dados

3 - Tratar possiveis erros que possam haver no banco de dados:

    Verificar valores vazios
    Preparar a base de dados para receber a IA
    
4 - fazer a separacao dos dados para treinar a IA:

    x = todos valores do banco de dados exceto o gabarito (score)
    y = o gabarito (score)

    separar tb em x_treino e x_teste (para ensinar a IA)
    o mesmo vale tb para o Y

5 - Criar o modelo de IA buscando ensinar sobre os scores (ruim, ok, bom)
    score sera o gabarito

6 - Escolher o modelo de IA com melhor accuracy

7 - Por em pratica a IA para futuras previsoes

In [5]:
# IMPORTANDO A BASE DE DADOS
# Ja importanto tudo que sera utilizado ao longo do projeto para adiantar
# e manter bem organizado
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


# df = DATAFRAME
df = pd.read_csv(
    "D:\\Otas paradas V\\JORNADA PYTHON\\precisao_com_IA\\clientes.csv"
)

# new_df como nome remete tendo como base df => NEW_DATAFRAME
# ja importando para adiantar processos futuros
new_df = pd.read_csv(
    "D:\\Otas paradas V\\JORNADA PYTHON\\precisao_com_IA\\novos_clientes.csv"
)

# chegando se a df foi importada corretamente com todas as linhas e colunas
display(df)

# print apenas usado como "separador", facilitando leitura
print('='*100)
display(df.columns)

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,alto_gasto_pagamento_alto,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,alto_gasto_pagamento_medio,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,alto_gasto_pagamento_alto,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,baixo_gasto_pagamento_alto,319.164979,Standard,1,0,0,0,1




Index(['id_cliente', 'mes', 'idade', 'profissao', 'salario_anual',
       'num_contas', 'num_cartoes', 'juros_emprestimo', 'num_emprestimos',
       'dias_atraso', 'num_pagamentos_atrasados', 'num_verificacoes_credito',
       'mix_credito', 'divida_total', 'taxa_uso_credito',
       'idade_historico_credito', 'investimento_mensal',
       'comportamento_pagamento', 'saldo_final_mes', 'score_credito',
       'emprestimo_carro', 'emprestimo_casa', 'emprestimo_pessoal',
       'emprestimo_credito', 'emprestimo_estudantil'],
      dtype='object')

In [21]:
# ESTUDANDO PREVIAMENTE A DF, VERIFICANDO VALORES VAZIOS E SE TODOS OS CONTEUDOS
# SERVEM PARA NOSSA IA, LEMBRANDO QUE A IA SO ACEITA NUMEROS (INT OU FLOAT)
df.info()

# verificado que temos as colunas profissao, mix_credito e comportamento_pagamento
# como textos (no caso representado como object)

# lembrando que a coluna score_credito é nosso gabarito e o que queremos buscar,
# ela nao precisa de tratamento

# codificando automaticamente com LabelEncoder
encoder = LabelEncoder()
# utilizando for para iraplicar de forma automatica
# é possivel codificar coluna por coluna tambem
    # ex: df["profissao"] = encoder.fit_transform(df["profissao"]) e assim por diante
    # para cada coluna que tenha "object" como dtype, exceto o gabarito (score_credito)
for columns in df.columns:
    if df[columns].dtype == "object" and columns != "score_credito":
        df[columns] = encoder.fit_transform(df[columns])

# checando se agora todo "object" fou substituido
df.info()

# como verificado, agora nosso banco de dados pode ser entregue para a IA
# aprender

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int32  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int32  
 13  divida_total              100000 non-null  fl

In [23]:
# APRENDIZADO DE MAQUINA
    # SEPARANDO EM TREINO
    # SEPARANDO EM TESTE

# SEPARANDO A BASE DE DADOS
    # Y > NOSSO GABARITO
y = df['score_credito']

    # X> TODA TABELA MENOS GABARITO E DADOS "INUTEIS",
    # NESSE CASO A COLUNA ID_CLIENTE

x = df.drop(
    columns=[
     "id_cliente",
     "score_credito"
    ]
)
# verificando se tudo ocorreu como esperado
display(y)
# print separador
print("="*100)
display(x)

# colocando nossa IA para treinar utilizando o train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    x, y,
    test_size=0.25
    )

0            Good
1            Good
2            Good
3            Good
4            Good
           ...   
99995        Poor
99996        Poor
99997        Poor
99998    Standard
99999        Poor
Name: score_credito, Length: 100000, dtype: object



Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,7.0,...,26.822620,265.0,21.465380,1,312.494089,1,1,1,1,0
1,2,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,4.0,...,31.944960,266.0,21.465380,3,284.629162,1,1,1,1,0
2,3,23.0,2,19114.12,3.0,4.0,3.0,4.0,3.0,7.0,...,28.609352,267.0,21.465380,5,331.209863,1,1,1,1,0
3,4,23.0,2,19114.12,3.0,4.0,3.0,4.0,5.0,4.0,...,31.377862,268.0,21.465380,4,223.451310,1,1,1,1,0
4,5,23.0,2,19114.12,3.0,4.0,3.0,4.0,6.0,4.0,...,24.797347,269.0,21.465380,2,341.489231,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,4,25.0,11,39628.99,4.0,6.0,7.0,2.0,23.0,7.0,...,34.663572,378.0,24.028477,0,479.866228,1,0,0,0,1
99996,5,25.0,11,39628.99,4.0,6.0,7.0,2.0,18.0,7.0,...,40.565631,379.0,24.028477,2,496.651610,1,0,0,0,1
99997,6,25.0,11,39628.99,4.0,6.0,7.0,2.0,27.0,6.0,...,41.255522,380.0,24.028477,0,516.809083,1,0,0,0,1
99998,7,25.0,11,39628.99,4.0,6.0,7.0,2.0,20.0,6.0,...,33.638208,381.0,24.028477,3,319.164979,1,0,0,0,1


In [24]:
# CRIANDO E TREINANDO A NOSSA IA

    # criando a IA utilizando dois modelos para comparaçoes
    # arvore de desicao e vizinhos proximos
random_forest_model = RandomForestClassifier()
knn_model = KNeighborsClassifier()

    # treinando a nossa IA
random_forest_model.fit(x_train, y_train)
knn_model.fit(x_train, y_train)

In [25]:
# TESTANDO O ACCURACY DE CADA MODELO PARA COMPARAÇAO
predict_forest = random_forest_model.predict(x_test)
predict_knn = knn_model.predict(x_test)

# printando o resultado para comparaçoes
print(accuracy_score(y_test, predict_forest))
print(accuracy_score(y_test, predict_knn))

0.83036
0.74776


In [27]:
# ENTENDENDO QUAIS SAO AS CARACTERISTICAS MAIS IMPORTANTES NA DEFINIÇAO DO CREDITO
from operator import index


columns = list(x_test.columns)

importance = pd.DataFrame(
    index=columns, data=random_forest_model.feature_importances_
    )

# multiplicando importancia por 100 para ter valor em %
importance = importance * 100
print(importance)

# analisando os dados obtidos de importancia (importance)
# podemos ver que as colunas mais importantes na avaliacao do credito sao
# -> juros_emprestimo
# -> mix_credito
# -> divida_total
# -> idade_historico_credito

                                  0
mes                        3.983508
idade                      4.258553
profissao                  3.251274
salario_anual              5.139853
num_contas                 3.353200
num_cartoes                4.621612
juros_emprestimo           8.082730
num_emprestimos            3.127188
dias_atraso                6.178058
num_pagamentos_atrasados   4.489661
num_verificacoes_credito   4.643296
mix_credito                8.781206
divida_total              11.207162
taxa_uso_credito           5.084597
idade_historico_credito    7.612505
investimento_mensal        4.822085
comportamento_pagamento    2.379530
saldo_final_mes            5.442587
emprestimo_carro           0.711035
emprestimo_casa            0.737011
emprestimo_pessoal         0.696870
emprestimo_credito         0.696501
emprestimo_estudantil      0.699976


In [33]:
# APLICANDO A IA AO DF DE NOVOS CLIENTES

# fazer novas previsoes
    # usar os novos_clientes (que ja foram importados no inicio)
    # fazer os mesmos ajustes para os novos clientes (codificar)
    # fazer as previsoes (utilizando a arvore pois foi o melhor modelo)
print(new_df.columns)
print('='*100)

encoder_new_df = LabelEncoder()
# passando os "object" para numero no novo dataframe
for columns in new_df.columns:
    if new_df[columns].dtype == 'object':
        new_df[columns] = encoder_new_df.fit_transform(new_df[columns])

# conferindo se tudo correu bem
new_df.info()
print('='*100)

# como avaliado, o new_df esta pronto para receber o modelo de IA
new_predict = random_forest_model.predict(new_df)
# printando os scores dos futuros clientes
print(new_predict)

Index(['mes', 'idade', 'profissao', 'salario_anual', 'num_contas',
       'num_cartoes', 'juros_emprestimo', 'num_emprestimos', 'dias_atraso',
       'num_pagamentos_atrasados', 'num_verificacoes_credito', 'mix_credito',
       'divida_total', 'taxa_uso_credito', 'idade_historico_credito',
       'investimento_mensal', 'comportamento_pagamento', 'saldo_final_mes',
       'emprestimo_carro', 'emprestimo_casa', 'emprestimo_pessoal',
       'emprestimo_credito', 'emprestimo_estudantil'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   mes                       3 non-null      int64  
 1   idade                     3 non-null      float64
 2   profissao                 3 non-null      int32  
 3   salario_anual             3 non-null      float64
 4   num_contas                3 non-null      float64
 5

In [42]:
# AGORA PARA FINALIZAR, SERA COLOCADO AS PREVISOES NO DATAFRAME DOS NOVOS_CLIENTES QUE ENTRARAM NO BANCO
# inicialmente sera adicionada uma nova coluna ao "new_df" com o nome original "score_credito"
# new_predict = random_forest_model.predict(new_df)

# obtendo o indice da coluna que no dataframe original vem depois de score_credito
# no caso seria indice da coluna emprestimo_carro
index_emprestimo_carro = new_df.columns.get_loc("emprestimo_casa")

# inserindo a coluna "predict_score_credito" no local desejado (no indice)
# new_df.insert(index_emprestimo_carro, "score_credito", new_predict)

# mostrando a info para verificar se a coluna foi adicionada
new_df.info()
print('='*100)

# printando todas colunas para verificar mesma coisa do "info" acima
print(new_df.columns)
print('='*100)

# dando display para verificar se o valor de score esta no local
display(new_df)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 24 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   mes                       3 non-null      int64  
 1   idade                     3 non-null      float64
 2   profissao                 3 non-null      int32  
 3   salario_anual             3 non-null      float64
 4   num_contas                3 non-null      float64
 5   num_cartoes               3 non-null      float64
 6   juros_emprestimo          3 non-null      float64
 7   num_emprestimos           3 non-null      float64
 8   dias_atraso               3 non-null      float64
 9   num_pagamentos_atrasados  3 non-null      float64
 10  num_verificacoes_credito  3 non-null      float64
 11  mix_credito               3 non-null      int32  
 12  divida_total              3 non-null      float64
 13  taxa_uso_credito          3 non-null      float64
 14  idade_historic

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,score_credito,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,1,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,218.0,44.50951,1,312.487689,1,Poor,1,0,0,0
1,4,32.0,0,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,12.0,0.0,2,300.994163,0,Good,0,0,0,1
2,2,48.0,1,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,215.0,0.0,0,345.081577,0,Good,1,0,1,0
