# Análise de Dados com IA 

### Utilizando Python, Scikit Learn e OpenAI API

Isso é um trabalho sobre Análise de Dados com IA. Aqui mostrarei dois principais exemplos utilizando
ferramentas do Python, uma vez que ela se apresenta como a mais viável para trabalhar com esse tema.

Aqui estou utilizando o Jupyter Notebook, uma ferramenta que me permite intercalar células de Markdown
com células de código Python, afim de produzir um conteúdo didático que pondera com excelência os textos
didáticos e os exemplos de código. <p>

## Primeiro Exemplo: Análise Massiva e Previsão

O primeiro exemplo se trata do uso da IA para fazer previsões com base em dados apresentados. <p>
Aqui possuo uma planilha de clientes de uma instituição financeira. Essa instituição está com um
evento que dará ao seus clientes confiáveis maior limite e oportunidades em seus serviços. Porém o número 
altíssimo de clientes torna a averiguação dos clientes uma tarefa extremamente cansativa e demorada para um ser humano. <p>
Nesse contexto, a IA se apresenta como uma ferramenta capaz de analisar a qualidade dos clientes e decidir se eles se enquadram nos que serão beneficiados nesse evento. <p>
Aqui utilizaremos duas principais ferramentas: 

### Pandas
O Pandas é uma biblioteca muito conhecida pelos profissionais que trabalham com dados em quantidades diversas. Ele permite uma visualização, indexação e manipulação dos dados excepcional para análises de todo tipo ou finalidade. <p>

### Scikit Learn
O Scikit Learn é uma biblioteca que provê diversas ferramentas para uso de modelos de linguagem. Aqui utilizaremos o codificador de dados, o banco de modelos, o dividor de dados para treino e teste para modelos e o verificador de acurácia do modelo. Tralaharemos em conjunto com o Pandas, utilizando ele para filtrar e indexar os dados que serão fornecidos aos modelos. <p>

### Criando passos para a execução:

In [2]:
# Passo a passo
# Passo 0 - Entender a empresa e o desafio da empresa
# Passo 1 - Importar a base de dados
import pandas as pd

tabela = pd.read_csv("assets/clientes.csv")

display(tabela)

# Score de crédito = Nota de crédito
# Good = Boa
# Standard = OK
# Poor = Ruim

Unnamed: 0,id_cliente,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,...,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,score_credito,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,3392,1,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,265.0,21.465380,alto_gasto_pagamento_baixos,312.494089,Good,1,1,1,1,0
1,3392,2,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,266.0,21.465380,baixo_gasto_pagamento_alto,284.629162,Good,1,1,1,1,0
2,3392,3,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,3.0,...,267.0,21.465380,baixo_gasto_pagamento_medio,331.209863,Good,1,1,1,1,0
3,3392,4,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,5.0,...,268.0,21.465380,baixo_gasto_pagamento_baixo,223.451310,Good,1,1,1,1,0
4,3392,5,23.0,cientista,19114.12,3.0,4.0,3.0,4.0,6.0,...,269.0,21.465380,alto_gasto_pagamento_medio,341.489231,Good,1,1,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,37932,4,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,23.0,...,378.0,24.028477,alto_gasto_pagamento_alto,479.866228,Poor,1,0,0,0,1
99996,37932,5,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,18.0,...,379.0,24.028477,alto_gasto_pagamento_medio,496.651610,Poor,1,0,0,0,1
99997,37932,6,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,27.0,...,380.0,24.028477,alto_gasto_pagamento_alto,516.809083,Poor,1,0,0,0,1
99998,37932,7,25.0,mecanico,39628.99,4.0,6.0,7.0,2.0,20.0,...,381.0,24.028477,baixo_gasto_pagamento_alto,319.164979,Standard,1,0,0,0,1


##### Aqui fizemos uma análise inicial dos dados para entender como que a empresa administra e faz a gestão dos clientes, nosso próximo passo é preparar os dados com codificadores para que a IA possa processá-los e fazer as previsões.  

### Tabela com Dados Brutos:

In [6]:
# Passo 2 - Preparar a base de dados para a Inteligência Artificial
display(tabela.info())

<class 'pandas.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int64  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int64  
 13  divida_total              100000 non-null  float64
 14  

None

### Tabela com Dados Convertidos: 

In [None]:
# int -> numero inteiro
# float -> numero com casa decimal
# object -> texto

# LabelEncoder
from sklearn.preprocessing import LabelEncoder

# profissao

# cientista - 1
# bombeiro - 2
# engenheiro - 3
# dentista - 4
# artista - 5
codificador_profissao = LabelEncoder()
tabela["profissao"] = codificador_profissao.fit_transform(tabela["profissao"])


# mix_credito
codificador_credito = LabelEncoder()
tabela["mix_credito"] = codificador_credito.fit_transform(tabela["mix_credito"])

# comportamento_pagamento
codificador_pagamento = LabelEncoder()
tabela["comportamento_pagamento"] = codificador_pagamento.fit_transform(tabela["comportamento_pagamento"])

display(tabela.info())

'Tabela com dados convertidos'

<class 'pandas.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 25 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   mes                       100000 non-null  int64  
 2   idade                     100000 non-null  float64
 3   profissao                 100000 non-null  int64  
 4   salario_anual             100000 non-null  float64
 5   num_contas                100000 non-null  float64
 6   num_cartoes               100000 non-null  float64
 7   juros_emprestimo          100000 non-null  float64
 8   num_emprestimos           100000 non-null  float64
 9   dias_atraso               100000 non-null  float64
 10  num_pagamentos_atrasados  100000 non-null  float64
 11  num_verificacoes_credito  100000 non-null  float64
 12  mix_credito               100000 non-null  int64  
 13  divida_total              100000 non-null  float64
 14  

None

##### Agora com os dados já codificados e adapatados para o trabalho dos modelos, podemos nos preocupar em preparar o ambiente de treino e teste das IAs.

In [None]:
# y -> é a coluna da base de dados que eu quero prever
y = tabela["score_credito"]

# x -> as colunas da base de dados que eu vou usar pra fazer a previsão
x = tabela.drop(columns=["score_credito", "id_cliente"])

# separar em dados de treino e dados de teste
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)

# Aqui ele pega os dados de entrada e divide as linhas das colunas entre dados de teste e treino,
# assim retonando quatro variáveis que contém tais dados.

##### Aqui em cima nós preparamos a coluna na qual será feita a previsão e as colunas que serão utilizadas para fazer a previsão. Também importamos e configuramos o divisor de dados para treino e teste, onde fracionamos os dados entre dados de treino e dados de teste para o modelo. Agora temos que, de fato, treinar o modelo

Lembrando que essas linhas de código foram apenas para fazer a separação dos dados, estamos basicamente usando essa função apenas para indicar como o modelo deverá entender os dados, e assim, trabalhar com eles. 

In [None]:
# Passo 3 - Treinar a Inteligência Artificial -> 
# Criar o modelo: Nota de crédito: Boa, Ok, Ruim

# Arvore de Decisão -> RandomForest
# Nearest Neighbors -> KNN -> Vizinhos Próximos

# importar a IA (Inteligencia Artificial)
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# criar a IA
modelo_arvoredecisao = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

# treinar a IA
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

# Vale ressaltar que nós passamos ambos os dados para a IA peceber como que esses mesmos dados 
# funcionam em conjunto. Sendo mais específico, ela precisa disso para saber como os outros dados 
# da tabela afetam os dados que serão previstos.

##### Acima nós acabamos de importar os modelos que serão utilizados e usar a função fit do sklearn para passar os dados de treino e treinar o modelo. Depois podemos fazer os testes com os dados x (dados utilizados para a previsão).

In [38]:
# Passo 4 - Escolher qual o melhor modelo
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)

print(previsao_arvoredecisao)
print(previsao_knn)
print("")

# Explicando melhor, o modelo aqui recebe apenas os dados para a previsão, onde ele vai utilizá-los
# para prever os dados a serem previstos.

# acurácia
from sklearn.metrics import accuracy_score
acuracia_arvoredecisao = accuracy_score(y_teste, previsao_arvoredecisao)
acuracia_knn = accuracy_score(y_teste, previsao_knn)

print("Nota dos Testes:")     
print("-----------------------")
print(f"Primeiro Modelo: {round((acuracia_arvoredecisao * 100), 1)}%")
print(f"Segundo Modelo: {round((acuracia_knn * 100), 1)}%")

['Standard' 'Standard' 'Standard' ... 'Poor' 'Poor' 'Standard']
['Standard' 'Standard' 'Good' ... 'Poor' 'Poor' 'Standard']

Nota dos Testes:
-----------------------
Primeiro Modelo: 82.6%
Segundo Modelo: 73.9%


##### Aqui em cima utilizamos a função predict para criar os testes para os modelos com os dados x, e depois, importamos o verificador de acurácia do modelo e utilizamos os dados y para comparar as previsões da IA, e assim, determinar seu percentual de eficiência.

In [None]:
# Passo 5 - Usar o melhor modelo para fazer previsão de novos clientes
# melhor modelo é o modelo_arvoredecisao

# importar os novos clientes para fazer a previsao
tabela_novos_clientes = pd.read_csv("assets/novos_clientes.csv")

# profissao
tabela_novos_clientes["profissao"] = codificador_profissao.fit_transform(
    tabela_novos_clientes["profissao"]
)

# mix_credito
tabela_novos_clientes["mix_credito"] = codificador_credito.fit_transform(
    tabela_novos_clientes["mix_credito"]
)

# comportamento_pagamento
tabela_novos_clientes["comportamento_pagamento"] = codificador_pagamento.fit_transform(
    tabela_novos_clientes["comportamento_pagamento"]
)

# Aqui nós redefinimos os codificadores com as mesmas variáveis para preparar os dados
# para serem usados pelo modelo, mesmo processo de antes, utilizando LabelEncoder.

display(tabela_novos_clientes)

nova_previsao = modelo_arvoredecisao.predict(tabela_novos_clientes)

print(nova_previsao)

Unnamed: 0,mes,idade,profissao,salario_anual,num_contas,num_cartoes,juros_emprestimo,num_emprestimos,dias_atraso,num_pagamentos_atrasados,...,taxa_uso_credito,idade_historico_credito,investimento_mensal,comportamento_pagamento,saldo_final_mes,emprestimo_carro,emprestimo_casa,emprestimo_pessoal,emprestimo_credito,emprestimo_estudantil
0,1,31.0,1,19300.34,6.0,7.0,17.0,5.0,52.0,19.0,...,29.934186,218.0,44.50951,1,312.487689,1,1,0,0,0
1,4,32.0,0,12600.445,5.0,5.0,10.0,3.0,25.0,18.0,...,28.819407,12.0,0.0,2,300.994163,0,0,0,0,1
2,2,48.0,1,20787.69,8.0,6.0,14.0,7.0,24.0,14.0,...,34.235853,215.0,0.0,0,345.081577,0,1,0,1,0


['Poor' 'Good' 'Good']


##### Para concluir, utilizamos o modelo que se saiu melhor nos testes para prever e determinar o clientes que se encaixam nos requisitos do evento. Em uma aplicação profissional a tabela de novos clientes seria muito maior, tornando o treinamento mais necessário, mas nada muito complicado. Com o modelo treinado ele pôde ser aplicado com excelência para determinar os clientes.