# Análise de Dados com IA 

### Utilizando Python, Scikit Learn e OpenAI API

Isso é um trabalho sobre Análise de Dados com IA. Aqui mostrarei dois principais exemplos utilizando
ferramentas do Python, uma vez que ela se apresenta como a mais viável para trabalhar com esse tema.

Aqui estou utilizando o Jupyter Notebook, uma ferramenta que me permite intercalar células de Markdown
com células de código Python, afim de produzir um conteúdo didático que pondera com excelência os textos
didáticos e os exemplos de código. <p>

## Primeiro Exemplo: Análise Massiva e Previsão

O primeiro exemplo se trata do uso da IA para fazer previsões com base em dados apresentados. <p>
Aqui possuo uma planilha de clientes de uma instituição financeira. Essa instituição está com um
evento que dará ao seus clientes confiáveis maior limite e oportunidades em seus serviços. Porém o número 
altíssimo de clientes torna a averiguação dos clientes uma tarefa extremamente cansativa e demorada para um ser humano. <p>
Nesse contexto, a IA se apresenta como uma ferramenta capaz de analisar a qualidade dos clientes e decidir se eles se enquadram nos que serão beneficiados nesse evento. <p>
Aqui utilizaremos duas principais ferramentas: 

### Pandas
O Pandas é uma biblioteca muito conhecida pelos profissionais que trabalham com dados em quantidades diversas. Ele permite uma visualização, indexação e manipulação dos dados, excepcional para análises de todo tipo ou finalidade. <p>

### Scikit Learn
O Scikit Learn é uma biblioteca que provê diversas ferramentas para uso de modelos de linguagem. Aqui utilizaremos o codificador de dados, o banco de modelos, o divisor de dados para treino e teste para modelos e o verificador de acurácia do modelo. Tralaharemos em conjunto com o Pandas, utilizando ele para filtrar e indexar os dados que serão fornecidos aos modelos. <p>

### Criando passos para a execução:

In [None]:
# Passo a passo
# Passo 0 - Entender a empresa e o desafio da empresa
# Passo 1 - Importar a base de dados
import pandas as pd

tabela = pd.read_csv("assets/clientes.csv")

display(tabela)

# Score de crédito = Nota de crédito
# Good = Boa
# Standard = OK
# Poor = Ruim

##### Aqui fizemos uma análise inicial dos dados para entender como que a empresa administra e faz a gestão dos clientes, nosso próximo passo é preparar os dados com codificadores para que a IA possa processá-los e fazer as previsões.  

### Tabela com Dados Brutos:

In [None]:
# Passo 2 - Preparar a base de dados para a Inteligência Artificial
display(tabela.info())

### Tabela com Dados Convertidos: 

In [None]:
# int -> numero inteiro
# float -> numero com casa decimal
# object -> texto

# LabelEncoder
from sklearn.preprocessing import LabelEncoder

# profissao

# cientista - 1
# bombeiro - 2
# engenheiro - 3
# dentista - 4
# artista - 5
codificador_profissao = LabelEncoder()
tabela["profissao"] = codificador_profissao.fit_transform(tabela["profissao"])


# mix_credito
codificador_credito = LabelEncoder()
tabela["mix_credito"] = codificador_credito.fit_transform(tabela["mix_credito"])

# comportamento_pagamento
codificador_pagamento = LabelEncoder()
tabela["comportamento_pagamento"] = codificador_pagamento.fit_transform(tabela["comportamento_pagamento"])

display(tabela.info())

##### Agora com os dados já codificados e adapatados para o trabalho dos modelos, podemos nos preocupar em preparar o ambiente de treino e teste das IAs.

In [4]:
# y -> é a coluna da base de dados que eu quero prever
y = tabela["score_credito"]

# x -> as colunas da base de dados que eu vou usar pra fazer a previsão
x = tabela.drop(columns=["score_credito", "id_cliente"])

# separar em dados de treino e dados de teste
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)

# Aqui ele pega os dados de entrada e divide as linhas das colunas entre dados de teste e treino,
# assim retonando quatro variáveis que contém tais dados.

##### Aqui em cima nós preparamos a coluna na qual será feita a previsão e as colunas que serão utilizadas para fazer a previsão. Também importamos e configuramos o divisor de dados para treino e teste, onde fracionamos os dados entre dados de treino e dados de teste para o modelo. Agora temos que, de fato, treinar o modelo

Lembrando que essas linhas de código foram apenas para fazer a separação dos dados, estamos basicamente usando essa função apenas para indicar como o modelo deverá entender os dados, e assim, trabalhar com eles. 

In [None]:
# Passo 3 - Treinar a Inteligência Artificial -> 
# Criar o modelo: Nota de crédito: Boa, Ok, Ruim

# Arvore de Decisão -> RandomForest
# Nearest Neighbors -> KNN -> Vizinhos Próximos

# importar a IA (Inteligencia Artificial)
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# criar a IA
modelo_arvoredecisao = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

# treinar a IA
modelo_arvoredecisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

# Vale ressaltar que nós passamos ambos os dados para a IA peceber como que esses mesmos dados 
# funcionam em conjunto. Sendo mais específico, ela precisa disso para saber como os outros dados 
# da tabela afetam os dados que serão previstos.

##### Acima nós acabamos de importar os modelos que serão utilizados e usar a função fit do sklearn para passar os dados de treino e treinar o modelo. Depois podemos fazer os testes com os dados x (dados utilizados para a previsão).

In [None]:
# Passo 4 - Escolher qual o melhor modelo
previsao_arvoredecisao = modelo_arvoredecisao.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)

print(previsao_arvoredecisao)
print(previsao_knn)
print("")

# Explicando melhor, o modelo aqui recebe apenas os dados para a previsão, onde ele vai utilizá-los
# para prever os dados a serem previstos.

# acurácia
from sklearn.metrics import accuracy_score
acuracia_arvoredecisao = accuracy_score(y_teste, previsao_arvoredecisao)
acuracia_knn = accuracy_score(y_teste, previsao_knn)

print("Nota dos Testes:")     
print("-----------------------")
print(f"Primeiro Modelo: {round((acuracia_arvoredecisao * 100), 1)}%")
print(f"Segundo Modelo: {round((acuracia_knn * 100), 1)}%")

##### Aqui em cima utilizamos a função predict para criar os testes para os modelos com os dados x, e depois, importamos o verificador de acurácia do modelo e utilizamos os dados y para comparar as previsões da IA, e assim, determinar seu percentual de eficiência.

In [None]:
# Passo 5 - Usar o melhor modelo para fazer previsão de novos clientes
# melhor modelo é o modelo_arvoredecisao

# importar os novos clientes para fazer a previsao
tabela_novos_clientes = pd.read_csv("assets/novos_clientes.csv")

# profissao
tabela_novos_clientes["profissao"] = codificador_profissao.fit_transform(
    tabela_novos_clientes["profissao"]
)

# mix_credito
tabela_novos_clientes["mix_credito"] = codificador_credito.fit_transform(
    tabela_novos_clientes["mix_credito"]
)

# comportamento_pagamento
tabela_novos_clientes["comportamento_pagamento"] = codificador_pagamento.fit_transform(
    tabela_novos_clientes["comportamento_pagamento"]
)

# Aqui nós redefinimos os codificadores com as mesmas variáveis para preparar os dados
# para serem usados pelo modelo, mesmo processo de antes, utilizando LabelEncoder.

display(tabela_novos_clientes)

nova_previsao = modelo_arvoredecisao.predict(tabela_novos_clientes)

print(nova_previsao)

##### Para concluir, utilizamos o modelo que se saiu melhor nos testes para prever e determinar o clientes que se encaixam nos requisitos do evento. Em uma aplicação profissional a tabela de novos clientes seria muito maior, tornando o treinamento mais necessário, mas nada muito complicado. Com o modelo treinado ele pôde ser aplicado com excelência para determinar os clientes. <p>

## Segundo Exemplo: Geração de Relatórios por meio de prompt

A segundo exemplo trabalha em conjunto com o primeiro. Lá, nós treinamos e utilizamos os modelos para processar e prever dados, aqui vamos urilizar ferramentas de prompt para criação de relatórios. <p>
Pois bem, vamos supor que a IA tenha terminado suas previsões e retornado aquele array das previsões que ela fez. A empresa necessita uma maneira mais legível e compreensível de ver esses retornos do modelo. <p>
Aqui, a IA novamente facilitará a manipulação de dados massivos gerando relatórios bem mais legíveis para que possamos compreender melhor o que o processamento inicial significa.. <p>
Aqui utilizaremos duas novas ferramentas: 

### OpenAI API
A API da OpenAI é uma ferramenta que pode ser usada em várias linguagem de programação, incluindo ferramentas como cURL. Essa API te oferece múltiplos serviços para trabalhar com os modelos aprimorados do ChatGPT, permitindo que suas funcionalidades sejam integradas a outros algoritmos e códigos desenvolvidosm, desde que você possua créditos na sua API Key. <p>

### Plotly
O Plotly é uma ferramenta usada por veteranos na área de ciência de dados, trata-se de uma ferramenta um pouco mais técnica que o PowerBI, mas que funciona de maneira semelhante. Ela possibilita a criação de gráficos e dashboards, além d possuir integração com o Pandas para análise de dados massivos que não precisem de processamento inteligente. <p>

### DotEnv
O DotEnv ou dotenv, é uma tecnologia simples porém excelente para desenvolvimento de projetos que necessitem de dados sensíveis. Ele permite salvar esses dados em um arquivo .env, que será ignorado no deploy ou versionamento e só será utilizado na compilação do projeto. O dotenv possui ferramentas para gerir e extrair informações desse arquivo. <p>

### Preparando os dados a serem utilizados:


In [None]:
score_clientes = tabela["score_credito"].dropna() # dropna exclui linhas vazias
display(score_clientes)

##### Supondo que esse array se trata do processamento e previsão que a IA fez, já temos os dados, falta formatá-los para uma forma mais legível, para isso utilizaremos um gráfico para vizualizar a proporção dos resultados e, em seguida, a OpenAI API para gerar relatórios mais específicos.

In [None]:
import plotly.express as px

grafico = px.histogram(tabela, score_clientes)
grafico.show()
# Para um histogram no plotly precisamos passar dois parâmetros obrigatórios:
# a base de dados completa e a coluna que queremos análisar.

# Ele vai automaticamente associar com um outro parâmetro nativo chamado count (contagem dos dados)
# Se a coluna tiver dados string, ele vai fazer como abaixo, contando os iguais e separando por colunas
# os diferentes, caso os dados sejam number, ele vai adaptar de outra maneira, porém semelhante.

##### Aqui já temos uma vizualização melhor do comportamento dos clientes nesse quesito, mas ainda não temos um relatório completo, apenas uma quatificação mais visual, facilita uma possível apresentação dos dados, mas precisamos de um relatório mais detalhado. Agora faremos um filtro e uma adaptação com os dados para o que o modelo aprimorado da OpenAI possa trabalhar.

In [None]:
score_clientes = dict(zip(tabela.id_cliente, tabela.score_credito))
display(score_clientes) 
# Aqui eu faço uma conversão mais avançada, associando o id dos clientes com
# sua respectiva pontuação de créditos com a empresa. Isso será útil na geração de 
# relatório, uma vez que precisamos associar cliente com a pontuação para obter um bom desempenho 

from openai import OpenAI
from dotenv import load_dotenv
import os

load_dotenv() # Carregando .env
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY") # Pegando chave de API do .env

modelo = OpenAI(api_key=OPENAI_API_KEY) 
# Passando chave de API para o objeto que executará as tarefas com IA


##### Agora, precisamos trabalhar com o prompt da IA para que assim, ela nos gere um relatório dizendo quais clientes devem receber o benefício e quais não estão aptos

In [None]:
treinamento = """
                Você é um modelo treinado para gerar relatórios com base em IDs, você sempre receberá um array de IDs e terá que gerar um relatório para eles em texto.
                No atual contexto você presta serviços para uma empresa financeira que dará benefícios fiscais para os clientes que possuam nota de crédito boa.
                Sua tarefa é gerar um padrão fixo de relatório detalhado, formal e culto, que contenha os IDs dos clientes elegíveis em lista, indicando que eles
                receberão tal benefício. Lembre-se de formatar o texto corretamente.
              """

chat = modelo.chat.completions.create(
    model='gpt-5-nano',
    messages=[
        { 
            "role": "system",  
            "content": treinamento
        },
        {
            "role": "user",
            "content": "Quem é você?"
        }
    ]
)
print(chat.choices[0].message.content)

##### Aqui criamos o chat com um modelo do ChatGPT e atrbuímos um treinamento para ele, isso facilita e amplifica a eficiência do serviço da IA. Agora precisamos passar os dados dos clientes e solicitar um relatório, mas para isso, os dados necessitam de um tratamento basico, para separar os dados que srão utilizados, dos que não serão.

In [None]:
good_clients = []
for id, score in score_clientes.items():
    if score == "Good":
        good_clients.append(id)
print(good_clients)

##### Apenas essas poucas linhas foram suficientes para tratar e segregar esses dados. Com os dados apurados, já podemos fazer a solicitação do relatório.

In [None]:
prompt = f"""
          Me gere um relatório como você foi instruído para fazer, a seguir deixo um array dos clientes elegíveis ao benefício. Dados de apoio {good_clients}
         """
chat = modelo.chat.completions.create(
    model='gpt-5-nano',
    messages=[
        { 
            "role": "system",  
            "content": treinamento
        },
        {
            "role": "user",
            "content": prompt
        }
    ]
)
print(chat.choices[0].message.content)