<a href="https://colab.research.google.com/github/jaugustorc/ETL---Utilizando-IA-generativa-para-Mensagens-de-marketing-para-investidores/blob/main/SantanderDevWeek2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ETL - Utilizando IA generativa para Mensagens de marketing para investidores
## Santander Dev Week 2023 (ETL com Python)

**Contexto:** Você é um cientista de dados no Santander e recebeu a tarefa de envolver seus clientes de maneira mais personalizada. Seu objetivo é usar o poder da IA Generativa para criar mensagens de marketing personalizadas que serão entregues a cada cliente.

**Condições do Problema:**

1. Você recebeu duas planilhas em formato CSV sendo:
*   client.csv: id_cliente,	nome_cliente,	data_nascimento,	sexo,	endereco,	cidade,	CPF,	email e	telefone.
*   transaction.csv: id_cliente, ativo, quantidade(- para Venda; + para Compra)

2. Com estes dados, você ira organizar a carteira de cada cliente, determinando quais ativos ele possui.
3. Depois de obter os dados dos clientes, você vai usar a API do ChatGPT (OpenAI) para gerar uma mensagem de marketing personalizada para cada cliente. Essa mensagem deve enfatizar a importância dos investimentos.
4. Uma vez que a mensagem para cada cliente esteja pronta, você vai salvar uma tabela com o id do cliente, nome, email e mensagem.



## **E**xtract

Extraia os dados dos usuários.

In [17]:
# extrair os dados das planilhas
import pandas as pd

df_clients = pd.read_csv('/content/clientes.csv')
df_transaction = pd.read_csv('/content/transaction.csv')


In [2]:
df_clients.head()

Unnamed: 0,id_cliente,nome_cliente,data_nascimento,sexo,endereco,cidade,CPF,email,telefone
0,1,João Silva,1980-01-01,M,Rua das Flores,Sao Paulo,123.456.789-00,joao.silva@email.com,11 12345-6789
1,2,Maria Santos,1985-02-02,F,Avenida do Sol,Limeira,234.567.890-11,maria.santos@email.com,11 23456-7890
2,3,Pedro Oliveira,1990-03-03,M,Travessa da Lua,Campinas,345.678.901-22,pedro.oliveira@email.com,11 34567-8901
3,4,Ana Pereira,1995-04-04,F,Beco do Vento,Sumaré,456.789.012-33,ana.pereira@email.com,11 45678-9012
4,5,Lucas Costa,2000-05-05,M,Estrada da Chuva,Santo Andre,567.890.123-44,lucas.costa@email.com,11 56789-0123


In [18]:
df_transaction.head()

Unnamed: 0,id_cliente,ativo,quantidade
0,1,VALE3,10
1,1,PETR4,-5
2,1,ITSA4,20
3,1,VALE3,-5
4,1,PAPR3,15


## **T**ransform

Parte 1: Criação do dataset com os ativos dos clientes.
 - Eliminar saldos negativos.

Parte 2: Geração da mensagem.

In [20]:
# Calculando o saldo total para cada cliente
# Primeiro, criamos uma coluna 'saldo' nas transações com base na quantidade (+ para Compra, - para Venda)
df_transaction['saldo'] = df_transaction.groupby(['id_cliente','ativo'])['quantidade'].cumsum()

# Agora, vamos criar um novo DataFrame com as colunas desejadas
df_saldo = df_transaction.groupby(['id_cliente','ativo']).tail(1)[['id_cliente', 'ativo', 'saldo']]

df_saldo.head()

Unnamed: 0,id_cliente,ativo,saldo
1,1,PETR4,-5
2,1,ITSA4,20
3,1,VALE3,5
4,1,PAPR3,15
5,1,XPLG11,-8


In [21]:
#eliminar saldo negativo
# Remover as linhas com saldo negativo do DataFrame original
df_saldo = df_saldo[df_saldo['saldo'] >= 0]

df_saldo.head()

Unnamed: 0,id_cliente,ativo,saldo
2,1,ITSA4,20
3,1,VALE3,5
4,1,PAPR3,15
6,2,VALE3,12
8,2,FLMA11,25


In [36]:
# gerar lista com nome dos usuários
# Agrupe as transações por 'id_cliente' e agregue os ativos em uma única string separada por vírgula
user_assets = df_saldo.groupby('id_cliente')['ativo'].apply(lambda x: ', '.join(x)).reset_index()

# Renomeie as colunas para torná-las mais descritivas
user_assets = user_assets.rename(columns={'ativo': 'Ativos'})

# Junte o DataFrame user_assets com o DataFrame client para adicionar o nome do usuário
user_info_with_assets = df_clients.merge(user_assets, on='id_cliente', how='left')

# Eliminar as linhas em que a coluna "Ativos" contenha valores NaN
user_info_with_assets = user_info_with_assets.dropna(subset=['Ativos'])


In [40]:
# Crie uma lista vazia para armazenar os dicionários
lista_dict_usuarios = []

# Itere pelas linhas do DataFrame user_info_with_assets
for index, row in user_info_with_assets.iterrows():
    nome = row['nome_cliente']  # Substitua 'Nome' pelo nome real da coluna de nomes
    ativos = row['Ativos']  # Substitua 'Ativos' pelo nome real da coluna de ativos

    # Crie um dicionário com as informações de nome e ativos
    usuario_dict = {'nome': nome, 'ativos': ativos}

    # Adicione o dicionário à lista
    lista_dict_usuarios.append(usuario_dict)

In [39]:
lista_dict_usuarios

[{'nome_cliente': '  João Silva ', 'Ativos': 'ITSA4, VALE3, PAPR3'},
 {'nome_cliente': '  Maria Santos ', 'Ativos': 'VALE3, FLMA11, BBAS3, HGTX3'},
 {'nome_cliente': '  Pedro Oliveira ',
  'Ativos': 'VALE3, ITUB4, KNRI11, FLMA11, BBSE3'},
 {'nome_cliente': '  Ana Pereira ', 'Ativos': 'ITSA4, VALE3, PAPR3'},
 {'nome_cliente': '  Lucas Costa ', 'Ativos': 'VALE3, FLMA11, BBAS3, HGTX3'},
 {'nome_cliente': '  Julia Mendes ',
  'Ativos': 'VALE3, ITUB4, KNRI11, FLMA11, BBSE3'},
 {'nome_cliente': '  Gabriel Dias ', 'Ativos': 'ITSA4, VALE3, PAPR3'},
 {'nome_cliente': '  Laura Rocha ', 'Ativos': 'VALE3, FLMA11, BBAS3, HGTX3'},
 {'nome_cliente': '  Rafael Almeida ',
  'Ativos': 'VALE3, ITUB4, KNRI11, FLMA11, BBSE3'},
 {'nome_cliente': '  Beatriz Teixeira ', 'Ativos': 'ITSA4, VALE3, PAPR3'},
 {'nome_cliente': '  Guilherme Souza ',
  'Ativos': 'VALE3, FLMA11, BBAS3, HGTX3'},
 {'nome_cliente': '  Carolina Ribeiro ',
  'Ativos': 'VALE3, ITUB4, KNRI11, FLMA11, BBSE3'},
 {'nome_cliente': '  Felipe Pint

Utilize a API do OpenAI GPT-4 para gerar uma mensagem de marketing personalizada para cada usuário.

In [41]:
!pip install openai



In [42]:
# Documentação Oficial da API OpenAI: https://platform.openai.com/docs/api-reference/introduction
# Informações sobre o Período Gratuito: https://help.openai.com/en/articles/4936830

# Para gerar uma API Key:
# 1. Crie uma conta na OpenAI
# 2. Acesse a seção "API Keys"
# 3. Clique em "Create API Key"
# Link direto: https://platform.openai.com/account/api-keys

# Substitua o texto TODO por sua API Key da OpenAI, ela será salva como uma variável de ambiente.
openai_api_key = 'TODO'
openai_api_key = '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'

In [51]:
import openai

openai.api_key = openai_api_key

def generate_ai_news(user):
  completion = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[
      {
          "role": "system",
          "content": "Você é um especialista em markting bancário, responsavel por criar mensagem personalizada por cliente baseado na lista de ativos que o mesmo investe."
      },
      {
          "role": "user",
          "content": f"Crie uma mensagem para {user['nome']} sobre a importância dos investimentos, sendo que ele já tem investimento em {user['ativos']}. Sugere alguns outros investimentos, e ofereça sempre nossa consultoria. Texto curto de 50 palavras."
      }
    ]
  )
  return completion.choices[0].message.content.strip('\"')



In [51]:
for user in lista_dict_usuarios:
  mensagem = generate_ai_news(user)
  user['mensagem'].append({
     mensagem
  })

In [54]:
lista_dict_usuarios

[{'nome_cliente': '  João Silva ',
  'Ativos': 'ITSA4, VALE3, PAPR3',
  'Mensagem': 'João, com seus investimentos em ITSA4, VALE3 e PAPR3, está no caminho certo. Considere explorar setores como tecnologia e energia renovável para diversificação. Conte com nossa consultoria para guiar seus próximos passos. 💼💡 #Diversificação #ConsultoriaFinanceira'},
 {'nome_cliente': '  Maria Santos ',
  'Ativos': 'VALE3, FLMA11, BBAS3, HGTX3',
  'Mensagem': 'Maria, com VALE3, FLMA11, BBAS3 e HGTX3, você já diversificou bem. Explore oportunidades em setores emergentes como tecnologia e saúde. Estamos aqui para oferecer consultoria especializada. 💼💡 #Investimentos'},
 {'nome_cliente': '  Pedro Oliveira ',
  'Ativos': 'VALE3, ITUB4, KNRI11, FLMA11, BBSE3',
  'Mensagem': 'Pedro, sua carteira com VALE3, ITUB4, KNRI11, FLMA11 e BBSE3 é sólida. Pense em diversificar com ações de tecnologia e energia renovável. Nossa consultoria está à disposição para orientar seus investimentos. 💼💡 #Diversificação'},
 {'nome

## **L**oad

Crie novo arquivo CSV com a nova mensagem gerada.

In [61]:
# Crie um DataFrame a partir da lista de dicionários
df_mensagem = pd.DataFrame(lista_dict_usuarios)

# Vamos combinar os DataFrames com base no campo "ID do Usuário"
df_usuarios_com_email = df_mensagem.merge(df_clients[['nome_cliente', 'email']], on='nome_cliente', how='left')


In [62]:
df_usuarios_com_email.head()

Unnamed: 0,nome_cliente,Ativos,Mensagem,email
0,João Silva,"ITSA4, VALE3, PAPR3","João, com seus investimentos em ITSA4, VALE3 e...",joao.silva@email.com
1,Maria Santos,"VALE3, FLMA11, BBAS3, HGTX3","Maria, com VALE3, FLMA11, BBAS3 e HGTX3, você ...",maria.santos@email.com
2,Pedro Oliveira,"VALE3, ITUB4, KNRI11, FLMA11, BBSE3","Pedro, sua carteira com VALE3, ITUB4, KNRI11, ...",pedro.oliveira@email.com
3,Ana Pereira,"ITSA4, VALE3, PAPR3","Ana, seus investimentos em ITSA4, VALE3 e PAPR...",ana.pereira@email.com
4,Lucas Costa,"VALE3, FLMA11, BBAS3, HGTX3","Lucas, com VALE3, FLMA11, BBAS3 e HGTX3, você ...",lucas.costa@email.com


In [64]:
# Especifique o nome do arquivo CSV de saída
nome_arquivo_saida = '/content/mensagem.csv'

# Salve o DataFrame como um arquivo CSV
df_usuarios_com_email.to_csv(nome_arquivo_saida, index=False)