<a href="https://colab.research.google.com/github/wallacefirmo1/SantanderDevWeek2023.ipynb/blob/main/Wallace_Firmo_%7C_SantanderDevWeek2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Santander Dev Week 2023 (ETL com Python)

**Contexto:** Você é um cientista de dados no Santander e recebeu a tarefa de envolver seus clientes de maneira mais personalizada. Seu objetivo é usar o poder da IA Generativa para criar mensagens de marketing personalizadas que serão entregues a cada cliente.

**Condições do Problema:**

1. Você recebeu uma planilha simples, em formato CSV ('SDW2023.csv'), com uma lista de IDs de usuário do banco:
  ```  1      
  2
  3
  4
  5
  ```
2. Seu trabalho é consumir o endpoint `GET https://sdw-2023-prd.up.railway.app/users/{id}` (API da Santander Dev Week 2023) para obter os dados de cada cliente.
3. Depois de obter os dados dos clientes, você vai usar a API do ChatGPT (OpenAI) para gerar uma mensagem de marketing personalizada para cada cliente. Essa mensagem deve enfatizar a importância dos investimentos.
4. Uma vez que a mensagem para cada cliente esteja pronta, você vai enviar essas informações de volta para a API, atualizando a lista de "news" de cada usuário usando o endpoint `PUT https://sdw-2023-prd.up.railway.app/users/{id}`.



In [None]:
# Utilize sua própria URL se quiser ;)

## **E**xtract

Extraia a lista de IDs de usuário a partir do arquivo CSV. Para cada ID, faça uma requisição GET para obter os dados do usuário correspondente.

In [None]:
import pandas as pd

dados = df = pd.read_excel('vendas.xlsx')

In [None]:
print(dados)

   Unnamed: 0 id_pedido       data    loja          cidade          estado  \
0           0   PED1994 2020-01-01  Loja 4          Santos       São Paulo   
1           1   PED2246 2020-01-01  Loja 6   Florianópolis  Santa Catarina   
2           2   PED3876 2020-01-01  Loja 3  Rio de Janeiro  Rio de Janeiro   
3           3   PED4352 2020-01-01  Loja 1       Fortaleza           Ceará   
4           4   PED8633 2020-01-01  Loja 5       São Paulo       São Paulo   

     regiao tamanho     local_consumo  preco forma_pagamento    ano_mes  
0   Sudeste   300ml  Consumo no local      5        Dinheiro 2020-01-01  
1       Sul   500ml  Consumo no local     11          Débito 2020-01-01  
2   Sudeste   300ml          Delivery      7         Crédito 2020-01-01  
3  Nordeste  1000ml  Consumo no local      7          Débito 2020-01-01  
4   Sudeste   200ml          Delivery      9         Crédito 2020-01-01  


**bold text**## **T**ransform

Instalação do plotly_express

In [None]:
!pip install plotly_express

import plotly_express as px

Collecting plotly_express
  Downloading plotly_express-0.4.1-py2.py3-none-any.whl (2.9 kB)
Installing collected packages: plotly_express
Successfully installed plotly_express-0.4.1


In [None]:
import plotly_express as px

In [None]:
dados = pd.read_excel("vendas.xlsx")

dados.head()



Unnamed: 0.1,Unnamed: 0,id_pedido,data,loja,cidade,estado,regiao,tamanho,local_consumo,preco,forma_pagamento,ano_mes
0,0,PED1994,2020-01-01,Loja 4,Santos,São Paulo,Sudeste,300ml,Consumo no local,5,Dinheiro,2020-01-01
1,1,PED2246,2020-01-01,Loja 6,Florianópolis,Santa Catarina,Sul,500ml,Consumo no local,11,Débito,2020-01-01
2,2,PED3876,2020-01-01,Loja 3,Rio de Janeiro,Rio de Janeiro,Sudeste,300ml,Delivery,7,Crédito,2020-01-01
3,3,PED4352,2020-01-01,Loja 1,Fortaleza,Ceará,Nordeste,1000ml,Consumo no local,7,Débito,2020-01-01
4,4,PED8633,2020-01-01,Loja 5,São Paulo,São Paulo,Sudeste,200ml,Delivery,9,Crédito,2020-01-01


In [None]:
dados.tail()


Unnamed: 0.1,Unnamed: 0,id_pedido,data,loja,cidade,estado,regiao,tamanho,local_consumo,preco,forma_pagamento,ano_mes
0,0,PED1994,2020-01-01,Loja 4,Santos,São Paulo,Sudeste,300ml,Consumo no local,5,Dinheiro,2020-01-01
1,1,PED2246,2020-01-01,Loja 6,Florianópolis,Santa Catarina,Sul,500ml,Consumo no local,11,Débito,2020-01-01
2,2,PED3876,2020-01-01,Loja 3,Rio de Janeiro,Rio de Janeiro,Sudeste,300ml,Delivery,7,Crédito,2020-01-01
3,3,PED4352,2020-01-01,Loja 1,Fortaleza,Ceará,Nordeste,1000ml,Consumo no local,7,Débito,2020-01-01
4,4,PED8633,2020-01-01,Loja 5,São Paulo,São Paulo,Sudeste,200ml,Delivery,9,Crédito,2020-01-01


In [None]:
dados.shape

(5, 12)

In [None]:
dados.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Unnamed: 0       5 non-null      int64         
 1   id_pedido        5 non-null      object        
 2   data             5 non-null      datetime64[ns]
 3   loja             5 non-null      object        
 4   cidade           5 non-null      object        
 5   estado           5 non-null      object        
 6   regiao           5 non-null      object        
 7   tamanho          5 non-null      object        
 8   local_consumo    5 non-null      object        
 9   preco            5 non-null      int64         
 10  forma_pagamento  5 non-null      object        
 11  ano_mes          5 non-null      datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(8)
memory usage: 608.0+ bytes


# Gerando estatísticas

In [None]:
dados.describe()


Unnamed: 0.1,Unnamed: 0,preco
count,5.0,5.0
mean,2.0,7.8
std,1.581139,2.280351
min,0.0,5.0
25%,1.0,7.0
50%,2.0,7.0
75%,3.0,9.0
max,4.0,11.0


In [None]:
dados.groupby('loja').preco.sum()


loja
Loja 1     7
Loja 3     7
Loja 4     5
Loja 5     9
Loja 6    11
Name: preco, dtype: int64

In [None]:
# média de faturamento por loja (ticket médio)
dados.groupby('loja').preco.mean()

loja
Loja 1     7.0
Loja 3     7.0
Loja 4     5.0
Loja 5     9.0
Loja 6    11.0
Name: preco, dtype: float64

## **L**oad

Atualize a lista de "news" de cada usuário na API com a nova mensagem gerada.

In [None]:
px.histogram(dados, x="loja",  color="regiao", text_auto=True)
