<a href="https://colab.research.google.com/github/Ritavoli/Desafio-Pipeline-ETL-Python/blob/main/Bootcamp_Santander_DIO_Pipeline__ETL_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pipeline de ETL com Python

**Contexto:** Você trabalha em uma empresa de comércio eletrônico chamada "TechGadgets". A empresa possui uma grande variedade de produtos eletrônicos em seu catálogo, incluindo smartphones, laptops, tablets e acessórios. Recentemente, a empresa decidiu lançar uma campanha de marketing personalizada para seus clientes com base em seus interesses e histórico de compras.

**Condições do Problema:**

A empresa possui um banco de dados em formato CSV ('historico_compras.csv') que contém informações sobre as compras passadas dos clientes, incluindo o ID do cliente, o produto comprado e a data da compra.
Sua tarefa é criar um pipeline de ETL em Python para realizar as seguintes etapas:

**a.** Extração: Ler o arquivo CSV ('historico_compras.csv') para obter informações sobre as compras dos clientes.

**b.** Transformação: Analisar os dados para identificar os produtos mais comprados por cada cliente, bem como a data da última compra de cada cliente.

**c.** Carregamento: Usar essas informações para criar mensagens de marketing personalizadas para cada cliente, destacando produtos relacionados aos seus interesses e sugerindo promoções com base em sua última compra e enviar as mensagens por e-mail para cada cliente.

## **E**xtract

Extraindo os dados de clientes de um arquivo CSV.

In [None]:
import pandas as pd

# Lendo o arquivo CSV
df = pd.read_csv('historico_compras.csv')

# Para acessar as colunas
Clientes_ids = df['ID_Cliente'].tolist()
Clientes_produto = df['Produto'].tolist()
Clientes_data = df['Data_Compra'].tolist()
Clientes_email = df['Email'].tolist()

# e imprimir os dados para verificação
print(Clientes_ids)
print(Clientes_produto)
print(Clientes_data)
print(Clientes_email)



## **T**ransform

Agrupando os dados por ID do cliente para identificar os produtos mais comprados por cada cliente.

In [None]:
# Converta a coluna 'Data_Compra' para o tipo datetime
df['Data_Compra'] = pd.to_datetime(df['Data_Compra'])

# Descubra qual produto foi mais vendido
produto_mais_comprado_por_cliente = df.groupby('ID_Cliente')['Produto'].apply(lambda x: x.value_counts().idxmax()).reset_index(name='Produto_Mais_Comprado')

# Encontre a data da última compra de cada cliente
data_ultima_compra_por_cliente = df.groupby('ID_Cliente')['Data_Compra'].max().reset_index(name='Data_Ultima_Compra')

# Combine as informações em um único DataFrame
resultado = produto_mais_comprado_por_cliente.merge(data_ultima_compra_por_cliente, on='ID_Cliente')

# Exiba o resultado
print(resultado)


## **L**oad

Gerando mensagens de marketing personalizadas para enviar a cada cliente.

In [None]:

# Função para criar uma mensagem de marketing personalizada
def criar_mensagem(cliente_id, grupo):
    produto_mais_comprado = grupo['Produto'].value_counts().idxmax()
    data_ultima_compra = grupo['Data_Compra'].max()

    mensagem = f"Olá Cliente {cliente_id},\n"
    mensagem += f"Com base no seu histórico de compras, recomendamos ofertas especiais em {produto_mais_comprado}.\n"
    mensagem += f"Sua última compra foi em: {data_ultima_compra}\n"
    mensagem += "Aproveite nossas promoções!\n"
    mensagem += "Atenciosamente,\nSua Empresa"

    return mensagem

# Itera pelos grupos de clientes e imprime as mensagens simulando o envio
for cliente_id, grupo in grupo_clientes:
    mensagem = criar_mensagem(cliente_id, grupo)

    # Obtém o e-mail do cliente (supondo que todos os e-mails sejam iguais para um cliente)
    email_cliente = grupo['Email'].iloc[0]

    # Simula o envio imprimindo a mensagem e o endereço de e-mail do cliente
    print(f"Enviando mensagem para o Cliente {cliente_id} ({email_cliente}):")
    print(mensagem)
    print("=" * 40)  # Linha de separação entre os e-mails