## LAB PROJECT - EXPLORANDO IA GENERATIVA EM UM ETL COM PYTHON

Essa é a minha versão do desafio para finalizar o módulo de Ciência de Dados e Python.

**Contexto**:
Processo de ETL usando um arquivo csv, realização da extração dos usuários, geração de uma mensagem relacionada à Campanha Outubro Rosa, essa mensagem deverá ser enviada para o email cadastrado no arquivo, carregamento de um novo arquivo contendo o status de cada email enviado e o retorno de como a mensagem aparece para cada usuário baseado no seu ID.

Infelizmente meu plano teste da Open AI já tinha finalizado e por isso não usei a API da Open AI. Também não usei a API da Santander Week  já que era opcional.



##*Bibliotecas*

In [None]:
import pandas as pd

## **EXTRAÇÃO**
---
A leitura dos dados também ocorrerá no mesmo código ultilizado no bloco de *transformação*, mas adicionei esse bloco de extração para mostrar uma visualização do arquivo usado.

Através do site https://www.mockaroo.com , pude gerar um arquivo com dados falsos para testes.

In [None]:
df = pd.read_csv("MOCK_DATA.csv")
print(df)

       id   first_name    last_name                        email       gender
0       1      Luciano      Ingreda       lingreda0@china.com.cn         Male
1       2        Wenda         Jori        wjori1@bravesites.com       Female
2       3       Teddie  Kondratenko  tkondratenko2@parallels.com         Male
3       4       Babbie       Arcase   barcase3@cocolog-nifty.com  Genderfluid
4       5     Isahella      Storcke       istorcke4@e-recht24.de       Female
..    ...          ...          ...                          ...          ...
995   996        Nelli       Myhill           nmyhillrn@sohu.com       Female
996   997        Cosmo        Deeny        cdeenyro@columbia.edu         Male
997   998          Isa        Weems      iweemsrp@cloudflare.com       Female
998   999    Ellswerth        Poyle     epoylerq@cyberchimps.com         Male
999  1000  Clerkclaude     Pidgeley       cpidgeleyrr@sphinn.com         Male

[1000 rows x 5 columns]


##**TRANSFORMAÇÃO**
---
Com ajuda do ChatGPT-3 da OpenAI pude tirar algumas dúvidas sobre algumas estruturas que não foram abordadas no módulo de Pyhton e Ciência de Dados.  


In [68]:
import csv

# Etapa 1: Leitura dos Dados (Extração)


input_file = 'MOCK_DATA.csv'
data = []  # Para armazenar os dados do arquivo CSV
with open(input_file, mode='r') as file:
    csv_reader = csv.DictReader(file)
    for row in csv_reader:
        data.append(row)

# Etapa 2: Geração das Mensagens (Transformação)
def gerar_mensagem(id, first_name):
    return f"""Olá, {first_name}! Outubro Rosa é um lembrete importante da conscientização sobre o câncer de mama.
     Junte-se a nós na luta pela detecção precoce e apoio às pessoas afetadas. Sua atenção pode fazer a diferença. Juntas somos mais fortes!"""

# Etapa 3: Envio das Mensagens
sent_records = []
for row in data:
    id = row['id']
    email = row['email']
    first_name = row['first_name']
    mensagem = gerar_mensagem(id, first_name)


    # Registro de envio
    sent_records.append({'ID': id, 'Email': email, 'Status': 'Enviado'})

# Etapa 4: Registro do Envio (Transformação)

# Etapa 5: Carga dos Registros em um Novo Arquivo (Carga)
output_file = 'registro_envio.csv'
with open(output_file, mode='w', newline='') as file:
    fieldnames = ['ID', 'Email', 'Status']
    writer = csv.DictWriter(file, fieldnames=fieldnames)
    writer.writeheader()
    for record in sent_records:
        writer.writerow(record)

print("Registro de envio gerado com sucesso em", output_file)


Registro de envio gerado com sucesso em registro_envio.csv



O bloco de Loading (carga) pode ser observado na seguinte parte do código anterior:
```
# sent_records.append({'ID': id, 'Email': email, 'Status': 'Enviado'})
output_file = 'registro_envio.csv'
with open(output_file, mode='w', newline='') as file:
    fieldnames = ['ID', 'Email', 'Status']
    writer = csv.DictWriter(file, fieldnames=fieldnames)
    writer.writeheader()
    for record in sent_records:
        writer.writerow(record)

print("Registro de envio gerado com sucesso em", output_file)
```

Um novo arquivo foi gerado informando o status do envio de cada e-mail.
Abaixo é possível visualizar o arquivo de registro:


In [69]:
df = pd.read_csv("registro_envio.csv")
print(df)

       ID                        Email   Status
0       1       lingreda0@china.com.cn  Enviado
1       2        wjori1@bravesites.com  Enviado
2       3  tkondratenko2@parallels.com  Enviado
3       4   barcase3@cocolog-nifty.com  Enviado
4       5       istorcke4@e-recht24.de  Enviado
..    ...                          ...      ...
995   996           nmyhillrn@sohu.com  Enviado
996   997        cdeenyro@columbia.edu  Enviado
997   998      iweemsrp@cloudflare.com  Enviado
998   999     epoylerq@cyberchimps.com  Enviado
999  1000       cpidgeleyrr@sphinn.com  Enviado

[1000 rows x 3 columns]


No seguinte código é possível visualizar uma amostra de como ficou o corpo da mensagem enviada. A pesquisa pode ser realizada por ID de usuário.


In [71]:
import csv

# Nome do arquivo CSV com os registros de envio
registro_envio_file = 'MOCK_DATA.csv'

# Função para mostrar uma mensagem para um usuário específico
def mostrar_mensagem_para_usuario(usuario_id):
    # Lê o arquivo de registro de envio
    with open(registro_envio_file, mode='r') as file:
        csv_reader = csv.DictReader(file)
        for row in csv_reader:
            if row['id'] == usuario_id:
                mensagem = gerar_mensagem(id,first_name)
                print(f'Mensagem para o usuário com ID {usuario_id}:\n{mensagem}')
                return

# Chame a função para mostrar a mensagem para um usuário específico
usuario_id = '2'  # Substitua pelo ID do usuário desejado
mostrar_mensagem_para_usuario(usuario_id)


Mensagem para o usuário com ID 2:
Olá, Clerkclaude! Outubro Rosa é um lembrete importante da conscientização sobre o câncer de mama.
     Junte-se a nós na luta pela detecção precoce e apoio às pessoas afetadas. Sua atenção pode fazer a diferença. Juntas somos mais fortes!


## **Conclusão**

Esse foi o meu primeiro processo ETL, confesso que não foi fácil abstrair um modelo diferente para esse deafio, por outro lado foi um bom exercício para criatividade.

Espero poder contribuir futuramente com pipelines mais elaboradas e melhores desenvolvidas, porém reconheço meus esforços para o resultado desse desafio.
