# Esse é meu pipeline para o Desafio do Bootcamp Santander - Ciência de dados - 2023 (ETL com Python).

Foi utilizado como base, a lógica inical apresentada nas aulas.
Minhas contribuições e adaptações consistem em utilizar apenas das ferramentas que o pacote da Google Oferece.

**Contexto:** Sou um cientista de dados trabalhando com Mediação de conflitos e justiça restaurativa para um famoso escritório. Recebi a tarefa de resumir contextos de alguns casos para o Gerente Geral. Meu objetivo é usar o poder da IA Generativa para criar resumos objetivos e também justificar o uso do pacote de produtos da Google, pago anualmente.

## **E**xtract

Existe uma planilha de dados, no Google Sheets, com os dados de clientes e as métricas que foram coletadas pelo pós-venda para demonstração de obejtivo ao Gerente Geral.

Realizamos a extração dos dados da planilha do Google Sheets. Isso envolve fazer uma solicitação HTTP para obter o arquivo CSV da planilha e, em seguida, ler esse CSV em um DataFrame do Pandas.

In [24]:
import pandas as pd
import requests
import io

def extrair_dados(url):
    response = requests.get(url)
    if response.status_code == 200:
        return pd.read_csv(io.StringIO(response.text), encoding='utf-8')
    else:
        print("Erro ao fazer o download da planilha.")
        return None

url_csv = "https://docs.google.com/spreadsheets/d/1U8K-mUmiOl6-2LXCEhmzkQFc4R1ZHpjzXWx1ERJTclg/export?format=csv"

df_extracao = extrair_dados(url_csv)

if df_extracao is not None:
    print("Extração concluída.")


Extração concluída.


## **T**ransform

Nesta parte, é feita a transformação dos dados conforme necessário.

No código abaixo, estamos selecionando os campos relevantes da planilha (nome, problema, solução e motivo para usar a mediação) com base na solicitação da consulta.

In [25]:

def transformar_dados(df, escolha):
    linha_escolhida = df.iloc[escolha - 1]
    nome = linha_escolhida["NOME"]
    problema = linha_escolhida["PROBLEMA_JUDICIAL"]
    solucao = linha_escolhida["SOLUCAO_USANDO_MEDIACAO_DE_CONFLITOS"]
    pq_usa_med = linha_escolhida["PORQUE_PROCURAR_MEDIACAO"]
    relatorio = f"NOME: {nome}\nPROBLEMA: {problema}\nSOLUCAO: {solucao}\nPQ USA MEDIACAO: {pq_usa_med}"
    return relatorio

print("Selecione um nome da lista:")
nomes_disponiveis = df_extracao["NOME"].tolist()
for i, nome in enumerate(nomes_disponiveis, start=1):
    print(f"{i}. {nome}")

escolha = int(input("Digite o número correspondente ao nome desejado: "))
if escolha < 1 or escolha > len(nomes_disponiveis):
    print("Escolha inválida. Por favor, escolha um número correspondente a um nome da lista.")
else:
    relatorio = transformar_dados(df_extracao, escolha)
    print(relatorio)


Selecione um nome da lista:
1. Joao
2. Maria
3. Carlos
4. Ana
5. Jose
6. Mariana
7. Antonio
8. Isabel
9. Fernando
10. Patricia
Digite o número correspondente ao nome desejado: 4
NOME: Ana
PROBLEMA: HeranÃ§a Contestada
SOLUCAO: Mediacao de HeranÃ§a
PQ USA MEDIACAO: Ana estava envolvida em uma disputa de heranca com sua familia, o que estava causando tensoes significativas. Ela optou por mediacao de heranca para evitar brigas familiares prolongadas e manter a paz dentro da familia.


## **L**oad

Nesta parte, salvamos os dados transformados, que representam o relatório, em um arquivo CSV. O usuário pode optar por salvar ou não o relatório em CSV.

In [26]:
def carregar_dados_em_csv(relatorio, nome):
    output_dir = "relatorios/"
    os.makedirs(output_dir, exist_ok=True)
    nome_arquivo = f"{output_dir}relatorio_{nome}.csv"
    relatorio_encoded = relatorio.encode('utf-8')
    with open(nome_arquivo, mode='wb') as file:
        file.write(relatorio_encoded)
    print(f"Relatório salvo em {nome_arquivo}")

salvar_csv = input("\nDeseja salvar o relatório em CSV? (Sim ou Não): ").strip().lower()
if salvar_csv == "sim":
    carregar_dados_em_csv(relatorio, nomes_disponiveis[escolha - 1])

print("Programa encerrado.")



Deseja salvar o relatório em CSV? (Sim ou Não): Sim
Relatório salvo em relatorios/relatorio_Ana.csv
Programa encerrado.
