<a href="https://colab.research.google.com/github/matheusvazdata/desafio-3-trilhas-2b/blob/main/etl_desafio_3_trilhas_2b.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## ‚úÖ Objetivo
Transformar uma simples planilha em um pipeline bem estruturado, limpo e confi√°vel at√© a visualiza√ß√£o no Looker Studio, com potencial para escalar futuramente.

## üß± Arquitetura Moderna Recomendada (Camadas e Ferramentas)

```
[Google Sheets] (raw)
      ‚Üì
[Google Colab ou Cloud Functions com Python]
      ‚Üì
[Cloud Storage ou BigQuery] ‚Üê (zona trusted / staging)
      ‚Üì
[Looker Studio] (visualiza√ß√£o)
```

### üîÑ ETL no Colab (boas pr√°ticas)
1. Extract ‚Äì Leitura direta do Google Sheets
Use a API do Google Sheets ou o gspread + oauth2client.

In [53]:
# Importa√ß√£o das bibliotecas necess√°rias
import gspread
from oauth2client.service_account import ServiceAccountCredentials
import pandas as pd
import numpy as np

In [54]:
# Autentica√ß√£o
scope = ['https://spreadsheets.google.com/feeds','https://www.googleapis.com/auth/drive']
creds = ServiceAccountCredentials.from_json_keyfile_name('/content/minha-chave.json', scope)
client = gspread.authorize(creds)

# Carregar a planilha
sheet = client.open_by_url('https://docs.google.com/spreadsheets/d/17hAlR-OjU2mJ6mlLhIPPRWVD02Mn_js21Zx4HuYo2b8')
worksheet = sheet.sheet1
dados = pd.DataFrame(worksheet.get_all_records())

2. Transform ‚Äì Limpeza e enriquecimento
- 2.1. üß™ Testes autom√°ticos

In [55]:
def validar_dados(dados):
    assert not dados.isnull().all().any(), '‚ùå Colunas totalmente nulas.'

    colunas_constantes = [col for col in dados.columns if dados[col].nunique(dropna=True) == 1]
    assert len(colunas_constantes) == 0, f'‚ö†Ô∏è Colunas constantes: {colunas_constantes}'

    assert not dados.duplicated().any(), '‚ùå Linhas duplicadas.'

    colunas_esperadas = ['idade', 'trilha', 'g√™nero', 'munic√≠pio']
    for col in colunas_esperadas:
        assert col in dados.columns, f'‚ùå Coluna ausente: {col}'

    assert dados['trilha'].notnull().all(), '‚ùå "trilha" com valores nulos.'
    assert dados['idade'].notnull().all(), '‚ùå "idade" com valores nulos.'

    assert pd.api.types.is_numeric_dtype(dados['idade']), '‚ùå "idade" n√£o √© num√©rica.'

    print('‚úÖ Valida√ß√£o de dados conclu√≠da com sucesso!')

# Chamada:
validar_dados(dados)

AssertionError: ‚ö†Ô∏è Colunas constantes: ['Nome Completo']

In [56]:
!pip install unidecode



In [57]:
# üîπ Renomear colunas para snake_case com limpeza extra
from unidecode import unidecode

# üîπ Renomear colunas com limpeza completa
dados.columns = [
    unidecode(col)                      # remove acentos
    .strip()                            # remove espa√ßos nas extremidades
    .lower()                            # caixa baixa
    .replace(' ', '_')                 # espa√ßos ‚Üí _
    .replace('/', '_')                 # barras ‚Üí _
    .replace('-', '_')                 # h√≠fens ‚Üí _
    .replace(':', '')                  # remove dois-pontos
    .replace('__', '_')                # evita underscore duplo
    .strip('_')                        # remove underscores nas pontas
    for col in dados.columns
]

# üîπ Remover colunas constantes antes de continuar
colunas_constantes = [col for col in dados.columns if dados[col].nunique(dropna=True) == 1]
dados = dados.drop(columns=colunas_constantes)

# üîπ Criar faixa et√°ria
dados['faixa_etaria'] = pd.cut(dados['idade'], bins=[17, 20, 25, 30, 40], labels=['18-20', '21-25', '26-30', '31-40'])

# üîπ Criar colunas simplificadas
dados['trilha_simplificada'] = np.where(
    dados['trilha'].str.contains('Programa√ß√£o', na=False),
    dados['trilha'].str.extract(r'\(([^)]+)\)', expand=False).fillna('Jogos'),
    dados['trilha']
)
dados['escola_publica'] = dados['escola_de_origem'].str.lower().eq('p√∫blica')

# üîπ Corrigir campos booleanos
dados['tem_acesso'] = dados['acesso_a_net_e_ao_pc'].map({'Sim': True, 'N√£o': False})

# üîπ Normalizar g√™nero
dados['genero'] = dados['genero'].fillna('').str.strip().str.title()

# üîπ Substituir qualquer valor que n√£o seja "Masculino" ou "Feminino"
dados['genero'] = dados['genero'].apply(lambda x: x if x in ['Masculino', 'Feminino'] else 'N√£o informado')

In [58]:
dados.head()

Unnamed: 0,carimbo_de_data_hora,idade,municipio,trilha,genero,ocupacao_atual_emprego,cor_ou_raca,grau_de_escolaridade,participou_do_trilhas_anterior,acesso_a_net_e_ao_pc,faixa_de_renda_familiar,motivo_da_participacao,escola_de_origem,faixa_etaria,trilha_simplificada,escola_publica,tem_acesso
0,2023/12/15 13:18:17,24,S√£o Lu√≠s,Programa√ß√£o (Front-end),Feminino,Nunca Trabalhei,Parda,Gradua√ß√£o Incompleta (ou cursando),N√£o,Sim,At√© R$ 1.302,Ter forma√ß√£o em uma das Trilhas,P√∫blica,21-25,Front-end,True,True
1,2023/12/15 14:11:49,21,S√£o Lu√≠s,Programa√ß√£o (Back-end),Masculino,Desempregado,Parda,Gradua√ß√£o Incompleta (ou cursando),N√£o,Sim,At√© R$ 1.302,Conseguir um emprego,P√∫blica,21-25,Back-end,True,True
2,2023/12/15 14:16:07,24,S√£o Lu√≠s,Programa√ß√£o (Front-end),Masculino,Desempregado,Parda,Gradua√ß√£o Incompleta (ou cursando),N√£o,Sim,Entre R$ 1.303 e R$ 2.605,Mudan√ßa de carreira,P√∫blica,21-25,Front-end,True,True
3,2023/12/15 14:24:20,22,S√£o Lu√≠s,Programa√ß√£o (Back-end),Masculino,"N√£o estou empregado, mas focando apenas nos es...",Parda,Gradua√ß√£o Incompleta (ou cursando),N√£o,Sim,Entre R$ 1.303 e R$ 2.605,Ter forma√ß√£o em uma das Trilhas,P√∫blica,21-25,Back-end,True,True
4,2023/12/15 14:35:51,23,S√£o Lu√≠s,Design e Experi√™ncia,Feminino,A busca de emprego,Parda,Gradua√ß√£o Incompleta (ou cursando),N√£o,Sim,At√© R$ 1.302,Conseguir um emprego,P√∫blica,21-25,Design e Experi√™ncia,True,True


In [59]:
dados.trilha_simplificada.unique()

array(['Front-end', 'Back-end', 'Design e Experi√™ncia', 'Jogos',
       'Ci√™ncia de Dados'], dtype=object)

3. Load ‚Äì Armazenar em formato adequado

In [60]:
!pip install --upgrade google-cloud-bigquery



In [None]:
from google.cloud import bigquery
from google.oauth2 import service_account

# Caminho do JSON de credenciais
caminho_credenciais = '/content/minha-chave.json'

# Criar o client autenticado
credenciais = service_account.Credentials.from_service_account_file(caminho_credenciais)
client = bigquery.Client(credentials=credenciais, project=credenciais.project_id)

# Defina o ID da tabela (use seu projeto e dataset)
tabela_id = 'meu-id-do-projeto.meu-dataset.minha-tabela'

from google.cloud import bigquery

# Configurar o job para criar a tabela se n√£o existir
job_config = bigquery.LoadJobConfig(write_disposition="WRITE_TRUNCATE")

job = client.load_table_from_dataframe(dados, tabela_id, job_config=job_config)
job.result()

print(f'‚úÖ Dados enviados para: {tabela_id}')