In [3]:
# importando bibliotecas
import pandas as pd

## Vamos fazer o processo ETL - Extract, Transform, Load
Este processo √© manual para demonstrar na pr√°tica o DataOps

In [39]:
df = pd.read_csv('vendas.csv')

In [41]:
df.head()

Unnamed: 0,produto,valor,data_venda
0,A,100,10-10-2024
1,A,200,05-09-2025
2,B,300,07-12-2023


In [43]:
df.rename(columns={'valor': 'preco_unitario'}, inplace=True)

In [45]:
df.head()

Unnamed: 0,produto,preco_unitario,data_venda
0,A,100,10-10-2024
1,A,200,05-09-2025
2,B,300,07-12-2023


In [47]:
# Calculando pre√ßo do produto com imposto
df['preco_com_imposto'] = df['preco_unitario'] * 1.10

In [51]:
df['data_venda'] = pd.to_datetime(df['data_venda'])

In [53]:
df['mes_venda'] = df['data_venda'].dt.month

In [None]:
df.to_csv('vendas_transformadas.csv', index=False)

### Este √© um processo ETL ‚Äî Extract, Transform, Load.
Eu extraio os dados de um arquivo, transformo (limpo, calculo novas m√©tricas) e salvo.
Funciona bem‚Ä¶ mas e se precisarmos rodar isso toda vez que um novo arquivo chegar? Ou toda vez que algu√©m subir dados novos no reposit√≥rio?

### √â aqui que entra o DataOps 
Ele automatiza essa execu√ß√£o usando pipelines

## Do ETL manual √† pipeline automatizada

A l√≥gica √©: cada vez que um novo arquivo for enviado ao reposit√≥rio, a pipeline executa este script automaticamente.
Isso √© o que chamamos de CI/CD de dados, ou seja, Continuous Integration e Continuous Delivery aplicados ao ciclo dos dados.
Veja a estrutura de pastas de um reposit√≥rio simples para demonstra√ß√£o

# Instalar o pacote do yaml
Desta forma podemos criar o arquivo no mesmo notebook que estamos analisando nossos dados.

In [68]:
pip install pyyaml

Note: you may need to restart the kernel to use updated packages.


In [70]:
# importando a biblioteca yaml para nosso projeto
import yaml

### Gerar YAML a partir de um dicion√°rio Python

In [74]:
# Criando o arquivo
config = {
    "configuracao": {
        "versao": 1.0,
        "autor": "Debora B. Paulo",
        "descricao": "Configura√ß√£o de conex√£o com banco de dados",
        "conexao": {
            "host": "localhost",
            "usuario": "root",
            "senha": "1234",
            "banco": "vendas"
        }
    }
}

In [76]:
# Salvar o arquivo .yaml

with open("config.yaml", "w") as f:
    yaml.dump(config, f, default_flow_style=False, allow_unicode=True)

## Ler o arquivo YAML no notebook que estamos trabalhando

In [81]:
# para ler sempre que quiser:
with open("config.yaml", "r") as f:
    dados = yaml.safe_load(f)

    print(dados)

{'configuracao': {'autor': 'Debora B. Paulo', 'conexao': {'banco': 'vendas', 'host': 'localhost', 'senha': '1234', 'usuario': 'root'}, 'descricao': 'Configura√ß√£o de conex√£o com banco de dados', 'versao': 1.0}}


# Arquivo data_pipeline.yaml

No github, criar o workflow e l√° dentro criar o arquivo yaml.

name: Executar ETL de Vendas

on:
  push:
    paths:
      - 'vendas.csv'

jobs:
  run-etl:
    runs-on: ubuntu-latest
    steps:
      - name: Baixar c√≥digo
        uses: actions/checkout@v3

      - name: Configurar Python
        uses: actions/setup-python@v4
        with:
          python-version: '3.10'

      - name: Instalar depend√™ncias
        run: pip install pandas

      - name: Executar ETL
        run: python etl_vendas.py
