<a href="https://colab.research.google.com/github/lucasm-paixao/analise_dados/blob/main/pipeline_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Passo 1: Criar um Dataset

In [2]:
import pandas as pd
import random
from datetime import datetime, timedelta

# Gerar um dataset simples
def gerar_dados_vendas(n=10):
    produtos = ['Produto A', 'Produto B', 'Produto C']
    dados = []

    for i in range(n):
        produto = random.choice(produtos)
        quantidade = random.randint(1, 5)
        preco_unitario = round(random.uniform(10, 100), 2)
        preco_total = round(quantidade * preco_unitario, 2)
        data_venda = datetime.now() - timedelta(days=random.randint(0, 30))  # datas aleatórias no último mês

        dados.append({
            'id_venda': i + 1,
            'data_venda': data_venda.strftime('%Y-%m-%d'),
            'produto': produto,
            'quantidade': quantidade,
            'preco_unitario': preco_unitario,
            'preco_total': preco_total
        })

    # Criar DataFrame
    df = pd.DataFrame(dados)
    return df

# Gerar um dataset com 10 vendas fictícias
df_vendas = gerar_dados_vendas(10)
df_vendas.head()

Unnamed: 0,id_venda,data_venda,produto,quantidade,preco_unitario,preco_total
0,1,2025-05-01,Produto C,5,65.3,326.5
1,2,2025-05-04,Produto C,5,34.47,172.35
2,3,2025-04-23,Produto C,2,39.45,78.9
3,4,2025-04-28,Produto C,3,35.4,106.2
4,5,2025-04-27,Produto C,1,14.72,14.72


#Passo 2: Ingestão de Dados

In [5]:
# Salvar o DataFrame em um arquivo CSV
from google.colab import drive
drive.mount('/content/drive')
caminho_arquivo = '/content/drive/MyDrive/portfolio_dados/vendas.csv'
df_vendas.to_csv(caminho_arquivo, index=False, sep=';', encoding='utf-8-sig')

# Simulando a ingestão de dados (lendo o arquivo CSV de volta)
def ingestao_dados(caminho_arquivo):
    df = pd.read_csv(caminho_arquivo, sep=';')
    return df

# Ingestão dos dados
df_vendas_ingestao = ingestao_dados(caminho_arquivo)
df_vendas_ingestao.head()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Unnamed: 0,id_venda,data_venda,produto,quantidade,preco_unitario,preco_total
0,1,2025-05-01,Produto C,5,65.3,326.5
1,2,2025-05-04,Produto C,5,34.47,172.35
2,3,2025-04-23,Produto C,2,39.45,78.9
3,4,2025-04-28,Produto C,3,35.4,106.2
4,5,2025-04-27,Produto C,1,14.72,14.72


#Passo 3: Transformação dos Dados

In [7]:
def transformacao_dados(df):
    # Convertendo a coluna 'data_venda' para o tipo datetime
    df['data_venda'] = pd.to_datetime(df['data_venda'])

    # Adicionando uma coluna 'mes_venda' com o mês da venda
    df['mes_venda'] = df['data_venda'].dt.month
    return df

# Transformação dos dados
df_vendas_transformados = transformacao_dados(df_vendas_ingestao)
df_vendas_transformados.head()


Unnamed: 0,id_venda,data_venda,produto,quantidade,preco_unitario,preco_total,mes_venda
0,1,2025-05-01,Produto C,5,65.3,326.5,5
1,2,2025-05-04,Produto C,5,34.47,172.35,5
2,3,2025-04-23,Produto C,2,39.45,78.9,4
3,4,2025-04-28,Produto C,3,35.4,106.2,4
4,5,2025-04-27,Produto C,1,14.72,14.72,4


#Passo 4: Carregamento dos Dados

In [8]:
def carregamento_dados(df, caminho_arquivo_saida):
    # Salvar o DataFrame transformado em um novo arquivo CSV
    df.to_csv(caminho_arquivo_saida, index=False, sep=';', encoding='utf-8-sig')
    print(f'Dados carregados em: {caminho_arquivo_saida}')

# Caminho para salvar os dados transformados
caminho_arquivo_saida = '/content/drive/MyDrive/portfolio_dados/vendas_transformadas.csv'

# Carregar os dados transformados
carregamento_dados(df_vendas_transformados, caminho_arquivo_saida)


Dados carregados em: /content/drive/MyDrive/portfolio_dados/vendas_transformadas.csv
