In [12]:
"""
ETL Simplificado para Dashboard de Vendas
"""
"""
!pip install kagglehub  # Instala o kagglehub se ainda não estiver instalado
!mkdir -p ~/.kaggle # Cria o diretório .kaggle se não existir
!mv kaggle.json ~/.kaggle/ # Move o arquivo kaggle.json para o diretório (certifique-se de ter o arquivo kaggle.json)
!chmod 600 ~/.kaggle/kaggle.json # Define as permissões do arquivo
!pip install google-auth  # Instala o google-auth
"""

import pandas as pd
from sklearn.linear_model import LogisticRegression
import gspread
from google.colab import auth
import os
from kagglehub import dataset_download
import google.auth  # Importa o google.auth


# ========== EXTRAÇÃO DOS DADOS ==========
print("1. BAIXANDO DADOS...")

# Baixar dataset do Kaggle
caminho = dataset_download("adarsh0806/influencer-merchandise-sales")

# Carregar arquivo CSV
arquivo_csv = [f for f in os.listdir(caminho) if f.endswith('.csv')][0]
dados = pd.read_csv(os.path.join(caminho, arquivo_csv), parse_dates=['Order Date'])
print("Dados carregados! Primeiras linhas:\n")
print(dados.head())

# ========== TRANSFORMAÇÃO DOS DADOS ==========
print("\n2. PROCESSANDO DADOS...")

# Traduzir colunas principais
dados = dados.rename(columns={
    'Order ID': 'Pedido',
    'Order Date': 'Data',
    'Product Category': 'Categoria',
    'Buyer Gender': 'Genero',
    'Buyer Age': 'Idade',
    'International Shipping': 'Envio_Internacional',
    'Total Sales': 'Total_Vendas'
})

# Limpeza básica
dados = dados.drop_duplicates('Pedido')
dados['Envio_Internacional'] = dados['Envio_Internacional'].replace({'Yes': 'Sim', 'No': 'Não'})

# Criar faixa etária
dados['Faixa_Etaria'] = pd.cut(dados['Idade'],
                             bins=[0,18,25,35,100],
                             labels=['<18','18-25','26-35','35+'])

# ========== PREVISÃO SIMPLES ==========
print("\n3. CRIANDO PREVISÃO...")

# Preparar dados mensais para modelo
dados_mes = dados.groupby(pd.Grouper(key='Data', freq='ME')).agg({  # Altera 'M' para 'ME'
    'Total_Vendas':'sum'
}).reset_index()

# Criar alvo (se próximo mês foi melhor) - Usando média móvel
dados_mes['Media_Movel'] = dados_mes['Total_Vendas'].rolling(window=3, center=True).mean()  # Calcula a média móvel de 3 meses
dados_mes['Proximo_Mes_Melhor'] = (dados_mes['Total_Vendas'] > dados_mes['Media_Movel']).astype(int)  # Compara com a média móvel
dados_mes = dados_mes.dropna()  # Remove as linhas com NaN da média móvel

# Treinar modelo simples
modelo = LogisticRegression()
modelo.fit(dados_mes[['Total_Vendas']], dados_mes['Proximo_Mes_Melhor'])

# Adicionar previsão aos dados originais
dados_mes['Previsao'] = modelo.predict(dados_mes[['Total_Vendas']])
dados = pd.merge(dados, dados_mes[['Data','Previsao']], on='Data')

# ========== SALVAR NO GOOGLE SHEETS ==========
print("\n4. SALVANDO NA PLANILHA...")

# Autenticar e criar planilha
auth.authenticate_user()
credentials, _ = google.auth.default()  # Obter credenciais

gc = gspread.authorize(credentials)  # Autorizar o cliente gspread

# Criar nova planilha
planilha = gc.create('Vendas_Influenciador02')
planilha.share(None, perm_type='anyone', role='writer')

# Converter a coluna 'Faixa_Etaria' para string
dados['Faixa_Etaria'] = dados['Faixa_Etaria'].astype(str)

# Adicionar dados
planilha.sheet1.update(
    [dados.columns.tolist()] +
    dados.fillna('').astype(str).values.tolist()
)

print("PRONTO! Dashboard pode ser acessado em:")
print(f"URL da Planilha: {planilha.url}")
print("\nUse este link para conectar ao Looker Studio!")

1. BAIXANDO DADOS...
Dados carregados! Primeiras linhas:

   Order ID Order Date Product ID Product Category Buyer Gender  Buyer Age  \
0    189440 2024-07-21     BF1543         Clothing         Male         30   
1    187385 2024-07-20     BF1543         Clothing         Male         32   
2    181844 2024-07-21     BF1544            Other       Female         26   
3    197934 2024-08-19     BF1544            Other         Male         28   
4    122470 2024-01-06     BF1545            Other       Female         19   

  Order Location International Shipping  Sales Price  Shipping Charges  \
0     New Jersey                     No          100                 0   
1      Las Vegas                     No          100                 0   
2        Cardiff                    Yes            9                40   
3     Pittsburgh                     No            9                 0   
4          Miami                     No           10                 0   

   Sales per Unit  Quantity 