In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# --- PASSO 0: DEFINI√á√ïES INICIAIS E PAR√ÇMETROS ---
# Par√¢metros fornecidos para guiar a gera√ß√£o de dados
FREQ_PARCIAL_ALVO = 0.03   # 3%
FREQ_TOTAL_ALVO = 0.001  # 0.1%
SEV_PARCIAL_ALVO = 3_000 # R$ 3.000

# Par√¢metros para a simula√ß√£o
N_APOLICES = 1000000
np.random.seed(42) # Para reprodutibilidade dos resultados

In [None]:
# --- PASSO 1: CRIA√á√ÉO DO DATASET SINT√âTICO ---
print(f"Gerando um dataset sint√©tico com {N_APOLICES} ap√≥lices...")

# 1.1. Cria√ß√£o das features preditivas (caracter√≠sticas do risco)
df = pd.DataFrame({
    'exposicao': np.random.uniform(0.1, 1.0, N_APOLICES), # Exposi√ß√£o entre 1.2 meses e 1 ano
    'classe_bonus': np.random.randint(0, 11, N_APOLICES),
    'idade': np.random.randint(18, 81, N_APOLICES),
    'rns': np.random.randint(0, 2, N_APOLICES), # 0 = sem RNS, 1 = com RNS
    'valor_veiculo': np.random.uniform(20000, 150001, N_APOLICES).round(2)
})

print(f"Gerando um dataset sint√©tico com dimens√µes: {df.shape}")

# 1.2. Cria√ß√£o do "fator de risco" individual para cada ap√≥lice
# Usamos uma combina√ß√£o linear das features para simular o risco latente.
# Sinais dos coeficientes:
# - classe_bonus: negativo (maior b√¥nus, menor risco)
# - idade: negativo (maior idade, menor risco)
# - rns: positivo (ter RNS, maior risco)
log_risco_base_freq = (
    -0.15 * df['classe_bonus']
    -0.02 * df['idade']
    + 1.0 * df['rns']
)

# 1.3. Gera√ß√£o das Quantidades de Sinistros (Frequ√™ncia)
# Ajustamos o intercepto para que a m√©dia da frequ√™ncia na carteira se aproxime dos alvos.

# Colis√£o Parcial
# Calibra√ß√£o do intercepto para atingir a frequ√™ncia alvo
taxa_media_parcial = np.exp(log_risco_base_freq).mean()
intercepto_parcial = np.log(FREQ_PARCIAL_ALVO / taxa_media_parcial)
taxa_poisson_parcial = np.exp(intercepto_parcial + log_risco_base_freq) * df['exposicao']
df['qtd_colisao_parcial'] = np.random.poisson(taxa_poisson_parcial)

# Colis√£o Total
# Calibra√ß√£o do intercepto
taxa_media_total = np.exp(log_risco_base_freq).mean()
intercepto_total = np.log(FREQ_TOTAL_ALVO / taxa_media_total)
taxa_poisson_total = np.exp(intercepto_total + log_risco_base_freq) * df['exposicao']
df['qtd_colisao_total'] = np.random.poisson(taxa_poisson_total)


# 1.4. Gera√ß√£o da Severidade de Colis√£o Parcial (para quem teve sinistro)
# A severidade depende do risco e, principalmente, do valor do ve√≠culo.
log_risco_base_sev = (
    -0.01 * df['classe_bonus']  # Influ√™ncia menor
    -0.005 * df['idade']       # Influ√™ncia menor
    + 0.1 * df['rns']          # Influ√™ncia pequena
    + 0.5 * np.log(df['valor_veiculo']) # Influ√™ncia maior e n√£o-linear
)

# Calibra√ß√£o do intercepto para atingir a severidade alvo
media_sev_base = np.exp(log_risco_base_sev[df['qtd_colisao_parcial'] > 0]).mean()
intercepto_sev = np.log(SEV_PARCIAL_ALVO / media_sev_base)

# M√©dia da Gamma para cada ap√≥lice com sinistro
media_gamma = np.exp(intercepto_sev + log_risco_base_sev)

# Par√¢metro de forma da Gamma (controla a vari√¢ncia/dispers√£o)
shape_gamma = 20.0
scale_gamma = media_gamma / shape_gamma

# Gerar valores da Gamma apenas para quem teve sinistro
severidade_valores = np.random.gamma(shape=shape_gamma, scale=scale_gamma)

# Atribuir a severidade ao DataFrame
df['valor_colisao_parcial'] = 0.0
mask_sinistro_parcial = df['qtd_colisao_parcial'] > 0
# O valor total do sinistro √© a quantidade de eventos * a severidade m√©dia por evento
# Para simplificar, assumimos que a severidade gerada √© o valor total para aquela ap√≥lice
df.loc[mask_sinistro_parcial, 'valor_colisao_parcial'] = \
    severidade_valores[mask_sinistro_parcial].round(2) * df.loc[mask_sinistro_parcial, 'qtd_colisao_parcial']

# Amostra para casos com colis√£o parcial
df.shape

In [None]:
df.info()

In [None]:
#write data to BQ
import pandas as pd
from google.cloud import bigquery

# ==============================================================================
# 1. CONFIGURE SUAS VARI√ÅVEIS
# ==============================================================================
# Substitua pelo ID do seu projeto GCP.
project_id = "project-poc-purple"

# Nome do dataset no BigQuery (deve existir)
dataset_id = "demos"

# Nome da tabela que ser√° criada ou sobrescrita
table_id = "dados_apolices_v1"

# ==============================================================================
# 2. SEU DATAFRAME
# ==============================================================================
# Supondo que seu DataFrame de 1 milh√£o de linhas j√° est√°
# carregado na vari√°vel 'df'. N√£o √© preciso cri√°-lo aqui.
# df = pd.read_csv(...) ou similar

# ==============================================================================
# 3. ENVIE OS DADOS PARA O BIGQUERY
# ==============================================================================
print("Iniciando o carregamento para o BigQuery...")

# Inicializa o cliente, especificando o projeto para evitar erros de quota.
client = bigquery.Client(project=project_id)

# Configura o job de carregamento.
# 'autodetect=True' √© perfeito para o seu caso.
job_config = bigquery.LoadJobConfig(
    write_disposition="WRITE_TRUNCATE", # Sobrescreve a tabela. Mude para WRITE_APPEND se quiser adicionar.
    autodetect=True,
)

# Monta a refer√™ncia completa da tabela.
table_ref = f"{project_id}.{dataset_id}.{table_id}"

# Executa o job. Esta fun√ß√£o √© eficiente para grandes DataFrames. üöÄ
job = client.load_table_from_dataframe(df, table_ref, job_config=job_config)

# Aguarda a finaliza√ß√£o do job.
job.result()

print(f"‚úÖ Sucesso! Os {len(df)} registros foram carregados na tabela {table_ref}.")

In [None]:
#Ler dados da tabela do BQ:

print(f"Lendo dados da tabela {table_ref}...")
sql_query = f"""
    SELECT *
    FROM `{table_ref}`
"""
df = client.query(sql_query).to_dataframe()

print("‚úÖ Sucesso! Dados carregados no DataFrame.")
print("-" * 30)
print("Informa√ß√µes do DataFrame carregado:")
df.info()
colunas_para_converter = df.select_dtypes(include='Int64').columns
for col in colunas_para_converter:
    df[col] = df[col].astype('int64')
df.info()