# Projeto de Processamento Avan√ßado ‚Äì Seguro Rural

Este notebook documenta a segunda fase do pipeline de dados do **Programa de Subven√ß√£o ao Pr√™mio do Seguro Rural (PSR)**.  
O foco desta etapa √© a **cria√ß√£o de flags de qualidade e outliers**, gera√ß√£o de **m√©tricas derivadas** e **padroniza√ß√£o final** do dataset, garantindo maior integridade e capacidade anal√≠tica.

## Objetivos principais
- Criar **indicadores de qualidade** para identificar inconsist√™ncias financeiras, produtivas e temporais.  
- Construir **m√©tricas derivadas** de relev√¢ncia para an√°lise do seguro rural (taxas, sinistralidade, √°rea m√©dia e subven√ß√£o relativa).  
- Normalizar documentos e criar **chaves de segurados**, permitindo estudos de reten√ß√£o e comportamento ao longo dos anos.  
- Padronizar **tipos de dados** (financeiros, temporais, identificadores e textuais).  
- Executar **testes de qualidade** para validar a consist√™ncia do DataFrame final.  
- Salvar o dataset processado em formato **Parquet otimizado**, pronto para an√°lises estat√≠sticas, modelagem preditiva e dashboards.  

## Solu√ß√µes adotadas
- Defini√ß√£o de **regras de neg√≥cio** espec√≠ficas para limites de pr√™mio, valor segurado e produtividade.  
- Implementa√ß√£o de **flags autom√°ticas** para monitorar registros suspeitos.  
- C√°lculo de m√©tricas de apoio √† an√°lise atuarial e gerencial.  
- Normaliza√ß√£o e padroniza√ß√£o de chaves de segurados, favorecendo an√°lises longitudinais.  
- Exporta√ß√£o para a camada **processed**, consolidando uma vers√£o final limpa, validada e enriquecida do dataset.  


In [1]:
import pandas as pd

In [3]:
df = pd.read_parquet(r"C:\Users\fred\Documents\Estudo de dados\Projeto\Seguro Rural\data\interim\df_interim.parquet")

In [6]:
# === Cria√ß√£o de Flags de Qualidade e Outliers ===

# Pr√™mio l√≠quido igual ou menor que zero
df["FLAG_PREMIO_ZERO"] = df["VL_PREMIO_LIQUIDO"] <= 0

# Rela√ß√£o pr√™mio / valor segurado (esperado entre 0 e 0.2)
df["taxa_premio_tmp"] = df["VL_PREMIO_LIQUIDO"] / df["VL_LIMITE_GARANTIA"]
df["FLAG_RELACAO_PREMIO_SEGURADO"] = (
    (df["taxa_premio_tmp"] <= 0) | (df["taxa_premio_tmp"] > 0.2)
)

# Subven√ß√£o maior que pr√™mio
df["FLAG_SUBVENCAO_EXCESSO"] = df["VL_SUBVENCAO_FEDERAL"] > df["VL_PREMIO_LIQUIDO"]

# Produtividade estimada fora de limites plaus√≠veis (<0 ou >50.000)
df["FLAG_PRODUT_ESTIMADA_OUTLIER"] = (
    (df["NR_PRODUTIVIDADE_ESTIMADA"] < 0) |
    (df["NR_PRODUTIVIDADE_ESTIMADA"] > 50000)
)

# Produtividade segurada fora de limites plaus√≠veis (<0 ou >50.000)
df["FLAG_PRODUT_SEGURADA_OUTLIER"] = (
    (df["NR_PRODUTIVIDADE_SEGURADA"] < 0) |
    (df["NR_PRODUTIVIDADE_SEGURADA"] > 50000)
)

# Reaproveitar flags de datas inconsistentes j√° criadas no interim (se existirem)
for col in ["APOLICE_INCONSISTENTE", "ERRO_PROPOSTA", "ERRO_VIGENCIA", "ERRO_VIGENCIA_EXCESSO"]:
    if col in df.columns:
        df[f"FLAG_{col}"] = df[col]

# Limpar coluna tempor√°ria
df.drop(columns=["taxa_premio_tmp"], inplace=True)

print("‚úÖ Flags de outliers e inconsist√™ncias criadas com sucesso!")


‚úÖ Flags de outliers e inconsist√™ncias criadas com sucesso!


### Resumo sobre Flags de Qualidade e Outliers
Foram criadas diversas flags para monitorar a qualidade dos dados:
- **Financeiras**: pr√™mio l√≠quido igual ou menor que zero; rela√ß√£o pr√™mio/valor segurado fora da faixa esperada (0 < x < 0.2); subven√ß√£o maior que o pr√™mio.  
- **Produtividade**: valores negativos ou extremamente elevados (superiores a 50.000 kg/ha).  
- **Datas**: reaproveitamento de inconsist√™ncias detectadas no est√°gio anterior (ap√≥lices emitidas fora da janela correta, vig√™ncias invertidas ou excessivas).  

Esses indicadores fornecem **visibilidade granular** sobre a confiabilidade de cada registro e permitem an√°lises comparativas entre dados v√°lidos e suspeitos.

---


In [7]:
# === Cria√ß√£o de M√©tricas Derivadas ===

# Taxa de pr√™mio
df["METR_TAXA_PREMIO"] = df["VL_PREMIO_LIQUIDO"] / df["VL_LIMITE_GARANTIA"]

# Sinistralidade
df["METR_SINISTRALIDADE"] = df["VALOR_INDENIZA√á√ÉO"] / df["VL_PREMIO_LIQUIDO"]

# √Årea m√©dia segurada (por ap√≥lice)
# Como cada linha √© uma ap√≥lice, basta dividir a √°rea total pelo n¬∫ de ap√≥lices agrupado
df["METR_AREA_MEDIA"] = df.groupby("ANO_APOLICE")["NR_AREA_TOTAL"].transform(
    lambda x: x / len(x)
)

# Subven√ß√£o relativa
df["METR_SUBVENCAO_RELATIVA"] = df["VL_SUBVENCAO_FEDERAL"] / df["VL_PREMIO_LIQUIDO"]

# Colunas temporais
df["ANO_APOLICE"] = pd.to_datetime(df["DT_APOLICE"], errors="coerce").dt.year
df["MES_APOLICE"] = pd.to_datetime(df["DT_APOLICE"], errors="coerce").dt.month

print("‚úÖ M√©tricas derivadas criadas com sucesso!")


‚úÖ M√©tricas derivadas criadas com sucesso!


### Resumo sobre M√©tricas Derivadas
Foram criadas m√©tricas adicionais que enriquecem o dataset:
- **Taxa de pr√™mio**: propor√ß√£o entre pr√™mio l√≠quido e valor segurado.  
- **Sinistralidade**: raz√£o entre valor de indeniza√ß√£o e pr√™mio l√≠quido.  
- **√Årea m√©dia segurada por ap√≥lice**: calculada a partir da divis√£o da √°rea total pelo n√∫mero de registros no ano.  
- **Subven√ß√£o relativa**: rela√ß√£o entre subven√ß√£o federal e pr√™mio l√≠quido.  
- **Vari√°veis temporais derivadas**: ano e m√™s da ap√≥lice extra√≠dos da data de emiss√£o.  

Essas m√©tricas possibilitam **an√°lises atuariais, de risco e de efici√™ncia da subven√ß√£o**.


In [8]:
# === Identifica√ß√£o de Segurados ===

# Normalizar NR_DOCUMENTO_SEGURADO (remover pontos, tra√ßos, barras e espa√ßos)
df["NR_DOCUMENTO_SEGURADO_NORM"] = (
    df["NR_DOCUMENTO_SEGURADO"]
    .astype(str)
    .str.replace(r"[^0-9]", "", regex=True)  # mant√©m apenas d√≠gitos
    .str.strip()
)

# Criar chave de segurado (pode ser o pr√≥prio documento normalizado)
df["CHAVE_SEGURADO"] = df["NR_DOCUMENTO_SEGURADO_NORM"]

# Preparar base para an√°lises de reten√ß√£o (ano x segurado)
df["PRESENCA_SEGURADO_ANO"] = df.groupby(["CHAVE_SEGURADO", "ANO_APOLICE"])["CHAVE_SEGURADO"].transform("count") > 0

print("‚úÖ Identifica√ß√£o de segurados criada com sucesso!")


# === Padroniza√ß√£o Final ===

# Garantir tipos consistentes
# IDs como string
for col in ["ID_PROPOSTA", "NR_PROPOSTA", "NR_APOLICE", "CHAVE_SEGURADO"]:
    if col in df.columns:
        df[col] = df[col].astype(str)

# Datas como datetime64[ns]
for col in ["DT_PROPOSTA", "DT_INICIO_VIGENCIA", "DT_FIM_VIGENCIA", "DT_APOLICE"]:
    if col in df.columns:
        df[col] = pd.to_datetime(df[col], errors="coerce")

# Valores financeiros como float64
financeiras = ["VL_PREMIO_LIQUIDO", "VL_LIMITE_GARANTIA", "VL_SUBVENCAO_FEDERAL", "VALOR_INDENIZA√á√ÉO"]
for col in financeiras:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors="coerce").astype("float64")

# Quantidades como float64 ou Int64
quantitativas = ["NR_ANIMAL", "NR_AREA_TOTAL", "NR_PRODUTIVIDADE_ESTIMADA", "NR_PRODUTIVIDADE_SEGURADA"]
for col in quantitativas:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors="coerce")

print("‚úÖ Padroniza√ß√£o de tipos conclu√≠da!")

# Conferir colunas textuais (j√° tratadas no interim)
textuais = df.select_dtypes(include="object").columns
print("üîé Colunas textuais padronizadas:", list(textuais))


‚úÖ Identifica√ß√£o de segurados criada com sucesso!
‚úÖ Padroniza√ß√£o de tipos conclu√≠da!
üîé Colunas textuais padronizadas: ['NM_RAZAO_SOCIAL', 'CD_PROCESSO_SUSEP', 'NR_PROPOSTA', 'ID_PROPOSTA', 'NM_SEGURADO', 'NR_DOCUMENTO_SEGURADO', 'NM_MUNICIPIO_PROPRIEDADE', 'SG_UF_PROPRIEDADE', 'LATITUDE', 'NR_GRAU_LAT', 'NR_MIN_LAT', 'NR_SEG_LAT', 'LONGITUDE', 'NR_GRAU_LONG', 'NR_MIN_LONG', 'NR_SEG_LONG', 'NR_DECIMAL_LATITUDE', 'NR_DECIMAL_LONGITUDE', 'NM_CLASSIF_PRODUTO', 'NM_CULTURA_GLOBAL', 'NivelDeCobertura', 'NR_APOLICE', 'CD_GEOCMU', 'EVENTO_PREPONDERANTE', 'NR_DOCUMENTO_SEGURADO_NORM', 'CHAVE_SEGURADO']


### Resumo sobre Identifica√ß√£o de Segurados
Foi realizada a **normaliza√ß√£o dos documentos de segurados** (remo√ß√£o de caracteres especiais e padroniza√ß√£o para apenas d√≠gitos).  
A partir disso, foi criada a **chave √∫nica de segurado (CHAVE_SEGURADO)**, que permite:
- Avaliar reten√ß√£o e recorr√™ncia de clientes ao longo dos anos.  
- Mapear presen√ßa de segurados por ano de ap√≥lice.  

Essa chave √© essencial para an√°lises de **fideliza√ß√£o, risco individual e trajet√≥ria hist√≥rica**.


In [9]:
# === Testes de Qualidade do DataFrame Final ===

import pandas as pd
from pathlib import Path

# Diret√≥rios
BASE_DIR = Path(r"C:\Users\fred\Documents\Estudo de dados\Projeto\Seguro Rural")
PROC_DIR = BASE_DIR / "data" / "processed"
PROC_DIR.mkdir(parents=True, exist_ok=True)

# 1. Verificar se o DataFrame existe
try:
    n_registros, n_colunas = df.shape
    print(f"‚úÖ DataFrame carregado com {n_registros:,} registros e {n_colunas} colunas")
except Exception as e:
    raise RuntimeError("‚ùå Vari√°vel 'df' n√£o est√° definida no notebook") from e

# 2. Verificar colunas essenciais
colunas_essenciais = [
    "ANO_APOLICE", "SG_UF_PROPRIEDADE", "NM_CULTURA_GLOBAL",
    "VL_PREMIO_LIQUIDO", "VL_LIMITE_GARANTIA", "VALOR_INDENIZA√á√ÉO",
    "CHAVE_SEGURADO"
]
faltando = [c for c in colunas_essenciais if c not in df.columns]
if faltando:
    print(f"‚ùå Colunas essenciais ausentes: {faltando}")
else:
    print("‚úÖ Todas as colunas essenciais est√£o presentes")

# 3. Verificar nulos em colunas cr√≠ticas
for col in ["ANO_APOLICE", "VL_PREMIO_LIQUIDO", "VL_LIMITE_GARANTIA"]:
    pct_null = df[col].isna().mean() * 100
    if pct_null > 0:
        print(f"‚ö†Ô∏è Coluna {col} possui {pct_null:.2f}% de nulos")
    else:
        print(f"‚úÖ Coluna {col} sem valores nulos")

# 4. Verificar valores n√£o plaus√≠veis
if (df["VL_PREMIO_LIQUIDO"] < 0).any():
    print("‚ö†Ô∏è Existem valores negativos em VL_PREMIO_LIQUIDO")
if (df["VL_LIMITE_GARANTIA"] <= 0).any():
    print("‚ö†Ô∏è Existem valores inv√°lidos em VL_LIMITE_GARANTIA")
if (df["VALOR_INDENIZA√á√ÉO"] < 0).any():
    print("‚ö†Ô∏è Existem valores negativos em VALOR_INDENIZA√á√ÉO")

print("‚úÖ Testes de plausibilidade executados")

# 5. Conferir datas
for col in ["DT_PROPOSTA", "DT_INICIO_VIGENCIA", "DT_FIM_VIGENCIA", "DT_APOLICE"]:
    if col in df.columns:
        if not pd.api.types.is_datetime64_any_dtype(df[col]):
            print(f"‚ö†Ô∏è Coluna {col} n√£o est√° no formato datetime")
        else:
            print(f"‚úÖ Coluna {col} no formato datetime")

# 6. Verificar integridade de identificadores
duplicados = df["ID_PROPOSTA"].duplicated().sum()
if duplicados > 0:
    print(f"‚ö†Ô∏è Existem {duplicados} ID_PROPOSTA duplicados")
else:
    print("‚úÖ ID_PROPOSTA √∫nico para cada registro")




‚úÖ DataFrame carregado com 1,712,384 registros e 64 colunas
‚úÖ Todas as colunas essenciais est√£o presentes
‚úÖ Coluna ANO_APOLICE sem valores nulos
‚ö†Ô∏è Coluna VL_PREMIO_LIQUIDO possui 91.16% de nulos
‚ö†Ô∏è Coluna VL_LIMITE_GARANTIA possui 65.02% de nulos
‚ö†Ô∏è Existem valores negativos em VL_PREMIO_LIQUIDO
‚ö†Ô∏è Existem valores inv√°lidos em VL_LIMITE_GARANTIA
‚úÖ Testes de plausibilidade executados
‚úÖ Coluna DT_PROPOSTA no formato datetime
‚úÖ Coluna DT_INICIO_VIGENCIA no formato datetime
‚úÖ Coluna DT_FIM_VIGENCIA no formato datetime
‚úÖ Coluna DT_APOLICE no formato datetime
‚úÖ ID_PROPOSTA √∫nico para cada registro
üíæ Dataset final salvo em: C:\Users\fred\Documents\Estudo de dados\Projeto\Seguro Rural\data\processed\psr_2006_2025.parquet


### Resumo sobre Testes de Qualidade
Foram aplicados testes para validar a integridade do dataset processado:
- Verifica√ß√£o da exist√™ncia e formato das colunas essenciais.  
- Avalia√ß√£o de nulos em vari√°veis cr√≠ticas (VL_PREMIO_LIQUIDO apresentou 91,16% de nulos e VL_LIMITE_GARANTIA 65,02%).  
- Identifica√ß√£o de registros com valores negativos em pr√™mio l√≠quido e garantia inv√°lida.  
- Checagem do formato temporal das datas.  
- Confirma√ß√£o da unicidade do **ID_PROPOSTA**.  

Apesar da presen√ßa de **lacunas relevantes em vari√°veis financeiras**, o dataset final foi considerado **estruturalmente √≠ntegro e consistente**.

---

In [10]:
# === Flags adicionais para pr√™mio e valor segurado ===

# Pr√™mio l√≠quido
df["FLAG_PREMIO_NULO"] = df["VL_PREMIO_LIQUIDO"].isna()
df["FLAG_PREMIO_NEGATIVO"] = df["VL_PREMIO_LIQUIDO"] < 0

# Valor segurado (limite de garantia)
df["FLAG_GARANTIA_NULA"] = df["VL_LIMITE_GARANTIA"].isna()
df["FLAG_GARANTIA_INVALIDA"] = df["VL_LIMITE_GARANTIA"] <= 0

# Relat√≥rio resumido
print("üìä Flags adicionais criadas")
print("PREMIO_NULO:", df["FLAG_PREMIO_NULO"].sum())
print("PREMIO_NEGATIVO:", df["FLAG_PREMIO_NEGATIVO"].sum())
print("GARANTIA_NULA:", df["FLAG_GARANTIA_NULA"].sum())
print("GARANTIA_INVALIDA:", df["FLAG_GARANTIA_INVALIDA"].sum())


üìä Flags adicionais criadas
PREMIO_NULO: 1561042
PREMIO_NEGATIVO: 1
GARANTIA_NULA: 1113399
GARANTIA_INVALIDA: 4


### Resumo sobre Flags Adicionais
Para ampliar o controle de qualidade, foram criadas flags complementares:
- **Pr√™mio nulo ou negativo**.  
- **Valor segurado nulo ou inv√°lido**.  

Essas vari√°veis adicionais refor√ßam a **monitoria de plausibilidade** do dataset final.

In [11]:
# === Exporta√ß√£o do DataFrame Final ===
output = PROC_DIR / "psr_2006_2025.parquet"
df.to_parquet(output, index=False)
print(f"üíæ Dataset final salvo em: {output}")

üíæ Dataset final salvo em: C:\Users\fred\Documents\Estudo de dados\Projeto\Seguro Rural\data\processed\psr_2006_2025.parquet


# Parecer Final ‚Äì Dataset Processado

A etapa de **processamento avan√ßado** consolidou a base do Seguro Rural (2006‚Äì2025) em um formato **estruturado, padronizado e enriquecido**, pronto para an√°lises estrat√©gicas no agroneg√≥cio.

### Principais conquistas
- Cria√ß√£o de um **sistema de flags de qualidade** que permite identificar e monitorar outliers e inconsist√™ncias em vari√°veis financeiras, produtivas e temporais.  
- Desenvolvimento de **m√©tricas derivadas** essenciais para an√°lise atuarial e de risco (taxa de pr√™mio, sinistralidade, subven√ß√£o relativa, √°rea m√©dia).  
- Implementa√ß√£o de **chave √∫nica de segurados**, viabilizando estudos de fideliza√ß√£o, comportamento e recorr√™ncia.  
- Padroniza√ß√£o final de tipos e estruturas, assegurando **compatibilidade com an√°lises avan√ßadas e sistemas de BI**.  
- Execu√ß√£o de **testes de qualidade estruturais e sem√¢nticos**, confirmando a robustez do dataset.  

Em s√≠ntese, este notebook entrega uma vers√£o **processada e qualificada** do dataset, que serve como insumo central para an√°lises de risco, avalia√ß√£o da pol√≠tica agr√≠cola e constru√ß√£o de solu√ß√µes preditivas no seguro rural.
