# Notebook Para Análise de Seguro Rural

## Step 01 - Importando as bibliotecas e o DataFrame

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests
import io
import warnings


# Configuração para mostrar todas as colunas (opcional, mas útil para análise)
pd.set_option('display.max_columns', None)

# Ignorar avisos para uma saída mais limpa
warnings.filterwarnings("ignore")

In [2]:
# 1. A URL
url = "https://dados.agricultura.gov.br/dataset/baefdc68-9bad-4204-83e8-f2888b79ab48/resource/97f29a77-4e7e-44bf-99b3-a2d75911b6bf/download/dados_abertos_psr_2006a2015csv.csv"

# 2. A Camuflagem (Cabeçalho de Navegador Real)
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

print("Iniciando download camuflado...")

try:
    # Faz a requisição fingindo ser um navegador
    # verify=False é necessário pois sites do governo as vezes tem certificados SSL desatualizados
    response = requests.get(url, headers=headers, verify=False)

    # Verifica se deu certo (Código 200 = OK)
    if response.status_code == 200:
        print("Download concluído! Lendo o CSV...")

        # Transforma o conteúdo baixado em um arquivo virtual na memória
        arquivo_virtual = io.BytesIO(response.content)

        # Lê com o Pandas (mantendo as configurações brasileiras)
        df = pd.read_csv(arquivo_virtual, sep=';', encoding='latin1', low_memory=False)

        print("Sucesso! Dados carregados.")
        print(f"Linhas e Colunas: {df.shape}")
        display(df.head())
    else:
        print(f"Falha no download. Código do servidor: {response.status_code}")

except Exception as e:
    print(f"Erro crítico: {e}")

Download concluído! Lendo o CSV...
Sucesso! Dados carregados.
Linhas e Colunas: (617683, 38)


Unnamed: 0,NM_RAZAO_SOCIAL,CD_PROCESSO_SUSEP,NR_PROPOSTA,ID_PROPOSTA,DT_PROPOSTA,DT_INICIO_VIGENCIA,DT_FIM_VIGENCIA,NM_SEGURADO,NR_DOCUMENTO_SEGURADO,NM_MUNICIPIO_PROPRIEDADE,SG_UF_PROPRIEDADE,LATITUDE,NR_GRAU_LAT,NR_MIN_LAT,NR_SEG_LAT,LONGITUDE,NR_GRAU_LONG,NR_MIN_LONG,NR_SEG_LONG,NR_DECIMAL_LATITUDE,NR_DECIMAL_LONGITUDE,NM_CLASSIF_PRODUTO,NM_CULTURA_GLOBAL,NR_AREA_TOTAL,NR_ANIMAL,NR_PRODUTIVIDADE_ESTIMADA,NR_PRODUTIVIDADE_SEGURADA,NivelDeCobertura,VL_LIMITE_GARANTIA,VL_PREMIO_LIQUIDO,PE_TAXA,VL_SUBVENCAO_FEDERAL,NR_APOLICE,DT_APOLICE,ANO_APOLICE,CD_GEOCMU,VALOR_INDENIZAÇÃO,EVENTO_PREPONDERANTE
0,Allianz Seguros S.A,15414003124200656,1868060,597140,11/04/2007,23/07/2016,23/07/2016,MARCOS JOSE DE SOUZA,***28590878,Piracaia,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,118,-,0,0,-,590000,6667,113,20001,15,11/05/2007,2007,3538600,-,-
1,Allianz Seguros S.A,15414003124200656,1868079,597138,11/04/2007,23/07/2016,23/07/2016,MARCOS JOSE DE SOUZA,***28590878,Igaratá,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,85,-,0,0,-,425000,48025,113,144075,16,11/05/2007,2007,3520202,-,-
2,Allianz Seguros S.A,15414003124200656,1868139,597139,11/04/2007,23/07/2016,23/07/2016,MARCOS JOSE DE SOUZA,***28590878,Igaratá,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,70,-,0,0,-,350000,3955,113,11865,14,11/05/2007,2007,3520202,-,-
3,Allianz Seguros S.A,15414003124200656,1886479,596987,17/04/2007,23/07/2016,23/07/2016,PASSARELLI AGROPECUÁRIA LTDA,***45552000100,Brasília,DF,-,-,-,-,-,-,-,-,-,-,-,Floresta,11,-,0,0,-,78319,76753,9800049,23026,19,18/05/2007,2007,5300108,-,-
4,Allianz Seguros S.A,15414003124200656,1886485,596988,17/04/2007,23/07/2016,23/07/2016,PASSARELLI AGROPECUÁRIA LTDA,***45552000100,Brasília,DF,-,-,-,-,-,-,-,-,-,-,-,Floresta,117,-,0,0,-,1867385,1381865,7400001,41456,20,18/05/2007,2007,5300108,-,-


## Step 02 - Exploração inicial do DataFrame

* df.info()
* df.head()

In [3]:
# Exemplo de análise simples: Mostrar informações básicas do DataFrame

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 617683 entries, 0 to 617682
Data columns (total 38 columns):
 #   Column                     Non-Null Count   Dtype 
---  ------                     --------------   ----- 
 0   NM_RAZAO_SOCIAL            617683 non-null  object
 1   CD_PROCESSO_SUSEP          617683 non-null  int64 
 2   NR_PROPOSTA                617683 non-null  object
 3   ID_PROPOSTA                617683 non-null  int64 
 4   DT_PROPOSTA                617683 non-null  object
 5   DT_INICIO_VIGENCIA         617683 non-null  object
 6   DT_FIM_VIGENCIA            617683 non-null  object
 7   NM_SEGURADO                617683 non-null  object
 8   NR_DOCUMENTO_SEGURADO      617683 non-null  object
 9   NM_MUNICIPIO_PROPRIEDADE   617683 non-null  object
 10  SG_UF_PROPRIEDADE          617683 non-null  object
 11  LATITUDE                   617683 non-null  object
 12  NR_GRAU_LAT                617602 non-null  object
 13  NR_MIN_LAT                 609728 non-null  

In [4]:
df

Unnamed: 0,NM_RAZAO_SOCIAL,CD_PROCESSO_SUSEP,NR_PROPOSTA,ID_PROPOSTA,DT_PROPOSTA,DT_INICIO_VIGENCIA,DT_FIM_VIGENCIA,NM_SEGURADO,NR_DOCUMENTO_SEGURADO,NM_MUNICIPIO_PROPRIEDADE,SG_UF_PROPRIEDADE,LATITUDE,NR_GRAU_LAT,NR_MIN_LAT,NR_SEG_LAT,LONGITUDE,NR_GRAU_LONG,NR_MIN_LONG,NR_SEG_LONG,NR_DECIMAL_LATITUDE,NR_DECIMAL_LONGITUDE,NM_CLASSIF_PRODUTO,NM_CULTURA_GLOBAL,NR_AREA_TOTAL,NR_ANIMAL,NR_PRODUTIVIDADE_ESTIMADA,NR_PRODUTIVIDADE_SEGURADA,NivelDeCobertura,VL_LIMITE_GARANTIA,VL_PREMIO_LIQUIDO,PE_TAXA,VL_SUBVENCAO_FEDERAL,NR_APOLICE,DT_APOLICE,ANO_APOLICE,CD_GEOCMU,VALOR_INDENIZAÇÃO,EVENTO_PREPONDERANTE
0,Allianz Seguros S.A,15414003124200656,1868060,597140,11/04/2007,23/07/2016,23/07/2016,MARCOS JOSE DE SOUZA,***28590878,Piracaia,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,118,-,0,0,-,590000,6667,00113,20001,0000015,11/05/2007,2007,3538600,-,-
1,Allianz Seguros S.A,15414003124200656,1868079,597138,11/04/2007,23/07/2016,23/07/2016,MARCOS JOSE DE SOUZA,***28590878,Igaratá,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,85,-,0,0,-,425000,48025,00113,144075,0000016,11/05/2007,2007,3520202,-,-
2,Allianz Seguros S.A,15414003124200656,1868139,597139,11/04/2007,23/07/2016,23/07/2016,MARCOS JOSE DE SOUZA,***28590878,Igaratá,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,70,-,0,0,-,350000,3955,00113,11865,0000014,11/05/2007,2007,3520202,-,-
3,Allianz Seguros S.A,15414003124200656,1886479,596987,17/04/2007,23/07/2016,23/07/2016,PASSARELLI AGROPECUÁRIA LTDA,***45552000100,Brasília,DF,-,-,-,-,-,-,-,-,-,-,-,Floresta,11,-,0,0,-,78319,76753,0009800049,23026,0000019,18/05/2007,2007,5300108,-,-
4,Allianz Seguros S.A,15414003124200656,1886485,596988,17/04/2007,23/07/2016,23/07/2016,PASSARELLI AGROPECUÁRIA LTDA,***45552000100,Brasília,DF,-,-,-,-,-,-,-,-,-,-,-,Floresta,117,-,0,0,-,1867385,1381865,0007400001,41456,0000020,18/05/2007,2007,5300108,-,-
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
617678,Swiss Re Corporate Solutions Brasil S.A.,15414000042200650,02071000301,293218,04/07/2014,22/07/2016,22/07/2016,A.W.FABER CASTELL S/A,***96908000152,Prata,MG,S,30,20,19,W,48,40,,-,-,-,Floresta,6455,-,0,0,-,176776864,41064366,0002322949,32000,02070000086,19/08/2014,2014,3152808,-,-
617679,Swiss Re Corporate Solutions Brasil S.A.,1541400042200650,02071000302,294577,04/07/2014,22/07/2016,22/07/2016,FABER CASTELL PROJETOS IMOBILIÁRIOS,***01863000122,Brasília,DF,S,21,,,W,51,18,52,-,-,-,Floresta,63,-,0,0,-,15552856,18720,0001203637,7488,02070000085,15/08/2014,2014,5300108,-,-
617680,Swiss Re Corporate Solutions Brasil S.A.,15414000042200650,02071000310,286763,04/09/2014,22/07/2016,22/07/2016,ROSANA LEONARDI GALHARDO DUMAS DAMAS,***25985826,Bofete,SP,S,23,14,18,W,40,20,48,-,-,-,Floresta,15,-,0,0,-,500000,412131,000824262,164852,02070000088,09/10/2014,2014,3506904,-,-
617681,Swiss Re Corporate Solutions Brasil S.A.,15414000042200650,02071000313,287219,31/10/2014,22/07/2016,22/07/2016,CMPC CELULOSE RIOGRANDENSE LTDA,***34954000185,Guaíba,RS,S,30,6,49,W,51,19,40,-,-,-,Floresta,159499,-,0,0,-,17920000,238921591,0133326781,32000,02070000092,29/11/2014,2014,4309308,16449140,INCÊNDIO


In [5]:
"""
Célula gerada pelo Data Wrangler.
"""
def clean_data(df):
    # Alterar tipo de coluna para datetime64[ns] para colunas: 'DT_PROPOSTA', 'DT_INICIO_VIGENCIA', 'DT_FIM_VIGENCIA'
    df = df.astype({'DT_PROPOSTA': 'datetime64[ns]', 'DT_INICIO_VIGENCIA': 'datetime64[ns]', 'DT_FIM_VIGENCIA': 'datetime64[ns]'})
    return df

df_clean = clean_data(df.copy())
df_clean.head()

Unnamed: 0,NM_RAZAO_SOCIAL,CD_PROCESSO_SUSEP,NR_PROPOSTA,ID_PROPOSTA,DT_PROPOSTA,DT_INICIO_VIGENCIA,DT_FIM_VIGENCIA,NM_SEGURADO,NR_DOCUMENTO_SEGURADO,NM_MUNICIPIO_PROPRIEDADE,SG_UF_PROPRIEDADE,LATITUDE,NR_GRAU_LAT,NR_MIN_LAT,NR_SEG_LAT,LONGITUDE,NR_GRAU_LONG,NR_MIN_LONG,NR_SEG_LONG,NR_DECIMAL_LATITUDE,NR_DECIMAL_LONGITUDE,NM_CLASSIF_PRODUTO,NM_CULTURA_GLOBAL,NR_AREA_TOTAL,NR_ANIMAL,NR_PRODUTIVIDADE_ESTIMADA,NR_PRODUTIVIDADE_SEGURADA,NivelDeCobertura,VL_LIMITE_GARANTIA,VL_PREMIO_LIQUIDO,PE_TAXA,VL_SUBVENCAO_FEDERAL,NR_APOLICE,DT_APOLICE,ANO_APOLICE,CD_GEOCMU,VALOR_INDENIZAÇÃO,EVENTO_PREPONDERANTE
0,Allianz Seguros S.A,15414003124200656,1868060,597140,2007-11-04,2016-07-23,2016-07-23,MARCOS JOSE DE SOUZA,***28590878,Piracaia,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,118,-,0,0,-,590000,6667,113,20001,15,11/05/2007,2007,3538600,-,-
1,Allianz Seguros S.A,15414003124200656,1868079,597138,2007-11-04,2016-07-23,2016-07-23,MARCOS JOSE DE SOUZA,***28590878,Igaratá,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,85,-,0,0,-,425000,48025,113,144075,16,11/05/2007,2007,3520202,-,-
2,Allianz Seguros S.A,15414003124200656,1868139,597139,2007-11-04,2016-07-23,2016-07-23,MARCOS JOSE DE SOUZA,***28590878,Igaratá,SP,-,-,-,-,-,-,-,-,-,-,-,Floresta,70,-,0,0,-,350000,3955,113,11865,14,11/05/2007,2007,3520202,-,-
3,Allianz Seguros S.A,15414003124200656,1886479,596987,2007-04-17,2016-07-23,2016-07-23,PASSARELLI AGROPECUÁRIA LTDA,***45552000100,Brasília,DF,-,-,-,-,-,-,-,-,-,-,-,Floresta,11,-,0,0,-,78319,76753,9800049,23026,19,18/05/2007,2007,5300108,-,-
4,Allianz Seguros S.A,15414003124200656,1886485,596988,2007-04-17,2016-07-23,2016-07-23,PASSARELLI AGROPECUÁRIA LTDA,***45552000100,Brasília,DF,-,-,-,-,-,-,-,-,-,-,-,Floresta,117,-,0,0,-,1867385,1381865,7400001,41456,20,18/05/2007,2007,5300108,-,-


In [6]:
df_clean.columns

Index(['NM_RAZAO_SOCIAL', 'CD_PROCESSO_SUSEP', 'NR_PROPOSTA', 'ID_PROPOSTA',
       'DT_PROPOSTA', 'DT_INICIO_VIGENCIA', 'DT_FIM_VIGENCIA', 'NM_SEGURADO',
       'NR_DOCUMENTO_SEGURADO', 'NM_MUNICIPIO_PROPRIEDADE',
       'SG_UF_PROPRIEDADE', 'LATITUDE', 'NR_GRAU_LAT', 'NR_MIN_LAT',
       'NR_SEG_LAT', 'LONGITUDE', 'NR_GRAU_LONG', 'NR_MIN_LONG', 'NR_SEG_LONG',
       'NR_DECIMAL_LATITUDE', 'NR_DECIMAL_LONGITUDE', 'NM_CLASSIF_PRODUTO',
       'NM_CULTURA_GLOBAL', 'NR_AREA_TOTAL', 'NR_ANIMAL',
       'NR_PRODUTIVIDADE_ESTIMADA', 'NR_PRODUTIVIDADE_SEGURADA',
       'NivelDeCobertura', 'VL_LIMITE_GARANTIA', 'VL_PREMIO_LIQUIDO',
       'PE_TAXA', 'VL_SUBVENCAO_FEDERAL', 'NR_APOLICE', 'DT_APOLICE',
       'ANO_APOLICE', 'CD_GEOCMU', 'VALOR_INDENIZAÇÃO',
       'EVENTO_PREPONDERANTE'],
      dtype='object')

In [None]:
def clean_data(df):
    # Lista das colunas numéricas existentes no seu dataframe
    cols_to_convert = [
        'NR_AREA_TOTAL',
        'NR_ANIMAL',
        'NR_PRODUTIVIDADE_ESTIMADA',
        'NR_PRODUTIVIDADE_SEGURADA',
        'NivelDeCobertura',
        'VL_LIMITE_GARANTIA',
        'VL_PREMIO_LIQUIDO',
        'PE_TAXA',
        'VL_SUBVENCAO_FEDERAL',
        'VALOR_INDENIZAÇÃO',
        'NR_DECIMAL_LATITUDE',
        'NR_DECIMAL_LONGITUDE'
    ]

    # Converte apenas as colunas que existem no dataframe
    cols_existing = {col: 'float64' for col in cols_to_convert if col in df.columns}

    df = df.astype(cols_existing)

    return df

df_clean = clean_data



In [11]:
df_clean

<function __main__.clean_data(df)>