<a href="https://colab.research.google.com/github/marcelo7bastos/mba_mcdia_est_desc_analise_pronaf/blob/main/mba_mcdia_est_desc_analise_pronaf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Projeto Final - Estat√≠stica Descritiva**


## **O acesso ao cr√©dito do PRONAF resultou em melhoria nas condi√ß√µes econ√¥micas dos agricultores familiares ao longo de 10 anos?**

# Prepara√ß√£o do Ambiente e Dados

In [1]:
# Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
from google.colab import drive
drive.mount('/content/drive')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
# Define o caminho da pasta onde os arquivos ser√£o armazenados/recuperados
drive_folder = '/content/drive/MyDrive/ENAP_MBA_MCDIA/005_estatistica/trabalho_final/data'

# Par√¢metros da an√°lise
MODO_ANALISE = "amostra"  # Op√ß√µes: "amostra", "nova_amostra", "populacao"
FRAC_AMOSTRA = 0.1  # 10% da base para amostragem

# Estrutura de decis√£o para carregar os dados
if MODO_ANALISE == "amostra":
    print("üîπ Carregando apenas uma amostra do dataset...")
    # Caminho para o arquivo de amostra j√° salvo no Google Drive
    arquivo_parquet = f"{drive_folder}/pronaf_amostra.parquet"
    df = pd.read_parquet(arquivo_parquet)

elif MODO_ANALISE == "populacao":
    print("üîπ Carregando a popula√ß√£o completa (isso pode demorar)...")
    arquivo_parquet = f"{drive_folder}/pronaf.parquet"
    # Carrega o arquivo
    df = pd.read_parquet(arquivo_parquet)

else:
    raise ValueError("Modo de an√°lise inv√°lido! Escolha entre: 'amostra', 'nova_amostra' ou 'populacao'.")

# Exibir informa√ß√µes do dataset carregado
print(f"N√∫mero total de registros carregados: {df.shape[0]:,}".replace(",", "."))



üîπ Carregando apenas uma amostra do dataset...
N√∫mero total de registros carregados: 2.574.808


In [4]:
# Dicion√°rio com as convers√µes recomendadas para cada vari√°vel
conversoes = {
    'REF_BACEN': 'str',  # C√≥digo identificador, manter como string
    'NU_ORDEM': 'str',  # N√∫mero de ordem, mas √© um identificador tamb√©m, manter string
    #'CNPJ_IF': 'str',  # Identificador de institui√ß√£o financeira
    'DT_EMISSAO': 'datetime64[ns]',  # Data de emiss√£o do contrato
    #'DT_VENCIMENTO': 'datetime64[ns]',  # Data de vencimento do contrato
    'CD_INST_CREDITO': 'str',  # C√≥digo da institui√ß√£o financeira, manter string
    #'CD_CATEG_EMITENTE': 'str',  # Categoria do emitente
    'CD_FONTE_RECURSO': 'str',  # C√≥digo da fonte de recurso, manter string
    #'CNPJ_AGENTE_INVEST': 'str',  # Identificador do agente investidor
    'CD_ESTADO': 'str',  # C√≥digo de estado (UF), manter string
    #'CD_REF_BACEN_INVESTIMENTO': 'str',  # C√≥digo de refer√™ncia Bacen para investimento
    #'CD_TIPO_SEGURO': 'str',  # C√≥digo do tipo de seguro
    #'CD_EMPREENDIMENTO': 'str',  # C√≥digo do empreendimento
    'CD_PROGRAMA': 'str',  # C√≥digo do programa de cr√©dito
    #'CD_TIPO_ENCARG_FINANC': 'str',  # Tipo de encargo financeiro
    #'CD_TIPO_IRRIGACAO': 'str',  # Tipo de irriga√ß√£o utilizada
    #'CD_TIPO_AGRICULTURA': 'str',  # Tipo de agricultura praticada
    'CD_FASE_CICLO_PRODUCAO': 'str',  # Fase do ciclo de produ√ß√£o, manter string
    #'CD_TIPO_CULTIVO': 'str',  # Tipo de cultivo agr√≠cola
    #'CD_TIPO_INTGR_CONSOR': 'str',  # Tipo de integra√ß√£o consorciada
    #'CD_TIPO_GRAO_SEMENTE': 'str',  # Tipo de gr√£o/semente plantado
    #'VL_ALIQ_PROAGRO': 'float64',  # Percentual de al√≠quota Proagro
    'VL_JUROS': 'float64',  # Taxa de juros, valor decimal
    #'VL_PRESTACAO_INVESTIMENTO': 'float64',  # Valor da presta√ß√£o de investimento
    #'VL_PREV_PROD': 'float64',  # Valor previsto da produ√ß√£o
    #'VL_QUANTIDADE': 'float64',  # Quantidade financiada
    #'VL_RECEITA_BRUTA_ESPERADA': 'float64',  # Receita bruta esperada
    'VL_PARC_CREDITO': 'float64',  # Valor da parcela de cr√©dito
    #'VL_REC_PROPRIO': 'float64',  # Receita pr√≥pria do produtor
    #'VL_PERC_RISCO_STN': 'float64',  # Percentual de risco do STN
    #'VL_PERC_RISCO_FUNDO_CONST': 'float64',  # Percentual de risco do fundo
    #'VL_REC_PROPRIO_SRV': 'float64',  # Receita pr√≥pria de servi√ßo
    #'VL_AREA_FINANC': 'float64',  # √Årea financiada em hectares
    'CD_SUBPROGRAMA': 'str',  # C√≥digo do subprograma de financiamento
    #'VL_PRODUTIV_OBTIDA': 'float64',  # Produtividade obtida na lavoura
    #'DT_FIM_COLHEITA': 'datetime64[ns]',  # Data fim da colheita
    #'DT_FIM_PLANTIO': 'datetime64[ns]',  # Data fim do plantio
    #'DT_INIC_COLHEITA': 'datetime64[ns]',  # Data in√≠cio da colheita
    #'DT_INIC_PLANTIO': 'datetime64[ns]',  # Data in√≠cio do plantio
    #'VL_JUROS_ENC_FINAN_POSFIX': 'float64',  # Juros p√≥s-fixados
    #'VL_PERC_CUSTO_EFET_TOTAL': 'float64',  # Percentual de custo efetivo total
    #'CD_CONTRATO_STN': 'str',  # C√≥digo do contrato STN
    #'CD_CNPJ_CADASTRANTE': 'str',  # CNPJ do cadastrante
    'VL_AREA_INFORMADA': 'float64',  # √Årea informada em hectares
    #'CD_CICLO_CULTIVAR': 'str',  # Ciclo da cultivar (curto, m√©dio, longo)
    #'CD_TIPO_SOLO': 'str',  # Tipo de solo utilizado
    #'PC_BONUS_CAR': 'float64',  # Percentual de b√¥nus CAR
    #'MES': 'Int64',  # N√∫mero do m√™s
    #'SEMESTRE': 'Int64',  # N√∫mero do semestre
    'ANO': 'Int64',  # Ano do financiamento
    #'SAFRA': 'str',  # Safra agr√≠cola
    #'PROGRAMA_DESCRICAO': 'str',  # Descri√ß√£o do programa
    #'CD_IBGE_MUNICIPIO': 'str',  # C√≥digo IBGE do munic√≠pio
    'CD_CPF_CNPJ': 'str',  # CPF/CNPJ do tomador de cr√©dito
    'SEXO_BIOLOGICO': 'category'  # Masculino ou Feminino
    #'CD_DAP': 'str', #'C√≥digo do DAP'
}

# Filtrar apenas as colunas de interesse
df = df[list(conversoes.keys())]

# Aplicar convers√£o ao DataFrame
df = df.astype(conversoes)

# Exibir tipos para conferir a convers√£o
print(df.dtypes)

REF_BACEN                         object
NU_ORDEM                          object
DT_EMISSAO                datetime64[ns]
CD_INST_CREDITO                   object
CD_FONTE_RECURSO                  object
CD_ESTADO                         object
CD_PROGRAMA                       object
CD_FASE_CICLO_PRODUCAO            object
VL_JUROS                         float64
VL_PARC_CREDITO                  float64
CD_SUBPROGRAMA                    object
VL_AREA_INFORMADA                float64
ANO                                Int64
CD_CPF_CNPJ                       object
SEXO_BIOLOGICO                  category
dtype: object
