<a href="https://colab.research.google.com/github/Luisamfer/Ativ_Est_Desc/blob/main/Estat_desc.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#INFORMAÇÕES DO CADASTRO NACIONAL DA AGRICULTURA FAMILIAR#
#**Definição da população**#
#*População Acessível*: Agricultores Familiares que realizaram o Cadastro Nacional da Agricultura Familiar#
#*Objetivo do estudo*: Caracterizar os agricultores familiares cadastrados, permitindo verificação posterior quanto a relação entre e perfil de agricultores e produção #


In [7]:
# Importando as bibliotecas necessárias para análises
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns
import statistics as st
from datetime import datetime

In [8]:
# Importando o arquivo pelo Google Drive
from google.colab import drive

# Carregando arquivos
drive.mount('/content/drive')

In [None]:
#Carregando o arquivo de MEMBROS da UFPA
df_membros = pd.read_csv("/content/drive/My Drive/Colab Notebooks/MBA_Est_Desc_dados/MEMBROS.csv", sep=';', encoding='utf-8', dtype={
    "CAF":"string",
    "CODIGO_PESSOA":"string",
    "SEXO":"category",
    "ESCOLARIDADE":"category",
    "MAO_DE_OBRA_FAMILIAR":"category"
    })

### Tendo em vista que já conheço o banco de dados e suas variáveis, já identifiquei os formatos necessários na importação. ###

# Verificando se os dados foram importados corretamente (quantidade e formatos)
df_membros.info()


In [None]:
# Convertendo a variável DATA_NASCIMENTO para formato datetime
df_membros["DATA_NASCIMENTO"] = pd.to_datetime(df_membros["DATA_NASCIMENTO"], dayfirst=True, errors='coerce')

# Calculando a idade de cada MEMBRO da UFPA
hoje = datetime.today()
df_membros["IDADE"] = df_membros["DATA_NASCIMENTO"].apply(lambda x: int(hoje.year - x.year - ((hoje.month, hoje.day) < (x.month, x.day))) if pd.notnull(x) else None)

#Visualizando a criação da nova variável
df_membros.head()

#Obtendo resumo estatístico da base importada
df_membros.describe()

In [None]:
#Criando a variável FAIXA ETÁRIA para melhor classificação das idades.
def definir_faixa_etaria(IDADE):
  if IDADE <= 15:
    return "Menor de 15 anos"
  elif IDADE <= 29:
    return "16 a 29 anos"
  elif IDADE <= 39:
    return "30 a 39 anos"
  elif IDADE <= 49:
    return "40 a 49 anos"
  elif IDADE <= 59:
    return "50 a 59 anos"
  elif IDADE <= 69:
    return "60 a 69 anos"
  elif IDADE <= 79:
    return "70 a 79 anos"
  elif IDADE <= 89:
    return "80 a 89 anos"
  elif IDADE > 89:
    return "Mais de 90 anos"

  return pd.NA

df_membros['faixa_etaria'] = df_membros["IDADE"].apply(definir_faixa_etaria)
df_membros.head()

In [None]:
#ORDEM PARA APRESENTAÇÃO DA FAIXA ETÁRIA
ordem_faixa = ["Menor de 15 anos", "16 a 29 anos", "30 a 39 anos", "40 a 49 anos", "50 a 59 anos", "60 a 69 anos", "70 a 79 anos", "80 a 89 anos", "Mais de 90 anos"]

#TABELA DE FREQUENCIA DA VARIÁVEL "FAIXA ETÁRIA"
df_membros["faixa_etaria"] = pd.Categorical(df_membros["faixa_etaria"], categories=ordem_faixa, ordered=True)
frequencia_fx_etaria = df_membros["faixa_etaria"].value_counts().sort_index()
print(frequencia_fx_etaria)

In [None]:
#TABELA DE FREQUENCIA CRUZADA DA VARIÁVEL FAIXA ETÁRIA E INFORMAÇÃO DE MÃO DE OBRA FAMILIAR
tabela_cruzada = pd.crosstab(df_membros["faixa_etaria"], df_membros["MAO_DE_OBRA_FAMILIAR"], margins=True, margins_name="Total").sort_index()
print(tabela_cruzada)

In [None]:
# CRIANDO HISTOGRAMA PARA AS IDADES DOS AGRICULTORES FAMILIARES
idades = df_membros["IDADE"]
plt.figure(figsize=(8, 5))  # Ajusta o tamanho do gráfico
plt.hist(idades, bins=20, color="skyblue", edgecolor="black", alpha=0.7)  # Personalização

# Ajustando o eixo Y para escala de 100.000
plt.gca().get_yaxis().set_major_formatter(ticker.FuncFormatter(lambda x, _: f'{int(x/100000)}x100k'))

# Adicionando rótulos e título
plt.xlabel("Idade", fontsize=12)
plt.ylabel("Frequência (em centenas de milhares)", fontsize=12)
plt.title("Distribuição de Idades", fontsize=14)

# Adicionando uma grade
plt.grid(axis="y", linestyle="--", alpha=0.7)

# Exibindo o gráfico
plt.show()

In [None]:
#CRIANDO UM BOXPLOT PARA VERIFICAR A DISTRIBUIÇÃO DOS DADOS E OUTLIERS
plt.boxplot(idades, vert=False)
plt.title("Boxplot da Distribuição das idades")
plt.xlabel("Idade")
plt.show()

In [None]:
# Carregando arquivo de RENDA
drive.mount('/content/drive')

df_renda = pd.read_csv("/content/drive/My Drive/Colab Notebooks/MBA_Est_Desc_dados/RENDA.csv", sep=';', encoding='utf-8', dtype={
    "CAF":"string",
    "TIPO_RENDA":"string",
    "CATEGORIA_PRODUTO":"string",
    "PRODUTOL":"string",
    "VALOR_PRODUTO":"float"
}, decimal=",")

df_renda.info()



In [None]:
df_renda.describe()

In [None]:
# Carregando arquivo de ÁREA
#drive.mount('/content/drive')

#df_area = pd.read_csv("/content/drive/My Drive/Colab Notebooks/MBA_Est_Desc_dados/AREA.csv", sep=';', encoding='utf-8', dtype={
#    "CAF":"string",
#   "UF":"string",
#   "MUNICIPIO":"string",
#   "IMOVEL_PRINCIPAL":"category",
#   "USO_TERRA":"category"
#})

#df_area.info()
#df_area.describe()
