In [21]:
### O programa tem como objetivo criar uma amostra representativa a partir de uma planilha que contenha o universo de casos. 

In [None]:
# Importa as bibliotecas necessárias

# Pandas é uma biblioteca popular para manipulação de planilhas.
import pandas as pd

# Random é uma biblioteca que permite gerar números aleatórios.
import random

# Openpyxl é uma biblioteca para trabalhar com arquivos do Excel.
from openpyxl import Workbook, load_workbook

# Math é uma biblioteca que fornece funções matemáticas.
import math

# Scipy.stats é uma biblioteca que oferece funcionalidades estatísticas.
from scipy import stats

In [35]:
# Lê o arquivo do Excel em um DataFrame do pandas
# DataFrame é uma estrutura de dados utilizada para podermos trabalhar com planilhas do excel no python
df = pd.read_excel('trfrj1Amostra.xlsx')

# Para utilizar esse código em outros casos, lembre-se de alterar a identificação da planilha a ser lida

In [36]:
# Define o nível de confiança e a margem de erro desejados
confianca = 0.95
margem_erro = 0.05

# Determina o valor crítico da distribuição normal para o nível de confiança desejado
# stats.norm.ppf retorna o valor crítico associado a uma distribuição normal.
z = abs(stats.norm.ppf((1 - confianca) / 2))

# Estima a proporção da característica de interesse na população (pode ser 0,5 para maximizar o tamanho da amostra)
p = 0.5

# Obtém o tamanho da população com base na planilha fornecida
tamanho_populacao = len(df) - 1

# Calcula o tamanho da amostra necessário com base na fórmula do tamanho da amostra
tamanho_amostra = math.ceil((tamanho_populacao * z**2 * p * (1-p)) / ((tamanho_populacao - 1) * margem_erro**2 + z**2 * p * (1-p)))

In [37]:
# Seleciona uma amostra aleatória de linhas
amostra = df.sample(n=tamanho_amostra, random_state=1)

# Salva a amostra como um arquivo do Excel
amostra.to_excel('trfrj1Amostra-Selecionados.xlsx', sheet_name='Amostra', index=False)

In [38]:
# Atualiza o arquivo original para indicar quais linhas foram selecionadas
wb_orig = load_workbook(filename="trfrj1Amostra.xlsx")
ws_orig = wb_orig.active

# Cria uma nova coluna para indicar se a linha foi selecionada ou não
ws_orig.insert_cols(len(df.columns) + 1)
ws_orig.cell(row=1, column=len(df.columns) + 1, value='Selecionado')

# Preenche a nova coluna com os valores 'Sim' ou 'Não' para cada linha
for row_num, row_data in df.iterrows():
    if row_num + 2 in amostra.index:
        ws_orig.cell(row=row_num + 2, column=len(df.columns) + 1, value='Sim')
    else:
        ws_orig.cell(row=row_num + 2, column=len(df.columns) + 1, value='Não')

# Salva o arquivo original atualizado
wb_orig.save('trfrj1Amostra_atualizado.xlsx')