In [32]:
import pandas as pd
import numpy as np

def create_binary_variable(size, prob=0.1):
    """
    Cria uma variável binária aleatória.

    Parameters:
    - size (int): O número de amostras a serem geradas.
    - prob (float): A probabilidade de obter 1 (caso contrário, 0).

    Returns:
    - np.ndarray: Um array de variáveis binárias.
    """
    return np.random.choice([0, 1], size=size, p=[1 - prob, prob])

# Configurar o número de amostras
num_samples = 30001

# Criar o dataset com 5% de tendência para o gênero feminino
data = pd.DataFrame({
    'Idade_Maior_Que_16': create_binary_variable(num_samples),
    'Genero_Feminino': create_binary_variable(num_samples, prob=0.55),  # 55% de chance de 1 para feminino
    'Etnia_Minorizada': create_binary_variable(num_samples),
    'Zona_Rural': create_binary_variable(num_samples),
    'Renda_Baixa': create_binary_variable(num_samples),
    'Baixo_Desempenho_Escolar': create_binary_variable(num_samples),
    'Participa_Atividades_Extracurriculares': create_binary_variable(num_samples),
    'Distancia_Longa_Escola': create_binary_variable(num_samples),
})

# Ajustar a variável de evasão para ter exatamente % de evadidos
data['Evasao'] = np.zeros(num_samples, dtype=int)
num_evasao = int(num_samples * 0.15)  # 15% de evasão
evadidos_indices = np.random.choice(data.index, size=num_evasao, replace=False)
data.loc[evadidos_indices, 'Evasao'] = 1

# Salvar o dataset em um arquivo CSV
data.to_csv('evasao_escolar_dataset.csv', index=False)

print("Dataset criado e salvo como 'evasao_escolar_dataset.csv'.")

# Criar dicionário do dataset
dataset_dict = {
    'Idade_Maior_Que_16': 'Estudante tem idade maior que 16 anos (0: Não, 1: Sim)',
    'Genero_Feminino': 'Estudante é do gênero feminino (0: Não, 1: Sim)',
    'Etnia_Minorizada': 'Estudante pertence a uma etnia minorizada (0: Não, 1: Sim)',
    'Zona_Rural': 'Estudante reside em zona rural (0: Não, 1: Sim)',
    'Renda_Baixa': 'Família do estudante tem baixa renda (0: Não, 1: Sim)',
    'Baixo_Desempenho_Escolar': 'Estudante tem baixo desempenho escolar (0: Não, 1: Sim)',
    'Participa_Atividades_Extracurriculares': 'Estudante participa de atividades extracurriculares (0: Não, 1: Sim)',
    'Distancia_Longa_Escola': 'Estudante reside longe da escola (0: Não, 1: Sim)',
    'Evasao': 'Estudante evadiu (0: Não, 1: Sim)'
}

print("\nDicionário do Dataset:")
for key, value in dataset_dict.items():
    print(f"{key}: {value}")


Dataset criado e salvo como 'evasao_escolar_dataset.csv'.

Dicionário do Dataset:
Idade_Maior_Que_16: Estudante tem idade maior que 16 anos (0: Não, 1: Sim)
Genero_Feminino: Estudante é do gênero feminino (0: Não, 1: Sim)
Etnia_Minorizada: Estudante pertence a uma etnia minorizada (0: Não, 1: Sim)
Zona_Rural: Estudante reside em zona rural (0: Não, 1: Sim)
Renda_Baixa: Família do estudante tem baixa renda (0: Não, 1: Sim)
Baixo_Desempenho_Escolar: Estudante tem baixo desempenho escolar (0: Não, 1: Sim)
Participa_Atividades_Extracurriculares: Estudante participa de atividades extracurriculares (0: Não, 1: Sim)
Distancia_Longa_Escola: Estudante reside longe da escola (0: Não, 1: Sim)
Evasao: Estudante evadiu (0: Não, 1: Sim)
