In [13]:
import pandas as pd
import numpy as np

# Função para criar variáveis binárias aleatórias com tendência
def create_binary_variable(size, prob=0.5, tendency_for_male=False):
    if tendency_for_male:
        return np.random.choice([0, 1], size=size, p=[0.45, 0.55])
    else:
        return np.random.choice([0, 1], size=size, p=[1-prob, prob])

# Configurar o número de amostras
num_samples = 1005

# Criar o dataset com tendência para o gênero masculino
data = pd.DataFrame({
    'Idade_Maior_Que_16': create_binary_variable(num_samples),
    'Genero_Feminino': create_binary_variable(num_samples, tendency_for_male=True),
    'Etnia_Minorizada': create_binary_variable(num_samples),
    'Zona_Rural': create_binary_variable(num_samples),
    'Renda_Baixa': create_binary_variable(num_samples),
    'Pais_Desempregados': create_binary_variable(num_samples),
    'Pais_Sem_Educacao_Superior': create_binary_variable(num_samples),
    'Recebe_Auxilio_Social': create_binary_variable(num_samples),
    'Baixo_Desempenho_Escolar': create_binary_variable(num_samples),
    'Historico_Reprovacoes': create_binary_variable(num_samples),
    'Alta_Frequencia_Faltas': create_binary_variable(num_samples),
    'Participa_Atividades_Extracurriculares': create_binary_variable(num_samples),
    'Problemas_Comportamentais': create_binary_variable(num_samples),
    'Baixa_Motivacao': create_binary_variable(num_samples),
    'Problemas_Saude_Mental': create_binary_variable(num_samples),
    'Escola_Baixa_Qualidade': create_binary_variable(num_samples),
    'Distancia_Longa_Escola': create_binary_variable(num_samples),
    'Turmas_Superlotadas': create_binary_variable(num_samples),
    'Sem_Suporte_Psicologico': create_binary_variable(num_samples),
    'Familia_Grande': create_binary_variable(num_samples),
    'Ausencia_Parental': create_binary_variable(num_samples),
    'Baixas_Expectativas_Familia': create_binary_variable(num_samples),
    'Evasao': create_binary_variable(num_samples, prob=0.3)  # Supõe que 30% dos estudantes evadem
})

# Salvar o dataset em um arquivo CSV
data.to_csv('evasao_escolar_dataset.csv', index=False)

print("Dataset criado e salvo como 'evasao_escolar_dataset.csv'.")

# Criar dicionário do dataset
dataset_dict = {
    'Idade_Maior_Que_16': 'Estudante tem idade maior que 16 anos (0: Não, 1: Sim)',
    'Genero_Feminino': 'Estudante é do gênero feminino (0: Não, 1: Sim)',
    'Etnia_Minorizada': 'Estudante pertence a uma etnia minorizada (0: Não, 1: Sim)',
    'Zona_Rural': 'Estudante reside em zona rural (0: Não, 1: Sim)',
    'Renda_Baixa': 'Família do estudante tem baixa renda (0: Não, 1: Sim)',
    'Pais_Desempregados': 'Pais do estudante estão desempregados (0: Não, 1: Sim)',
    'Pais_Sem_Educacao_Superior': 'Pais do estudante não possuem educação superior (0: Não, 1: Sim)',
    'Recebe_Auxilio_Social': 'Estudante recebe auxílio social (0: Não, 1: Sim)',
    'Baixo_Desempenho_Escolar': 'Estudante tem baixo desempenho escolar (0: Não, 1: Sim)',
    'Historico_Reprovacoes': 'Estudante tem histórico de reprovações (0: Não, 1: Sim)',
    'Alta_Frequencia_Faltas': 'Estudante tem alta frequência de faltas (0: Não, 1: Sim)',
    'Participa_Atividades_Extracurriculares': 'Estudante participa de atividades extracurriculares (0: Não, 1: Sim)',
    'Problemas_Comportamentais': 'Estudante tem problemas comportamentais (0: Não, 1: Sim)',
    'Baixa_Motivacao': 'Estudante tem baixa motivação (0: Não, 1: Sim)',
    'Problemas_Saude_Mental': 'Estudante tem problemas de saúde mental (0: Não, 1: Sim)',
    'Escola_Baixa_Qualidade': 'Escola do estudante é de baixa qualidade (0: Não, 1: Sim)',
    'Distancia_Longa_Escola': 'Estudante reside longe da escola (0: Não, 1: Sim)',
    'Turmas_Superlotadas': 'Estudante estuda em turmas superlotadas (0: Não, 1: Sim)',
    'Sem_Suporte_Psicologico': 'Estudante não tem suporte psicológico (0: Não, 1: Sim)',
    'Familia_Grande': 'Estudante tem uma família grande (0: Não, 1: Sim)',
    'Ausencia_Parental': 'Estudante sofre de ausência parental (0: Não, 1: Sim)',
    'Baixas_Expectativas_Familia': 'Família do estudante tem baixas expectativas educacionais (0: Não, 1: Sim)',
    'Evasao': 'Estudante evadiu (0: Não, 1: Sim)'
}

print("\nDicionário do Dataset:")
for key, value in dataset_dict.items():
    print(f"{key}: {value}")


Dataset criado e salvo como 'evasao_escolar_dataset.csv'.

Dicionário do Dataset:
Idade_Maior_Que_16: Estudante tem idade maior que 16 anos (0: Não, 1: Sim)
Genero_Feminino: Estudante é do gênero feminino (0: Não, 1: Sim)
Etnia_Minorizada: Estudante pertence a uma etnia minorizada (0: Não, 1: Sim)
Zona_Rural: Estudante reside em zona rural (0: Não, 1: Sim)
Renda_Baixa: Família do estudante tem baixa renda (0: Não, 1: Sim)
Pais_Desempregados: Pais do estudante estão desempregados (0: Não, 1: Sim)
Pais_Sem_Educacao_Superior: Pais do estudante não possuem educação superior (0: Não, 1: Sim)
Recebe_Auxilio_Social: Estudante recebe auxílio social (0: Não, 1: Sim)
Baixo_Desempenho_Escolar: Estudante tem baixo desempenho escolar (0: Não, 1: Sim)
Historico_Reprovacoes: Estudante tem histórico de reprovações (0: Não, 1: Sim)
Alta_Frequencia_Faltas: Estudante tem alta frequência de faltas (0: Não, 1: Sim)
Participa_Atividades_Extracurriculares: Estudante participa de atividades extracurriculares 