In [None]:
def criar_mapa_formulario_modelo(valores_formulario, valores_modelo):
    """
    Cria um dicionário de mapeamento entre os valores do formulário e os valores do modelo.

    Exemplo:
    'Não' -> 0
    'Sim' -> 1
    """
    mapa = {}
    
    # Verifica se o número de valores do formulário é igual ao número de valores no modelo
    if len(valores_formulario) != len(valores_modelo):
        raise ValueError("O número de valores do formulário deve ser igual ao número de valores no modelo.")

    # Cria o mapeamento entre os valores do formulário e do modelo
    for val_form, val_modelo in zip(valores_formulario, valores_modelo):
        mapa[val_form] = val_modelo

    return mapa

In [None]:
def processar_variavel(nome_variavel, valor_input, mapa, valores_modelo):
    # Aplica o mapeamento do nome amigável para o nome usado no modelo
    valor_mapeado = mapa.get(valor_input, valor_input)

    # Cria dicionário de dummies no formato 'VARIAVEL_VALOR': [0 ou 1]
    dummies = {
        f'{nome_variavel}_{valor}': [1 if valor_mapeado == valor else 0]
        for valor in valores_modelo
    }

    return valor_mapeado, dummies

In [29]:
def processar_multiplas_variaveis(variaveis_info):
    """
    Processa várias variáveis e gera o input_dict com as dummies.
    
    Args:
        variaveis_info (list of dicts): Lista de dicionários com as informações necessárias para processar cada variável.
        
    Returns:
        dict: Dicionário com todas as dummies mapeadas e valores convertidos.
    """
    input_dict = {}

    for variavel in variaveis_info:
        nome_variavel = variavel['nome_variavel']
        valor_input = variavel['valor_input']
        mapa = variavel['mapa']
        valores_modelo = variavel['valores_modelo']
        
        # Processa a variável e cria as dummies
        _, dummies = processar_variavel(
            nome_variavel=nome_variavel,
            valor_input=valor_input,
            mapa=mapa,
            valores_modelo=valores_modelo
        )
        
        # Adiciona as dummies ao input_dict
        input_dict.update(dummies)
    
    return input_dict


In [1]:
# Exemplo
genero = 'Feminino'
pgto_anuidade_2022 = 'Sim'
departamento = 'LIMA'
deficiencia = 'Não'
turno = 'Manhã'
curso_em_risco_original = 0.4
num_disciplinas_original = 0.5
modalidade_ensino = 'Presencial'
matricula = 'Novo'

In [None]:
# Variáveis que já vieram dummy desde o início e que não tiveram novas colunas feitas
# São essas: PGTO_ANUIDADE_2022 E DEFICIENCIA
ja_dummy_modelo = [0, 1]
ja_dummy_form = ['Não', 'Sim']
ja_dummy_map = criar_mapa_formulario_modelo(ja_dummy_form, ja_dummy_modelo)

genero_modelo = ['F', 'M', 'I']
genero_form = ['Feminino', 'Masculino', 'Indeterminado']
genero_map = criar_mapa_formulario_modelo(genero_form,genero_modelo)

turno_modelo = ['Manha', 'Tarde', 'Noite', 'Misto']
turno_form = ['Manhã', 'Tarde', 'Noite', 'Misto']
turno_map = criar_mapa_formulario_modelo(turno_form,turno_modelo)

departamentos_modelo = ['SAN_MARTIN',
                            'LA_LIBERTAD',
                            'MADRE_DE_DIOS',
                            'LIMA',
                            'CALLAO',
                            'AMAZONAS',
                            'ICA',
                            'AREQUIPA',
                            'JUNIN',
                            'HUANUCO',
                            'AYACUCHO',
                            'ANCASH',
                            'PASCO',
                            'CUSCO',
                            'LAMBAYEQUE',
                            'HUANCAVELICA',
                            'PIURA',
                            'CAJAMARCA',
                            'APURIMAC',
                            'PUNO',
                            'UCAYALI',
                            'LORETO',
                            'TACNA',
                            'MOQUEGUA',
                            'TUMBES']
    
departamento_form = ['SAN MARTIN',
                    'LA LIBERTAD',
                    'MADRE DE DIOS',
                    'LIMA',
                    'CALLAO',
                    'AMAZONAS',
                    'ICA',
                    'AREQUIPA',
                    'JUNIN',
                    'HUANUCO',
                    'AYACUCHO',
                    'ANCASH',
                    'PASCO',
                    'CUSCO',
                    'LAMBAYEQUE',
                    'HUANCAVELICA',
                    'PIURA',
                    'CAJAMARCA',
                    'APURIMAC',
                    'PUNO',
                    'UCAYALI',
                    'LORETO',
                    'TACNA',
                    'MOQUEGUA',
                    'TUMBES']

departamento_map = criar_mapa_formulario_modelo(departamento_form, departamentos_modelo)

modalidade_ensino_modelo = ['Presencial', 'Virtual', 'Remoto']
modalidade_ensino_map = criar_mapa_formulario_modelo(modalidade_ensino_modelo, modalidade_ensino_modelo)

matricula_modelo = ['Novo', 'Reincorporado', 'Reinscrito']
matricula_map = criar_mapa_formulario_modelo(matricula_modelo, matricula_modelo)

# CLASSIFICACAO:
classificacao_modelo = [
    'Graduacao',
    'Graduacao_Semipresencial_50_50',
    'Graduacao_Semipresencial_80_20',
    'Curso_para_Trabalhadores',
    'Graduacao_Virtual'
]

classificacao_map = {
    'Graduação':'Graduacao',
    'Graduação Semipresencial(50-50)':'Graduacao_Semipresencial_50_50',
    'Graduação Semipresencial (80-20)':'Graduacao_Semipresencial_80_20',
    'Curso para Trabalhadores':'Curso_para_Trabalhadores',
    'Graduação Virtual':'Graduacao_Virtual'
    }

# CAMPUS
campus_modelo = [
    'Lima_Centro',
    'Lima_Norte',
    'Lima_SJL',
    'Lima_Este',
    'Lima_Sur',
    'Arequipa',
    'Chiclayo',
    'Piura',
    'Chimbote',
    'Huancayo',
    'Ica',
    'Beca_18',
    'Trujillo',
    'Virtual']

campus_map = {
    'Lima Centro': 'Lima_Centro',
    'Lima Norte': 'Lima_Norte',
    'Lima SJL': 'Lima_SJL',
    'Lima Este': 'Lima_Este',
    'Lima Sur': 'Lima_Sur',
    'Arequipa': 'Arequipa',
    'Chiclayo': 'Chiclayo',
    'Piura': 'Piura',
    'Chimbote': 'Chimbote',
    'Huancayo': 'Huancayo',
    'Ica': 'Ica',
    'Beca 18': 'Beca_18',
    'Trujillo': 'Trujillo',
    'Virtual': 'Virtual'
}


# FACULDADE
faculdade_modelo = ['Engenharia_Sistemas_Eletrica',
                    'Direito_Ciencias_Politicas',
                    'Administracao_Negocios',
                    'Ciencias_Comunicacao',
                    'Engenharia_Industrial_Mecanica',
                    'Humanas_Ciencias_Sociais',
                    'Contabilidade',
                    'Saude']
faculdade_form = ['Engenharia Sistemas Eletrica',
                'Direito Ciencias Politicas',
                'Administracao Negocios',
                'Ciencias Comunicacao',
                'Engenharia Industrial Mecanica',
                'Humanas Ciencias Sociais',
                'Contabilidade',
                'Saude']
faculdade_map = criar_mapa_formulario_modelo(faculdade_modelo, faculdade_form)


# FAIXA_ETARIA
faixa_etaria_modelo = ['Menor_que_18', 'De_19_a_20', 'De_21_a_23', 'De_24_a_29', 'Maior_que_30']
faixa_etaria_form = ['Menor que 18', '19-20', '21-23', '24-29', 'Maior que 30']
faixa_etaria_map= criar_mapa_formulario_modelo(faixa_etaria_modelo, faixa_etaria_form)

# BOLSAS_DESCONTO
bolsas_desconto_modelo = ['Sem_Beneficio',
                        'Convenios',
                        'Bolsa_Socioecon_Especial',
                        'Bolsa_Socioeconomica',
                        'Bolsa_MadreDeDios',
                        'Bolsa_Alto_Potencial',
                        'Bolsa_Talento']
bolsas_desconto_form = ['Sem Benefício',
                        'Convenios',
                        'Bolsa Socioeconômica Especial',
                        'Bolsa Socioeconomica',
                        'Bolsa Madre De Dios',
                        'Bolsa Alto Potencial',
                        'Bolsa Talento']

bolsas_desconto_map = criar_mapa_formulario_modelo(bolsas_desconto_modelo, bolsas_desconto_form)

In [None]:
# Informações das variáveis
variaveis_dummy_info = [
    {
        'nome_variavel': 'GENERO',
        'valor_input': genero,
        'mapa': genero_map,
        'valores_modelo': genero_modelo
    }
    {
        'nome_variavel': 'DEPARTAMENTO',
        'valor_input': departamento,
        'mapa': departamento_map,
        'valores_modelo': departamentos_modelo
    },
    {
        'nome_variavel': 'MODALIDADE_ENSINO',
        'valor_input': modalidade_ensino,
        'mapa': modalidade_ensino_map,
        'valores_modelo': modalidade_ensino_modelo
    },
    {
        'nome_variavel': 'TURNO',
        'valor_input': turno,
        'mapa': turno_map,
        'valores_modelo': turno_modelo
    },
    {
        'nome_variavel': 'MATRICULA',
        'valor_input': matricula,
        'mapa': matricula_map,
        'valores_modelo': matricula_modelo
    },
    {
        'nome_variavel': 'CLASSIFICACAO',
        'valor_input': classificacao,
        'mapa': classificacao_map,
        'valores_modelo': classificacao_modelo
    },
    {
        'nome_variavel': 'CAMPUS',
        'valor_input': campus,
        'mapa': campus_map,
        'valores_modelo': campus_modelo
    },
    {
        'nome_variavel': 'FACULDADE',
        'valor_input': faculdade,
        'mapa': faculdade_map,
        'valores_modelo': faculdade_modelo
    },
    {
        'nome_variavel': 'FAIXA_ETARIA',
        'valor_input': faixa_etaria,
        'mapa': faixa_etaria_map,
        'valores_modelo': faixa_etaria_modelo
    },
    {
        'nome_variavel': 'BOLSAS_DESCONTO',
        'valor_input': bolsas_desconto,
        'mapa': bolsas_desconto_map,
        'valores_modelo': bolsas_desconto_modelo
    }
    ]

In [None]:
input_dict = processar_multiplas_variaveis(variaveis_dummy_info)

In [None]:
# GENERO
genero_m = 1 if genero == 'Masculino' else 0
genero_u = 1 if genero == 'Indeterminado' else 0

# DEFICIENCIA
deficiencia = 1 if deficiencia == 'Sim' else 0

# ANUIDADE
pgto_anuidade_2022 = 1 if pgto_anuidade_2022 == 'Sim' else 0



input_dict.update({'GENERO_M': [genero_m],
                   'GENERO_U': [genero_u],
                   'PGTO_ANUIDADE_2022' : [pgto_anuidade_2022],
                   'DEFICIENCIA': [deficiencia]})

In [None]:
# Normalização para o intervalo [0. , 0.4, 0.2, 0.6, 1. , 0.8]
# Vamos mapear os valores originais para os normalizados.
# Assumindo uma correspondência linear aproximada, mas a ordem dos normalizados não é estritamente crescente.
# Uma maneira mais robusta seria ter um dicionário de mapeamento se a relação não for linear.
mapeamento_curso_risco = {
    0: 0.0,
    1: 0.4,
    2: 0.2,
    3: 0.6,
    4: 1.0,
    5: 0.8
}
curso_em_risco = mapeamento_curso_risco[curso_em_risco_original]

# Adiciona depois:
input_dict = input_dict.update(curso_em_risco)

# Normalização para o intervalo [0.        , 0.5       , 0.16666667, 0.33333333, 0.66666667, 0.83333333, 1.        ]
# Novamente, assumindo uma correspondência por índice, já que a relação não é estritamente linear.
# Uma maneira mais robusta seria ter um dicionário de mapeamento.

mapeamento_num_disciplinas = {
    0: 0.0,
    1: 0.5,
    2: 0.16666667,
    3: 0.33333333,
    4: 0.66666667,
    5: 0.83333333,
    6: 1.0
}
numero_disciplinas_matriculadas = mapeamento_num_disciplinas[num_disciplinas_original]

# Agora, 'curso_em_risco_normalizado' e 'num_disciplinas_normalizado' contêm os valores
# normalizados que você pode usar para alimentar seu modelo de machine learning
# dentro do DataFrame 'df'. Por exemplo:
# df['CURSO EM RISCO'] = [curso_em_risco_normalizado]
# df['NUMERO DE DISCIPLINAS MATRICULADAS'] = [num_disciplinas_normalizado]

input_dict = input_dict.update(numero_disciplinas_matriculadas)

In [31]:
input_dict

{'DEPARTAMENTO_SAN_MARTIN': [0],
 'DEPARTAMENTO_LA_LIBERTAD': [0],
 'DEPARTAMENTO_MADRE_DE_DIOS': [0],
 'DEPARTAMENTO_LIMA': [1],
 'DEPARTAMENTO_CALLAO': [0],
 'DEPARTAMENTO_AMAZONAS': [0],
 'DEPARTAMENTO_ICA': [0],
 'DEPARTAMENTO_AREQUIPA': [0],
 'DEPARTAMENTO_JUNIN': [0],
 'DEPARTAMENTO_HUANUCO': [0],
 'DEPARTAMENTO_AYACUCHO': [0],
 'DEPARTAMENTO_ANCASH': [0],
 'DEPARTAMENTO_PASCO': [0],
 'DEPARTAMENTO_CUSCO': [0],
 'DEPARTAMENTO_LAMBAYEQUE': [0],
 'DEPARTAMENTO_HUANCAVELICA': [0],
 'DEPARTAMENTO_PIURA': [0],
 'DEPARTAMENTO_CAJAMARCA': [0],
 'DEPARTAMENTO_APURIMAC': [0],
 'DEPARTAMENTO_PUNO': [0],
 'DEPARTAMENTO_UCAYALI': [0],
 'DEPARTAMENTO_LORETO': [0],
 'DEPARTAMENTO_TACNA': [0],
 'DEPARTAMENTO_MOQUEGUA': [0],
 'DEPARTAMENTO_TUMBES': [0],
 'DEFICIENCIA_0': [1],
 'DEFICIENCIA_1': [0],
 'TURNO_Manha': [1],
 'TURNO_Tarde': [0],
 'TURNO_Noite': [0],
 'TURNO_Misto': [0]}