In [70]:
import pandas as pd 
import numpy as np 
import math

# Criando e testando funções de Entropia

In [71]:
# Criar DataFrame de teste
df_teste = pd.DataFrame({
    'Sexo': ['M', 'F', 'F', 'M'],
    'Idade': [30, 25, 40, 35],
    'Estado_Civil': ['Casado', 'Solteiro', 'Casado', 'Divorciado'],
    'Diagnostico_Depressao': ['Sim', 'Não', 'Sim', 'Não']
})

# Converter colunas categóricas para o tipo 'category'
for coluna in df_teste.select_dtypes(include='object'):
    df_teste[coluna] = df_teste[coluna].astype('category')

In [72]:


# Função para calcular a entropia de uma variável categórica
def calcular_entropia_categorica(variavel):
    contagem_valores = variavel.value_counts()  # Contagem de ocorrências de cada valor único
    total_registros = len(variavel)  # Número total de registros
    
    # Calcular a probabilidade de cada valor
    probabilidades = contagem_valores / total_registros
    
    # Calcular a entropia
    entropia = -sum(p * math.log2(p) if p != 0 else 0 for p in probabilidades)
    
    return entropia

# Função para calcular a entropia de uma variável numérica
def calcular_entropia_numerica(variavel):
    # Calcular a variância da variável numérica
    variancia = variavel.var()
    # Normalizar a variância para calcular a entropia
    entropia = 1 - (1 / (1 + variancia))
    return entropia

# Calcular a entropia para cada variável categórica
entropias_categoricas = {}
for coluna in df_teste.select_dtypes(include='category'):
    entropias_categoricas[coluna] = calcular_entropia_categorica(df_teste[coluna])

# Calcular a entropia para cada variável numérica
entropias_numericas = {}
for coluna in df_teste.select_dtypes(include=np.number):
    entropias_numericas[coluna] = calcular_entropia_numerica(df_teste[coluna])

# Exibir os resultados das entropias calculadas para variáveis categóricas
print("Entropias calculadas para variáveis categóricas:")
for variavel, entropia in entropias_categoricas.items():
    print(f"A entropia da variável '{variavel}' é: {entropia}")

# Exibir os resultados das entropias calculadas para variáveis numéricas
print("\nEntropias calculadas para variáveis numéricas:")
for variavel, entropia in entropias_numericas.items():
    print(f"A entropia da variável '{variavel}' é: {entropia}")


Entropias calculadas para variáveis categóricas:
A entropia da variável 'Sexo' é: 1.0
A entropia da variável 'Estado_Civil' é: 1.5
A entropia da variável 'Diagnostico_Depressao' é: 1.0

Entropias calculadas para variáveis numéricas:
A entropia da variável 'Idade' é: 0.9765625


# Usando a base

In [73]:
df = pd.read_csv(r"C:\Users\maype\OneDrive\Área de Trabalho\projects\projeto-aprendizado-de-maquina\Data\base_tratada2.csv")

In [74]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39879 entries, 0 to 39878
Data columns (total 62 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Unnamed: 0                       39879 non-null  int64  
 1   Sexo                             39879 non-null  float64
 2   Apoio_Familiar                   39879 non-null  float64
 3   Apoio_de_Amigos                  39879 non-null  float64
 4   Tipo_de_Trabalho                 39879 non-null  float64
 5   Curso_Mais_Elevado               39879 non-null  float64
 6   Diagnostico_Depressao            39879 non-null  float64
 7   A005010                          39879 non-null  float64
 8   Estado_de_Saude                  39879 non-null  float64
 9   Pratica_Exercicio                39879 non-null  float64
 10  Exercicio_Mais_Frequente         39879 non-null  float64
 11  Ultima_Consulta_Medica           39879 non-null  float64
 12  Procura_Atendiment

In [75]:
df.columns

Index(['Unnamed: 0', 'Sexo', 'Apoio_Familiar', 'Apoio_de_Amigos',
       'Tipo_de_Trabalho', 'Curso_Mais_Elevado', 'Diagnostico_Depressao',
       'A005010', 'Estado_de_Saude', 'Pratica_Exercicio',
       'Exercicio_Mais_Frequente', 'Ultima_Consulta_Medica',
       'Procura_Atendimento_Saude', 'Problemas_Sono', 'Consumo_Arroz_Macarrao',
       'Consumo_Batata', 'Consumo_Feijao', 'Consumo_Carne', 'Consumo_Ovo',
       'Consumo_Verduras_1', 'Consumo_Verduras_2', 'Consumo_Verduras_3',
       'Consumo_Frutas_1', 'Consumo_Frutas_2', 'Consumo_Leite',
       'Consumo_Castanhas', 'Consumo_Refrigerante', 'Consumo_Suco_Caixinha',
       'Consumo_Bebida_Achocolatada', 'Consumo_Salgadinho_Biscoito',
       'Consumo_Biscoito_Doce', 'Consumo_Sobremesa', 'Consumo_Embutidos',
       'Consumo_Pao', 'Consumo_Molhos_Industrializados',
       'Consumo_Alimentos_Prontos', 'Freq_Consumo_Feijao',
       'Freq_Consumo_Verduras', 'Tipo_Verdura_Costuma_Comer',
       'Freq_Consumo_Carne_Vermelha', 'Freq_Consumo

In [76]:
# Converter todas as colunas para o tipo categórico
df = df.astype('category')

# Verificar o tipo de dados das colunas após a conversão
print(df.dtypes)

Unnamed: 0               category
Sexo                     category
Apoio_Familiar           category
Apoio_de_Amigos          category
Tipo_de_Trabalho         category
                           ...   
saneamento_basico        category
moradia_vulneravel       category
tempo_total_exercicio    category
frequencia_exercicio     category
freq_bebida_alcoolica    category
Length: 62, dtype: object


In [77]:
df[['idade', 'IMC', 'renda_total']] = df[['idade', 'IMC', 'renda_total']].astype('float') 

In [78]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39879 entries, 0 to 39878
Data columns (total 62 columns):
 #   Column                           Non-Null Count  Dtype   
---  ------                           --------------  -----   
 0   Unnamed: 0                       39879 non-null  category
 1   Sexo                             39879 non-null  category
 2   Apoio_Familiar                   39879 non-null  category
 3   Apoio_de_Amigos                  39879 non-null  category
 4   Tipo_de_Trabalho                 39879 non-null  category
 5   Curso_Mais_Elevado               39879 non-null  category
 6   Diagnostico_Depressao            39879 non-null  category
 7   A005010                          39879 non-null  category
 8   Estado_de_Saude                  39879 non-null  category
 9   Pratica_Exercicio                39879 non-null  category
 10  Exercicio_Mais_Frequente         39879 non-null  category
 11  Ultima_Consulta_Medica           39879 non-null  category
 12  Proc

In [79]:
# Calcular a entropia para cada variável categórica
entropias_categoricas = {}
for coluna in df.select_dtypes(include='category'):
    entropias_categoricas[coluna] = calcular_entropia_categorica(df[coluna])

In [80]:

# Exibir os resultados das entropias calculadas para variáveis categóricas
print("Entropias calculadas para variáveis categóricas:")
for variavel, entropia in entropias_categoricas.items():
    print(f"A entropia da variável '{variavel}' é: {entropia}")

Entropias calculadas para variáveis categóricas:
A entropia da variável 'Unnamed: 0' é: 15.283341612919305
A entropia da variável 'Sexo' é: 0.9979159430701356
A entropia da variável 'Apoio_Familiar' é: 1.4024245152562977
A entropia da variável 'Apoio_de_Amigos' é: 1.7986550904870322
A entropia da variável 'Tipo_de_Trabalho' é: 2.3114011760490674
A entropia da variável 'Curso_Mais_Elevado' é: 2.637234749633678
A entropia da variável 'Diagnostico_Depressao' é: 0.5108840827566314
A entropia da variável 'A005010' é: 1.2306129306751352
A entropia da variável 'Estado_de_Saude' é: 1.6095602255958354
A entropia da variável 'Pratica_Exercicio' é: 0.9442857548646282
A entropia da variável 'Exercicio_Mais_Frequente' é: 1.8980795813203943
A entropia da variável 'Ultima_Consulta_Medica' é: 1.0400895674259731
A entropia da variável 'Procura_Atendimento_Saude' é: 0.7739604812476111
A entropia da variável 'Problemas_Sono' é: 1.5456922040537238
A entropia da variável 'Consumo_Arroz_Macarrao' é: 0.46277

In [81]:
# Calcular a entropia para cada variável numérica
entropias_numericas = {}
for coluna in ['idade', 'IMC', 'renda_total']:
    entropias_numericas[coluna] = calcular_entropia_numerica(df[coluna])

In [82]:

# Exibir os resultados das entropias calculadas para variáveis numéricas
print("\nEntropias calculadas para variáveis numéricas:")
for variavel, entropia in entropias_numericas.items():
    print(f"A entropia da variável '{variavel}' é: {entropia}")


Entropias calculadas para variáveis numéricas:
A entropia da variável 'idade' é: 0.9822066582755408
A entropia da variável 'IMC' é: 0.9999918763271203
A entropia da variável 'renda_total' é: 0.9999999575333824
