In [6]:
import pandas as pd
import os
import numpy as np
from scipy.stats import pearsonr, spearmanr
from sklearn.preprocessing import LabelEncoder

In [7]:
# Obtendo o diretório atual do script
diretorio_atual = os.path.dirname(os.path.abspath('__file__'))

# Construindo o caminho para o arquivo CSV usando o caminho relativo
caminho = os.path.join(diretorio_atual,'..','..','..','Data', 'Bases Modificadas', 'base_sem_nulos.csv')

# Carregando o arquivo CSV
df = pd.read_csv(caminho)

In [8]:
# Lista de variáveis
variaveis = ['Sexo', 'Apoio_Familiar', 'Apoio_de_Amigos', 'Tipo_de_Trabalho',
       'Curso_Mais_Elevado', 'Diagnostico_Depressao', 'Estado_de_Saude',
       'Pratica_Exercicio', 'Exercicio_Mais_Frequente',
       'Ultima_Consulta_Medica', 'Procura_Atendimento_Saude', 'Problemas_Sono',
       'peso_consolidado(KG)', 'altura_consolidada(CM)', 'renda_total',
       'idade', 'trabalhou', 'horas_trabalhadas_total', 'doencas_cronicas',
       'saneamento_basico', 'moradia_vulneravel', 'tempo_total_exercicio',
       'frequencia_exercicio', 'freq_bebida_alcoolica',
       'Consumo de Graos e Tuberculos', 'Consumo de Leguminosas',
       'Consumo de Carnes', 'Consumo de Ovos', 'Consumo de Verduras e Legumes',
       'Consumo de Frutas', 'Consumo de Laticinios', 'Consumo de Oleaginosas',
       'Consumo de Refrigerantes', 'Consumo de Sucos Industrializados',
       'Consumo de Sucos Naturais', 'Consumo de Bebidas Lacteas',
       'Consumo de Salgadinhos e Biscoitos Salgados',
       'Consumo de Doces e Sobremesas Industrializadas',
       'Consumo de Embutidos e Alimentos Processados',
       'Consumo de Paes Industrializados',
       'Consumo de Molhos Industrializados',
       'Substituicao de Refeicoes por Lanches Rapidos', 'Consumo de Sal']


In [9]:
# Calcule a matriz de correlação
correlation_matrix = df.corr()

# Imprima a matriz de correlação
print(correlation_matrix)

                                                    Sexo  Apoio_Familiar  \
Sexo                                            1.000000       -0.039600   
Apoio_Familiar                                 -0.039600        1.000000   
Apoio_de_Amigos                                -0.065755        0.320577   
Tipo_de_Trabalho                               -0.290100        0.053610   
Curso_Mais_Elevado                              0.077814        0.099184   
Diagnostico_Depressao                          -0.160082        0.046433   
Estado_de_Saude                                 0.083350       -0.087178   
Pratica_Exercicio                               0.059940       -0.092741   
Exercicio_Mais_Frequente                       -0.187911        0.075338   
Ultima_Consulta_Medica                         -0.223600       -0.029273   
Procura_Atendimento_Saude                      -0.131084        0.005852   
Problemas_Sono                                  0.148261       -0.062934   
peso_consoli

In [10]:
# Crie um DataFrame para armazenar as correlações de Pearson
pearson_corr = pd.DataFrame(index=variaveis, columns=variaveis)

# Crie um DataFrame para armazenar as correlações de Spearman
spearman_corr = pd.DataFrame(index=variaveis, columns=variaveis)

# Calcule as correlações de Pearson e Spearman
for i in range(len(variaveis)):
    for j in range(i + 1, len(variaveis)):
        var1 = variaveis[i]
        var2 = variaveis[j]
        
        # Correlação de Pearson
        pearson_corr.loc[var1, var2], _ = pearsonr(df[var1], df[var2])
        
        # Correlação de Spearman
        spearman_corr.loc[var1, var2], _ = spearmanr(df[var1], df[var2])


In [11]:
# Crie um ExcelWriter para salvar os resultados em abas separadas
with pd.ExcelWriter('correlacoes.xlsx', engine='xlsxwriter') as writer:
    # Salve a matriz de correlação
    correlation_matrix.to_excel(writer, sheet_name='Matriz de Correlação')

    # Salve as correlações de Pearson
    pearson_corr.to_excel(writer, sheet_name='Correlação de Pearson')

    # Salve as correlações de Spearman
    spearman_corr.to_excel(writer, sheet_name='Correlação de Spearman')

## Análise da Matriz de Correlação e Identificação de Variáveis Redundantes

Com base na matriz de correlação fornecida, identificamos as seguintes variáveis altamente correlacionadas (acima de 0,7 ou abaixo de -0,7), que podem ser consideradas redundantes em relação a outras:

**1.  Tempo total dedicado ao exercício físico:**

* `tempo_total_exercicio` e `frequencia_exercicio`: Correlação de 0,6869 (alta). A frequência do exercício é naturalmente ligada ao tempo total dedicado a ele.  **Sugestão:** Eliminar `frequencia_exercicio` pois `tempo_total_exercicio` fornece uma informação mais completa sobre o hábito de exercício.

**2.  Trabalho:**

* `Tipo de trabalho` e `horas_trabalhadas_total`: Correlação de -0,7098 (alta). O tipo de trabalho determina o tempo dedicado a ele.  **Sugestão:** Eliminar `horas_trabalhadas_total` pois `Tipo de trabalho` fornece uma informação mais abrangente sobre a jornada laboral.
* `trabalhou` e `horas_trabalhadas_total`: Correlação de -0,7956 (alta).  **Sugestão:** Eliminar `horas_trabalhadas_total` pois `trabalhou` já indica se a pessoa está trabalhando ou não.

**3.  Exercício Físico:**

* `Pratica_Exercicio` e `tempo_total_exercicio`: Correlação de -0,8274 (alta). **Sugestão:** Eliminar `tempo_total_exercicio` pois `Pratica_Exercicio` é uma variável mais direta e informativa sobre a prática de exercício.
* `Pratica_Exercicio` e `frequencia_exercicio`: Correlação de -0,8409 (alta). **Sugestão:** Eliminar `frequencia_exercicio` por ser redundante em relação a `Pratica_Exercicio`.
* `Exercicio_Mais_Frequente` e `tempo_total_exercicio`: Correlação de 0,6232 (alta). **Sugestão:** Eliminar `tempo_total_exercicio` por ser redundante em relação a `Exercicio_Mais_Frequente`. 

**4.  Outras Relações:**

* `Curso_Mais_Elevado` e `renda_total`: Correlação de 0,3158 (moderada).  O nível de escolaridade geralmente está ligado a uma maior renda. **Sugestão:** manter as duas variáveis, pois o nível de escolaridade e a renda são importantes para o estudo.
* `Diagnostico_Depressao` e `Estado_de_Saude`: Correlação de -0,2029 (moderada).  **Sugestão:** manter as duas variáveis, pois o diagnóstico de depressão e o estado de saúde são importantes para o estudo.
* `Doencas_cronicas` e `Estado_de_Saude`: Correlação de -0,2358 (moderada). **Sugestão:** manter as duas variáveis, pois o estado de saúde e a presença de doenças crônicas são importantes para o estudo.
* `trabalhou` e `Tipo de trabalho`: Correlação de -0,7098 (alta).  **Sugestão:** Eliminar `Tipo de trabalho`, pois `trabalhou` já indica se a pessoa está trabalhando ou não.


**Após a análise, as variáveis a serem removidas são:**

* `horas_trabalhadas_total`
* `frequencia_exercicio`
* `tempo_total_exercicio`
* `Tipo de trabalho` 
