In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("anxiety_depression_data.csv")
df.columns

Index(['Age', 'Gender', 'Education_Level', 'Employment_Status', 'Sleep_Hours',
       'Physical_Activity_Hrs', 'Social_Support_Score', 'Anxiety_Score',
       'Depression_Score', 'Stress_Level', 'Family_History_Mental_Illness',
       'Chronic_Illnesses', 'Medication_Use', 'Therapy', 'Meditation',
       'Substance_Use', 'Financial_Stress', 'Work_Stress', 'Self_Esteem_Score',
       'Life_Satisfaction_Score', 'Loneliness_Score'],
      dtype='object')

In [3]:
#começando o tratamento de dados ausentes
# coluna substance_use contém muitos valores NaN, vou mostrar apenas essa coluna para ter uma idea melhor sobre
pd.set_option('display.max_rows', None)
df["Substance_Use"]
# aparentemente os valores NaN correspondem a pessoas que não fazem uso de medicamentos
# para melhor visualização, vou transformar valores NaN em "don't use"
df['Substance_Use'] = df['Substance_Use'].fillna("don't use")
df

# ainda há valores faltantes, a coluna Medication_Use vamos trata-la também
df["Medication_Use"]
# também indicam intuitivamente que NaN quer dizer que a pessoa não usa medicamentos
# logo, vamos realizar o mesmo tratamento
df['Medication_Use'] = df['Medication_Use'].fillna("Don't use")
df.head()

Unnamed: 0,Age,Gender,Education_Level,Employment_Status,Sleep_Hours,Physical_Activity_Hrs,Social_Support_Score,Anxiety_Score,Depression_Score,Stress_Level,...,Chronic_Illnesses,Medication_Use,Therapy,Meditation,Substance_Use,Financial_Stress,Work_Stress,Self_Esteem_Score,Life_Satisfaction_Score,Loneliness_Score
0,56,Male,Bachelor's,Unemployed,6.0,0.4,3,4,2,9,...,0,Don't use,0,1,don't use,4,3,7,5,1
1,69,Female,Bachelor's,Retired,8.8,2.8,6,18,7,6,...,0,Don't use,1,0,don't use,1,4,7,4,6
2,46,Female,Master's,Employed,5.3,1.6,5,5,13,8,...,0,Don't use,0,1,don't use,8,7,8,1,1
3,32,Female,High School,Unemployed,8.8,0.5,4,6,3,4,...,1,Don't use,0,0,don't use,7,4,8,4,4
4,60,Female,Bachelor's,Retired,7.2,0.7,2,7,15,3,...,0,Don't use,1,1,Frequent,8,9,5,7,7


In [None]:
# Analisando a qualidade do sono em relação aos níveis de estresse

# Definindo os grupos
alto_estresse = df[df["Stress_Level"] > 5]
baixo_estresse = df[df["Stress_Level"] <= 5]

# Calculando médias de horas de sono para cada grupo
media_sono_alto = alto_estresse["Sleep_Hours"].mean()
media_sono_baixo = baixo_estresse["Sleep_Hours"].mean()

print(f"Média de horas de sono (Alto Estresse > 5): {media_sono_alto:.2f} horas")
print(f"Média de horas de sono (Baixo Estresse ≤ 5): {media_sono_baixo:.2f} horas")

# Convertendo para formato horas e minutos
horas_alto, minutos_alto = divmod(media_sono_alto * 60, 60)
horas_baixo, minutos_baixo = divmod(media_sono_baixo * 60, 60)

print(f"Média convertida - Alto Estresse: {int(horas_alto)}h {int(minutos_alto)}min")
print(f"Média convertida - Baixo Estresse: {int(horas_baixo)}h {int(minutos_baixo)}min")

# Moda das horas de sono para cada grupo
moda_sono_alto = alto_estresse["Sleep_Hours"].mode()[0]
moda_sono_baixo = baixo_estresse["Sleep_Hours"].mode()[0]

# Reflexão sobre os resultados
print("\nAnálise:")
print("- O sono pode ter grande interferência no estresse, visto que estudos recomendam uma média de 8 horas diárias.")
print("- Se a média e a moda do sono entre pessoas com alto estresse forem menores que 8 horas, isso pode indicar uma relação entre privação de sono e níveis elevados de estresse.")
print("- Já aqueles com estresse baixo podem apresentar padrões de sono mais saudáveis, reforçando a ideia de que dormir bem pode ajudar no controle do estresse.")


Média de horas de sono (Alto Estresse > 5): 6.47 horas
Média de horas de sono (Baixo Estresse ≤ 5): 6.47 horas
Média convertida - Alto Estresse: 6h 28min
Média convertida - Baixo Estresse: 6h 27min

Análise:
- O sono pode ter grande interferência no estresse, visto que estudos recomendam uma média de 8 horas diárias.
- Se a média e a moda do sono entre pessoas com alto estresse forem menores que 8 horas, isso pode indicar uma relação entre privação de sono e níveis elevados de estresse.
- Já aqueles com estresse baixo podem apresentar padrões de sono mais saudáveis, reforçando a ideia de que dormir bem pode ajudar no controle do estresse.


In [20]:
# Analisando a influência de atividades fisicas nos niveis de estresse

# Criando grupos
mais_estresse = df[df["Stress_Level"] > 5]
menos_estresse = df[df["Stress_Level"] <= 5]

# media de horas de atividade fisica nos grupos
media_atv_fisica_alta = mais_estresse["Physical_Activity_Hrs"].mean()
media_atv_fisica_baixa = menos_estresse["Physical_Activity_Hrs"].mean()

# Convertendo para formato horas e minutos
horas_alto, minutos_alto = divmod(media_atv_fisica_alta * 60, 60)
horas_baixo, minutos_baixo = divmod(media_atv_fisica_baixa * 60, 60)

print(f"Média convertida - Alto Estresse: {int(horas_alto)}h {int(minutos_alto)}min")
print(f"Média convertida - Baixo Estresse: {int(horas_baixo)}h {int(minutos_baixo)}min")

# Moda das horas de atividade física para cada grupo
moda_atv_fis_alto = alto_estresse["Physical_Activity_Hrs"].mode()[0]
moda_atv_fis_baixo = baixo_estresse["Physical_Activity_Hrs"].mode()[0]

# Convertendo para horas e minutos
horas_moda_alto, minutos_moda_alto = divmod(moda_atv_fis_alto * 60, 60)
horas_moda_baixo, minutos_moda_baixo = divmod(moda_atv_fis_baixo * 60, 60)

print(f"Moda da atividade física (Alto Estresse): {int(horas_moda_alto)}h {int(minutos_moda_alto)}min")
print(f"Moda da atividade física (Baixo Estresse): {int(horas_moda_baixo)}h {int(minutos_moda_baixo)}min")

# Reflexão sobre os resultados
print("\nAnálise:")
print("- A prática de atividades físicas tem grande influência nos níveis de estresse, a analise mostra uma diferença chamativa nas médias")
print("- Pessoas com baixo nível de estresse tem em média mais horas de atividade fisica")

Média convertida - Alto Estresse: 1h 51min
Média convertida - Baixo Estresse: 2h 7min
Moda da atividade física (Alto Estresse): 0h 6min
Moda da atividade física (Baixo Estresse): 0h 12min

Análise:
- A prática de atividades físicas tem grande influência nos níveis de estresse, a analise mostra uma diferença chamativa nas médias
- Pessoas com baixo nível de estresse tem em média mais horas de atividade fisica


Ansiedade média de sedentários: 5.35
Ansiedade média de pessoas ativas: 4.99
Media de estresse em pessoas com suporte social: 5.00
Media de estresse em pessoas sem suporte social: 4.85


In [21]:
##começando a analisar o nivel de estresse em relação ao nivel de educação, para entender como uma formação superior pode influenciar
col_estresse = df.select_dtypes(include=['number']).columns

df["Stress_Level"] = df[col_estresse].mean(axis=1)

df_agrupado = df.groupby('Education_Level')['Stress_Level'].mean().reset_index()

df_agrupado

# temos uma leve superioridade em formações mais influentes
# a formação universitária mostrando ser a grande vilã e causando altos niveis de estresse
# a possivel causa pode ser pela maioria das pessoas serem novas no período de formação superior
# juntando com a grande carga de conteúdo e prazos apertados são fatores que podem influenciar para altos niveis de estresse? vamos entender

# Filtrar apenas as pessoas com nível de estresse maior que 10
df_high_stress = df[df['Stress_Level'] > 5]

# Calcular a média de idade para cada nível de formação
df_age_mean = df_high_stress.groupby('Education_Level')['Age'].mean().reset_index()

# Renomear colunas para melhor interpretação
df_age_mean.columns = ['Educação', 'Média de Idade']

# Exibir os resultados
print(df_age_mean)
# maioria de pessoas com nive de estresse maior que a média tem idade media de 49 anos e estão realizando o curso de ensino superior


      Educação  Média de Idade
0   Bachelor's       49.033493
1  High School       46.848889
2     Master's       48.017021
3        Other       46.129310
4          PhD       47.101626


In [22]:
# Calcular a média de estresse para cada gênero
df_gender_stress = df.groupby('Gender')['Stress_Level'].mean().reset_index()

# Renomear colunas para melhor interpretação
df_gender_stress.columns = ['Gênero', 'Média de Estresse']

# Exibir os resultados
print(df_gender_stress)


       Gênero  Média de Estresse
0      Female           7.155981
1        Male           7.111474
2  Non-Binary           7.353778
3       Other           6.915238


In [4]:
# Calcular a média de estresse para quem medita e quem não medita
df_meditation_stress = df.groupby('Meditation')['Stress_Level'].mean().reset_index()

# Renomear colunas para melhor interpretação
df_meditation_stress.columns = ['Meditação (0 = Não, 1 = Sim)', 'Média de Estresse']

# Exibir os resultados
print(df_meditation_stress)
# media maior em pessoas que fazem meditação o que pode indicar que a meditação não interfere nos niveis de estresse
# mas também é um indicador da forte adesão à praticas de meditação de pessoas com altos niveis de estresse 

   Meditação (0 = Não, 1 = Sim)  Média de Estresse
0                             0           4.918169
1                             1           5.125261


In [3]:
df

Unnamed: 0,Age,Gender,Education_Level,Employment_Status,Sleep_Hours,Physical_Activity_Hrs,Social_Support_Score,Anxiety_Score,Depression_Score,Stress_Level,...,Chronic_Illnesses,Medication_Use,Therapy,Meditation,Substance_Use,Financial_Stress,Work_Stress,Self_Esteem_Score,Life_Satisfaction_Score,Loneliness_Score
0,56,Male,Bachelor's,Unemployed,6.0,0.4,3,4,2,9,...,0,,0,1,,4,3,7,5,1
1,69,Female,Bachelor's,Retired,8.8,2.8,6,18,7,6,...,0,,1,0,,1,4,7,4,6
2,46,Female,Master's,Employed,5.3,1.6,5,5,13,8,...,0,,0,1,,8,7,8,1,1
3,32,Female,High School,Unemployed,8.8,0.5,4,6,3,4,...,1,,0,0,,7,4,8,4,4
4,60,Female,Bachelor's,Retired,7.2,0.7,2,7,15,3,...,0,,1,1,Frequent,8,9,5,7,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1195,23,Female,Other,Student,5.1,0.1,7,16,15,5,...,0,Occasional,0,0,,2,8,7,6,5
1196,43,Female,Master's,Employed,8.9,0.4,9,19,4,9,...,0,,0,1,,8,9,7,6,4
1197,71,Female,PhD,Retired,6.0,0.1,2,15,4,2,...,0,,0,1,,2,9,9,3,7
1198,21,Male,Other,Employed,8.5,2.7,8,12,20,2,...,1,,0,0,,8,5,1,3,7
