In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("anxiety_depression_data.csv")
df.columns

Index(['Age', 'Gender', 'Education_Level', 'Employment_Status', 'Sleep_Hours',
       'Physical_Activity_Hrs', 'Social_Support_Score', 'Anxiety_Score',
       'Depression_Score', 'Stress_Level', 'Family_History_Mental_Illness',
       'Chronic_Illnesses', 'Medication_Use', 'Therapy', 'Meditation',
       'Substance_Use', 'Financial_Stress', 'Work_Stress', 'Self_Esteem_Score',
       'Life_Satisfaction_Score', 'Loneliness_Score'],
      dtype='object')

In [3]:
#começando o tratamento de dados ausentes
# coluna substance_use contém muitos valores NaN, vou mostrar apenas essa coluna para ter uma idea melhor sobre
pd.set_option('display.max_rows', None)
df["Substance_Use"]
# aparentemente os valores NaN correspondem a pessoas que não fazem uso de medicamentos
# para melhor visualização, vou transformar valores NaN em "don't use"
df['Substance_Use'] = df['Substance_Use'].fillna("don't use")
df

# ainda há valores faltantes, a coluna Medication_Use vamos trata-la também
df["Medication_Use"]
# também indicam intuitivamente que NaN quer dizer que a pessoa não usa medicamentos
# logo, vamos realizar o mesmo tratamento
df['Medication_Use'] = df['Medication_Use'].fillna("Don't use")
df.head()

Unnamed: 0,Age,Gender,Education_Level,Employment_Status,Sleep_Hours,Physical_Activity_Hrs,Social_Support_Score,Anxiety_Score,Depression_Score,Stress_Level,...,Chronic_Illnesses,Medication_Use,Therapy,Meditation,Substance_Use,Financial_Stress,Work_Stress,Self_Esteem_Score,Life_Satisfaction_Score,Loneliness_Score
0,56,Male,Bachelor's,Unemployed,6.0,0.4,3,4,2,9,...,0,Don't use,0,1,don't use,4,3,7,5,1
1,69,Female,Bachelor's,Retired,8.8,2.8,6,18,7,6,...,0,Don't use,1,0,don't use,1,4,7,4,6
2,46,Female,Master's,Employed,5.3,1.6,5,5,13,8,...,0,Don't use,0,1,don't use,8,7,8,1,1
3,32,Female,High School,Unemployed,8.8,0.5,4,6,3,4,...,1,Don't use,0,0,don't use,7,4,8,4,4
4,60,Female,Bachelor's,Retired,7.2,0.7,2,7,15,3,...,0,Don't use,1,1,Frequent,8,9,5,7,7


In [35]:
#começando a analise verificando a média de horas de sono de pessoas que tem ansiedade

media_sono = df["Sleep_Hours"].mean()
print(media_sono)

# o sono pode ter grande interferência na ansiedade visto que segundo o site gov.com, a média de sono ideal são 8 horas diárias

moda_sono = df['Sleep_Hours'].mode()[0]
print(moda_sono)

# convertendo o valor para horas

horas, minutos = divmod(moda_sono * 60, 60)  # Converte tudo para minutos e separa
print(f"a moda convertida para horas é: {int(horas)}h {int(minutos)}min")

# portanto com a moda sendo 6h e 48m há um padrão de má qualidade de sono entre as pessoas que tem ansiedade
# podendo ser fortemente considerado um fator que contribui para a ansiedade

6.469
6.8
a moda convertida para horas é: 6h 48min


In [45]:
# verificando como as horas de atividades fisicas podem influenciar na ansiedade

media_atv_fis = df["Physical_Activity_Hrs"].mean()
horas, minutos = divmod(media_atv_fis * 60, 60)  # convertendo
print(f"a media convertida para horas é: {int(horas)}h {int(minutos)}min")

#verificando a moda para entender o nível de influência de atividades fisicas na ansiedade

moda_atv_fis = df['Physical_Activity_Hrs'].mode()[0]

# convertendo para horas\ minutos

horas, minutos = divmod(moda_atv_fis * 60, 60)  # Converte tudo para minutos e separa
print(f"a moda convertida para horas é: {int(horas)}h {int(minutos)}min")

# conclusão: maioria das pessoas que tem ansiedade, pratica atividades fisicas por pouco tempo
# porém, vamos analisar a seguir o impacto das atividades fisicas na ansiedade 

a media convertida para horas é: 2h 0min
a moda convertida para horas é: 0h 6min


In [8]:
#analisando, temos uma diferença chamativa de niveis de ansiedade
#uma forte indicaçaõ de que a pratica recorrente de atividades fisicas contribui para a diminuição do estresse

media_ansiedade_sedentarios = df[df["Physical_Activity_Hrs"] == 0]["Stress_Level"].mean()
media_ansiedade_ativos = df[df["Physical_Activity_Hrs"] > 0]["Stress_Level"].mean()

print(f"Ansiedade média de sedentários: {media_ansiedade_sedentarios:.2f}")
print(f"Ansiedade média de pessoas ativas: {media_ansiedade_ativos:.2f}")

#analisando agora os niveis de estresse em relação a pessoas com bom suporte social

media_estresse_com_suporte = df[df["Social_Support_Score"] > 0]["Stress_Level"].mean()
media_estresse_sem_suporte = df[df["Social_Support_Score"] < 5]["Stress_Level"].mean()

print(f"Media de estresse em pessoas com suporte social: {media_estresse_com_suporte:.2f}")
print(f"Media de estresse em pessoas sem suporte social: {media_estresse_sem_suporte:.2f}")

Ansiedade média de sedentários: 5.35
Ansiedade média de pessoas ativas: 4.99
Media de estresse em pessoas com suporte social: 5.00
Media de estresse em pessoas sem suporte social: 4.85


In [21]:
##começando a analisar o nivel de estresse em relação ao nivel de educação, para entender como uma formação superior pode influenciar
col_estresse = df.select_dtypes(include=['number']).columns

df["Stress_Level"] = df[col_estresse].mean(axis=1)

df_agrupado = df.groupby('Education_Level')['Stress_Level'].mean().reset_index()

df_agrupado

# temos uma leve superioridade em formações mais influentes
# a formação universitária mostrando ser a grande vilã e causando altos niveis de estresse
# a possivel causa pode ser pela maioria das pessoas serem novas no período de formação superior
# juntando com a grande carga de conteúdo e prazos apertados são fatores que podem influenciar para altos niveis de estresse? vamos entender

# Filtrar apenas as pessoas com nível de estresse maior que 10
df_high_stress = df[df['Stress_Level'] > 5]

# Calcular a média de idade para cada nível de formação
df_age_mean = df_high_stress.groupby('Education_Level')['Age'].mean().reset_index()

# Renomear colunas para melhor interpretação
df_age_mean.columns = ['Educação', 'Média de Idade']

# Exibir os resultados
print(df_age_mean)
# maioria de pessoas com nive de estresse maior que a média tem idade media de 49 anos e estão realizando o curso de ensino superior


      Educação  Média de Idade
0   Bachelor's       49.033493
1  High School       46.848889
2     Master's       48.017021
3        Other       46.129310
4          PhD       47.101626


In [22]:
# Calcular a média de estresse para cada gênero
df_gender_stress = df.groupby('Gender')['Stress_Level'].mean().reset_index()

# Renomear colunas para melhor interpretação
df_gender_stress.columns = ['Gênero', 'Média de Estresse']

# Exibir os resultados
print(df_gender_stress)


       Gênero  Média de Estresse
0      Female           7.155981
1        Male           7.111474
2  Non-Binary           7.353778
3       Other           6.915238


In [4]:
# Calcular a média de estresse para quem medita e quem não medita
df_meditation_stress = df.groupby('Meditation')['Stress_Level'].mean().reset_index()

# Renomear colunas para melhor interpretação
df_meditation_stress.columns = ['Meditação (0 = Não, 1 = Sim)', 'Média de Estresse']

# Exibir os resultados
print(df_meditation_stress)
# media maior em pessoas que fazem meditação o que pode indicar que a meditação não interfere nos niveis de estresse
# mas também é um indicador da forte adesão à praticas de meditação de pessoas com altos niveis de estresse 

   Meditação (0 = Não, 1 = Sim)  Média de Estresse
0                             0           4.918169
1                             1           5.125261
