## Bibliotecas

In [8]:
import pandas as pd
import numpy as np
from plotly.subplots import make_subplots
import plotly.express as px
import plotly.graph_objects as go

## Carregamento dos dados

In [2]:
dados_processados = "dados_processados/"

df_saude_mental = pd.read_csv(f"{dados_processados}saude_mental_limpo.csv")
df_bem_estar_feedback = pd.read_csv(f"{dados_processados}bem_estar_feedback_limpo.csv")
df_prog_carreira = pd.read_csv(f"{dados_processados}prog_carreira_limpo.csv")

In [3]:
display(df_saude_mental.head(10))
display(df_bem_estar_feedback.head(10))
display(df_prog_carreira.head(10))

Unnamed: 0,ID_Empregado,Idade,Genero,Cargo,Industria,Anos_Experiencia,Local_Trabalho,Horas_Trabalhadas_Semana,Numero_Reunioes_Virtuais,Avaliacao_Equilibrio_Vida,Nivel_Estresse,Condicao_Saude_Mental,Acesso_Recursos_Saude_Mental,Mudanca_Produtividade,Avaliacao_Isolamento_Social,Satisfacao_Trabalho_Remoto,Suporte_Empresa_Trabalho_Remoto,Atividade_Fisica,Qualidade_Sono,Regiao
0,EMP0001,32,Non-binary,HR,Healthcare,13,Hybrid,47,7,2,Medium,Depression,No,Decrease,1,Unsatisfied,1,Weekly,Good,Europe
1,EMP0002,40,Female,Data Scientist,IT,3,Remote,52,4,1,Medium,Anxiety,No,Increase,3,Satisfied,2,Weekly,Good,Asia
2,EMP0003,59,Non-binary,Software Engineer,Education,22,Hybrid,46,11,5,Medium,Anxiety,No,No Change,4,Unsatisfied,5,Weekly,Poor,North America
3,EMP0004,27,Male,Software Engineer,Finance,20,Onsite,32,8,4,High,Depression,Yes,Increase,3,Unsatisfied,3,Weekly,Poor,Europe
4,EMP0005,49,Male,Sales,Consulting,32,Onsite,35,12,2,High,Burnout,Yes,Decrease,3,Unsatisfied,3,Weekly,Average,North America
5,EMP0006,59,Non-binary,Sales,IT,31,Hybrid,39,3,4,High,Burnout,No,Increase,5,Unsatisfied,1,Weekly,Average,South America
6,EMP0007,31,Prefer not to say,Sales,IT,24,Remote,51,7,3,Low,Anxiety,Yes,Decrease,5,Neutral,3,Daily,Poor,Asia
7,EMP0008,42,Non-binary,Data Scientist,Manufacturing,6,Onsite,54,7,3,Medium,Depression,No,Decrease,5,Satisfied,4,Weekly,Average,North America
8,EMP0009,56,Prefer not to say,Data Scientist,Healthcare,9,Hybrid,24,4,2,High,Burnout,Yes,Decrease,2,Unsatisfied,4,Daily,Poor,Europe
9,EMP0010,30,Female,HR,IT,28,Hybrid,57,6,1,Low,Depression,Yes,Decrease,2,Neutral,1,Weekly,Poor,North America


Unnamed: 0,ID_Empregado,ID_Programa,Nome_Programa,Status_Participacao,Pontuacao_Feedback,Melhoria_Observada
0,EMP0861,4,Fitness Challenge,Participou,5,No
1,EMP3773,1,Mindfulness Meditation,Participou,1,No
2,EMP3093,2,Work-Life Balance Workshop,Participou,1,Yes
3,EMP0467,3,Healthy Eating Plan,Participou,5,Yes
4,EMP4427,2,Work-Life Balance Workshop,Participou,1,Yes
5,EMP3445,2,Work-Life Balance Workshop,Não Participou,4,No
6,EMP3172,3,Healthy Eating Plan,Participou,5,No
7,EMP2920,2,Work-Life Balance Workshop,Participou,1,No
8,EMP0131,3,Healthy Eating Plan,Participou,2,Yes
9,EMP1686,1,Mindfulness Meditation,Não Participou,5,No


Unnamed: 0,ID_Empregado,Data_Promocao,Cargo_Anterior,Novo_Cargo,Mudanca_Salarial,Satisfacao_Cargo
0,EMP1717,2018-02-28,Team Leader,Senior Developer,1157,5
1,EMP3203,2023-03-31,Senior Developer,Senior Developer,4856,1
2,EMP2858,2023-02-28,Senior Developer,Team Leader,1826,3
3,EMP0787,2026-04-30,Senior Developer,Team Leader,4465,5
4,EMP4369,2019-07-31,Senior Developer,Junior Developer,2890,3
5,EMP4273,2019-05-31,Senior Developer,Junior Developer,3899,5
6,EMP3768,2023-09-30,Product Manager,Junior Developer,1511,5
7,EMP2879,2021-03-31,Team Leader,Team Leader,4985,1
8,EMP0643,2024-10-31,Product Manager,Junior Developer,3092,2
9,EMP4663,2023-11-30,Product Manager,Junior Developer,4179,5


## Análise Exploratória dos Dados

#### Análise Descritiva

In [39]:
# Criar histogramas para variáveis numéricas
numerical_cols = ["Idade", "Anos_Experiencia", "Horas_Trabalhadas_Semana", "Numero_Reunioes_Virtuais", "Avaliacao_Equilibrio_Vida",	"Avaliacao_Isolamento_Social",	"Suporte_Empresa_Trabalho_Remoto"]
for col in numerical_cols:
    fig = px.histogram(df_saude_mental, x=col, nbins=20, title=f"Distribuição de {col.replace("_", " ")}", marginal="box", width=600, height=400)
    fig.update_layout(title_x=0.5)
    fig.show()

##### A análise descritiva dos dados revela informações importantes sobre as variáveis fornecidas. Aqui está uma visão geral dos resultados:

1. Idade

    A média de idade é 41 anos, com uma desvios padrão de 11,3 anos, indicando uma variação considerável nas idades dos participantes. A faixa etária vai de 22 a 60 anos, com 25% dos indivíduos com menos de 31 anos e 25% com mais de 51 anos.

2. Anos de Experiência

    A média de anos de experiência é 17,81 anos, com um desvio padrão de 10,02 anos, mostrando que há uma dispersão considerável. A distribuição parece ser ampla, com a maioria dos participantes tendo entre 9 e 26 anos de experiência (25% a 75% de percentil).

3. Horas Trabalhadas por Semana

    A média de horas trabalhadas por semana é 39,61 horas, o que está em torno de uma jornada de trabalho típica de 40 horas semanais. A variação de horas é de 20 a 60 horas, com a maioria dos participantes trabalhando entre 29 e 50 horas semanais.

4. Número de Reuniões Virtuais

    A média de reuniões virtuais semanais é 7,56, com um desvio padrão de 4,64, indicando que há participantes com um número significativamente maior de reuniões do que outros. A faixa de reuniões vai de 0 a 15, sendo que 50% dos participantes têm entre 4 e 12 reuniões por semana.

5. Avaliação do Equilíbrio Vida-Trabalho

    A média da avaliação do equilíbrio vida-trabalho é 2,98, ligeiramente abaixo do valor máximo de 5. A maioria dos participantes atribui notas entre 2 e 4 para esse equilíbrio, sugerindo que, em geral, há uma percepção moderada ou insatisfeita com o equilíbrio entre vida e trabalho.

6. Avaliação de Isolamento Social

    A média de avaliação de isolamento social é 2,99, com uma distribuição similar à de equilíbrio vida-trabalho, indicando também uma percepção média de isolamento entre os participantes. A variação vai de 1 a 5, com 50% dos participantes atribuindo notas entre 2 e 4, o que pode refletir níveis variados de interação social no trabalho remoto.

7. Suporte da Empresa no Trabalho Remoto

    A média do suporte da empresa no trabalho remoto é 3,01, sugerindo uma percepção neutra ou levemente positiva do suporte fornecido pela empresa. A faixa de avaliação vai de 1 a 5, com a maioria dos participantes avaliando entre 2 e 4.

##### Conclusão Geral

Esses dados refletem uma população com idades variadas, anos de experiência significativos e uma ampla gama de horas de trabalho semanais. As avaliações de equilíbrio vida-trabalho, isolamento social e suporte da empresa são moderadas, o que pode indicar áreas de melhoria no ambiente de trabalho remoto e no suporte à saúde mental e ao bem-estar dos colaboradores. A grande variação nas variáveis de reuniões virtuais e horas trabalhadas também pode sugerir a necessidade de um equilíbrio mais personalizado para diferentes perfis de colaboradores.

#### Quantidade de pessoas distribuidas em relação a resposta sobre saúde mental

In [44]:
# Lista de variáveis para análise
variables = [
    "Nivel_Estresse", "Condicao_Saude_Mental", "Acesso_Recursos_Saude_Mental",
    "Mudanca_Produtividade", "Satisfacao_Trabalho_Remoto", "Atividade_Fisica", "Qualidade_Sono"
]

# Loop para criar gráficos de barras com as contagens
for var in variables:
    # Contando as ocorrências de cada valor único
    count_data = df_saude_mental[var].value_counts().reset_index()
    count_data.columns = [var, 'Contagem']

    # Criando o gráfico de barras
    fig = px.bar(count_data, x=var, y='Contagem', title=f"Contagem para {var.replace("_", " ")}", labels={var: var, 'Contagem': 'Número de Ocorrências'}, width=600, height=400)
    fig.update_layout(title_x=0.5)
    
    # Exibindo o gráfico
    fig.show()

1. Nível de Estresse

    Os dados estão bem distribuição, há uma grande quantidade de pessoas com alto, baixo e nível médio de estresse.

2. Condição Saúde Mental

    Os dados mostram que 2476 pessoas apresentam Bournout, ou seja, excesso de trabalho. Embora Ansiedade e Depressão tenham um número preocupante.

3. Acesso a Recursos Saúde Mental

    Pouco mais da metade dos colaboradores não possuem acesso a recursos de saúde mental, é um ponto que a empresa deve se atentar e tomar providências.

4. Mudança Produtividade

    Cerca de 1737 pessoas apresentam um descréssimo na produtividade.

5. Satisficação Trabalho Remoto

    As respostas estão bem equilibradas. Mas é importante entender porque há tantas pessoas insatisfeitas.

6. Ativdade Física

    A maior respondeu que pratica atividade física semanalmente.

7. Qualidade Sono

    Cerca de 1685 pessoas responderam que tevem sono ruim, isso é um forte indicativo do alto número de inprodutividade.

#### Relação de gênero com saúde mental

In [60]:
# Lista das variáveis para análise
variables = [
    "Nivel_Estresse", "Condicao_Saude_Mental", "Satisfacao_Trabalho_Remoto", 
    "Atividade_Fisica", "Qualidade_Sono"
]

# Loop para criar boxplots para cada variável em relação ao Gênero
for var in variables:
    # Contando as ocorrências de cada valor único, agrupado por Gênero
    count_data = df_saude_mental.groupby(['Genero', var]).size().reset_index(name='Contagem').sort_values("Contagem", ascending=False)

    fig = px.bar(
        count_data, x=var, y="Contagem", color="Genero",
        title=f"Relação entre Gênero e {var.replace('_', ' ')}", 
        labels={"Genero": "Gênero", var.replace("_", " "): var.replace("_", " ")}, 
        width=600, height=400
    )

    fig.update_layout(title_x=0.5)
    
    # Exibindo o gráfico
    fig.show()

O objetivo desta análise é verificar por gênero como está a saúde mental. Como os dados estão bem distribuídos, fica um pouco difícil se um determinado gênero tem mais estresse que outro.

#### Relação do cargo com saúde mental

In [63]:
# Lista das variáveis para análise
variables = [
    "Nivel_Estresse", "Condicao_Saude_Mental", "Satisfacao_Trabalho_Remoto", 
    "Atividade_Fisica", "Qualidade_Sono"
]

# Loop para criar boxplots para cada variável em relação ao Cargo
for var in variables:
    # Contando as ocorrências de cada valor único, agrupado por Cargo
    count_data = df_saude_mental.groupby(['Cargo', var]).size().reset_index(name='Contagem').sort_values("Contagem", ascending=False)

    fig = px.bar(
        count_data, x=var, y="Contagem", color="Cargo",
        title=f"Relação entre Cargo e {var.replace('_', ' ')}", 
        labels={"Cargo": "Cargo", var.replace("_", " "): var.replace("_", " ")}, 
        width=600, height=400
    )

    fig.update_layout(title_x=0.5)
    
    # Exibindo o gráfico
    fig.show()

#### Relação da indústria com saúde mental

In [64]:
# Lista das variáveis para análise
variables = [
    "Nivel_Estresse", "Condicao_Saude_Mental", "Satisfacao_Trabalho_Remoto", 
    "Atividade_Fisica", "Qualidade_Sono"
]

# Loop para criar boxplots para cada variável em relação ao Indústria
for var in variables:
    # Contando as ocorrências de cada valor único, agrupado por Indústria
    count_data = df_saude_mental.groupby(['Industria', var]).size().reset_index(name='Contagem').sort_values("Contagem", ascending=False)

    fig = px.bar(
        count_data, x=var, y="Contagem", color="Industria",
        title=f"Relação entre Indústria e {var.replace('_', ' ')}", 
        labels={"Industria": "Industria", var.replace("_", " "): var.replace("_", " ")}, 
        width=600, height=400
    )

    fig.update_layout(title_x=0.5)
    
    # Exibindo o gráfico
    fig.show()

#### Relação do local de trabalho com saúde mental

In [66]:
# Lista das variáveis para análise
variables = [
    "Nivel_Estresse", "Condicao_Saude_Mental", "Satisfacao_Trabalho_Remoto", 
    "Atividade_Fisica", "Qualidade_Sono"
]

# Loop para criar boxplots para cada variável em relação ao Local de Trabalho
for var in variables:
    # Contando as ocorrências de cada valor único, agrupado por Local de Trabalho
    count_data = df_saude_mental.groupby(['Local_Trabalho', var]).size().reset_index(name='Contagem').sort_values("Contagem", ascending=False)

    fig = px.bar(
        count_data, x=var, y="Contagem", color="Local_Trabalho",
        title=f"Relação entre Local de Trabalho e {var.replace('_', ' ')}", 
        labels={"Local_Trabalho": "Local de Trabalho", var.replace("_", " "): var.replace("_", " ")}, 
        width=600, height=400
    )

    fig.update_layout(title_x=0.5)
    
    # Exibindo o gráfico
    fig.show()

#### Relação entre Cargo e Horas Trabalhadas

In [69]:
# Calculando a média de horas trabalhadas por cargo
df_industria = df_saude_mental.groupby('Cargo')['Horas_Trabalhadas_Semana'].mean().reset_index()

# Criando o gráfico de barras
fig = px.bar(
    df_industria, x='Cargo', y='Horas_Trabalhadas_Semana', 
    title='Média de Horas Trabalhadas por Indústria',
    labels={'Horas_Trabalhadas_Semana': 'Média de Horas Trabalhadas por Semana', 'Cargo': 'Cargo'},
    width=800, height=500
)

# Exibindo o gráfico
fig.show()

Na média todos os cargos trabalham em média 40 horas semanais, então a quantidade horas pode não ser um indicativo de estresse ou bournout.