<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/bullseye.svg" width="20" height="20"> *Objetivo*
=

Existe uma discussão corrente sobre políticas de retorno ao escritório após o fim da pandemia de COVID-19. Essa discussão gira em torno da necessidade das empresas em aumentar a produtividade e o engajamento dos seus funcionários. Entretanto, são poucas as análises feitas sobre a percepção dos profissionais que trabalham remotamente com relação à produtividade, ao estresse e ao equilíbrio entre vida profissional e pessoal. Nesse sentido, foi escolhido um conjunto de dados com estes indicadores para responder as seguintes perguntas:
1. Qual o nível médio da produtividade percebida por esses trabalhadores?
2. Qual o nível médio do nível de estresse percebido por esses trabalhadores?
3. Qual o nível médio do equilíbrio entre trabalho e vida pessoal percebido por esses trabalhadores?
4. Como a quantidade de e-mails enviados impacta na percepção de produtividade e no nível de estresse?
5. Como a quantidade de reuniões realizadas impacta na percepção de produtividade, de nível de estresse e equilíbrio entre trabalho e vida pessoal?
6. Como estar ativo fisicamente impacta os indicadores de produtividade, nível de estresse e equilírio entre trabalho e vida pessoal?
7. Como a quantidade de tempo em frente à tela por dia impacta esses indicadores?
8. Como a duração do sono impacta nesses indicadores?
9. Como a quantidade de horas trabalhadas por dia impacta esses indicadores?

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/database.svg" width="20" height="20"> *Coleta de Dados*
=

Para realizar essas análises, utilizamos a base de dados:
- Nome do conjunto de dados: Global Remote Work & Wellbeing Dataset
- Descrição: Análise da produtividade, saúde mental e equilíbrio entre vida profissional e pessoal no trabalho remoto.
- Formato dos dados: CSV
- Fonte dos dados: A estrutura conceitual para o conjunto de dados foi influenciada por informações coletadas de ferramentas de produtividade (monitorando horas de trabalho diárias, tempo de tela e volume de e-mail), dispositivos de saúde vestíveis (capturando atividade física, como contagem de passos e duração do sono) e pesquisas com funcionários (relatando métricas subjetivas, como produtividade, estresse e satisfação com o equilíbrio entre vida pessoal e profissional). Pesquisas publicadas e relatórios do setor sobre trabalho remoto, incluindo estudos disponíveis em plataformas como Kaggle e artigos de veículos de notícias respeitáveis, informaram os intervalos e distribuições realistas usados no conjunto de dados.
- Acesso: Os dados são públicos, gratuitos, estão normalizados e anonimizados.
- Link: https://www.kaggle.com/datasets/adilshamim8/global-remote-work-and-wellbeing-dataset/data 
- Qualidade dos dados: Alta
- Responsável: Adil Shamim
- Data da última atualização: Fevereiro de 2025




Esses dados foram coletados e armazenados na plataforma Databricks Community onde também foi feito o desenvolvimento para a realização das análises. 


In [0]:
%sql
CREATE OR REPLACE TABLE hive_metastore.default.catalogo_arquivo_fonte(
Employee_ID VARCHAR(30) COMMENT 'Identificador único e anônimo atribuído a cada funcionário.',
Daily_Working_Hours DECIMAL(10,2) COMMENT 'Número total de horas que um funcionário se dedica ao trabalho em um dia.',
Screen_Time DECIMAL(10,2) COMMENT 'Duração total (em horas) que um funcionário passa em frente a telas digitais durante o dia de trabalho.',
Meetings_Attended DECIMAL(10,2) COMMENT 'Contagem de reuniões das quais o funcionário participa durante um dia.',
Emails_Sent DECIMAL(10,2) COMMENT 'Número de e-mails enviados pelo funcionário em um dia.',
Productivity_Score INTEGER COMMENT 'Classificação que indica a produtividade percebida ou medida pelo funcionário no dia.',
Stress_Level INTEGER COMMENT 'Pontuação auto-relatada que captura o nível de estresse experimentado pelo funcionário durante o dia.',
Physical_Activity_Steps DECIMAL(10,2) COMMENT 'Total de passos registrados por dispositivos vestíveis refletindo o nível de atividade física do funcionário ao longo do dia.',
Sleep_Duration DECIMAL(10,2) COMMENT 'Número de horas que um funcionário dormiu durante a noite anterior, conforme registrado por dispositivos vestíveis ou autorrelato.',
Work_Life_Balance_Satisfaction INTEGER COMMENT 'Pontuação de satisfação auto-relatada, em uma escala de 1 a 10, que mede o quão bem um funcionário sente que está equilibrando as demandas do trabalho com a vida pessoal.'
)

In [0]:
%sql
describe table hive_metastore.default.catalogo_arquivo_fonte

col_name,data_type,comment
Employee_ID,varchar(30),Identificador único e anônimo atribuído a cada funcionário.
Daily_Working_Hours,"decimal(10,2)",Número total de horas que um funcionário se dedica ao trabalho em um dia.
Screen_Time,"decimal(10,2)",Duração total (em horas) que um funcionário passa em frente a telas digitais durante o dia de trabalho.
Meetings_Attended,"decimal(10,2)",Contagem de reuniões das quais o funcionário participa durante um dia.
Emails_Sent,"decimal(10,2)",Número de e-mails enviados pelo funcionário em um dia.
Productivity_Score,int,Classificação que indica a produtividade percebida ou medida pelo funcionário no dia.
Stress_Level,int,Pontuação auto-relatada que captura o nível de estresse experimentado pelo funcionário durante o dia.
Physical_Activity_Steps,"decimal(10,2)",Total de passos registrados por dispositivos vestíveis refletindo o nível de atividade física do funcionário ao longo do dia.
Sleep_Duration,"decimal(10,2)","Número de horas que um funcionário dormiu durante a noite anterior, conforme registrado por dispositivos vestíveis ou autorrelato."
Work_Life_Balance_Satisfaction,int,"Pontuação de satisfação auto-relatada, em uma escala de 1 a 10, que mede o quão bem um funcionário sente que está equilibrando as demandas do trabalho com a vida pessoal."


In [0]:

# File location and type
file_location = "/FileStore/tables/global_remote_work_wellbeing-1.csv"
file_type = "csv"

# CSV options
first_row_is_header = "true"
delimiter = ";"

work_remote_wellbeing_df = spark.read.format("csv").option("header","true").option("sep",";").load("/FileStore/tables/global_remote_work_wellbeing-1.csv")

display(work_remote_wellbeing_df)

Employee_ID,Daily_Working_Hours,Screen_Time,Meetings_Attended,Emails_Sent,Productivity_Score,Stress_Level,Physical_Activity_Steps,Sleep_Duration,Work_Life_Balance_Satisfaction
E00001,7.0,5.6,5,30,3,5,11501,5.8,4
E00002,11.6,5.3,1,30,5,6,5742,8.7,2
E00003,9.9,4.2,3,21,8,4,4852,4.7,1
E00004,8.8,7.3,4,99,1,9,11928,4.3,2
E00005,5.2,6.3,4,87,2,3,7665,7.9,7
E00006,5.2,9.1,6,48,7,2,10325,6.0,2
E00007,4.5,3.2,7,88,1,3,14744,6.3,4
E00008,10.9,7.5,2,27,5,5,2502,8.7,5
E00009,8.8,8.3,5,29,10,1,13911,6.9,3
E00010,9.7,8.3,0,96,8,10,2636,7.3,4


Os dados foram importados como string.

In [0]:
%sql CREATE DATABASE IF NOT EXISTS raw;

In [0]:

work_remote_wellbeing_df.write.mode("overwrite").saveAsTable("raw.tb_work_remote_wellbeing")
sqlContext.sql('show tables from raw').show()

+--------+--------------------+-----------+
|database|           tableName|isTemporary|
+--------+--------------------+-----------+
|     raw|tb_work_remote_we...|      false|
+--------+--------------------+-----------+



In [0]:
%sql
SELECT * 
FROM raw.tb_work_remote_wellbeing
LIMIT 10;



Employee_ID,Daily_Working_Hours,Screen_Time,Meetings_Attended,Emails_Sent,Productivity_Score,Stress_Level,Physical_Activity_Steps,Sleep_Duration,Work_Life_Balance_Satisfaction
E00001,7.0,5.6,5,30,3,5,11501,5.8,4
E00002,11.6,5.3,1,30,5,6,5742,8.7,2
E00003,9.9,4.2,3,21,8,4,4852,4.7,1
E00004,8.8,7.3,4,99,1,9,11928,4.3,2
E00005,5.2,6.3,4,87,2,3,7665,7.9,7
E00006,5.2,9.1,6,48,7,2,10325,6.0,2
E00007,4.5,3.2,7,88,1,3,14744,6.3,4
E00008,10.9,7.5,2,27,5,5,2502,8.7,5
E00009,8.8,8.3,5,29,10,1,13911,6.9,3
E00010,9.7,8.3,0,96,8,10,2636,7.3,4


<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/eye.svg" width="20" height="20"> *Qualidade dos dados*
=

In [0]:
%sql
SELECT count(DISTINCT Employee_ID)
FROM raw.tb_work_remote_wellbeing
WHERE Employee_ID IS NOT NULL


count(DISTINCT Employee_ID)
10000


In [0]:
%sql
SELECT DISTINCT Employee_ID
FROM raw.tb_work_remote_wellbeing
WHERE Employee_ID IS NOT NULL

Employee_ID
E00001
E00039
E00196
E00346
E00498
E00538
E00696
E00863
E00885
E01155


Verificamos que a coluna Employee_ID possui valores únicos e não nulos. Além disso, os dados estão anominizados respeitando a LGPD.

In [0]:
%sql
SELECT cast(Daily_Working_Hours AS DECIMAL(10,2)) AS Daily_Working_Hours, count(*) AS qt
FROM raw.tb_work_remote_wellbeing
GROUP BY Daily_Working_Hours
ORDER BY cast(Daily_Working_Hours AS DECIMAL(10,2))



Daily_Working_Hours,qt
4.0,52
4.1,130
4.2,126
4.3,128
4.4,132
4.5,134
4.6,141
4.7,132
4.8,126
4.9,117


Podemos perceber que a coluna Daily_Working_Hours possui uma distruição uniforme entre 4 e 12h trabalhadas por dia. Para realizar a carga na próxima camada e facilitar as análises finais será feita a discretização dos valores encontrados.

In [0]:
%sql
SELECT cast(Screen_Time AS DECIMAL(10,2)) AS Screen_Time, count(*) AS qt
FROM raw.tb_work_remote_wellbeing
GROUP BY  cast(Screen_Time AS DECIMAL(10,2))
ORDER BY cast(Screen_Time AS DECIMAL(10,2))



Screen_Time,qt
3.0,61
3.1,156
3.2,141
3.3,138
3.4,147
3.5,148
3.6,137
3.7,146
3.8,136
3.9,120


Percebemos que a coluna Screen_Time possui uma distruição uniforme entre 3 e 10h. Para realizar a carga na próxima camada e facilitar as análises finais será feita a discretização dos valores encontrados.

In [0]:
%sql
SELECT cast(Meetings_Attended AS DECIMAL(10,2)) AS Meetings_Attended, count(*) AS qt
FROM raw.tb_work_remote_wellbeing
GROUP BY Meetings_Attended
ORDER BY cast(Meetings_Attended AS DECIMAL(10,2))

Meetings_Attended,qt
0.0,1239
1.0,1203
2.0,1235
3.0,1236
4.0,1356
5.0,1217
6.0,1248
7.0,1266


A coluna Meetings_Attended possui uma distruição uniforme entre 0 e 7.

In [0]:
%sql
SELECT cast(Emails_Sent AS DECIMAL(10,2)) AS Emails_Sent, count(*) AS qt
FROM raw.tb_work_remote_wellbeing
GROUP BY Emails_Sent
ORDER BY cast(Emails_Sent AS decimal(10,2))

Emails_Sent,qt
5.0,96
6.0,98
7.0,95
8.0,111
9.0,121
10.0,106
11.0,106
12.0,97
13.0,95
14.0,103


Percebemos que a coluna Emails_Sent possui uma distruição uniforme entre 5 e 99. Para realizar a carga na próxima camada e facilitar as análises finais será feita a discretização dos valores encontrados.

In [0]:
%sql
SELECT  count(Productivity_Score) AS qt, 
        min(cast(Productivity_Score AS INT)) AS vl_min, 
        max(cast(Productivity_Score AS INT)) AS vl_max
FROM raw.tb_work_remote_wellbeing
WHERE Productivity_Score IS NOT NULL

qt,vl_min,vl_max
10000,1,10


Verificamos que o indicador Productivity_Score não possui valores nulos e que eles variam entre 1 a 10.

In [0]:
%sql
SELECT  count(Stress_Level) AS qt,
        min(cast(Stress_Level AS INT)) AS vl_min, 
        max(cast(Stress_Level AS INT)) AS vl_max        
FROM raw.tb_work_remote_wellbeing
WHERE Stress_Level IS NOT NULL

qt,vl_min,vl_max
10000,1,10


Verificamos que o indicador Stress_Level não possui valores nulos e que eles variam entre 1 a 10.

In [0]:
%sql
SELECT cast(Physical_Activity_Steps AS DECIMAL(10,2)) AS Physical_Activity_Steps, count(*) AS qt
FROM raw.tb_work_remote_wellbeing
GROUP BY Physical_Activity_Steps
ORDER BY cast(Physical_Activity_Steps AS DECIMAL(10,2))

Physical_Activity_Steps,qt
1000.0,2
1001.0,2
1005.0,1
1006.0,1
1007.0,4
1009.0,2
1011.0,1
1013.0,2
1016.0,1
1018.0,2


Esta coluna possui mais de 7 mil registros em um intervalo de distruição entre 1000 e 14000. Dessa forma, será feita a discretização dos valores encontrados para facilitar as análises futuras.

In [0]:
%sql
SELECT cast(Sleep_Duration AS DECIMAL(10,2)) as Sleep_Duration, count(*) AS qt
FROM raw.tb_work_remote_wellbeing
GROUP BY Sleep_Duration
ORDER BY cast(Sleep_Duration AS DECIMAL(10,2))

Sleep_Duration,qt
4.0,102
4.1,190
4.2,206
4.3,216
4.4,204
4.5,186
4.6,181
4.7,189
4.8,197
4.9,202


Percebemos que a coluna Sleep_Duration possui uma distruição uniforme entre 4 e 9 horas. Para realizar a carga na próxima camada e facilitar as análises finais será feita a discretização dos valores encontrados.

In [0]:
%sql
SELECT  count(Work_Life_Balance_Satisfaction) AS qt,
        min(cast(Work_Life_Balance_Satisfaction AS INT)) AS vl_min, 
        max(cast(Work_Life_Balance_Satisfaction AS INT)) AS vl_max  
FROM raw.tb_work_remote_wellbeing
WHERE Work_Life_Balance_Satisfaction IS NOT NULL

qt,vl_min,vl_max
10000,1,10


Verificamos que o indicador Work_Life_Balance_Satisfaction não possui valores nulos. E, que eles variam entre 1 a 10.

In [0]:
%sql 
DROP DATABASE trusted CASCADE

In [0]:
%sql 
CREATE DATABASE IF NOT EXISTS trusted;

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/cubes.svg" width="20" height="20"> *Modelagem da camada trusted*
=


Dadas as análises anteriores de cada campo da tabela na raw, podemos inferir que os campos Employee_ID, Daily_Working_Hours, Screen_Time, Meetings_Attended, Emails_Sent, Physical_Activity_Steps, Sleep_Duration influenciam os indicadores Productivity_Score, Stress_Level e Work_Life_Balance_Satisfaction. Assim, foi escolhido o esquema estrela que será formado pelas dimensões dm_employee_id, dm_working_hour, dm_screen_time, dm_meeting_attended, dm_email_sent, dm_physical_activity_step, dm_sleep_duration e a fato fp_remote_work_wellbeing que contem os indicadores em questão.

Ver imagem em readme.md

In [0]:
%sql
CREATE OR REPLACE TABLE trusted.dm_employee_id(
  cd_employee VARCHAR(30) COMMENT 'Código único para cada empregado' 
)


In [0]:
%sql
DESCRIBE TABLE trusted.dm_employee_id

col_name,data_type,comment
cd_employee,varchar(30),Código único para cada empregado


In [0]:
%sql
CREATE OR REPLACE TABLE trusted.dm_working_hour(
    cd_working_hour     INT COMMENT 'Chave única da dimensão.',
    desc_working_hour   VARCHAR(30) COMMENT 'Descrição da quantidade de horas trabalhadas no dia.',
    vl_ini_working_hour DECIMAL(10,2) COMMENT 'Valor inicial de horas trabalhadas no dia, sendo o valor mínimo 4h.',
    vl_end_working_hour DECIMAL(10,2) COMMENT'Valor final de horas trabalhadas no dia, sendo o valor máximo 12h.'
)


In [0]:
%sql
DESCRIBE TABLE trusted.dm_working_hour

col_name,data_type,comment
cd_working_hour,int,Chave única da dimensão.
desc_working_hour,varchar(30),Descrição da quantidade de horas trabalhadas no dia.
vl_ini_working_hour,"decimal(10,2)","Valor inicial de horas trabalhadas no dia, sendo o valor mínimo 4h."
vl_end_working_hour,"decimal(10,2)","Valor final de horas trabalhadas no dia, sendo o valor máximo 12h."


In [0]:
%sql
CREATE OR REPLACE TABLE trusted.dm_screen_time(
    cd_screen_time      INT COMMENT 'Chave única da dimensão.',
    desc_screen_time    VARCHAR(30) COMMENT 'Descrição do tempo de tela.',
    vl_ini_screen_time  DECIMAL(10,2) COMMENT 'Valor inicial de tempo de tela, sendo o valor mínimo 3h.',
    vl_end_screen_time  DECIMAL(10,2) COMMENT 'Valor final de tempo de tela, sendo o valor máximo 10h.'
)


In [0]:
%sql
DESCRIBE TABLE trusted.dm_screen_time

col_name,data_type,comment
cd_screen_time,int,Chave única da dimensão.
desc_screen_time,varchar(30),Descrição do tempo de tela.
vl_ini_screen_time,"decimal(10,2)","Valor inicial de tempo de tela, sendo o valor mínimo 3h."
vl_end_screen_time,"decimal(10,2)","Valor final de tempo de tela, sendo o valor máximo 10h."


In [0]:
%sql
CREATE OR REPLACE TABLE trusted.dm_meeting_attended(
    cd_meeting_attended     INT COMMENT 'Chave única da dimensão.',
    desc_meeting_attended   VARCHAR(30) COMMENT 'Descrição da quantidade de reuniões realizadas.',
    vl_ini_meeting_attended DECIMAL(10,2) COMMENT 'Valor inicial da quantidade de reuniões realizadas, sendo 0 o mínimo.',
    vl_end_meeting_attended DECIMAL(10,2) COMMENT 'Valor final da quantidade de reuniões realizadas, sendo 7 o máximo.'
)


In [0]:
%sql
DESCRIBE TABLE trusted.dm_meeting_attended

col_name,data_type,comment
cd_meeting_attended,int,Chave única da dimensão.
desc_meeting_attended,varchar(30),Descrição da quantidade de reuniões realizadas.
vl_ini_meeting_attended,"decimal(10,2)","Valor inicial da quantidade de reuniões realizadas, sendo 0 o mínimo."
vl_end_meeting_attended,"decimal(10,2)","Valor final da quantidade de reuniões realizadas, sendo 7 o máximo."


In [0]:
%sql
CREATE OR REPLACE TABLE trusted.dm_email_sent(
    cd_email_sent       INT COMMENT 'Chave única da dimensão.',
    desc_email_sent     VARCHAR(30) COMMENT 'Descrição da quantidade de e-mails enviados.',
    vl_ini_email_sent   DECIMAL(10,2) COMMENT 'Valor inicial da quantidade de e-mails enviados, sendo 5 o mínimo.',
    vl_end_email_sent   DECIMAL(10,2) COMMENT 'Valor final da quantidade de e-mails enviados, sendo 99 o máximo.'
)


In [0]:
%sql
DESCRIBE TABLE trusted.dm_email_sent

col_name,data_type,comment
cd_email_sent,int,Chave única da dimensão.
desc_email_sent,varchar(30),Descrição da quantidade de e-mails enviados.
vl_ini_email_sent,"decimal(10,2)","Valor inicial da quantidade de e-mails enviados, sendo 5 o mínimo."
vl_end_email_sent,"decimal(10,2)","Valor final da quantidade de e-mails enviados, sendo 99 o máximo."


In [0]:
%sql
CREATE OR REPLACE TABLE trusted.dm_physical_activity_step(
  cd_physical_activity_step     INT COMMENT 'Chave única da dimensão.',
  desc_physical_activity_step   VARCHAR(30) COMMENT 'Descrição da quantidade de passos dados durante o dia.',
  vl_ini_physical_activity_step DECIMAL(10,2) COMMENT 'Valor inicial da quantidade de passos dados durante o dia, sendo o mínimo 1000 passos',
  vl_end_physical_activity_step DECIMAL(10,2) COMMENT 'Valor final da quantidade de passos dados durante o dia, sendo o máximo 15000 passos.'
)


In [0]:
%sql
DESCRIBE TABLE trusted.dm_physical_activity_step

col_name,data_type,comment
cd_physical_activity_step,int,Chave única da dimensão.
desc_physical_activity_step,varchar(30),Descrição da quantidade de passos dados durante o dia.
vl_ini_physical_activity_step,"decimal(10,2)","Valor inicial da quantidade de passos dados durante o dia, sendo o mínimo 1000 passos"
vl_end_physical_activity_step,"decimal(10,2)","Valor final da quantidade de passos dados durante o dia, sendo o máximo 15000 passos."


In [0]:
%sql
CREATE OR REPLACE TABLE trusted.dm_sleep_duration (
    cd_sleep_duration      INT COMMENT 'Chave única da dimensão.',
    desc_sleep_duration    VARCHAR(30) COMMENT 'Descrição da duração do sono.',
    vl_ini_sleep_duration  DECIMAL(10,2) COMMENT 'Valor inicial da faixa de tempo da duração do sono, sendo o mínimo 4h.',
    vl_end_sleep_duration  DECIMAL(10,2) COMMENT 'Valor final da faixa de tempo da duração do , sendo o máximo 9h.'
)


In [0]:
%sql
DESCRIBE TABLE trusted.dm_sleep_duration

col_name,data_type,comment
cd_sleep_duration,int,Chave única da dimensão.
desc_sleep_duration,varchar(30),Descrição da duração do sono.
vl_ini_sleep_duration,"decimal(10,2)","Valor inicial da faixa de tempo da duração do sono, sendo o mínimo 4h."
vl_end_sleep_duration,"decimal(10,2)","Valor final da faixa de tempo da duração do , sendo o máximo 9h."


In [0]:
%sql
CREATE OR REPLACE TABLE trusted.fp_remote_work_wellbeing(
cd_employee                         VARCHAR(30) COMMENT 'Código único para cada empregado',
cd_working_hour                     INT COMMENT 'Chave única da dimensão de horas trabalhadas por dia',
cd_screen_time                      INT COMMENT 'Chave única da dimensão de tempo de tela diariamente.',
cd_meeting_attended                 INT COMMENT 'Chave única da dimensão de reuniões realizadas por dia.',
cd_email_sent                       INT COMMENT 'Chave única da dimensão de e-mails enviados diariamente.',
cd_physical_activity_step           INT COMMENT 'Chave única da dimensão de quantidade de passos dados em um dia.',     
cd_sleep_duration                   INT COMMENT 'Chave única da dimensão de duração do sono.',
vl_productivity_score               INT COMMENT 'Valor percebido de produtividade, na escala de 1 a 10, em um dia.',
vl_stress_level                     INT COMMENT 'Valor percebido de nível de estresse, na escala de 1 a 10, por dia.',
vl_work_life_balance_satisfaction   INT COMMENT 'Valor percebido de satisfação entre vida profissional e pessoal, na escala de 1 a 10.'
)


In [0]:
%sql
DESCRIBE TABLE trusted.fp_remote_work_wellbeing

col_name,data_type,comment
cd_employee,varchar(30),Código único para cada empregado
cd_working_hour,int,Chave única da dimensão de horas trabalhadas por dia
cd_screen_time,int,Chave única da dimensão de tempo de tela diariamente.
cd_meeting_attended,int,Chave única da dimensão de reuniões realizadas por dia.
cd_email_sent,int,Chave única da dimensão de e-mails enviados diariamente.
cd_physical_activity_step,int,Chave única da dimensão de quantidade de passos dados em um dia.
cd_sleep_duration,int,Chave única da dimensão de duração do sono.
vl_productivity_score,int,"Valor percebido de produtividade, na escala de 1 a 10, em um dia."
vl_stress_level,int,"Valor percebido de nível de estresse, na escala de 1 a 10, por dia."
vl_work_life_balance_satisfaction,int,"Valor percebido de satisfação entre vida profissional e pessoal, na escala de 1 a 10."


<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/gears.svg" width="25" height="25"> *Carga de dados na camada trusted*
=

In [0]:
%sql
INSERT INTO trusted.dm_employee_id (cd_employee) 
  SELECT Employee_ID
  FROM raw.tb_work_remote_wellbeing

num_affected_rows,num_inserted_rows
10000,10000


In [0]:
%sql
INSERT INTO trusted.dm_working_hour VALUES (1,'4h a 6h trabalhadas',4.00,6.00);
INSERT INTO trusted.dm_working_hour VALUES (2,'6h a 8h trabalhadas',6.01,8.00);
INSERT INTO trusted.dm_working_hour VALUES (3,'8h a 10h trabalhadas',8.01,10.00);
INSERT INTO trusted.dm_working_hour VALUES (4,'10h a 12h trabalhadas',10.01,12.01);



num_affected_rows,num_inserted_rows
1,1


In [0]:
%sql
INSERT INTO trusted.dm_screen_time VALUES (1,'3h a 5h usando tela',3.00,5.00);
INSERT INTO trusted.dm_screen_time VALUES (2,'5h a 7h usando tela',5.01,7.00);
INSERT INTO trusted.dm_screen_time VALUES (3,'7h a 9h usando tela',7.01,9.00);
INSERT INTO trusted.dm_screen_time VALUES (4,'Entre 9 e 10h usando tela',9.01,10.01);

num_affected_rows,num_inserted_rows
1,1


In [0]:
%sql
INSERT INTO trusted.dm_meeting_attended VALUES (1,'Nenhuma reunião',0.00,0.00);
INSERT INTO trusted.dm_meeting_attended VALUES (2,'Até 2 reuniões',1.00,2.00);
INSERT INTO trusted.dm_meeting_attended VALUES (3,'De 3 a 5 reuniões',3.00,5.00);
INSERT INTO trusted.dm_meeting_attended VALUES (4,'Mais que 6 reuniões',6.00,7.01);


num_affected_rows,num_inserted_rows
1,1


In [0]:
%sql
INSERT INTO trusted.dm_email_sent VALUES (1,'05 a 10 e-mails',05.00,10.00);
INSERT INTO trusted.dm_email_sent VALUES (2,'10 a 20 e-mails',10.01,20.00);
INSERT INTO trusted.dm_email_sent VALUES (3,'20 a 30 e-mails',20.01,30.00);
INSERT INTO trusted.dm_email_sent VALUES (4,'30 a 40 e-mails',30.01,40.00);
INSERT INTO trusted.dm_email_sent VALUES (5,'41 a 50 e-mails',40.01,50.00);
INSERT INTO trusted.dm_email_sent VALUES (6,'50 a 60 e-mails',50.01,60.00);
INSERT INTO trusted.dm_email_sent VALUES (7,'60 a 70 e-mails',60.01,70.00);
INSERT INTO trusted.dm_email_sent VALUES (8,'70 a 80 e-mails',70.01,80.00);
INSERT INTO trusted.dm_email_sent VALUES (9,'Acima de 80 e-mails',80.01,99.01);

num_affected_rows,num_inserted_rows
1,1


In [0]:
%sql
INSERT INTO trusted.dm_physical_activity_step VALUES (1,'1000 a 2000 passos',1000.00,2000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (2,'2000 a 3000 passos',2000.01,3000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (3,'3000 a 4000 passos',3000.01,4000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (4,'4000 a 5000 passos',4000.01,5000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (5,'5000 a 6000 passos',5000.01,6000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (6,'6000 a 7000 passos',6000.01,7000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (7,'7000 a 8000 passos',7000.01,8000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (8,'8000 a 9000 passos',8000.01,9000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (9,'9000 a 10000 passos',9000.01,10000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (10,'10000 a 11000 passos',10000.01,11000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (11,'11000 a 12000 passos',11000.01,12000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (12,'12000 a 13000 passos',12000.01,13000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (13,'13000 a 14000 passos',13000.01,14000.00);
INSERT INTO trusted.dm_physical_activity_step VALUES (14,'Acima de 14000 passos',14000.01,15000.00);

num_affected_rows,num_inserted_rows
1,1


In [0]:
%sql
INSERT INTO trusted.dm_sleep_duration VALUES (1,'4h a 5h',4.00,5.00);
INSERT INTO trusted.dm_sleep_duration VALUES (2,'5h a 6h',5.01,6.00);
INSERT INTO trusted.dm_sleep_duration VALUES (3,'6h a 7h',6.01,7.00);
INSERT INTO trusted.dm_sleep_duration VALUES (4,'7h a 8h',7.01,8.00);
INSERT INTO trusted.dm_sleep_duration VALUES (5,'8h a 9h',8.01,9.01);



num_affected_rows,num_inserted_rows
1,1


In [0]:
%sql
INSERT INTO trusted.fp_remote_work_wellbeing 
SELECT	
		cd_employee,		
		cd_working_hour,
		cd_screen_time,
		cd_meeting_attended,
		cd_email_sent,
		cd_physical_activity_step,
		cd_sleep_duration,
		cast(R.Productivity_Score AS INTEGER) AS vl_productivity_score,
		cast(R.Stress_Level AS INTEGER) AS vl_stress_level,
		cast(R.Work_Life_Balance_Satisfaction AS INTEGER) AS vl_work_life_balance_satisfaction
FROM	raw.tb_work_remote_wellbeing R
INNER JOIN trusted.dm_employee_id E
	ON E.cd_employee = R.Employee_ID
INNER JOIN trusted.dm_working_hour WH
	ON cast(R.Daily_Working_Hours AS DECIMAL(10,2)) >= WH.vl_ini_working_hour
	AND cast(R.Daily_Working_Hours AS DECIMAL(10,2)) <= WH.vl_end_working_hour 
INNER JOIN trusted.dm_screen_time ST
	ON cast(R.Screen_Time AS DECIMAL(10,2)) >= ST.vl_ini_screen_time
	AND cast(R.Screen_Time AS DECIMAL(10,2)) <= ST.vl_end_screen_time
INNER JOIN trusted.dm_meeting_attended MA
	ON cast(R.Meetings_Attended AS DECIMAL(10,2)) >= MA.vl_ini_meeting_attended
	AND cast(R.Meetings_Attended AS DECIMAL(10,2)) <= MA.vl_end_meeting_attended
INNER JOIN trusted.dm_email_sent ES
	ON cast(R.Emails_Sent AS DECIMAL(10,2)) >= ES.vl_ini_email_sent
	AND cast(R.Emails_Sent AS DECIMAL(10,2)) <= ES.vl_end_email_sent
INNER JOIN trusted.dm_physical_activity_step PA
	ON cast(R.Physical_Activity_Steps AS DECIMAL(10,2)) >= PA.vl_ini_physical_activity_step
	AND cast(R.Physical_Activity_Steps AS DECIMAL(10,2)) <= PA.vl_end_physical_activity_step
INNER JOIN trusted.dm_sleep_duration SD
	ON cast(R.Sleep_Duration AS DECIMAL(10,2)) >= SD.vl_ini_sleep_duration
	AND cast(R.Sleep_Duration AS DECIMAL(10,2)) <= SD.vl_end_sleep_duration


num_affected_rows,num_inserted_rows
10000,10000


Conforme esperado, a quantidade de registros inseridos na tabela fato é a mesma quantidade de registros da tabela de origem na camada raw.

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/magnifying-glass-chart.svg" width="20" height="20"> *Análise de Dados*
=

In [0]:
%sql
SELECT   AVG(vl_productivity_score) AS avg_productivity,
         AVG(vl_stress_level) AS avg_stress_level,
         AVG(vl_work_life_balance_satisfaction) AS avg_work_life_balance
FROM trusted.fp_remote_work_wellbeing 


avg_productivity,avg_stress_level,avg_work_life_balance
5.539,5.528,5.4762


Para o grupo de 10.000 empregados em trabalho remoto, temos:
1. Qual o nível médio da produtividade percebida por esses trabalhadores?

    A média de produtividade percebida é 5.54.
2. Qual o nível médio do estresse percebido por esses trabalhadores?

    A média de nível de estresse é 5.53.
3. Qual o nível médio do equilíbrio entre vida profissional e pessoal percebido por esses trabalhadores?

    A média de equilíbrio é 5.48.

Essas médias serão utilizadas como base de comparação para as demais análises.


In [0]:
%sql
CREATE DATABASE IF NOT EXISTS refined

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/cubes.svg" width="25" height="25"> *Modelagem da camada refined*
=


Para realizar a análise dos indicadores com intuito de responder as perguntas formuladas será criada uma tabela flat na camada refined para cada tabela de dimensão na camada refined.

In [0]:
%sql
CREATE  refined.tb_email_sent AS
   SELECT   B.desc_email_sent,
            AVG(a.vl_productivity_score) AS avg_productivity,
            AVG(a.vl_stress_level) AS avg_stress_level,
            AVG(a.vl_work_life_balance_satisfaction) AS avg_work_life_balance,
            COUNT(DISTINCT A.CD_EMPLOYEE) AS qt_employee
   FROM trusted.fp_remote_work_wellbeing A
   INNER JOIN trusted.dm_email_sent B ON
      A.cd_email_sent = B.cd_email_sent
   GROUP BY B.desc_email_sent
;

num_affected_rows,num_inserted_rows


In [0]:
%sql
ALTER TABLE refined.tb_email_sent CHANGE COLUMN avg_productivity COMMENT 'Média do valor de produtividade percebida.';
ALTER TABLE refined.tb_email_sent CHANGE COLUMN avg_stress_level COMMENT 'Média do valor de nível de estresse.';
ALTER TABLE refined.tb_email_sent CHANGE COLUMN avg_work_life_balance COMMENT 'Média do valor de satisfação entre vida profissional e pessoal.';
ALTER TABLE refined.tb_email_sent CHANGE COLUMN qt_employee COMMENT 'Quantidade de empregados.';

In [0]:
%sql
DESCRIBE TABLE refined.tb_email_sent

col_name,data_type,comment
desc_email_sent,varchar(30),Descrição da quantidade de e-mails enviados.
avg_productivity,double,Média do valor de produtividade percebida.
avg_stress_level,double,Média do valor de nível de estresse.
avg_work_life_balance,double,Média do valor de satisfação entre vida profissional e pessoal.
qt_employee,bigint,Quantidade de empregados.


In [0]:
%sql
SELECT * 
FROM refined.tb_email_sent


desc_email_sent,avg_productivity,avg_stress_level,avg_work_life_balance,qt_employee
10 a 20 e-mails,5.52881698685541,5.619817997977755,5.470171890798786,989
Acima de 80 e-mails,5.533002481389578,5.553846153846154,5.438213399503722,2015
60 a 70 e-mails,5.3963133640553,5.485714285714286,5.465437788018433,1085
20 a 30 e-mails,5.6125116713352,5.726423902894491,5.582633053221288,1071
41 a 50 e-mails,5.6091417910447765,5.336753731343284,5.422574626865671,1072
30 a 40 e-mails,5.6536585365853655,5.535609756097561,5.689756097560975,1025
70 a 80 e-mails,5.545797922568461,5.518413597733711,5.3201133144475925,1059
05 a 10 e-mails,5.467304625199362,5.555023923444976,5.547049441786284,627
50 a 60 e-mails,5.485335856196784,5.4153263954588455,5.419110690633869,1057


Databricks visualization. Run in Databricks to view.

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/brain.svg" width="20" height="20"> *Solução do Problema*

Como a quantidade de e-mails enviados impactam na percepção de produtividade, nível de estresse e equilíbrio entre trabalho e vida pessoal?

**_Produtividade:_**
O indicador cresce até apresentar o valor máximo na faixa de 30 a 40 e-mails enviados. Após isso, ele decresce ficando sempre abaixo da média geral. Para os trabalhadores remotos, podemos inferir que entre 30 a 40 e-mails por dia são suficientes para atingir uma produtividade ótima. 

**_Nível de estresse:_**
O nível de estresse alcança seu valor máximo na faixa de 20 a 30 e-mails enviados e após essa faixa segue uma tendência de valor abaixo da média geral. Assim sendo, percebemos que ao atingir o nível de estresse máximo o aumento no volume de e-mails não gera aumento no indicador.

**_Equilíbrio entre trabalho e vida pessoal:_** 
Este indicador possuiu o comportamento similar ao indicador de produtividade, tendo o seu ponto ótimo na faixa de 30 a 40 e-mails enviados. Este dado parece ser coerente uma vez que, intuitivamente, associamos uma boa produtividade ao equilíbrio entre vida profissinal e pessoal.






In [0]:
%sql
CREATE OR REPLACE TABLE refined.tb_meeting_attended AS
   SELECT   B.desc_meeting_attended ,
            AVG(a.vl_productivity_score) AS AVG_PRODUCTIVITY,
            AVG(a.vl_stress_level) AS AVG_STRESS_LEVEL,
            AVG(a.vl_work_life_balance_satisfaction) AS AVG_WORK_LIFE_BALANCE,
            COUNT(DISTINCT A.CD_EMPLOYEE) AS QT_EMPLOYEE
   FROM trusted.fp_remote_work_wellbeing A
   INNER JOIN trusted.dm_meeting_attended B ON
      A.cd_meeting_attended  = B.cd_meeting_attended 
   GROUP BY B.desc_meeting_attended

num_affected_rows,num_inserted_rows


In [0]:
%sql 
ALTER TABLE refined.tb_meeting_attended  CHANGE COLUMN avg_productivity COMMENT 'Média do valor de produtividade percebida.';
ALTER TABLE refined.tb_meeting_attended  CHANGE COLUMN avg_stress_level COMMENT 'Média do valor de nível de estresse.';
ALTER TABLE refined.tb_meeting_attended  CHANGE COLUMN avg_work_life_balance COMMENT 'Média do valor de satisfação entre vida profissional e pessoal.';
ALTER TABLE refined.tb_meeting_attended  CHANGE COLUMN qt_employee COMMENT 'Quantidade de empregados.';

In [0]:
%sql
DESCRIBE TABLE refined.tb_meeting_attended 

col_name,data_type,comment
desc_meeting_attended,varchar(30),Descrição da quantidade de reuniões realizadas.
AVG_PRODUCTIVITY,double,Média do valor de produtividade percebida.
AVG_STRESS_LEVEL,double,Média do valor de nível de estresse.
AVG_WORK_LIFE_BALANCE,double,Média do valor de satisfação entre vida profissional e pessoal.
QT_EMPLOYEE,bigint,Quantidade de empregados.


In [0]:
%sql
SELECT * 
FROM refined.tb_meeting_attended

desc_meeting_attended,AVG_PRODUCTIVITY,AVG_STRESS_LEVEL,AVG_WORK_LIFE_BALANCE,QT_EMPLOYEE
Mais que 6 reuniões,5.570803500397773,5.596260938743039,5.56642800318218,2514
De 3 a 5 reuniões,5.4436860068259385,5.526122341822001,5.436334996061959,3809
Nenhuma reunião,5.570621468926554,5.468926553672317,5.38498789346247,1239
Até 2 reuniões,5.639048400328138,5.490566037735849,5.491796554552912,2438


Databricks visualization. Run in Databricks to view.

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/brain.svg" width="20" height="20"> *Solução do Problema*

Como a quantidade de reuniões realizadas por dia impacta na percepção de produtividade e de nível de estresse?

**_Produtividade:_**
A percepção de produtividade é maior para os empregados que realizam até 2 reuniões decaindo ao valor mínimo da série para a faixa de 3 a 5 reuniões. Entretanto, o aumento do indicador na faixa 'Mais de 6 reuniões' pode estar associado a facilidade que o trabalho remoto traz para troca de contexto e a realização de multiplas reuniões em um intevalo curto de tempo.

**_Nível de estresse:_**
Conforme esperado, o aumento no número de reuniões realizadas implica diretamente o aumento na percepção do nível de estresse dos trabalhadores remotos.

**_Equilíbrio entre trabalho e vida pessoal:_**
Percebemos que esse indicador tem comportamento similar ao indicador de nível de estresse, onde o aumento no número de reuniões realizadas durante o dia implica o aumento do indicador de equilibrio. Este fato pode ser explicado pela facilidade do empregado em poder conciliar atividades pessoais ou otimizar o seu tempo o que seria mais complexo com o trabalho presencial.

In [0]:
%sql
CREATE OR REPLACE TABLE refined.tb_physical_activity AS
   SELECT   B.desc_physical_activity_step,
            AVG(a.vl_productivity_score) AS AVG_PRODUCTIVITY,
            AVG(a.vl_stress_level) AS AVG_STRESS_LEVEL,
            AVG(a.vl_work_life_balance_satisfaction) AS AVG_WORK_LIFE_BALANCE,
            COUNT(DISTINCT A.CD_EMPLOYEE) AS QT_EMPLOYEE
   FROM TRUSTED.fp_remote_work_wellbeing A
   INNER JOIN TRUSTED.dm_physical_activity_step B ON
      A.CD_physical_activity_step = B.cd_physical_activity_step
   GROUP BY B.desc_physical_activity_step
   

num_affected_rows,num_inserted_rows


In [0]:
%sql 
ALTER TABLE refined.tb_physical_activity  CHANGE COLUMN avg_productivity COMMENT 'Média do valor de produtividade percebida.';
ALTER TABLE refined.tb_physical_activity  CHANGE COLUMN avg_stress_level COMMENT 'Média do valor de nível de estresse.';
ALTER TABLE refined.tb_physical_activity  CHANGE COLUMN avg_work_life_balance COMMENT 'Média do valor de satisfação entre vida profissional e pessoal.';
ALTER TABLE refined.tb_physical_activity  CHANGE COLUMN qt_employee COMMENT 'Quantidade de empregados.';

In [0]:
%sql
DESCRIBE TABLE refined.tb_physical_activity

col_name,data_type,comment
desc_physical_activity_step,varchar(30),Descrição da quantidade de passos dados durante o dia.
AVG_PRODUCTIVITY,double,Média do valor de produtividade percebida.
AVG_STRESS_LEVEL,double,Média do valor de nível de estresse.
AVG_WORK_LIFE_BALANCE,double,Média do valor de satisfação entre vida profissional e pessoal.
QT_EMPLOYEE,bigint,Quantidade de empregados.


In [0]:
%sql 
select * 
from refined.tb_physical_activity a inner join trusted.dm_physical_activity_step b 
  on a.desc_physical_activity_step = b.desc_physical_activity_step
order by b.cd_physical_activity_step

desc_physical_activity_step,AVG_PRODUCTIVITY,AVG_STRESS_LEVEL,AVG_WORK_LIFE_BALANCE,QT_EMPLOYEE,cd_physical_activity_step,desc_physical_activity_step.1,vl_ini_physical_activity_step,vl_end_physical_activity_step
1000 a 2000 passos,5.470845481049563,5.619533527696793,5.381924198250728,686,1,1000 a 2000 passos,1000.0,2000.0
2000 a 3000 passos,5.430051813471502,5.522020725388601,5.492227979274611,772,2,2000 a 3000 passos,2000.01,3000.0
3000 a 4000 passos,5.539106145251397,5.58659217877095,5.476256983240224,716,3,3000 a 4000 passos,3000.01,4000.0
4000 a 5000 passos,5.640672782874618,5.672782874617737,5.443425076452599,654,4,4000 a 5000 passos,4000.01,5000.0
5000 a 6000 passos,5.581486310299869,5.581486310299869,5.374185136897001,767,5,5000 a 6000 passos,5000.01,6000.0
6000 a 7000 passos,5.463483146067416,5.573033707865169,5.485955056179775,712,6,6000 a 7000 passos,6000.01,7000.0
7000 a 8000 passos,5.319001386962552,5.528432732316228,5.463245492371706,721,7,7000 a 8000 passos,7000.01,8000.0
8000 a 9000 passos,5.454918032786885,5.351092896174864,5.547814207650274,732,8,8000 a 9000 passos,8000.01,9000.0
9000 a 10000 passos,5.743849493487699,5.444283646888567,5.493487698986975,691,9,9000 a 10000 passos,9000.01,10000.0
10000 a 11000 passos,5.607438016528926,5.472451790633609,5.429752066115703,726,10,10000 a 11000 passos,10000.01,11000.0


Databricks visualization. Run in Databricks to view.

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/brain.svg" width="20" height="20"> *Solução do Problema*

Como estar ativo fisicamente impacta os indicadores de produtividade, nível de estresse e equilírio entre trabalho e vida pessoal?

**_Produtividade:_**
De uma forma geral, o aumento no número de passos parece contribuir para a aumento do indicador de produtividade percebida chegando a um valor ótimo na faixa de 9000 a 10000 passos. Os outliers nas faixas 6000 a 9000 passos e '12000 a 13000 passos' deveriam ser estudadas, pois ficam abaixo da média global.

**_Nível de estresse:_**
Conforme esperado, o aumento no número de passos reflete uma redução do nível de estresse percebido. O indicador aumenta a partir de 12000 passos o que pode estar relacionado a um excesso de atividade ou fadiga.

**_Equilíbrio entre trabalho e vida pessoal:_**
Assim como no indicador de produtividade, o aumento do número de passos parece impactar diretamente na melhora da percepção do equilíbrio entre trabalho e vida pessoal.

In [0]:
%sql
CREATE OR REPLACE TABLE refined.tb_screen_time AS
   SELECT   B.desc_screen_time,
            AVG(a.vl_productivity_score) AS AVG_PRODUCTIVITY,
            AVG(a.vl_stress_level) AS AVG_STRESS_LEVEL,
            AVG(a.vl_work_life_balance_satisfaction) AS AVG_WORK_LIFE_BALANCE,
            COUNT(DISTINCT A.CD_EMPLOYEE) AS QT_EMPLOYEE
   FROM trusted.fp_remote_work_wellbeing A
   INNER JOIN trusted.dm_screen_time B ON
      A.cd_screen_time = B.cd_screen_time
   GROUP BY B.desc_screen_time

num_affected_rows,num_inserted_rows


In [0]:
%sql 
ALTER TABLE refined.tb_screen_time  CHANGE COLUMN avg_productivity COMMENT 'Média do valor de produtividade percebida.';
ALTER TABLE refined.tb_screen_time  CHANGE COLUMN avg_stress_level COMMENT 'Média do valor de nível de estresse.';
ALTER TABLE refined.tb_screen_time CHANGE COLUMN avg_work_life_balance COMMENT 'Média do valor de satisfação entre vida profissional e pessoal.';
ALTER TABLE refined.tb_screen_time CHANGE COLUMN qt_employee COMMENT 'Quantidade de empregados.';

In [0]:
%sql
DESCRIBE TABLE refined.tb_screen_time

col_name,data_type,comment
desc_screen_time,varchar(30),Descrição do tempo de tela.
AVG_PRODUCTIVITY,double,Média do valor de produtividade percebida.
AVG_STRESS_LEVEL,double,Média do valor de nível de estresse.
AVG_WORK_LIFE_BALANCE,double,Média do valor de satisfação entre vida profissional e pessoal.
QT_EMPLOYEE,bigint,Quantidade de empregados.


In [0]:
%sql
SELECT * 
FROM refined.tb_screen_time

desc_screen_time,AVG_PRODUCTIVITY,AVG_STRESS_LEVEL,AVG_WORK_LIFE_BALANCE,QT_EMPLOYEE
3h a 5h usando tela,5.570781032078103,5.570781032078103,5.552998605299861,2868
7h a 9h usando tela,5.568469101123595,5.490870786516854,5.469452247191011,2848
5h a 7h usando tela,5.4871080139372825,5.484668989547038,5.4365853658536585,2870
Entre 9 e 10h usando tela,5.520509193776521,5.603960396039604,5.414427157001414,1414


Databricks visualization. Run in Databricks to view.

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/brain.svg" width="20" height="20"> *Solução do Problema*

Como a quantidade de tempo em frente à tela por dia impacta esses indicadores?

**_Produtividade:_**
Não foi possível identificar um padrão de comportamento, pois a faixa '5h a 7h usando tela' possui muito inferior em relação as demais.

**_Nível de estresse:_**
Apesar do nível de estresse ser mais alto no faixa de maior tempo de tela, não foi possível identificar um padrão uma vez que no intervalo de 5h a 9h os valores são bem inferiores ao valor da faixa inicial e à média geral.

**_Equilíbrio entre trabalho e vida pessoal:_**
O mesmo ocorre nesse indicador, embora atinja o valor mínimo na faixa de maior tempo de tela não foi possível identificar um padrão considerando as demais faixas.

In [0]:
%sql
CREATE OR REPLACE TABLE refined.tb_sleep_duration AS
   SELECT   B.desc_sleep_duration,
            AVG(a.vl_productivity_score) AS AVG_PRODUCTIVITY,
            AVG(a.vl_stress_level) AS AVG_STRESS_LEVEL,
            AVG(a.vl_work_life_balance_satisfaction) AS AVG_WORK_LIFE_BALANCE,
            COUNT(DISTINCT A.CD_EMPLOYEE) AS QT_EMPLOYEE
   FROM trusted.fp_remote_work_wellbeing A
   INNER JOIN trusted.dm_sleep_duration B ON
      A.cd_sleep_duration = B.cd_sleep_duration
   GROUP BY B.desc_sleep_duration

num_affected_rows,num_inserted_rows


In [0]:
%sql 
ALTER TABLE refined.tb_sleep_duration  CHANGE COLUMN avg_productivity COMMENT 'Média do valor de produtividade percebida.';
ALTER TABLE refined.tb_sleep_duration CHANGE COLUMN avg_stress_level COMMENT 'Média do valor de nível de estresse.';
ALTER TABLE refined.tb_sleep_duration CHANGE COLUMN avg_work_life_balance COMMENT 'Média do valor de satisfação entre vida profissional e pessoal.';
ALTER TABLE refined.tb_sleep_duration CHANGE COLUMN qt_employee COMMENT 'Quantidade de empregados.';

In [0]:
%sql
DESCRIBE TABLE refined.tb_sleep_duration

col_name,data_type,comment
desc_sleep_duration,varchar(30),Descrição da duração do sono.
AVG_PRODUCTIVITY,double,Média do valor de produtividade percebida.
AVG_STRESS_LEVEL,double,Média do valor de nível de estresse.
AVG_WORK_LIFE_BALANCE,double,Média do valor de satisfação entre vida profissional e pessoal.
QT_EMPLOYEE,bigint,Quantidade de empregados.


In [0]:
%sql
SELECT *
FROM refined.tb_sleep_duration

desc_sleep_duration,AVG_PRODUCTIVITY,AVG_STRESS_LEVEL,AVG_WORK_LIFE_BALANCE,QT_EMPLOYEE
7h a 8h,5.625125125125125,5.561561561561562,5.461961961961962,1998
6h a 7h,5.54942871336314,5.493790362642821,5.46448087431694,2013
4h a 5h,5.494425593795444,5.532719340765875,5.412506059137179,2063
8h a 9h,5.4578125,5.577604166666666,5.5828125,1920
5h a 6h,5.566301096709871,5.476570289132602,5.4656031904287135,2006


Databricks visualization. Run in Databricks to view.

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/brain.svg" width="20" height="20"> *Solução do Problema*

Como o tempo de duração do sono impacta nesses indicadores?

**_Produtividade:_**
Conforme esperado o aumento na quantidade de horas de sono tem uma relação positiva com o indicador de produtividade percebida tendo seu ponto máximo na faixa de 7 a 8 horas de sono. O fato da percepção de produtividade diminuir na faixa de mais de 8h de sono precisaria de uma análise mais elaborada podendo estar associada a outros indicadores de bem estar..
 
**_Nível de estresse:_**
De forma contraituitiva o nível de estresse percebido aumenta conforme aumenta a quantidade de horas de sono. Esta relação precisaria ser estudada e entendida em mais detalhes para melhor avaliação deste resultado.

**_Equilíbrio entre trabalho e vida pessoal:_**
Podemos verificar que esse indicador possui o valor máximo na faixa de '8h a 9' de duração de sono. Este indicador parece estar coerente uma vez que o trabalho remoto tende a permitir que os trabalhadores aproveitem melhor a ausência do tempo de deslocamento para outras atividades, incluindo o sono.


In [0]:
%sql
CREATE OR REPLACE TABLE refined.tb_working_hour AS
   SELECT   B.desc_working_hour,
            AVG(a.vl_productivity_score) AS AVG_PRODUCTIVITY,
            AVG(a.vl_stress_level) AS AVG_STRESS_LEVEL,
            AVG(a.vl_work_life_balance_satisfaction) AS AVG_WORK_LIFE_BALANCE,
            COUNT(DISTINCT A.CD_EMPLOYEE) AS QT_EMPLOYEE
   FROM trusted.fp_remote_work_wellbeing A
   INNER JOIN trusted.dm_working_hour B ON
      A.cd_working_hour = B.cd_working_hour
   GROUP BY B.desc_working_hour

num_affected_rows,num_inserted_rows


In [0]:
%sql 
ALTER TABLE refined.tb_working_hour  CHANGE COLUMN avg_productivity COMMENT 'Média do valor de produtividade percebida.';
ALTER TABLE refined.tb_working_hour CHANGE COLUMN avg_stress_level COMMENT 'Média do valor de nível de estresse.';
ALTER TABLE refined.tb_working_hour CHANGE COLUMN avg_work_life_balance COMMENT 'Média do valor de satisfação entre vida profissional e pessoal.';
ALTER TABLE refined.tb_working_hour CHANGE COLUMN qt_employee COMMENT 'Quantidade de empregados.';

In [0]:
%sql 
DESCRIBE TABLE refined.tb_working_hour

col_name,data_type,comment
desc_working_hour,varchar(30),Descrição da quantidade de horas trabalhadas no dia.
AVG_PRODUCTIVITY,double,Média do valor de produtividade percebida.
AVG_STRESS_LEVEL,double,Média do valor de nível de estresse.
AVG_WORK_LIFE_BALANCE,double,Média do valor de satisfação entre vida profissional e pessoal.
QT_EMPLOYEE,bigint,Quantidade de empregados.


In [0]:
%sql
SELECT *
FROM refined.tb_working_hour

desc_working_hour,AVG_PRODUCTIVITY,AVG_STRESS_LEVEL,AVG_WORK_LIFE_BALANCE,QT_EMPLOYEE
6h a 8h trabalhadas,5.576291079812207,5.515258215962441,5.460485133020344,2556
4h a 6h trabalhadas,5.54510556621881,5.53358925143954,5.421880998080614,2605
8h a 10h trabalhadas,5.539298669891173,5.525997581620314,5.514308746473196,2481
10h a 12h trabalhadas,5.491518235793045,5.5377438507209495,5.51314673452078,2358


Databricks visualization. Run in Databricks to view.

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/brain.svg" width="20" height="20"> *Solução do Problema*

Como a quantidade quantidade de horas trabalhadas por dia impacta esses indicadores?

**_Produtividade:_**
De acordo com o esperado, podemos observar que a produtividade percebida possui seu valor máximo no intervalo 6h a 8h trabalhadas e esta  diminiu com o aumento da quantidade de horas trabalhadas. Esta distribuição parece ser coerente uma vez que mais horas de trabalho podem estar associadas a uma baixa produtividade ou dificuldades percebidas para a realização de atividades em modelo remoto.

**_Nível de estresse:_**
Analogamente, o nível de estresse possui seu valor mínimo no intervalo 6h a 8h trabalhadas e ele aumenta com o aumento da quantidade de horas trabalhadas.

**_Equilíbrio entre trabalho e vida pessoal:_**
Percebemos que esse indicador possui um comportamento linear, ou seja, ele aumenta com o aumento da quantidade de horas trabalhadas. Esse resultado vai de encontro com o esperado, e, provavelmente, este fato possa ser explicado pela facilidade do empregado em poder conciliar atividades pessoais ou otimizar o seu tempo o que seria mais complexo com o trabalho presencial.

<img src="https://raw.githubusercontent.com/FortAwesome/Font-Awesome/6.x/svgs/solid/user-graduate.svg" width="25" height="25"> *Autoavaliação*
=
