# PROJETO 3 - Análise de Condições Ocupacionais e Fatores Associados ao Trabalho Remoto

## **Introdução**

O trabalho remoto tem ganhado destaque nos últimos anos, especialmente com os avanços tecnológicos e mudanças no mercado de trabalho. Este projeto busca compreender como as condições ocupacionais e fatores associados, como nível de instrução, rendimento mensal e tipo de ocupação, influenciam a possibilidade de trabalho remoto no Brasil.

---

## **Objetivos**

- Identificar os fatores mais relevantes associados ao trabalho remoto.
- Construir modelos preditivos para estimar a probabilidade de trabalho remoto com base em condições ocupacionais.


---

## **Metodologia**

### **1. Fonte de Dados**
Os dados utilizados foram extraídos da Pesquisa Nacional por Amostra de Domicílios Contínua (PNAD), especificamente do **primeiro trimestre de 2023**.

### **2. Pré-Processamento**

## Variável Principal (Target)

A variável principal utilizada como **target** foi **`trabalho_remoto`**, que foi criada a partir da variável `VD4009` (Posição na ocupação e categoria do emprego no trabalho principal). O mapeamento para "Sim" ou "Não" foi realizado com base na elegibilidade para trabalho remoto, considerando as categorias de ocupação.

- **Sim (Trabalho Remoto):**
  - Empregado no setor privado com carteira assinada.
  - Empregado no setor público com carteira assinada.
  - Conta própria em atividades potencialmente remotas.
  - Militares e servidores estatutários em funções administrativas.
  - Profissionais liberais (diretores, técnicos, etc.).

- **Não (Não Trabalho Remoto):**
  - Trabalhador doméstico.
  - Trabalhador familiar auxiliar.
  - Ocupações manuais ou de difícil adaptação ao remoto.

**Refinamento com Nível de Instrução:** Adicionamos um critério de refinamento usando a variável VD3004, que representa o nível de instrução mais elevado alcançado. Apenas ocupações com nível técnico ou superior foram consideradas adequadas ao trabalho remoto.

**Filtragem Adicional com Ocupações Remotas:** Ocupações específicas, representadas pela coluna VD4011, foram usadas para ajustar ainda mais os critérios.

## Variáveis Explicativas (Features)

As variáveis explicativas selecionadas foram:

| **Código da Variável** | **Nome da Variável**                                                                                     | **Justificativa**                                                                                   |
|-------------------------|---------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------|
| **VD3005**              | Anos de estudo padronizado para o Ensino Fundamental (Sistema de 9 anos)                               | Nível de instrução pode influenciar a possibilidade de trabalho remoto.                             |
| **VD4011**              | Grupamentos ocupacionais do trabalho principal                                                         | Certas ocupações, como cargos administrativos e técnicos, são mais adequadas ao trabalho remoto.    |
| **VD4010**              | Grupamentos de atividade principal do empreendimento do trabalho principal                             | Determinados setores, como tecnologia e finanças, têm maior probabilidade de trabalho remoto.       |
| **VD4014**              | Faixa das horas efetivamente trabalhadas na semana de referência em todos os trabalhos                 | Trabalhadores remotos podem ter horas mais flexíveis.                                               |
| **VD4020**              | Rendimento mensal efetivo de todos os trabalhos                                                       | Trabalhos remotos podem estar associados a rendimentos mais elevados.                               |
| **VD4031**              | Horas habitualmente trabalhadas por semana em todos os trabalhos                                       | Padrões de trabalho remoto podem refletir em horas trabalhadas habitualmente.                       |
| **VD3004**              | Nível de instrução mais elevado alcançado                                                              | Níveis superiores de instrução frequentemente estão associados ao trabalho remoto.                  |

---
- **Seleção de Variáveis**:
  Foram selecionadas 13 variáveis relacionadas às condições ocupacionais, como:
  - **Nível de Instrução (VD3004)**.
  - **Rendimento Mensal Efetivo (VD4020)**.
  - **Faixa de Horas Trabalhadas (VD4014)**.
  - **Grupamentos Ocupacionais (VD4011)**.

- **Criação da Variável Alvo**:
  A variável `trabalho_remoto` foi criada para indicar se a ocupação permite trabalho remoto, com base em:
  - Tipo de ocupação.
  - Nível de instrução.
  - Grupamentos de atividades.

### **3. Modelagem**
- **Modelos Utilizados**:
  - **Regressão Logística**: Para capturar relações lineares entre as variáveis explicativas e o trabalho remoto.
  - **Random Forest**: Para capturar relações não lineares e avaliar a importância das variáveis.

## **Revisão Literária**

### Impactos da pandemia no trabalho remoto

"A pandemia COVID-19 foi o maior impulsionador do trabalho remoto, marcando um aumento global no número de profissionais que realizam suas atividades de casa. Porém, apesar da maior produtividade percebida, a satisfação dos trabalhadores em home office é geralmente menor quando comparada ao trabalho presencial." (Graça, 2021)  
UTL REPOSITORY

### Desigualdade de Renda e Acesso à Tecnologia
Em países em desenvolvimento, o acesso à educação e às tecnologias de comunicação tem potencial para reduzir desigualdades de renda. Tanbir Hossain observa que a conectividade digital em áreas rurais pode contribuir para oportunidades de trabalho e inclusão no mercado para grupos historicamente marginalizados. Este acesso pode nivelar as condições de competitividade, especialmente onde há infraestrutura limitada (Hossain, 2021).

### Aspectos ergonômicos e tecnológicos

"O teletrabalho não é apenas uma questão de localização física, mas também da adoção de novas tecnologias que possibilitam a realização das atividades à distância. Contudo, fatores como a precariedade da estrutura domiciliar podem impactar negativamente o desempenho e a saúde do trabalhador." (Bonnet et al., 2020)  
REVISTAFT

### Flexibilidade e desafios no trabalho remoto

"Trabalhadores consideram a flexibilidade de horários um benefício importante do regime remoto, mas enfrentam desafios como isolamento social, conflitos entre vida profissional e pessoal, e pressão por resultados." (Filardi, Castro e Zanini, 2020)  
REVISTAFT


---

In [1]:
import pandas as pd

# PRIMEIRO TRIMESTRE DE 2023
url1 = 'https://www.dropbox.com/scl/fi/fv6fli3jyuinijotw9v6b/pnad23_1.csv?rlkey=1nq6xfd1fn7guz4nyhvwslp7p&st=qpr7odgu&dl=1'



In [2]:
pnad23_1_all = pd.read_csv(url1, nrows=10)
pnad23_1_all.head(), pnad23_1_all.dtypes

(    Ano  Trimestre  UF  Capital  RM_RIDE        UPA  Estrato  V1008  V1014  \
 0  2023          1  11       11      NaN  110000016  1110011      1     10   
 1  2023          1  11       11      NaN  110000016  1110011      1     10   
 2  2023          1  11       11      NaN  110000016  1110011      2     10   
 3  2023          1  11       11      NaN  110000016  1110011      3     10   
 4  2023          1  11       11      NaN  110000016  1110011      3     10   
 
    V1016  ...    V1028191  V1028192  V1028193  V1028194  V1028195    V1028196  \
 0      2  ...  439.015749       0.0       0.0       0.0       0.0  378.334135   
 1      2  ...  439.015749       0.0       0.0       0.0       0.0  378.334135   
 2      2  ...  202.706446       0.0       0.0       0.0       0.0  184.494208   
 3      2  ...  447.575908       0.0       0.0       0.0       0.0  365.848120   
 4      2  ...  447.575908       0.0       0.0       0.0       0.0  365.848120   
 
    V1028197    V1028198    V1


### Seleção de Variáveis para Análise

Nesta etapa, estamos criando uma lista com as variáveis de interesse para a análise. 

- **VD3005**: Anos de estudo padronizado para o Ensino Fundamental (Sistema de 9 anos) - 1º tri/2012 - atual
- **VD4009**: Posição na ocupação e categoria do emprego no trabalho principal - 1º tri/2012 - atual
- **VD4010**: Grupamentos de atividade principal do empreendimento do trabalho principal - 1º tri/2012 - atual
- **VD4011**: Grupamentos ocupacionais do trabalho principal - 1º tri/2012 - atual
- **VD4014**: Faixa das horas efetivamente trabalhadas na semana de referência em todos os trabalhos - 1º tri/2012 - atual
- **VD4020**: Rendimento mensal efetivo de todos os trabalhos - 1º tri/2012 - atual
- **VD4031**: Horas habitualmente trabalhadas por semana em todos os trabalhos - 1º tri/2012 - atual
- **VD4007**: Posição na ocupação no trabalho principal da semana de referência - 1º tri/2012 - atual
- **VD4008**: Posição na ocupação no trabalho principal com subcategorias - 1º tri/2012 - atual
- **VD3004**: Nível de instrução mais elevado alcançado - 1º tri/2012 - atual
- **VD4016**: Rendimento mensal habitual do trabalho principal - 1º tri/2012 - atual
- **VD4018**: Tipo de remuneração habitualmente recebida em todos os trabalhos - 1º tri/2012 - atual
- **VD4035**: Horas efetivamente trabalhadas na semana de referência em todos os trabalhos - 1º tri/2012 - atual

Em seguida, utilizamos essas variáveis para carregar os dados relevantes do arquivo CSV, criando o DataFrame `df_limpo`.


In [3]:
# Criando uma lista com as variáveis comentários de nome e semestre/periodo
colunas = [
    "VD3005",  # Anos de estudo padronizado para o Ensino Fundamental (Sistema de 9 anos) - 1º tri/2012 - atual
    "VD4009",  # Posição na ocupação e categoria do emprego no trabalho principal - 1º tri/2012 - atual
    "VD4010",  # Grupamentos de atividade principal do empreendimento do trabalho principal - 1º tri/2012 - atual
    "VD4011",  # Grupamentos ocupacionais do trabalho principal - 1º tri/2012 - atual
    "VD4014",  # Faixa das horas efetivamente trabalhadas na semana de referência em todos os trabalhos - 1º tri/2012 - atual
    "VD4020",  # Rendimento mensal efetivo de todos os trabalhos - 1º tri/2012 - atual
    "VD4031",  # Horas habitualmente trabalhadas por semana em todos os trabalhos - 1º tri/2012 - atual
    "VD4007",  # Posição na ocupação no trabalho principal da semana de referência - 1º tri/2012 - atual
    "VD4008",  # Posição na ocupação no trabalho principal com subcategorias - 1º tri/2012 - atual
    "VD3004", # Nível de instrução mais elevado alcançado - 1º tri/2012 - atual
    "VD4016",  # Rendimento mensal habitual do trabalho principal - 1º tri/2012 - atual
    "VD4018",  # Tipo de remuneração habitualmente recebida em todos os trabalhos - 1º tri/2012 - atual
    "VD4035",  # Horas efetivamente trabalhadas na semana de referência em todos os trabalhos - 1º tri/2012 - atual
]
colunas
df_limpo = pd.read_csv(url1, usecols=colunas)
#df_limpo = pnad23_1_all[colunas]
#df_limpo.head()

### Criação de um dicionário de mapeamento

Para identificar se uma ocupação permite trabalho remoto, criamos um dicionário de mapeamento que associa cada código de posição na ocupação (`VD4009`) a uma resposta binária ("Sim" ou "Não"). Abaixo estão os critérios utilizados:

- **Sim (Trabalho Remoto):**
    - Empregado no setor privado com carteira assinada.
    - Empregado no setor público com carteira assinada.
    - Militar e servidor estatutário (podem incluir funções administrativas).
    - Empregador (dependendo da ocupação, pode ser remoto).
    - Conta própria (dependendo da ocupação).

- **Não (Não Trabalho Remoto):**
    - Empregado no setor privado sem carteira assinada.
    - Trabalhador doméstico com carteira assinada.
    - Trabalhador doméstico sem carteira assinada.
    - Empregado no setor público sem carteira assinada.
    - Trabalhador familiar auxiliar.
    - Ocupações mal definidas.

### Implementação do Mapeamento

Utilizamos o dicionário `mapa_trabalho_remoto` para mapear os códigos de posição na ocupação (`VD4009`) para a nova variável `trabalho_remoto` no DataFrame `df_limpo`.




In [5]:
# Criação de um dicionário de mapeamento
mapa_trabalho_remoto = {
    1: "Sim",  # Empregado no setor privado com carteira assinada
    2: "Não",  # Empregado no setor privado sem carteira assinada
    3: "Não",  # Trabalhador doméstico com carteira assinada
    4: "Não",  # Trabalhador doméstico sem carteira assinada
    5: "Sim",  # Empregado no setor público com carteira assinada
    6: "Não",  # Empregado no setor público sem carteira assinada
    7: "Sim",  # Militar e servidor estatutário (podem incluir funções administrativas)
    8: "Sim",  # Empregador (dependendo da ocupação, pode ser remoto)
    9: "Sim",  # Conta própria (dependendo da ocupação)
    10: "Não", # Trabalhador familiar auxiliar
    11: "Não"  # Ocupações mal definidas
}

# Criar a nova variável 'trabalho_remoto'
df_limpo['trabalho_remoto'] = df_limpo['VD4009'].map(mapa_trabalho_remoto)


### Refinar usando o nível de instrução

Nesta etapa, refinamos a variável `trabalho_remoto` utilizando o nível de instrução dos indivíduos. Apenas aqueles com nível de instrução "Superior completo" ou "Técnico completo" são considerados elegíveis para trabalho remoto.


# Refinar usando o nível de instrução
df_limpo['trabalho_remoto'] = df_limpo.apply(
    lambda row: "Sim" if row['trabalho_remoto'] == "Sim" and row['VD3004'] in ["Superior completo", "Técnico completo"]
    else "Não", axis=1
)


# Filtragem adicional

Filtragem adicional no DataFrame `df_limpo` para identificar ocupações que podem ser realizadas remotamente. A lista `ocupacoes_remotas` contém os códigos das ocupações que são elegíveis para trabalho remoto, como Diretores e gerentes, Profissionais das ciências e Trabalhadores administrativos.

A coluna `trabalho_remoto` do DataFrame `df_limpo` é atualizada com o valor "Sim" para as linhas onde o código da ocupação (`VD4011`) está presente na lista `ocupacoes_remotas`. Caso contrário, o valor original da coluna `trabalho_remoto` é mantido.

## Parâmetros
- `df_limpo`: DataFrame que contém os dados a serem filtrados.
- `ocupacoes_remotas`: Lista de códigos de ocupações que são elegíveis para trabalho remoto.

## Retorno
- Atualiza a coluna `trabalho_remoto` do DataFrame `df_limpo` com "Sim" para as ocupações elegíveis para trabalho remoto.

In [6]:

ocupacoes_remotas = [1, 2, 4]  # Ex.: Diretores e gerentes, Profissionais das ciências, Trabalhadores administrativos
df_limpo['trabalho_remoto'] = df_limpo.apply(
    lambda row: "Sim" if row['VD4011'] in ocupacoes_remotas else row['trabalho_remoto'], axis=1
)


### Verificação da Contagem de "Sim" e "Não"

Nesta etapa, verificamos a distribuição da variável `trabalho_remoto` para entender a quantidade de indivíduos que podem ou não trabalhar remotamente. A contagem de valores "Sim" e "Não" nos ajuda a identificar o equilíbrio das classes no dataset.

### Salvamento do DataFrame Modificado

Após a verificação, salvamos o DataFrame modificado em um arquivo CSV para futuras análises e modelagens. Este arquivo contém todas as transformações e variáveis necessárias para a análise do trabalho remoto.


In [7]:
# Verificar a contagem de "Sim" e "Não"
print(df_limpo['trabalho_remoto'].value_counts())

# Salvar o DataFrame modificado
df_limpo.to_csv("dados_com_trabalho_remoto.csv", index=False)

trabalho_remoto
Sim    156347
Não     43759
Name: count, dtype: int64
