# 📊 Estudo de Caso: Produtividade no Trabalho Remoto

Este notebook apresenta uma análise exploratória do dataset **Remote Work Productivity**, obtido no Kaggle.  
O objetivo é compreender a relação entre:
- Tipo de trabalho (remoto ou presencial)
- Quantidade de horas trabalhadas
- Nível de bem-estar dos colaboradores  
e sua **produtividade**.

## 🔹 1. Importar bibliotecas

Nesta etapa, importamos as bibliotecas essenciais:
- `pandas`: manipulação e análise de dados
- `matplotlib` e `seaborn`: visualização de dados (gráficos)

Também configuramos o estilo dos gráficos para deixá-los mais bonitos.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuração para gráficos
plt.style.use("seaborn-v0_8")
sns.set_palette("pastel")

## 🔹 2. Upload do arquivo CSV

Aqui fazemos o upload do arquivo `remote_work_productivity.csv`, baixado do Kaggle.  
No Google Colab, é exibida uma janela para selecionar o arquivo do computador.

In [None]:
from google.colab import files

print("Selecione o arquivo CSV baixado do Kaggle (remote_work_productivity.csv)")
uploaded = files.upload()
file_name = list(uploaded.keys())[0]

## 🔹 3. Carregar e explorar os dados

Após carregar o CSV, é importante:
- Visualizar as primeiras linhas (`head`)
- Analisar a estrutura das colunas (`info`)
- Ver estatísticas descritivas (`describe`)

In [None]:
df = pd.read_csv(file_name)

print("\n Primeiras linhas do dataset:")
display(df.head())

print("\n Estrutura do dataset:")
print(df.info())

print("\n Estatísticas básicas:")
display(df.describe(include="all"))

## 🔹 4. Padronização de nomes das colunas

Renomeamos algumas colunas para nomes mais intuitivos:

In [None]:
df.rename(columns={
    "Work_Setup": "Employment_Type",
    "Hours_Worked": "Hours_Worked_Per_Week",
    "Productivity": "Productivity_Score",
    "Wellbeing": "Well_Being_Score"
}, inplace=True)

## 🔹 5. Limpeza de dados

Nesta etapa removemos valores nulos (linhas incompletas).

In [None]:
print("\n Limpando valores nulos...")
df_clean = df.dropna()
print(f"Linhas antes: {len(df)}, depois da limpeza: {len(df_clean)}")

## 🔹 6. Análise exploratória com gráficos

In [None]:
# --- Produtividade média por tipo de trabalho ---
if "Employment_Type" in df_clean.columns and "Productivity_Score" in df_clean.columns:
    prod_media = df_clean.groupby("Employment_Type")["Productivity_Score"].mean().reset_index()

    plt.figure(figsize=(6,4))
    sns.barplot(data=prod_media, x="Employment_Type", y="Productivity_Score")
    plt.title("Produtividade Média por Tipo de Trabalho")
    plt.ylabel("Produtividade média")
    plt.xlabel("Tipo de trabalho")
    plt.show()
else:
    print(" Colunas esperadas (Employment_Type, Productivity_Score) não encontradas")

# --- Relação Horas trabalhadas vs Produtividade ---
if "Hours_Worked_Per_Week" in df_clean.columns and "Productivity_Score" in df_clean.columns:
    plt.figure(figsize=(6,4))
    sns.scatterplot(data=df_clean, x="Hours_Worked_Per_Week", y="Productivity_Score", alpha=0.6)
    plt.title("Horas Trabalhadas vs Produtividade")
    plt.xlabel("Horas semanais trabalhadas")
    plt.ylabel("Produtividade")
    plt.show()
else:
    print(" Colunas esperadas (Hours_Worked_Per_Week, Productivity_Score) não encontradas")

# --- Bem-estar vs Produtividade ---
if "Well_Being_Score" in df_clean.columns and "Productivity_Score" in df_clean.columns:
    if df_clean["Well_Being_Score"].nunique() <= 10:
        plt.figure(figsize=(6,4))
        sns.boxplot(data=df_clean, x="Well_Being_Score", y="Productivity_Score")
        plt.title("Produtividade por Nível de Bem-estar")
        plt.xlabel("Bem-estar")
        plt.ylabel("Produtividade")
        plt.show()
    else:
        plt.figure(figsize=(6,4))
        sns.scatterplot(data=df_clean, x="Well_Being_Score", y="Productivity_Score", alpha=0.6)
        plt.title("Produtividade vs Bem-estar")
        plt.xlabel("Bem-estar")
        plt.ylabel("Produtividade")
        plt.show()
else:
    print(" Coluna 'Well_Being_Score' não encontrada. Pulei essa análise.")