📊 Desafio 57 — Análise de Funcionários de uma Empresa
📂 Dataset: dia_57_funcionarios.csv

Este conjunto de dados contém informações de 250 funcionários, como idade, setor, tempo de empresa, satisfação, salário, regime de trabalho e se houve demissão.

🔍 Tarefas:

- Qual é o percentual de funcionários demitidos na empresa?

- Qual setor apresenta a maior média salarial?

- Existe diferença na média de satisfação entre quem trabalha em home office e quem não trabalha?

Treine um modelo de classificação para prever se um funcionário será demitido. Sugestões:

- Use LogisticRegression ou RandomForestClassifier

- Aplique train_test_split

- Avalie com accuracy_score e classification_report

- Quais variáveis mais influenciaram o modelo?



In [23]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

In [6]:
df = pd.read_csv("dia_57_funcionarios.csv")
df.head()

Unnamed: 0,id_funcionario,idade,setor,anos_empresa,satisfacao,salario_mensal,home_office,demitido
0,1,36,Marketing,8.7,2.5,4116,Sim,0
1,2,43,RH,2.5,1.9,11788,Sim,0
2,3,26,TI,9.4,4.8,8437,Sim,0
3,4,43,RH,3.8,2.7,11260,Não,0
4,5,36,TI,14.0,4.7,2607,Sim,0


In [17]:
#Qual é o percentual de funcionários demitidos na empresa?
percent_demitidos = df["demitido"].value_counts(normalize=True) * 100
print(percent_demitidos.apply(lambda x: f"{x}%")[1])

18.0%


In [20]:
#Qual setor apresenta a maior média salarial?
setor_media_salario = df.groupby("setor")["salario_mensal"].mean().sort_values(ascending=False)
print(setor_media_salario)

setor
Marketing     7561.097561
Operações     7349.255814
RH            7307.560000
TI            7298.033333
Financeiro    6899.017857
Name: salario_mensal, dtype: float64


In [21]:
#Existe diferença na média de satisfação entre quem trabalha em home office e quem não trabalha?
media_satisfacao_homeoffice = df.groupby("home_office")["satisfacao"].mean()
print(media_satisfacao_homeoffice)

home_office
Não    3.053390
Sim    3.118182
Name: satisfacao, dtype: float64


In [34]:
#Treine um modelo de classificação para prever se um funcionário será demitido. Sugestões:
le_setor = LabelEncoder()
le_homeoffice = LabelEncoder()

df["setor"] = le_setor.fit_transform(df["setor"])
df["home_office"] = le_homeoffice.fit_transform(df["home_office"])

X = df.drop(["demitido"], axis=1)
y = df["demitido"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(f"Acurácia: {accuracy_score(y_test, y_pred)}")
print(classification_report(y_test, y_pred, zero_division=0))

importancias = pd.DataFrame({"variavel": X.columns, "importancia": model.feature_importances_})
print(importancias.sort_values("importancia", ascending=False))

Acurácia: 0.7866666666666666
              precision    recall  f1-score   support

           0       0.79      1.00      0.88        59
           1       0.00      0.00      0.00        16

    accuracy                           0.79        75
   macro avg       0.39      0.50      0.44        75
weighted avg       0.62      0.79      0.69        75

         variavel  importancia
5  salario_mensal     0.205213
0  id_funcionario     0.194236
4      satisfacao     0.179041
3    anos_empresa     0.172620
1           idade     0.153907
2           setor     0.074198
6     home_office     0.020785
