# Milestone 1 — Iniciação e Compreensão dos Dados

Neste notebook é realizada a exploração inicial do dataset **IBM HR Analytics Employee Attrition & Performance**, com o objetivo de compreender a sua estrutura, qualidade e características principais, no âmbito da fase de *Data Understanding* do modelo CRISP-DM.
# Autores: et al. (realizado por todos)

## 1. Importação das Bibliotecas

In [1]:
import pandas as pd
import numpy as np

print("Pandas versão:", pd.__version__)
print("NumPy versão:", np.__version__)
# Autores: et al. (realizado por todos)

Pandas versão: 2.2.2
NumPy versão: 2.0.2


## 2. Carregamento do Dataset

In [2]:
df = pd.read_csv(
    "/kaggle/input/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset/WA_Fn-UseC_-HR-Employee-Attrition.csv"
)

print("Dataset carregado com sucesso.")
# Autores: et al. (realizado por todos)

Dataset carregado com sucesso.


## 3. Visualização Inicial

In [3]:
df.head()
# Autores: et al. (realizado por todos)

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


## 4. Dimensão do Dataset

In [4]:
linhas, colunas = df.shape
print(f"O dataset contém {linhas} linhas e {colunas} colunas.")
# Autores: et al. (realizado por todos)

O dataset contém 1470 linhas e 35 colunas.


## 5. Estrutura e Tipos de Dados

In [5]:
df.info()
# Autores: et al. (realizado por todos)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Age                       1470 non-null   int64 
 1   Attrition                 1470 non-null   object
 2   BusinessTravel            1470 non-null   object
 3   DailyRate                 1470 non-null   int64 
 4   Department                1470 non-null   object
 5   DistanceFromHome          1470 non-null   int64 
 6   Education                 1470 non-null   int64 
 7   EducationField            1470 non-null   object
 8   EmployeeCount             1470 non-null   int64 
 9   EmployeeNumber            1470 non-null   int64 
 10  EnvironmentSatisfaction   1470 non-null   int64 
 11  Gender                    1470 non-null   object
 12  HourlyRate                1470 non-null   int64 
 13  JobInvolvement            1470 non-null   int64 
 14  JobLevel                

### Observações — Estrutura do Dataset

A análise do método `.info()` permite observar:

- O dataset contém **1470 registos**.
- Existem **35 variáveis**.
- **Não são observados valores nulos**.
- O dataset apresenta variáveis numéricas e categóricas.
- Algumas variáveis do tipo `object` representam categorias (ex.: `Department`, `JobRole`, `Attrition`).

**Conclusão:** O dataset encontra-se estruturalmente completo, não sendo necessária, nesta fase, uma intervenção para tratamento de valores em falta.
# Autor: Luís Figueira

## 6. Verificação de Valores Nulos

In [6]:
df.isnull().sum()
# Autor: Martim Ferreira

Age                         0
Attrition                   0
BusinessTravel              0
DailyRate                   0
Department                  0
DistanceFromHome            0
Education                   0
EducationField              0
EmployeeCount               0
EmployeeNumber              0
EnvironmentSatisfaction     0
Gender                      0
HourlyRate                  0
JobInvolvement              0
JobLevel                    0
JobRole                     0
JobSatisfaction             0
MaritalStatus               0
MonthlyIncome               0
MonthlyRate                 0
NumCompaniesWorked          0
Over18                      0
OverTime                    0
PercentSalaryHike           0
PerformanceRating           0
RelationshipSatisfaction    0
StandardHours               0
StockOptionLevel            0
TotalWorkingYears           0
TrainingTimesLastYear       0
WorkLifeBalance             0
YearsAtCompany              0
YearsInCurrentRole          0
YearsSince

## 7. Verificação de Duplicados

In [7]:
print(f"Número de duplicados: {df.duplicated().sum()}")
# Autor: Luís Figueira

Número de duplicados: 0


## 8. Número de Valores Únicos por Variável

In [8]:
df.nunique().sort_values()
# Autor: Martim Ferreira

EmployeeCount                  1
Over18                         1
StandardHours                  1
Attrition                      2
OverTime                       2
PerformanceRating              2
Gender                         2
BusinessTravel                 3
Department                     3
MaritalStatus                  3
RelationshipSatisfaction       4
StockOptionLevel               4
JobSatisfaction                4
EnvironmentSatisfaction        4
JobInvolvement                 4
WorkLifeBalance                4
Education                      5
JobLevel                       5
EducationField                 6
TrainingTimesLastYear          7
JobRole                        9
NumCompaniesWorked            10
PercentSalaryHike             15
YearsSinceLastPromotion       16
YearsWithCurrManager          18
YearsInCurrentRole            19
DistanceFromHome              29
YearsAtCompany                37
TotalWorkingYears             40
Age                           43
HourlyRate

## 9. Identificação e Remoção de Variáveis Irrelevantes

Foram identificadas variáveis sem valor preditivo:

- `EmployeeNumber`: identificador único do colaborador.
- `EmployeeCount`: valor constante (sempre 1).
- `Over18`: valor constante (sempre Y).
- `StandardHours`: valor constante (sempre 80).

Estas variáveis não contribuem para a capacidade preditiva do modelo e foram removidas para evitar ruído desnecessário.
# Autor: Luís Figueira

In [9]:
# Identificar colunas com variância zero (valor único)
print("Colunas constantes:", df.columns[df.nunique() == 1].tolist())

# Remover variáveis irrelevantes
colunas_remover = ["EmployeeNumber", "EmployeeCount", "Over18", "StandardHours"]
df = df.drop(columns=colunas_remover)

print(f"\nColunas removidas com sucesso. O dataset passou a ter {df.shape[1]} variáveis.")
# Autor: Luís Figueira

Colunas constantes: ['EmployeeCount', 'Over18', 'StandardHours']

Colunas removidas com sucesso. O dataset passou a ter 31 variáveis.


## 10. Separação de Variáveis Numéricas e Categóricas

In [10]:
variaveis_numericas = df.select_dtypes(include=["int64", "float64"]).columns
variaveis_categoricas = df.select_dtypes(include=["object"]).columns

print(f"Variáveis numéricas: {len(variaveis_numericas)}")
print(f"Variáveis categóricas: {len(variaveis_categoricas)}")
# Autor: Luís Figueira

Variáveis numéricas: 23
Variáveis categóricas: 8


## 11. Estatística Descritiva

In [11]:
df.describe()
# Autores: et al. (realizado por todos)

Unnamed: 0,Age,DailyRate,DistanceFromHome,Education,EnvironmentSatisfaction,HourlyRate,JobInvolvement,JobLevel,JobSatisfaction,MonthlyIncome,...,PerformanceRating,RelationshipSatisfaction,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,...,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,36.92381,802.485714,9.192517,2.912925,2.721769,65.891156,2.729932,2.063946,2.728571,6502.931293,...,3.153741,2.712245,0.793878,11.279592,2.79932,2.761224,7.008163,4.229252,2.187755,4.123129
std,9.135373,403.5091,8.106864,1.024165,1.093082,20.329428,0.711561,1.10694,1.102846,4707.956783,...,0.360824,1.081209,0.852077,7.780782,1.289271,0.706476,6.126525,3.623137,3.22243,3.568136
min,18.0,102.0,1.0,1.0,1.0,30.0,1.0,1.0,1.0,1009.0,...,3.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,30.0,465.0,2.0,2.0,2.0,48.0,2.0,1.0,2.0,2911.0,...,3.0,2.0,0.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,36.0,802.0,7.0,3.0,3.0,66.0,3.0,2.0,3.0,4919.0,...,3.0,3.0,1.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,43.0,1157.0,14.0,4.0,4.0,83.75,3.0,3.0,4.0,8379.0,...,3.0,4.0,1.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0
max,60.0,1499.0,29.0,5.0,4.0,100.0,4.0,5.0,4.0,19999.0,...,4.0,4.0,3.0,40.0,6.0,4.0,40.0,18.0,15.0,17.0


## 12. Valores Mínimos e Máximos das Variáveis Numéricas

In [12]:
min_max_df = df[variaveis_numericas].agg(["min", "max"]).transpose()
print("--- Amplitude das Variáveis Numéricas (Min/Max) ---")
print(min_max_df)
# Autor: Mateus Afonso

--- Amplitude das Variáveis Numéricas (Min/Max) ---
                           min    max
Age                         18     60
DailyRate                  102   1499
DistanceFromHome             1     29
Education                    1      5
EnvironmentSatisfaction      1      4
HourlyRate                  30    100
JobInvolvement               1      4
JobLevel                     1      5
JobSatisfaction              1      4
MonthlyIncome             1009  19999
MonthlyRate               2094  26999
NumCompaniesWorked           0      9
PercentSalaryHike           11     25
PerformanceRating            3      4
RelationshipSatisfaction     1      4
StockOptionLevel             0      3
TotalWorkingYears            0     40
TrainingTimesLastYear        0      6
WorkLifeBalance              1      4
YearsAtCompany               0     40
YearsInCurrentRole           0     18
YearsSinceLastPromotion      0     15
YearsWithCurrManager         0     17


## 13. Distribuição da Variável Alvo

Verificação do desequilíbrio de classes na variável `Attrition`.
# Autor: Mateus Afonso

In [13]:
attrition_perc = df["Attrition"].value_counts(normalize=True) * 100
print("Distribuição da Variável Alvo (Desequilíbrio de Classes)")
print(f"  Fica (No):  {attrition_perc['No']:.2f}%")
print(f"  Sai (Yes): {attrition_perc['Yes']:.2f}%")
# Autor: Mateus Afonso

Distribuição da Variável Alvo (Desequilíbrio de Classes)
  Fica (No):  83.88%
  Sai (Yes): 16.12%


## 14. Valores Únicos das Variáveis Categóricas

In [14]:
for coluna in df.columns:
    print(f"\nVariável: {coluna}")
    print(f"Nº de valores únicos: {df[coluna].nunique()}")
    print("Valores únicos:", df[coluna].unique())
# Autor: Luís Figueira


Variável: Age
Nº de valores únicos: 43
Valores únicos: [41 49 37 33 27 32 59 30 38 36 35 29 31 34 28 22 53 24 21 42 44 46 39 43
 50 26 48 55 45 56 23 51 40 54 58 20 25 19 57 52 47 18 60]

Variável: Attrition
Nº de valores únicos: 2
Valores únicos: ['Yes' 'No']

Variável: BusinessTravel
Nº de valores únicos: 3
Valores únicos: ['Travel_Rarely' 'Travel_Frequently' 'Non-Travel']

Variável: DailyRate
Nº de valores únicos: 886
Valores únicos: [1102  279 1373 1392  591 1005 1324 1358  216 1299  809  153  670 1346
  103 1389  334 1123 1219  371  673 1218  419  391  699 1282 1125  691
  477  705  924 1459  125  895  813 1273  869  890  852 1141  464 1240
 1357  994  721 1360 1065  408 1211 1229  626 1434 1488 1097 1443  515
  853 1142  655 1115  427  653  989 1435 1223  836 1195 1339  664  318
 1225 1328 1082  548  132  746  776  193  397  945 1214  111  573 1153
 1400  541  432  288  669  530  632 1334  638 1093 1217 1353  120  682
  489  807  827  871  665 1040 1420  240 1280  534 1456  658 

## 15. Resumo dos Tipos de Dados

In [15]:
df.dtypes.value_counts()
# Autor: Luís Figueira

int64     23
object     8
Name: count, dtype: int64

## 16. Conclusão

A análise inicial do dataset permite concluir:

- O dataset contém **1470 registos** e **31 variáveis** após remoção das irrelevantes.
- **Não existem valores nulos** nem registos duplicados — o dataset encontra-se estruturalmente completo.
- Foram removidas 4 variáveis sem valor preditivo (`EmployeeNumber`, `EmployeeCount`, `Over18`, `StandardHours`).
- A variável alvo `Attrition` apresenta um **desequilíbrio de classes** (~84% No / ~16% Yes), o que deverá ser considerado na fase de modelação.
- O dataset combina variáveis numéricas e categóricas, estando os tipos de dados corretamente atribuídos.

O dataset encontra-se pronto para a fase de exploração aprofundada no **Milestone 2**.
# Autor: Luís Figueira