## 2. Data Preparation
üìí `2.0-rc-data-preparation.ipynb`

**Objetivo:** Transformar os dados brutos em um formato para uso em an√°lise explorat√≥ria e modelagem.

‚öôÔ∏è **Atividades:**
- Limpeza dos dados
- Feature engineering
- Encoding
- Escalonamento
- Split do dataset.
- Salvamento do dataset limpo (`data/processed/`)


## üìò Dicion√°rio de Dados  

| CAMPO                  | FUN√á√ÉO (ATRIBUTO \| ALVO) | TIPO DE VARI√ÅVEL           | DESCRI√á√ÉO |
|-------------------------|---------------------------|----------------------------|-----------|
| **id**                 | ID                 | Num√©rica (Inteiro)         | Identificador √∫nico das amostras do banco de dados. N√£o possui significado f√≠sico, usado apenas para indexa√ß√£o. |
| **id_produto**         | ID                  | Categ√≥rica (String)        | Identificador do produto/m√°quina, combina√ß√£o da vari√°vel `tipo` com um n√∫mero sequencial. Representa diferentes unidades operacionais. |
| **tipo**               | Atributo                  | Categ√≥rica (L, M, H)       | Tipo de produto/m√°quina, definido por categoria de carga: **L** (Low), **M** (Medium), **H** (High). No dataset AI4I, simula varia√ß√£o entre diferentes condi√ß√µes de produ√ß√£o. |
| **temperatura_ar**     | Atributo                  | Num√©rica (Cont√≠nua, K)     | Temperatura ambiente medida em Kelvin. Importante para avaliar condi√ß√µes externas que influenciam o desempenho t√©rmico da m√°quina. |
| **temperatura_processo** | Atributo                | Num√©rica (Cont√≠nua, K)     | Temperatura do processo (interno √† m√°quina). Valores mais altos est√£o associados a falhas de dissipa√ß√£o de calor (FDC). |
| **umidade_relativa**   | Atributo                  | Num√©rica (Cont√≠nua, %)     | Umidade relativa do ar (%). Pode impactar falhas de isolamento el√©trico e desgaste acelerado. |
| **velocidade_rotacional** | Atributo               | Num√©rica (Cont√≠nua, RPM)   | Velocidade rotacional da m√°quina em rota√ß√µes por minuto (RPM). Valores anormais podem indicar problemas de balanceamento ou sobrecarga. |
| **torque**             | Atributo                  | Num√©rica (Cont√≠nua, Nm)    | Torque da m√°quina em Newton-metro. No dataset AI4I varia entre ~3.0 a 76.0 Nm. Torques elevados podem levar a falhas de pot√™ncia (FP). |
| **desgaste_da_ferramenta** | Atributo              | Num√©rica (Cont√≠nua, Min)   | Tempo acumulado de uso da ferramenta (minutos). Aumenta linearmente com a opera√ß√£o e est√° associado a falhas por desgaste (FDF). |
| **falha_maquina**      | Alvo (Bin√°rio)            | Num√©rica (0/1)             | Vari√°vel bin√°ria indicando se houve falha geral na m√°quina (1) ou n√£o (0). Serve como r√≥tulo consolidado de falha. |
| **FDF** (Falha Desgaste Ferramenta) | Alvo (Bin√°rio) | Num√©rica (0/1)            | Indica falha por desgaste excessivo da ferramenta de corte. Associada ao tempo de uso (`desgaste_da_ferramenta`) e √†s condi√ß√µes de torque/RPM. |
| **FDC** (Falha Dissipa√ß√£o Calor)    | Alvo (Bin√°rio) | Num√©rica (0/1)            | Indica falha t√©rmica por dissipa√ß√£o inadequada de calor. Relacionada principalmente a `temperatura_processo` elevada em rela√ß√£o √† `temperatura_ar`. |
| **FP** (Falha Pot√™ncia)             | Alvo (Bin√°rio) | Num√©rica (0/1)            | Indica falha por pot√™ncia insuficiente ou sobrecarga da m√°quina. Frequentemente correlacionada com varia√ß√µes de torque e rota√ß√£o. |
| **FTE** (Falha Tens√£o Excessiva)    | Alvo (Bin√°rio) | Num√©rica (0/1)            | Indica falha el√©trica devido a sobretens√£o ou condi√ß√µes an√¥malas de opera√ß√£o el√©trica. |
| **FA** (Falha Aleat√≥ria)            | Alvo (Bin√°rio) | Num√©rica (0/1)            | Indica falha aleat√≥ria sem padr√£o determin√≠stico. No dataset, essas falhas s√£o geradas para simular eventos n√£o explicados por vari√°veis medidas. |


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

%matplotlib inline

# Setup para mostrar todas as colunas do dataframe
pd.set_option('display.max_columns', None)

In [5]:
# Carrega dados
df = pd.read_csv("../data/raw/bootcamp_train.csv")
df.head()

Unnamed: 0,id,id_produto,tipo,temperatura_ar,temperatura_processo,umidade_relativa,velocidade_rotacional,torque,desgaste_da_ferramenta,falha_maquina,FDF (Falha Desgaste Ferramenta),FDC (Falha Dissipacao Calor),FP (Falha Potencia),FTE (Falha Tensao Excessiva),FA (Falha Aleatoria)
0,0,L56434,L,298.3,309.1,90.0,1616.0,31.1,195.0,n√£o,False,False,N√£o,False,N√£o
1,1,L48741,L,298.2,308.4,90.0,1388.0,53.8,137.0,N√£o,False,False,N√£o,False,N√£o
2,2,L48850,L,298.2,307.8,90.0,1528.0,31.1,,N√£o,N,False,N√£o,False,N√£o
3,3,M20947,M,300.9,310.8,90.0,1599.0,33.0,7.0,n√£o,False,False,N√£o,False,n√£o
4,4,L53849,L,-36.0,310.5,90.0,1571.0,33.9,,n√£o,N,False,n√£o,False,N√£o


### 1. Limpeza dos Dados

#### a) Valores Nulos

In [None]:
# Verifica dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35260 entries, 0 to 35259
Data columns (total 15 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   id                               35260 non-null  int64  
 1   id_produto                       35260 non-null  object 
 2   tipo                             35260 non-null  object 
 3   temperatura_ar                   34644 non-null  float64
 4   temperatura_processo             34661 non-null  float64
 5   umidade_relativa                 35260 non-null  float64
 6   velocidade_rotacional            34509 non-null  float64
 7   torque                           34637 non-null  float64
 8   desgaste_da_ferramenta           34308 non-null  float64
 9   falha_maquina                    35260 non-null  object 
 10  FDF (Falha Desgaste Ferramenta)  35260 non-null  object 
 11  FDC (Falha Dissipacao Calor)     35260 non-null  object 
 12  FP (Falha Potencia

In [7]:
# Verifica dados Nulos
df.isnull().sum()

id                                   0
id_produto                           0
tipo                                 0
temperatura_ar                     616
temperatura_processo               599
umidade_relativa                     0
velocidade_rotacional              751
torque                             623
desgaste_da_ferramenta             952
falha_maquina                        0
FDF (Falha Desgaste Ferramenta)      0
FDC (Falha Dissipacao Calor)         0
FP (Falha Potencia)                  0
FTE (Falha Tensao Excessiva)         0
FA (Falha Aleatoria)                 0
dtype: int64

In [None]:
# Verifica dados Nulos
df.isnull().sum()

# Verifica dados Duplicados
df.duplicated().sum()

# Verifica dados Inconsistentes
df.describe()

# Verifica dados Outliers
df.boxplot()

In [None]:
# Salva o dataset tratado
path_to_save = "../data/processed/bootcamp_train_processed.csv"
df.to_csv(path_to_save, index=False)