# Introdução

No contexto da indústria moderna, a manutenção eficiente de equipamentos é crucial para garantir a produtividade, reduzir custos e evitar paradas inesperadas na produção. Tradicionalmente, a manutenção é realizada de forma reativa ou preventiva, mas essas abordagens podem resultar em desperdício de recursos ou falhas inesperadas.

Com o avanço da Internet das Coisas (IoT) e da análise de dados, tornou-se possível coletar informações detalhadas de sensores instalados em máquinas, permitindo o desenvolvimento de sistemas inteligentes de manutenção preditiva. Esses sistemas utilizam algoritmos de aprendizado de máquina para analisar dados históricos e identificar padrões que precedem falhas, possibilitando intervenções mais assertivas e eficientes.

 ## Objetivo principal:
 
 Criar um sistema inteligente capaz de prever falhas em máquinas a partir de dados IoT e identificar o tipo de defeito.
    
- **Entradas:**

  - Medições de 8 atributos sensorizados de cada máquina.
    
- **Saídas esperadas:**
    
    - Classe do defeito (uma das 5 possíveis).
        
    - Probabilidade associada à previsão.
        
    - Relatórios e visualizações de insights operacionais e falhas.

## Descrição dos Dados 



|     | Campo                           | Descrição                                                                                 |
| --- | ------------------------------- | ----------------------------------------------------------------------------------------- |
| 0   | id                              | Identificador das amostras do banco.                                                      |
| 1   | id_produto                      | Identificador único do produto. Combinação da variável Tipo e um número de identificação. |
| 2   | tipo                            | Tipo de produto/máquina (L/M/H).                                                          |
| 3   | temperatura_ar                  | Temperatura do ar no ambiente (K).                                                        |
| 4   | temperatura_processo            | Temperatura do processo (K).                                                              |
| 5   | umidade_relativa                | Umidade relativa do ar (%).                                                               |
| 6   | velocidade_rotacional           | Velocidade rotacional da máquina em rotações por minutos (RPM).                           |
| 7   | torque                          | Torque da máquina em Nm.                                                                  |
| 8   | desgaste_da_ferramenta          | Duração do uso da ferramenta em minutos.                                                  |
| 9   | falha_maquina                   | Indica se houve falha na máquina (1) ou não (0).                                          |
| 10  | FDF (Falha Desgaste Ferramenta) | Indica se houve falha por desgaste da ferramenta (1) ou não (0).                          |
| 11  | FDC (Falha Dissipacao Calor)    | Indica se houve falha por dissipação de calor (1) ou não (0).                             |
| 12  | FP (Falha Potencia)             | Indica se houve falha por potência (1) ou não (0).                                        |
| 13  | FTE (Falha Tensao Excessiva)    | Indica se houve falha por tensão excessiva (1) ou não (0).                                |
| 14  | FA (Falha Aleatoria)            | Indica se houve falha aleatória (1) ou não (0).                                           |


## Configuração 

In [None]:
!pip install pandas

Collecting pandas
  Downloading pandas-2.3.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.4 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.4/12.4 MB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m0:01[0m:01[0m
[?25hCollecting numpy>=1.23.2
  Downloading numpy-2.3.2-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (16.9 MB)
[2K     [38;2;249;38;114m━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[38;5;237m╺[0m[38;5;237m━━━━━━━━━━━━[0m [32m11.5/16.9 MB[0m [31m5.2 MB/s[0m eta [36m0:00:02[0m:02[0m

In [2]:
import pandas as pd 

# Exploratory Data Analysis - EDA (Análise Exploratória de Dados)

## Carregando os dados 

In [3]:
df = pd.read_csv('dataset/bootcamp_train.csv', index_col=0)

Unnamed: 0_level_0,id_produto,tipo,temperatura_ar,temperatura_processo,umidade_relativa,velocidade_rotacional,torque,desgaste_da_ferramenta,falha_maquina,FDF (Falha Desgaste Ferramenta),FDC (Falha Dissipacao Calor),FP (Falha Potencia),FTE (Falha Tensao Excessiva),FA (Falha Aleatoria)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
0,L56434,L,298.3,309.1,90.0,1616.0,31.1,195.0,não,False,False,Não,False,Não
1,L48741,L,298.2,308.4,90.0,1388.0,53.8,137.0,Não,False,False,Não,False,Não
2,L48850,L,298.2,307.8,90.0,1528.0,31.1,,Não,N,False,Não,False,Não
3,M20947,M,300.9,310.8,90.0,1599.0,33.0,7.0,não,False,False,Não,False,não
4,L53849,L,-36.0,310.5,90.0,1571.0,33.9,,não,N,False,não,False,Não


## Pré visualização

Objetivo é visualizar como todo.

In [23]:
df.head()

Unnamed: 0_level_0,id_produto,tipo,temperatura_ar,temperatura_processo,umidade_relativa,velocidade_rotacional,torque,desgaste_da_ferramenta,falha_maquina,FDF (Falha Desgaste Ferramenta),FDC (Falha Dissipacao Calor),FP (Falha Potencia),FTE (Falha Tensao Excessiva),FA (Falha Aleatoria)
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
0,L56434,L,298.3,309.1,90.0,1616.0,31.1,195.0,não,False,False,Não,False,Não
1,L48741,L,298.2,308.4,90.0,1388.0,53.8,137.0,Não,False,False,Não,False,Não
2,L48850,L,298.2,307.8,90.0,1528.0,31.1,,Não,N,False,Não,False,Não
3,M20947,M,300.9,310.8,90.0,1599.0,33.0,7.0,não,False,False,Não,False,não
4,L53849,L,-36.0,310.5,90.0,1571.0,33.9,,não,N,False,não,False,Não


In [4]:
df.columns

Index(['id_produto', 'tipo', 'temperatura_ar', 'temperatura_processo',
       'umidade_relativa', 'velocidade_rotacional', 'torque',
       'desgaste_da_ferramenta', 'falha_maquina',
       'FDF (Falha Desgaste Ferramenta)', 'FDC (Falha Dissipacao Calor)',
       'FP (Falha Potencia)', 'FTE (Falha Tensao Excessiva)',
       'FA (Falha Aleatoria)'],
      dtype='object')

In [5]:
df.shape

(35260, 14)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 35260 entries, 0 to 35259
Data columns (total 14 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   id_produto                       35260 non-null  object 
 1   tipo                             35260 non-null  object 
 2   temperatura_ar                   34644 non-null  float64
 3   temperatura_processo             34661 non-null  float64
 4   umidade_relativa                 35260 non-null  float64
 5   velocidade_rotacional            34509 non-null  float64
 6   torque                           34637 non-null  float64
 7   desgaste_da_ferramenta           34308 non-null  float64
 8   falha_maquina                    35260 non-null  object 
 9   FDF (Falha Desgaste Ferramenta)  35260 non-null  object 
 10  FDC (Falha Dissipacao Calor)     35260 non-null  object 
 11  FP (Falha Potencia)              35260 non-null  object 
 12  FTE (Falha Tensao Exces

In [7]:
df.describe()

Unnamed: 0,temperatura_ar,temperatura_processo,umidade_relativa,velocidade_rotacional,torque,desgaste_da_ferramenta
count,34644.0,34661.0,35260.0,34509.0,34637.0,34308.0
mean,269.535241,280.457676,89.997672,1380.194181,40.210357,74.373266
std,96.342224,96.94363,0.142191,494.098759,8.831626,110.411937
min,-36.0,-38.0,80.590429,-161.0,3.8,-202.0
25%,297.9,308.5,90.0,1408.0,34.3,28.0
50%,299.6,309.8,90.0,1483.0,40.3,94.0
75%,301.1,310.9,90.0,1574.0,46.2,155.0
max,304.5,313.8,94.575256,2886.0,76.6,253.0


## Análisando dados faltantes 

In [11]:
print(f"tem valores faltando: {df.isna().any().any()}") 

tem valores faltando: True


In [34]:
print("Valores faltante por coluna ")
df.isna().sum()

Valores faltante por coluna 


id_produto                           0
tipo                                 0
temperatura_ar                     616
temperatura_processo               599
umidade_relativa                     0
velocidade_rotacional              751
torque                             623
desgaste_da_ferramenta             952
falha_maquina                        0
FDF (Falha Desgaste Ferramenta)      0
FDC (Falha Dissipacao Calor)         0
FP (Falha Potencia)                  0
FTE (Falha Tensao Excessiva)         0
FA (Falha Aleatoria)                 0
dtype: int64

In [32]:
print("Valores faltante por coluna %")
percentual = df.isna().sum() / df.shape[0] * 100
print(percentual.round(2))

Valores faltante por coluna %
id_produto                         0.00
tipo                               0.00
temperatura_ar                     1.75
temperatura_processo               1.70
umidade_relativa                   0.00
velocidade_rotacional              2.13
torque                             1.77
desgaste_da_ferramenta             2.70
falha_maquina                      0.00
FDF (Falha Desgaste Ferramenta)    0.00
FDC (Falha Dissipacao Calor)       0.00
FP (Falha Potencia)                0.00
FTE (Falha Tensao Excessiva)       0.00
FA (Falha Aleatoria)               0.00
dtype: float64


In [27]:
df_clean = df.dropna() 
print(f"A representaividade dos dados faltantes: {(1 - df_clean.shape[0]/df.shape[0])*100:.2f}%")

A representaividade dos dados faltantes: 9.65%


**Conclusão:** Como o valor é maior que **5%** não será possível eliminar diretamente. Não existe colunas que tem porcentagem significativo com valores faltante que possa ser eliminado. 

## Consistência de dados

Objetivo é analisar **coluna por coluna** para verificar **ser não há contradições e fazer uma analise mais profunda** nos dados. 

### ID Produto 

In [38]:
contagem  = df["id_produto"].value_counts()
contagem

id_produto
L53255    31
L53257    30
L53271    28
L55983    28
L54272    28
          ..
L55634     1
M21993     1
M22136     1
L56385     1
L47817     1
Name: count, Length: 9708, dtype: int64

In [37]:
print(f'Quantidade distintos: {df["id_produto"].nunique()}')

Quantidade distintos: 9708


In [47]:
for i in range(30):
    qtd = (contagem == i).sum()
    print(f"Quantidade de máquinas que quebraram exatamente {i} vezes: {qtd}")


Quantidade de máquinas que quebraram exatamente 0 vezes: 0
Quantidade de máquinas que quebraram exatamente 1 vezes: 1637
Quantidade de máquinas que quebraram exatamente 2 vezes: 2168
Quantidade de máquinas que quebraram exatamente 3 vezes: 2000
Quantidade de máquinas que quebraram exatamente 4 vezes: 1368
Quantidade de máquinas que quebraram exatamente 5 vezes: 939
Quantidade de máquinas que quebraram exatamente 6 vezes: 592
Quantidade de máquinas que quebraram exatamente 7 vezes: 320
Quantidade de máquinas que quebraram exatamente 8 vezes: 236
Quantidade de máquinas que quebraram exatamente 9 vezes: 132
Quantidade de máquinas que quebraram exatamente 10 vezes: 87
Quantidade de máquinas que quebraram exatamente 11 vezes: 39
Quantidade de máquinas que quebraram exatamente 12 vezes: 46
Quantidade de máquinas que quebraram exatamente 13 vezes: 33
Quantidade de máquinas que quebraram exatamente 14 vezes: 28
Quantidade de máquinas que quebraram exatamente 15 vezes: 15
Quantidade de máquinas

### Tipo

A coluna **tipo** mostrou consistente já que esperamos que tivesse somente trẽs tipos de valores.

In [18]:
df["tipo"].value_counts()

tipo
L    23855
M     8799
H     2606
Name: count, dtype: int64

### Temperatura do AR

In [20]:
df["temperatura_ar"].describe()

count    34644.000000
mean       269.535241
std         96.342224
min        -36.000000
25%        297.900000
50%        299.600000
75%        301.100000
max        304.500000
Name: temperatura_ar, dtype: float64

In [65]:
# Transforma em celsius para facilitar
cel = df["temperatura_ar"] - 273.15
cel.describe()

count    34644.000000
mean        26.725248
std          1.806641
min         22.150000
25%         25.250000
50%         26.450000
75%         27.950000
max         31.350000
Name: temperatura_ar, dtype: float64

Não faz sentindo o valor da temperatura mímina, faz necessário verificar se não é valor default

In [63]:
quantidade = (cel < -300).sum()
print(quantidade)

quantidade = (cel < 0).sum()
print(quantidade)

3132
3132


**Conclusão:** O valor da temperatura  -36 ºK é default, foi descidido que vamos sbstituir pela mediana

In [66]:
# Substituir por mediana
mediana = df['temperatura_ar'].median()
df.loc[(df['temperatura_ar'] < 273) | (df['temperatura_ar'] > 323), 'temperatura_ar'] = mediana
cel = df["temperatura_ar"] - 273.15
cel.describe()

count    34644.000000
mean        26.725248
std          1.806641
min         22.150000
25%         25.250000
50%         26.450000
75%         27.950000
max         31.350000
Name: temperatura_ar, dtype: float64