# Digital Twins Preditivos

Este conjunto de dados foi desenvolvido para tarefas de detecção de falhas e manutenção preditiva em sistemas industriais, utilizando dados de tecnologias de gêmeos digitais (DT). Inclui dados de sensores, parâmetros operacionais, métricas ambientais e informações sobre a integridade das máquinas, registrados a cada hora, durante um período de 5 anos, de janeiro de 2019 a janeiro de 2024.

O conjunto de dados simula um ambiente industrial real, incorporando uma variedade de recursos relacionados ao desempenho das máquinas, eventos de manutenção e condições ambientais. Ele captura ocorrências de falhas desbalanceadas em vários níveis de gravidade, tornando-se um recurso perfeito para explorar modelos de manutenção preditiva, algoritmos de aprendizado de máquina e técnicas avançadas de análise em contextos industriais.

O conjunto de dados é ideal para treinar e avaliar modelos voltados para detecção de falhas, manutenção preditiva, detecção de anomalias e previsão de séries temporais em ambientes industriais complexos. Os usuários podem explorar como diferentes fatores impactam a integridade das máquinas e prever falhas futuras usando modelos avançados de aprendizado de máquina e aprendizado profundo.

## 0 Importação das bibliotecas

In [6]:
import pandas as pd
import numpy as np
from IPython.display import display, Markdown, Latex, HTML


## 1 Conjunto de Dados


In [2]:
df = pd.read_csv('./data/IndFD-PM-DT dataset.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43825 entries, 0 to 43824
Data columns (total 38 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Datetime                       43825 non-null  object 
 1   Vibration_Level                43825 non-null  float64
 2   Temperature_Readings           43825 non-null  float64
 3   Pressure_Data                  43825 non-null  float64
 4   Acoustic_Signals               43825 non-null  float64
 5   Humidity_Levels                43825 non-null  float64
 6   Motor_Speed                    43825 non-null  float64
 7   Torque_Data                    43825 non-null  float64
 8   Energy_Consumption             43825 non-null  float64
 9   Production_Rate                43825 non-null  float64
 10  Tool_Wear_Rate                 43825 non-null  float64
 11  Machine_Utilization_Rate       43825 non-null  float64
 12  Cycle_Time_Per_Operation       43825 non-null 

In [4]:
df.head()

Unnamed: 0,Datetime,Vibration_Level,Temperature_Readings,Pressure_Data,Acoustic_Signals,Humidity_Levels,Motor_Speed,Torque_Data,Energy_Consumption,Production_Rate,...,Controller_Setpoints,Actual_vs_Setpoint_Values,Alarm_Trigger_Data,Repair_Logs,Spare_Part_Usage,Anomaly_Scores,Fault_Probability,Operator_Shift_Data,Quality_Control_Test_Results,Fault_Diagnosis
0,2021-06-21 08:00:00,0.336129,23.865396,15.346143,42.709897,31.40488,59.812632,3.677243,1.994422,71.472236,...,55.040202,53.633334,0,0,4.326138,31.806763,26.218982,2,89.347791,1
1,2019-03-07 10:00:00,0.44168,27.332215,19.648924,56.146535,23.516423,65.572156,1.057276,7.086933,79.280461,...,56.245287,56.292362,0,0,3.006478,16.828544,10.021797,2,89.01349,0
2,2023-01-13 08:00:00,0.34908,29.483668,10.466149,80.487979,27.537668,53.951904,0.881063,8.155945,100.99478,...,47.621152,44.103209,0,0,0.468073,30.532711,45.273987,3,86.990711,0
3,2021-08-13 23:00:00,0.507108,19.005118,32.01273,63.602072,14.88816,36.715289,1.372567,0.974947,108.291454,...,48.786144,51.057235,0,0,3.270788,2.718529,28.625665,3,79.234826,0
4,2022-09-21 07:00:00,1.402247,32.096101,22.620923,47.57415,22.703902,52.411045,0.437824,1.40121,95.616224,...,54.382062,55.86506,0,0,4.598529,35.209996,18.994673,3,86.24688,0


## 2 Descrição dos dados

In [8]:
display(Markdown("- Quantidade de Instâncias: " + str(df.shape[0])))
display(Markdown("- Quantidade de Atributos: " + str(df.shape[1])))


- Quantidade de Instâncias: 43825

- Quantidade de Atributos: 38

In [9]:
display(Markdown("- Variaveis e Seus Tipos:"))
display(df.dtypes)

- Variaveis e Seus Tipos:

Datetime                          object
Vibration_Level                  float64
Temperature_Readings             float64
Pressure_Data                    float64
Acoustic_Signals                 float64
Humidity_Levels                  float64
Motor_Speed                      float64
Torque_Data                      float64
Energy_Consumption               float64
Production_Rate                  float64
Tool_Wear_Rate                   float64
Machine_Utilization_Rate         float64
Cycle_Time_Per_Operation         float64
Idle_Time                        float64
Machine_Load_Percentage          float64
Ambient_Temperature              float64
Humidity                         float64
Air_Quality_Index                float64
Machine_Health_Index             float64
Failure_Mode_Indicators            int64
Maintenance_Logs                   int64
Previous_Fault_Occurrences         int64
Predictive_Maintenance_Scores    float64
Component_Degradation_Index      float64
Real_Time_Perfor

In [10]:

display(Markdown("- Quantidade de Valores Faltantes:"))
display(df.isnull().sum())


- Quantidade de Valores Faltantes:

Datetime                         0
Vibration_Level                  0
Temperature_Readings             0
Pressure_Data                    0
Acoustic_Signals                 0
Humidity_Levels                  0
Motor_Speed                      0
Torque_Data                      0
Energy_Consumption               0
Production_Rate                  0
Tool_Wear_Rate                   0
Machine_Utilization_Rate         0
Cycle_Time_Per_Operation         0
Idle_Time                        0
Machine_Load_Percentage          0
Ambient_Temperature              0
Humidity                         0
Air_Quality_Index                0
Machine_Health_Index             0
Failure_Mode_Indicators          0
Maintenance_Logs                 0
Previous_Fault_Occurrences       0
Predictive_Maintenance_Scores    0
Component_Degradation_Index      0
Real_Time_Performance_Index      0
Machine_Start_Stop_Events        0
Downtime_Incidents               0
Fault_Trigger_Timestamps         0
Controller_Setpoints

In [11]:
display(Markdown("- Estatísticas descritivas:"))
display(df.describe().T)

- Estatísticas descritivas:

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Vibration_Level,43825.0,0.499235,0.499789,3e-06,0.143893,0.346396,0.690445,5.244292
Temperature_Readings,43825.0,30.013493,5.003203,10.277032,26.618437,30.037904,33.411046,45.0
Pressure_Data,43825.0,28.468127,15.879884,0.21625,16.071721,26.422164,38.813255,91.929697
Acoustic_Signals,43825.0,49.818038,14.957175,-11.435987,39.766143,49.815537,59.909451,119.250894
Humidity_Levels,43825.0,20.170006,12.173021,0.079138,10.829864,18.062967,27.454614,88.364871
Motor_Speed,43825.0,49.909403,9.966962,1.70564,43.109726,49.901249,56.668254,80.0
Torque_Data,43825.0,3.003601,2.124429,0.006696,1.441208,2.522669,4.03798,21.818879
Energy_Consumption,43825.0,9.957493,9.983611,0.000449,2.867996,6.896966,13.777403,115.162662
Production_Rate,43825.0,100.073372,25.000217,-4.730857,83.192927,100.151089,117.00805,213.169597
Tool_Wear_Rate,43825.0,24.995389,14.382023,0.058636,13.802988,22.971233,34.047212,87.356111


## 3 Dicionário de dados

# renomear as colunas

| Coluna Original                 | Coluna em Português              | Descrição resumida                                                                            |
| ------------------------------- | -------------------------------- | --------------------------------------------------------------------------------------------- |
| Datetime                        | Data\_Hora                       | Timestamp dos dados (horário, de Jan 2019 a Jan 2024)                                         |
| Vibration\_Level                | Nivel\_Vibracao                  | Nível de vibração da máquina (unidades arbitrárias)                                           |
| Temperature\_Readings           | Temperatura\_Interna             | Temperatura interna da máquina (°C)                                                           |
| Pressure\_Data                  | Pressao                          | Medições de pressão (Pa)                                                                      |
| Acoustic\_Signals               | Sinais\_Acusticos                | Sinais sonoros produzidos pela máquina (dB)                                                   |
| Humidity\_Levels                | Nivel\_Umidade                   | Nível de umidade no ambiente da máquina (%)                                                   |
| Motor\_Speed                    | Velocidade\_Motor                | Velocidade do motor da máquina (RPM)                                                          |
| Torque\_Data                    | Torque                           | Torque aplicado pelo motor (Nm)                                                               |
| Energy\_Consumption             | Consumo\_Energia                 | Consumo de energia da máquina (kWh)                                                           |
| Production\_Rate                | Taxa\_Producao                   | Taxa de produção (unidades/hora)                                                              |
| Tool\_Wear\_Rate                | Taxa\_Desgaste\_Ferramenta       | Percentual de desgaste da ferramenta (%)                                                      |
| Machine\_Utilization\_Rate      | Taxa\_Uso\_Maquina               | Percentual de tempo em operação (%)                                                           |
| Cycle\_Time\_Per\_Operation     | Tempo\_Ciclo                     | Tempo para completar um ciclo operacional (s)                                                 |
| Idle\_Time                      | Tempo\_Ocioso                    | Percentual de tempo em inatividade (%)                                                        |
| Machine\_Load\_Percentage       | Carga\_Maquina                   | Percentual de carga na máquina (%)                                                            |
| Ambient\_Temperature            | Temperatura\_Ambiente            | Temperatura ambiente (°C)                                                                     |
| Humidity                        | Umidade                          | Umidade relativa do ambiente (%)                                                              |
| Air\_Quality\_Index             | Indice\_Qualidade\_Ar            | Índice de qualidade do ar (0 a 500)                                                           |
| Machine\_Health\_Index          | Indice\_Saude\_Maquina           | Índice de saúde da máquina (0 a 100)                                                          |
| Failure\_Mode\_Indicators       | Indicadores\_Falha               | Indicador binário de modos de falha (0 = sem falha, 1 = falha)                                |
| Maintenance\_Logs               | Registro\_Manutencao             | Indicador binário de eventos de manutenção                                                    |
| Previous\_Fault\_Occurrences    | Falhas\_Anteriores               | Indicador binário de falhas recentes (0 = não, 1 = sim)                                       |
| Predictive\_Maintenance\_Scores | Pontuacao\_Manutencao\_Preditiva | Score preditivo para eventos de manutenção (0 a 100)                                          |
| Component\_Degradation\_Index   | Indice\_Degradacao\_Componentes  | Índice de degradação de componentes (0 a 100)                                                 |
| Real\_Time\_Performance\_Index  | Indice\_Desempenho\_Tempo\_Real  | Índice de desempenho em tempo real (0 a 100)                                                  |
| Machine\_Start\_Stop\_Events    | Eventos\_Ligar\_Desligar         | Indicador binário de eventos ligar/desligar (0 = não, 1 = sim)                                |
| Downtime\_Incidents             | Incidentes\_Parada               | Indicador binário de incidentes de parada (0 = não, 1 = sim)                                  |
| Fault\_Trigger\_Timestamps      | Eventos\_Gatilho\_Falha          | Indicador binário de eventos que causaram falha (0 = não, 1 = sim)                            |
| Controller\_Setpoints           | Setpoints\_Controlador           | Valores de referência do controlador da máquina                                               |
| Actual\_vs\_Setpoint\_Values    | Diferenca\_Real\_vs\_Setpoint    | Diferença entre valores reais e setpoints                                                     |
| Alarm\_Trigger\_Data            | Alarmes                          | Indicador binário de eventos de alarme (0 = não, 1 = sim)                                     |
| Repair\_Logs                    | Registros\_Reparo                | Indicador binário de reparos da máquina (0 = não, 1 = sim)                                    |
| Spare\_Part\_Usage              | Uso\_Pecas\_Reposicao            | Quantidade de peças utilizadas durante manutenção                                             |
| Anomaly\_Scores                 | Pontuacao\_Anomalia              | Score de detecção de anomalias (0 a 100)                                                      |
| Fault\_Probability              | Probabilidade\_Falha             | Probabilidade de ocorrência de falha (0 a 100)                                                |
| Operator\_Shift\_Data           | Turno\_Operador                  | Informação do turno do operador (1 = manhã, 2 = tarde, 3 = noite)                             |
| Quality\_Control\_Test\_Results | Resultados\_Controle\_Qualidade  | Resultados de testes de controle de qualidade (0 a 100)                                       |
| Fault\_Diagnosis                | Diagnostico\_Falha               | Label alvo da severidade da falha (0 = sem, 1 = menor, 2 = moderada, 3 = severa, 4 = crítica) |



In [13]:
# Dicionário de renomeação das colunas
colunas_pt = {
    "Datetime": "Data_Hora",
    "Vibration_Level": "Nivel_Vibracao",
    "Temperature_Readings": "Temperatura_Interna",
    "Pressure_Data": "Pressao",
    "Acoustic_Signals": "Sinais_Acusticos",
    "Humidity_Levels": "Nivel_Umidade",
    "Motor_Speed": "Velocidade_Motor",
    "Torque_Data": "Torque",
    "Energy_Consumption": "Consumo_Energia",
    "Production_Rate": "Taxa_Producao",
    "Tool_Wear_Rate": "Taxa_Desgaste_Ferramenta",
    "Machine_Utilization_Rate": "Taxa_Uso_Maquina",
    "Cycle_Time_Per_Operation": "Tempo_Ciclo",
    "Idle_Time": "Tempo_Ocioso",
    "Machine_Load_Percentage": "Carga_Maquina",
    "Ambient_Temperature": "Temperatura_Ambiente",
    "Humidity": "Umidade",
    "Air_Quality_Index": "Indice_Qualidade_Ar",
    "Machine_Health_Index": "Indice_Saude_Maquina",
    "Failure_Mode_Indicators": "Indicadores_Falha",
    "Maintenance_Logs": "Registro_Manutencao",
    "Previous_Fault_Occurrences": "Falhas_Anteriores",
    "Predictive_Maintenance_Scores": "Pontuacao_Manutencao_Preditiva",
    "Component_Degradation_Index": "Indice_Degradacao_Componentes",
    "Real_Time_Performance_Index": "Indice_Desempenho_Tempo_Real",
    "Machine_Start_Stop_Events": "Eventos_Ligar_Desligar",
    "Downtime_Incidents": "Incidentes_Parada",
    "Fault_Trigger_Timestamps": "Eventos_Gatilho_Falha",
    "Controller_Setpoints": "Setpoints_Controlador",
    "Actual_vs_Setpoint_Values": "Diferenca_Real_vs_Setpoint",
    "Alarm_Trigger_Data": "Alarmes",
    "Repair_Logs": "Registros_Reparo",
    "Spare_Part_Usage": "Uso_Pecas_Reposicao",
    "Anomaly_Scores": "Pontuacao_Anomalia",
    "Fault_Probability": "Probabilidade_Falha",
    "Operator_Shift_Data": "Turno_Operador",
    "Quality_Control_Test_Results": "Resultados_Controle_Qualidade",
    "Fault_Diagnosis": "Diagnostico_Falha"
}

# Renomeando as colunas
df.rename(columns=colunas_pt, inplace=True)

# Verificando as primeiras linhas
df.head()

Unnamed: 0,Data_Hora,Nivel_Vibracao,Temperatura_Interna,Pressao,Sinais_Acusticos,Nivel_Umidade,Velocidade_Motor,Torque,Consumo_Energia,Taxa_Producao,...,Setpoints_Controlador,Diferenca_Real_vs_Setpoint,Alarmes,Registros_Reparo,Uso_Pecas_Reposicao,Pontuacao_Anomalia,Probabilidade_Falha,Turno_Operador,Resultados_Controle_Qualidade,Diagnostico_Falha
0,2021-06-21 08:00:00,0.336129,23.865396,15.346143,42.709897,31.40488,59.812632,3.677243,1.994422,71.472236,...,55.040202,53.633334,0,0,4.326138,31.806763,26.218982,2,89.347791,1
1,2019-03-07 10:00:00,0.44168,27.332215,19.648924,56.146535,23.516423,65.572156,1.057276,7.086933,79.280461,...,56.245287,56.292362,0,0,3.006478,16.828544,10.021797,2,89.01349,0
2,2023-01-13 08:00:00,0.34908,29.483668,10.466149,80.487979,27.537668,53.951904,0.881063,8.155945,100.99478,...,47.621152,44.103209,0,0,0.468073,30.532711,45.273987,3,86.990711,0
3,2021-08-13 23:00:00,0.507108,19.005118,32.01273,63.602072,14.88816,36.715289,1.372567,0.974947,108.291454,...,48.786144,51.057235,0,0,3.270788,2.718529,28.625665,3,79.234826,0
4,2022-09-21 07:00:00,1.402247,32.096101,22.620923,47.57415,22.703902,52.411045,0.437824,1.40121,95.616224,...,54.382062,55.86506,0,0,4.598529,35.209996,18.994673,3,86.24688,0


In [14]:
# Criando o dicionário com informações das variáveis
dados_variaveis = {
    "Variável": [
        "Data_Hora", "Nivel_Vibracao", "Temperatura_Interna", "Pressao", "Sinais_Acusticos",
        "Nivel_Umidade", "Velocidade_Motor", "Torque", "Consumo_Energia", "Taxa_Producao",
        "Taxa_Desgaste_Ferramenta", "Taxa_Uso_Maquina", "Tempo_Ciclo", "Tempo_Ocioso",
        "Carga_Maquina", "Temperatura_Ambiente", "Umidade", "Indice_Qualidade_Ar",
        "Indice_Saude_Maquina", "Indicadores_Falha", "Registro_Manutencao", "Falhas_Anteriores",
        "Pontuacao_Manutencao_Preditiva", "Indice_Degradacao_Componentes", "Indice_Desempenho_Tempo_Real",
        "Eventos_Ligar_Desligar", "Incidentes_Parada", "Eventos_Gatilho_Falha",
        "Setpoints_Controlador", "Diferenca_Real_vs_Setpoint", "Alarmes", "Registros_Reparo",
        "Uso_Pecas_Reposicao", "Pontuacao_Anomalia", "Probabilidade_Falha",
        "Turno_Operador", "Resultados_Controle_Qualidade", "Diagnostico_Falha"
    ],
    "Descrição": [
        "Timestamp dos dados (horário, de Jan 2019 a Jan 2024)",
        "Nível de vibração da máquina (unidades arbitrárias)",
        "Temperatura interna da máquina (°C)",
        "Medições de pressão (Pa)",
        "Sinais sonoros produzidos pela máquina (dB)",
        "Nível de umidade no ambiente da máquina (%)",
        "Velocidade do motor da máquina (RPM)",
        "Torque aplicado pelo motor (Nm)",
        "Consumo de energia da máquina (kWh)",
        "Taxa de produção (unidades/hora)",
        "Percentual de desgaste da ferramenta (%)",
        "Percentual de tempo em operação (%)",
        "Tempo para completar um ciclo operacional (s)",
        "Percentual de tempo em inatividade (%)",
        "Percentual de carga na máquina (%)",
        "Temperatura ambiente (°C)",
        "Umidade relativa do ambiente (%)",
        "Índice de qualidade do ar (0 a 500)",
        "Índice de saúde da máquina (0 a 100)",
        "Indicador binário de modos de falha (0 = sem falha, 1 = falha)",
        "Indicador de eventos de manutenção",
        "Indicador de falhas recentes (0 = não, 1 = sim)",
        "Score preditivo para eventos de manutenção (0 a 100)",
        "Índice de degradação de componentes (0 a 100)",
        "Índice de desempenho em tempo real (0 a 100)",
        "Indicador binário de eventos ligar/desligar",
        "Indicador binário de incidentes de parada",
        "Indicador binário de eventos que causaram falha",
        "Valores de referência do controlador",
        "Diferença entre valores reais e setpoints",
        "Indicador binário de eventos de alarme",
        "Indicador binário de reparos da máquina",
        "Quantidade de peças utilizadas durante manutenção",
        "Score de detecção de anomalias (0 a 100)",
        "Probabilidade de ocorrência de falha (0 a 100)",
        "Informação do turno do operador (1 = manhã, 2 = tarde, 3 = noite)",
        "Resultados de testes de controle de qualidade (0 a 100)",
        "Label alvo da severidade da falha (0 = sem, 1 = menor, 2 = moderada, 3 = severa, 4 = crítica)"
    ],
    "Tipo": [
        "Quantitativa", "Quantitativa", "Quantitativa", "Quantitativa", "Quantitativa",
        "Quantitativa", "Quantitativa", "Quantitativa", "Quantitativa", "Quantitativa",
        "Quantitativa", "Quantitativa", "Quantitativa", "Quantitativa", "Quantitativa",
        "Quantitativa", "Quantitativa", "Quantitativa", "Quantitativa", "Qualitativa",
        "Qualitativa", "Qualitativa", "Quantitativa", "Quantitativa", "Quantitativa",
        "Qualitativa", "Qualitativa", "Qualitativa", "Quantitativa", "Quantitativa",
        "Qualitativa", "Qualitativa", "Quantitativa", "Quantitativa", "Quantitativa",
        "Qualitativa", "Quantitativa", "Qualitativa"
    ],
    "Subtipo": [
        "Datetime", "Contínua", "Contínua", "Contínua", "Contínua",
        "Contínua", "Contínua", "Contínua", "Contínua", "Contínua",
        "Contínua", "Contínua", "Contínua", "Contínua", "Contínua",
        "Contínua", "Contínua", "Contínua", "Contínua", "Binária",
        "Binária", "Binária", "Contínua", "Contínua", "Contínua",
        "Binária", "Binária", "Binária", "Contínua", "Contínua",
        "Binária", "Binária", "Contínua", "Contínua", "Contínua",
        "Ordinal", "Contínua", "Multiclasse"
    ]
}

# Criando o DataFrame
df_variaveis = pd.DataFrame(dados_variaveis)

# Exibindo as primeiras linhas
df_variaveis.head()

# Opcional: salvar em CSV
df_variaveis.to_csv("./data/dicionario_variaveis_pt.csv", index=False)
