
# **Previsão de Falhas em Motores com Dados da NASA**

Este projeto tem como objetivo aplicar técnicas de **mineração de dados e modelagem preditiva** para estimar a **vida útil restante (RUL - Remaining Useful Life)** de motores a jato. Utilizamos dados simulados pela NASA através do modelo **C-MAPSS (Commercial Modular Aero-Propulsion System Simulation)**, amplamente adotado em estudos de **manutenção preditiva**.

O conjunto de dados contém informações de sensores coletadas ao longo do tempo durante a operação de diversos motores turbofan, até o momento da falha. Nesta etapa inicial, focaremos no subconjunto **FD001**, que apresenta uma única condição operacional e um único modo de falha.  


---

## Sobre o Conjunto de Dados

- **Fonte**: [Kaggle - NASA C-MAPSS Dataset](https://www.kaggle.com/datasets/behrad3d/nasa-cmaps)
- **Formato**: Arquivos `.txt`, separados por espaços.
- **Conteúdo**:
  - `train_FD001.txt`: dados de treinamento (ciclos completos dos motores até falharem)
  - `test_FD001.txt`: dados de teste (ciclos parciais, até um certo ponto)
  - `RUL_FD001.txt`: vida útil restante real dos motores no conjunto de teste

Cada linha dos arquivos representa a leitura de um motor em um determinado ciclo e contém:
- Identificador do motor (`unit number`)
- Ciclo de operação (`time in cycles`)
- Três configurações operacionais (`setting_1`, `setting_2`, `setting_3`)
- 21 sensores com medidas de desempenho

---

A seguir, realizamos o **download automático dos dados**, organizamos os arquivos e carregamos o subconjunto FD001 para análise.


In [1]:
%matplotlib inline
import pandas as pd
import os
import kagglehub
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()


In [2]:


# Baixando o conjuto de dados
path = kagglehub.dataset_download("behrad3d/nasa-cmaps")

print("Path to dataset files:", path)

Path to dataset files: /kaggle/input/nasa-cmaps


In [3]:
for dirname, _, filenames in os.walk(path):
    for filename in filenames:
        print(os.path.join(dirname, filename))

/kaggle/input/nasa-cmaps/CMaps/RUL_FD002.txt
/kaggle/input/nasa-cmaps/CMaps/test_FD003.txt
/kaggle/input/nasa-cmaps/CMaps/Damage Propagation Modeling.pdf
/kaggle/input/nasa-cmaps/CMaps/readme.txt
/kaggle/input/nasa-cmaps/CMaps/train_FD003.txt
/kaggle/input/nasa-cmaps/CMaps/test_FD004.txt
/kaggle/input/nasa-cmaps/CMaps/train_FD004.txt
/kaggle/input/nasa-cmaps/CMaps/x.txt
/kaggle/input/nasa-cmaps/CMaps/test_FD002.txt
/kaggle/input/nasa-cmaps/CMaps/train_FD001.txt
/kaggle/input/nasa-cmaps/CMaps/train_FD002.txt
/kaggle/input/nasa-cmaps/CMaps/RUL_FD001.txt
/kaggle/input/nasa-cmaps/CMaps/RUL_FD004.txt
/kaggle/input/nasa-cmaps/CMaps/RUL_FD003.txt
/kaggle/input/nasa-cmaps/CMaps/test_FD001.txt


In [4]:

# Caminho base para os arquivos
link_url = os.path.join(path, 'CMaps') + '/'

# Carregar arquivos FD001
train = pd.read_csv(link_url + 'train_FD001.txt', sep='\s+', header=None)
test = pd.read_csv(link_url + 'test_FD001.txt', sep='\s+', header=None)
y_test = pd.read_csv(link_url + 'RUL_FD001.txt', sep='\s+', header=None)

train.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,1,1,-0.0007,-0.0004,100.0,518.67,641.82,1589.7,1400.6,14.62,...,521.66,2388.02,8138.62,8.4195,0.03,392,2388,100.0,39.06,23.419
1,1,2,0.0019,-0.0003,100.0,518.67,642.15,1591.82,1403.14,14.62,...,522.28,2388.07,8131.49,8.4318,0.03,392,2388,100.0,39.0,23.4236
2,1,3,-0.0043,0.0003,100.0,518.67,642.35,1587.99,1404.2,14.62,...,522.42,2388.03,8133.23,8.4178,0.03,390,2388,100.0,38.95,23.3442
3,1,4,0.0007,0.0,100.0,518.67,642.35,1582.79,1401.87,14.62,...,522.86,2388.08,8133.83,8.3682,0.03,392,2388,100.0,38.88,23.3739
4,1,5,-0.0019,-0.0002,100.0,518.67,642.37,1582.85,1406.22,14.62,...,522.19,2388.04,8133.8,8.4294,0.03,393,2388,100.0,38.9,23.4044




**Renomeando as Colunas para Melhor Compreensão**

O conjunto de dados original não possui cabeçalhos e apresenta as colunas numeradas de 0 a 25. Para facilitar a análise e a interpretação, vamos atribuir nomes mais descritivos às colunas com base na documentação do C-MAPSS.

A estrutura dos dados é a seguinte:

1. `unit_nr`: Identificador do motor (unidade)
2. `time_cycles`: Tempo em ciclos de operação
3. `setting_1`, `setting_2`, `setting_3`: Três configurações operacionais
4. `s_1` a `s_21`: Leituras dos sensores embarcados no motor

Esses nomes nos permitirão trabalhar de forma mais intuitiva e clara ao longo da análise, sem depender da posição numérica das colunas.


In [5]:


# Nomes das colunas
index_names = ['unit_nr', 'time_cycles']
setting_names = ['setting_1', 'setting_2', 'setting_3']
sensor_names = ['s_{}'.format(i) for i in range(1, 22)]
col_names = index_names + setting_names + sensor_names

# Carregar arquivos FD001
train = pd.read_csv(link_url + 'train_FD001.txt', sep='\s+', header=None, names=col_names)
test = pd.read_csv(link_url + 'test_FD001.txt', sep='\s+', header=None, names=col_names)
y_test = pd.read_csv(link_url + 'RUL_FD001.txt', sep='\s+', header=None, names=['RUL'])

train.head()


Unnamed: 0,unit_nr,time_cycles,setting_1,setting_2,setting_3,s_1,s_2,s_3,s_4,s_5,...,s_12,s_13,s_14,s_15,s_16,s_17,s_18,s_19,s_20,s_21
0,1,1,-0.0007,-0.0004,100.0,518.67,641.82,1589.7,1400.6,14.62,...,521.66,2388.02,8138.62,8.4195,0.03,392,2388,100.0,39.06,23.419
1,1,2,0.0019,-0.0003,100.0,518.67,642.15,1591.82,1403.14,14.62,...,522.28,2388.07,8131.49,8.4318,0.03,392,2388,100.0,39.0,23.4236
2,1,3,-0.0043,0.0003,100.0,518.67,642.35,1587.99,1404.2,14.62,...,522.42,2388.03,8133.23,8.4178,0.03,390,2388,100.0,38.95,23.3442
3,1,4,0.0007,0.0,100.0,518.67,642.35,1582.79,1401.87,14.62,...,522.86,2388.08,8133.83,8.3682,0.03,392,2388,100.0,38.88,23.3739
4,1,5,-0.0019,-0.0002,100.0,518.67,642.37,1582.85,1406.22,14.62,...,522.19,2388.04,8133.8,8.4294,0.03,393,2388,100.0,38.9,23.4044


Agora que já carregamos e estruturamos o conjunto de dados, vamos explorar algumas estatísticas descritivas iniciais. O objetivo aqui é confirmar se realmente temos registros para 100 motores distintos e entender como varia a quantidade de ciclos de operação (`time_cycles`) até que cada motor falhe. Essa análise nos ajuda a ter uma noção da vida útil média dos motores, além de revelar possíveis variações relevantes entre eles, que podem ser importantes para o processo de modelagem mais à frente.

In [12]:
train[index_names].describe()

Unnamed: 0,unit_nr,time_cycles
count,20631.0,20631.0
mean,51.506568,108.807862
std,29.227633,68.88099
min,1.0,1.0
25%,26.0,52.0
50%,52.0,104.0
75%,77.0,156.0
max,100.0,362.0


Aqui mostra que temos um total de 20631 registros de leitura em todo o conjunto de treinamento. A coluna unit_nr varia de 1 a 100, e a coluna time_cycles varia de 1 a 362. A média de ciclos por registro é de aproximadamente 108.8.

In [7]:
train[index_names].groupby('unit_nr').max().describe()

Unnamed: 0,time_cycles
count,100.0
mean,206.31
std,46.342749
min,128.0
25%,177.0
50%,199.0
75%,229.25
max,362.0


Aqui, após agrupar por unit_nr e pegar o max de time_cycles, é crucial. Ela confirma que há exatamente 100 motores distintos no conjunto de treinamento. A vida útil média dos motores (ciclos até a falha) é de aproximadamente 206.31 ciclos, com o motor que falhou mais cedo durando 128 ciclos e o motor mais durável operando por 362 ciclos. Essa informação sobre a distribuição da vida útil é fundamental para entender a variabilidade dos dados e para o desenvolvimento de modelos de previsão de RUL.