# üõ†Ô∏è MVP - Predi√ß√£o de Manuten√ß√£o Industrial com Machine Learning

Este notebook tem como objetivo construir um modelo de machine learning para prever falhas em equipamentos industriais com base em sensores operacionais. Utilizo o dataset **AI4I 2020 Predictive Maintenance**.

O modelo gerado ser√° exportado e utilizado em uma aplica√ß√£o web full stack desenvolvida com FastAPI.


### 1Ô∏è‚É£ Importa√ß√£o das bibliotecas

Nesta etapa, carregamos as bibliotecas necess√°rias para manipula√ß√£o de dados, dividir amostras, treinar modelos de machine learning e exportar o resultado final.

In [1]:
# üîπ 1. Importa√ß√£o das bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
import joblib

# üîπ 2. Upload do dataset AI4I 2020
from google.colab import files
uploaded = files.upload()

# üîπ 3. Carregamento do dataset
df = pd.read_csv("ai4i2020.csv")


Saving ai4i2020.csv to ai4i2020.csv


### 2Ô∏è‚É£ Carregamento do dataset

O dataset **AI4I 2020** √© carregado diretamente via URL. Ele cont√©m dados simulados de sensores industriais (temperatura, torque, rota√ß√£o etc.) e se uma falha de m√°quina ocorreu (`machine_failure`).

In [2]:
# üîπ 2. Upload do dataset AI4I 2020
from google.colab import files
uploaded = files.upload()

Saving ai4i2020.csv to ai4i2020 (1).csv


### 3Ô∏è‚É£ Pr√©-processamento dos dados

Removemos colunas que n√£o s√£o √∫teis para o modelo (`udi`, `product_id`, `type`) e normalizamos os nomes das colunas para facilitar o trabalho com o Pandas e Scikit-learn.


In [3]:
# üîπ 3. Pr√©-processamento b√°sico
df.columns = [col.strip().lower().replace(" ", "_").replace("[", "").replace("]", "").replace("/", "") for col in df.columns]
df = df.drop(columns=['udi', 'product_id', 'type'])  # Remover colunas n√£o num√©ricas
X = df.drop(columns=['machine_failure'])
y = df['machine_failure']

### 4Ô∏è‚É£ Divis√£o dos dados em treino e teste

Separamos os dados em 80% para treino e 20% para teste. Isso nos permite avaliar o desempenho real dos modelos em dados nunca vistos.


In [4]:
# üîπ 4. Divis√£o treino/teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 5Ô∏è‚É£ Treinamento dos modelos

Utilizamos os seguintes algoritmos cl√°ssicos de classifica√ß√£o:

- K-Nearest Neighbors (KNN)
- √Årvore de Decis√£o
- Naive Bayes
- Suporte a Vetores de M√°quinas (SVM)

Todos s√£o encapsulados em um pipeline com normaliza√ß√£o via `StandardScaler`.


In [5]:
# üîπ 5. Modelos
modelos = {
    "KNN": KNeighborsClassifier(),
    "√Årvore": DecisionTreeClassifier(),
    "Naive Bayes": GaussianNB(),
    "SVM": SVC()
}

### 6Ô∏è‚É£ Avalia√ß√£o dos resultados

Geramos relat√≥rios de classifica√ß√£o (`classification_report`) para comparar os modelos usando m√©tricas como **precis√£o**, **recall** e **F1-score**.

Essas m√©tricas nos ajudam a escolher o modelo com melhor equil√≠brio entre acertos e erros.


In [6]:
# üîπ 6. Avalia√ß√£o
resultados = {}
for nome, modelo in modelos.items():
    pipeline = Pipeline([
        ('scaler', StandardScaler()),
        (nome, modelo)
    ])
    pipeline.fit(X_train, y_train)
    y_pred = pipeline.predict(X_test)
    print(f"\nüîç {nome} - Relat√≥rio de Classifica√ß√£o")
    print(classification_report(y_test, y_pred))
    resultados[nome] = pipeline


üîç KNN - Relat√≥rio de Classifica√ß√£o
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1939
           1       1.00      0.97      0.98        61

    accuracy                           1.00      2000
   macro avg       1.00      0.98      0.99      2000
weighted avg       1.00      1.00      1.00      2000


üîç √Årvore - Relat√≥rio de Classifica√ß√£o
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1939
           1       0.95      0.97      0.96        61

    accuracy                           1.00      2000
   macro avg       0.98      0.98      0.98      2000
weighted avg       1.00      1.00      1.00      2000


üîç Naive Bayes - Relat√≥rio de Classifica√ß√£o
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1939
           1       0.91      0.97      0.94        61

    accuracy                           1.00 

### 7Ô∏è‚É£ Exporta√ß√£o do melhor modelo

Selecionamos a √Årvore de Decis√£o como o modelo final com base nos resultados das m√©tricas. O modelo √© salvo no formato `.pkl` para ser carregado pela aplica√ß√£o FastAPI e utilizado em predi√ß√µes futuras.


In [8]:
# üîπ 7. Exportar melhor modelo
melhor = resultados['√Årvore']  # Exemplo: escolhemos √Årvore de Decis√£o
joblib.dump(melhor, 'modelo_manutencao.pkl')

['modelo_manutencao.pkl']

In [9]:
from google.colab import files
files.download('modelo_manutencao.pkl')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## ‚úÖ Conclus√£o

Este notebook permitiu a constru√ß√£o de um modelo de machine learning para manuten√ß√£o preditiva industrial, utilizando o dataset AI4I 2020.

O modelo final foi treinado com a √Årvore de Decis√£o, avaliado com m√©tricas robustas, e exportado para ser utilizado na aplica√ß√£o full stack que integra front-end (HTML/JS) com back-end em FastAPI.

Essa solu√ß√£o permite prever falhas com base nos sensores de temperatura, press√£o, vibra√ß√£o e corrente el√©trica.
