# <center> [INDICIUM] - Processo Seletivo - Lighthouse Programa de Formação em Dados (Remoto) </center>
    
# <center> Treino e Teste do Modelo</center>

### Objetivo: Identificar quais máquinas apresentam potencial de falha tendo como base dados extraídos através de sensores durante o processo de manufatura. ###

In [15]:
#Import das libs necessárias no projeto
import pandas as pd
import seaborn as sn
import numpy as np

import matplotlib.pyplot as plt


#bliblotecas para a preparação do modelo
from sklearn.model_selection import RepeatedKFold, KFold, cross_val_score, train_test_split, GridSearchCV, RandomizedSearchCV

#import o classificador 
import lightgbm as lgb

#import label encoder
from sklearn import preprocessing


from numpy import argmax 
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

from pandasql import sqldf



In [2]:
#Ler os dados do csv e transformar em um dataframe para possibilitar a sua manipulação
df_treino = pd.read_csv("./desafio_manutencao_preditiva_treino.csv")
df_teste = pd.read_csv("./desafio_manutencao_preditiva_teste.csv")

In [3]:
print("Shape train: %s, test: %s" % (df_treino.shape, df_teste.shape))

Shape train: (6667, 9), test: (3333, 8)


In [4]:
df_treino.head()

Unnamed: 0,udi,product_id,type,air_temperature_k,process_temperature_k,rotational_speed_rpm,torque_nm,tool_wear_min,failure_type
0,1,M14860,M,298.1,308.6,1551,42.8,0,No Failure
1,2,L47181,L,298.2,308.7,1408,46.3,3,No Failure
2,5,L47184,L,298.2,308.7,1408,40.0,9,No Failure
3,6,M14865,M,298.1,308.6,1425,41.9,11,No Failure
4,7,L47186,L,298.1,308.6,1558,42.4,14,No Failure


## Parte 1 - Transformação e Preprocessamento dos dados

In [5]:
#Criando outro dataframe com base no original para poder manipular os dados 
#Importante: Só serão copiados as colunas necessárias para o processo de transformação e treino do modelo. 
df_treino_tf = df_treino[["air_temperature_k", "process_temperature_k", "rotational_speed_rpm", "torque_nm", "tool_wear_min", "failure_type"]].copy()

In [6]:
#o novo dataframe criado
df_treino_tf.head()

Unnamed: 0,air_temperature_k,process_temperature_k,rotational_speed_rpm,torque_nm,tool_wear_min,failure_type
0,298.1,308.6,1551,42.8,0,No Failure
1,298.2,308.7,1408,46.3,3,No Failure
2,298.2,308.7,1408,40.0,9,No Failure
3,298.1,308.6,1425,41.9,11,No Failure
4,298.1,308.6,1558,42.4,14,No Failure


In [7]:
df_treino_tf['failure_type'].unique()

array(['No Failure', 'Power Failure', 'Tool Wear Failure',
       'Overstrain Failure', 'Random Failures',
       'Heat Dissipation Failure'], dtype=object)

In [8]:
df_treino["failure_type"].value_counts()

No Failure                  6435
Heat Dissipation Failure      75
Power Failure                 63
Overstrain Failure            52
Tool Wear Failure             30
Random Failures               12
Name: failure_type, dtype: int64

Na análise exploratória dos dados foi detectado que a classe 'No Failure' tem um número expressivamente maior que as demais classes. Esse fator pode dar um problema no processo de classificação tendo em vista que o desbalanceamento entre as classes tende o resultado para classe mais expressiva, como no caso da base de dados é a classe 'No Failure'. Para testar essa hipótese será criado um modelo utilizando o classificador 

In [9]:
#transformar o y  
#make an instance of Label Encoder
label_encoder = preprocessing.LabelEncoder()
df_treino_tf["failure_type"] = label_encoder.fit_transform(df_treino_tf["failure_type"])

In [10]:
df_treino_tf['failure_type']

0       1
1       1
2       1
3       1
4       1
       ..
6662    1
6663    1
6664    1
6665    1
6666    1
Name: failure_type, Length: 6667, dtype: int64

In [20]:
pysqldf = lambda q: sqldf(q, globals())
falha_1= pysqldf("SELECT * FROM df_teste where tool_wear_min BETWEEN 200 AND 240 order by tool_wear_min")

Unnamed: 0,air_temperature_k,process_temperature_k,rotational_speed_rpm,torque_nm,tool_wear_min,failure_type


In [None]:
#O dataframe com os dados da coluna failure_type transformados
df_treino_tf.head()

## Parte 2 - Testes de adequação

O objetivo dessa parte é testar qual o melhor modelo de dados a ser utilizado. Se deixa o modelo multiclass, com os rótulos originais do banco de dados, ou se agrupa todos os tipos de falhas em uma única coluna Failure.

### 1. Teste 1 - Sem balanceamento em as classes

Nesse teste as classes não serão balanceadas

In [None]:
#definindo o y
y = df_treino_tf["failure_type"]
y.sample(3)

In [None]:
#retirando o y do conjunto de treino e as colunas que não seram utilizadas durante o processo de treinamento
df_treino_tf.drop(["failure_type"], axis=1, inplace=True)

In [None]:
df_treino_tf

In [None]:
#definindo o conjunto de treino
X_train, X_test, y_train, y_test = train_test_split(df_treino_tf, y, test_size=0.2, random_state=42)

In [None]:
#definindo os parâmetros
params = {
    'boosting': 'gbdt',
    'objective': 'multiclass',
    'num_class': 6
} 

In [None]:
# laoding data
lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)

In [None]:
model = lgb.train(params,
                 train_set=lgb_train,
                 valid_sets=lgb_eval,
                 early_stopping_rounds=30)

In [None]:
y_pred = model.predict(X_test)

y_pred = argmax(y_pred, axis=1)
cr = classification_report(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)

In [None]:
print(cr)
print(cm) 

Recall: De todos as falhas as que realmente são positivos, qual percentual é identificado corretamente pelo modelo.

In [None]:
lgb.plot_importance(model, height=.5)