In [7]:
import pandas as pd

df = pd.read_parquet('./Data/061200_unidos_categorizado_under.parquet')

In [None]:
df

Categorizando

Treinando Classificativo

In [8]:
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.model_selection import train_test_split
from joblib import dump, load

colunas_ignoradas = ['categoria_time_to_failure']

# Selecionando as colunas para treinamento (ignorando as colunas especificadas)
X = df.drop(columns=colunas_ignoradas)

# Selecionando as colunas para previsão (targets)
y = df['categoria_time_to_failure']

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Criando e treinando o modelo de regressão linear
modelo = RandomForestClassifier(random_state=42)
modelo.fit(X_train, y_train)

# Fazendo previsões 
previsoes = modelo.predict(X_test)

# Salvar o modelo em um arquivo
dump(modelo, 'modelo_random_forest_c_under.joblib')


['modelo_random_forest_c_under.joblib']

In [9]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Verificando a pontuação de classificação de precisão.
print("Acurácia: {:.2f}%".format(accuracy_score(y_test, previsoes) * 100))
print("Precisão: {:.2f}%".format(precision_score(y_test, previsoes, average='macro') * 100))
print("Recall: {:.2f}%".format(recall_score(y_test, previsoes, average='macro') * 100))
print("F1-Score: {:.2f}%".format(f1_score(y_test, previsoes, average='macro') * 100))

# Nota: AUC-ROC assume que suas classes estão binarizadas ou que você tenha classificação binária.
if len(set(y_test)) == 2:
    print("AUC-ROC: {:.2f}%".format(roc_auc_score(y_test, previsoes) * 100))


Acurácia: 75.37%
Precisão: 54.68%
Recall: 46.28%
F1-Score: 48.88%


In [13]:
# Pegando as importâncias das características
feature_importances = modelo.feature_importances_

# Pegando os nomes das características (excluindo as colunas ignoradas)
feature_names = [col for col in df.columns if col not in colunas_ignoradas]

# Combinando os nomes das características com suas importâncias
features = zip(feature_names, feature_importances)

# Ordenando as características pela importância
sorted_features = sorted(features, key=lambda x: x[1], reverse=True)

# Imprimindo as características mais relevantes
for feature in sorted_features:
    print(f"{feature[0]}: {feature[1]}")

cumulative_time: 0.31241420085711086
flight_time: 0.06213271363992178
bleedPrecoolDiffPress-1b: 0.045971481509448416
correctedCoreSpeed-1a: 0.0453768255279235
bleedPrecoolDiffPress-1a: 0.045310442322629395
bleedOutTemp-1a: 0.04359825662076858
bleedOutTemp-1b: 0.04253386843343498
bleedOutTemp-2b: 0.042174133164896176
bleedOutTemp-2a: 0.041587552024745796
bleedMonPress-1b: 0.041186687513328275
bleedPrsovFbk-1b: 0.040511968383574404
bleedMonPress-1a: 0.04020645762275975
bleedMonPress-2b: 0.03915157673038821
bleedMonPress-2a: 0.03793817076864957
bleedPrecoolDiffPress-2a: 0.03548356170393476
bleedPrecoolDiffPress-2b: 0.03531764392835846
bleed_fail: 0.027544807986400303
recording_time: 0.021559651261726796


In [2]:
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from joblib import dump, load

colunas_ignoradas = ['categoria_time_to_failure']

# Selecionando as colunas para treinamento (ignorando as colunas especificadas)
X = df.drop(columns=colunas_ignoradas)

# Selecionando as colunas para previsão (targets)
y = df['categoria_time_to_failure']

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando e treinando o modelo XGBoost
modelo = XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss')
modelo.fit(X_train, y_train)

# Fazendo previsões
previsoes = modelo.predict(X_test)

# Salvar o modelo em um arquivo
dump(modelo, 'modelo_xgboost_c_under.joblib')

['modelo_xgboost_under_c.joblib']

In [3]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Verificando a pontuação de classificação de precisão.
print("Acurácia: {:.2f}%".format(accuracy_score(y_test, previsoes) * 100))
print("Precisão: {:.2f}%".format(precision_score(y_test, previsoes, average='macro') * 100))
print("Recall: {:.2f}%".format(recall_score(y_test, previsoes, average='macro') * 100))
print("F1-Score: {:.2f}%".format(f1_score(y_test, previsoes, average='macro') * 100))

# Nota: AUC-ROC assume que suas classes estão binarizadas ou que você tenha classificação binária.
if len(set(y_test)) == 2:
    print("AUC-ROC: {:.2f}%".format(roc_auc_score(y_test, previsoes) * 100))


Acurácia: 78.99%
Precisão: 62.31%
Recall: 54.94%
F1-Score: 57.72%


In [6]:
# Pegando as importâncias das características
feature_importances = modelo.feature_importances_

# Pegando os nomes das características (excluindo as colunas ignoradas)
feature_names = [col for col in df.columns if col not in colunas_ignoradas]

# Combinando os nomes das características com suas importâncias
features = zip(feature_names, feature_importances)

# Ordenando as características pela importância
sorted_features = sorted(features, key=lambda x: x[1], reverse=True)

# Imprimindo as características mais relevantes
for feature in sorted_features:
    print(f"{feature[0]}: {feature[1]}")

bleed_fail: 0.3946102261543274
cumulative_time: 0.13671214878559113
bleedPrsovFbk-1b: 0.03932633250951767
flight_time: 0.035583607852458954
bleedMonPress-2b: 0.03234165906906128
bleedMonPress-1b: 0.03209799900650978
bleedOutTemp-2a: 0.031123053282499313
bleedOutTemp-1b: 0.030475374311208725
bleedMonPress-2a: 0.028357455506920815
bleedPrecoolDiffPress-2b: 0.028344614431262016
bleedOutTemp-2b: 0.028015803545713425
bleedOutTemp-1a: 0.027955567464232445
correctedCoreSpeed-1a: 0.027444908395409584
recording_time: 0.026856251060962677
bleedPrecoolDiffPress-2a: 0.026073219254612923
bleedPrecoolDiffPress-1a: 0.026034114882349968
bleedMonPress-1a: 0.02437230944633484
bleedPrecoolDiffPress-1b: 0.024275336414575577
