In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import joblib


# Wczytanie danych z pliku
df = pd.read_csv(r"C:\Users\arcis\OneDrive\Pulpit\4_korozja_ywbrany\dane_infrastruktury_wodorowej.csv")

# Przygotowanie danych y zmienna objaśniana X objasniajace
X = df[['temperatura', 'wilgotnosc', 'cisnienie', 'material', 'grubość_sciany', 'poziom_wodoru', 'zasolenie']]
y = df['kategoria_ryzyka']

# Podział danych
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Preprocessing One Hot encoding dla materiałów, Przekształca dane ciągłe, takie jak temperatura, wilgotność, zasolenie.
#Skaluje dane tak, aby miały średnią równą 0 i odchylenie standardowe równe 1.StandardScaler normalizuje dane liczbowe do konkretnej skali.
#Dane numeryczne są standaryzowane przy pomocy StandardScaler(), co oznacza, że wartości takich zmiennych jak temperatura, wilgotność, etc.
#zostaną skalowane, tak aby miały średnią równą 0, a odchylenie standardowe równe 1.
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), ['temperatura', 'wilgotnosc', 'cisnienie', 'grubość_sciany', 'poziom_wodoru', 'zasolenie']),
        ('cat', OneHotEncoder(handle_unknown='ignore'), ['material'])
    ])

# Pipeline modelu klasa sklearn łaczenie krokwo w jednym boiekcie.preorocessor przechowuje przekształcenie danych.
#klasyfikacja oparta na lasach losowych.oznacza, że model będzie używał 100 drzew decyzyjnych w swojej lesie,random_state=42 powtarzalnosć wynikow dla jednego zestawu 
#danych
model = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])

# Trening modelu
model.fit(X_train, y_train)

# Predykcja i ocena na danycht estowych
y_pred = model.predict(X_test)
print("Raport klasyfikacji:")
print(classification_report(y_test, y_pred))

# Zapis modelu
joblib.dump(model, 'model_korozji.joblib')

Raport klasyfikacji:
              precision    recall  f1-score   support

      niskie       0.92      0.95      0.94        61
     wysokie       0.94      0.87      0.90        38
     średnie       0.92      0.93      0.93       101

    accuracy                           0.93       200
   macro avg       0.93      0.92      0.92       200
weighted avg       0.93      0.93      0.92       200



['model_korozji.joblib']