In [6]:
import pandas as pd

# Load the dataset
file_path = 'iot_telemetry_data.csv'
data = pd.read_csv(file_path)

# Clean the dataset: drop unnecessary columns
data_cleaned = data.drop(columns=['ts', 'device', 'light', 'lpg', 'motion', 'smoke'])

# Add a column 'habitable' based on the given conditions
conditions = (data_cleaned['temp'] < 21) & (data_cleaned['humidity'] < 80) & (data_cleaned['co'] < 0.009)
data_cleaned['habitable'] = conditions.astype(int)

# Count the number of elements with 'habitable' set to 1 and 0
habitable_count = data_cleaned['habitable'].value_counts()

# Display the cleaned dataset and the count
data_cleaned.head(), habitable_count

(         co   humidity       temp  habitable
 0  0.004956  51.000000  22.700000          0
 1  0.002840  76.000000  19.700001          1
 2  0.004976  50.900000  22.600000          0
 3  0.004403  76.800003  27.000000          0
 4  0.004967  50.900000  22.600000          0,
 habitable
 0    294739
 1    110445
 Name: count, dtype: int64)

1.	Importazione delle librerie: Importiamo le librerie necessarie per l’analisi dei dati (pandas), la suddivisione dei dati(train_test_split), la classificazione (RandomForestClassifier), la valutazione del modello (classification_report, accuracy_score) e ilsalvataggio del modello (joblib).
2.	Caricamento e Pulizia dei Dati: Carichiamo il dataset e rimuoviamo le colonne non necessarie. Aggiungiamo una colonna habitable basata suicriteri forniti.
3.	Preparazione dei Dati per l’Addestramento: Selezioniamo le caratteristiche (temp, humidity, co) e il target (habitable). Dividiamo i datiin set di addestramento e di test.
4.	Addestramento del Modello: Utilizziamo un RandomForestClassifier per addestrare il modello sui dati di addestramento.
5.	Valutazione del Modello: Effettuiamo previsioni sui dati di test e valutiamo le performance del modello calcolando l’accuratezza egenerando un report di classificazione.
6.	Salvataggio del Modello: Salviamo il modello addestrato utilizzando joblib.


In [9]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score

# Preparazione dei dati per l'addestramento
features = data_cleaned[['temp', 'humidity', 'co']]
target = data_cleaned['habitable']

# Divisione dei dati in train e test set
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

# Addestramento del modello con un RandomForestClassifier
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)
rf_classifier.fit(X_train, y_train)

# Previsioni sul test set
predictions = rf_classifier.predict(X_test)

# Valutazione del modello
accuracy = accuracy_score(y_test, predictions)
report = classification_report(y_test, predictions)

print('Accuracy: ', accuracy)
print(report)

Accuracy:  1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     58959
           1       1.00      1.00      1.00     22078

    accuracy                           1.00     81037
   macro avg       1.00      1.00      1.00     81037
weighted avg       1.00      1.00      1.00     81037



In [10]:
import emlearn

path = 'machine_learning.h'

cmodel = emlearn.convert(rf_classifier, method='inline')

cmodel.save(file=path, name='machine_learning')

print('Wrote model to', path)

Wrote model to machine_learning.h
