# Esercizio

Analizzate il dataset dei sensori IoT allegato e sviluppate un modello predittivo per il consumo energetico. Il vostro compito è identificare eventuali relazioni non lineari tra le variabili, proporre appropriate trasformazioni delle feature ed implementate il modello più opportuno per lo scopo. Documentate il vostro processo di analisi e le vostre conclusioni in un notebook completo.

## Dataset Description

The dataset contains 10,000 records with 21 features related to IoT sensor measurements:

- Environmental variables: temperature, humidity, pressure, dust levels, light intensity
- Device characteristics: device age, device ID, firmware version, maintenance history
- Operating parameters: sampling frequency, signal strength, data encryption
- Performance metrics: CPU cycles, memory usage, energy consumption (target variable)

## 1. Setup dell'Ambiente e Caricamento dei Dati

Iniziamo importando le librerie necessarie e configurando l'ambiente di lavoro. In questo notebook utilizzeremo pandas per la manipolazione dei dati, numpy per operazioni matematiche, e seaborn/matplotlib per le visualizzazioni.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import PolynomialFeatures
from sklearn.feature_selection import RFE, RFECV

# Impostazioni di visualizzazione
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('viridis')
pd.set_option('display.max_columns', None)
np.set_printoptions(precision=3, suppress=True)

# Caricamento del dataset
df = pd.read_csv('iot_sensor_dataset.csv')


Dopo aver importato le librerie, carichiamo il dataset IoT che contiene varie misurazioni di sensori e informazioni sui dispositivi. Il dataset include variabili come temperatura ambientale, intensità del segnale, età del dispositivo e consumo energetico, che sarà la nostra variabile target.

## 2. Esplorazione Iniziale dei Dati
Facciamo una prima analisi esplorativa del dataset per comprenderne la struttura e le caratteristiche principali.

In [3]:

# Visualizzazione delle prime righe
print("Panoramica del dataset:")
print(f"Dimensioni: {df.shape}")
print("\nPrime 5 righe:")
print(df.head())

# Informazioni sui tipi di dati e valori mancanti
print("\nInformazioni sul dataset:")
print(df.info())

# Statistiche descrittive
print("\nStatistiche descrittive:")
print(df.describe())

Panoramica del dataset:
Dimensioni: (10000, 21)

Prime 5 righe:
   ambient_temperature  sampling_frequency  signal_strength  device_age  \
0            25.973713           19.954055       -77.191891   15.638192   
1            20.893886            7.078132       -85.421017  162.602114   
2            27.181508            5.236645       -62.469972   36.750846   
3            34.184239            6.562283       -95.602938  147.664778   
4            20.126773           35.389292       -74.017591  104.289295   

    humidity  light_intensity  vibration_level  device_id firmware_version  \
0  40.404672       555.609812         0.692885          8             v2.0   
1  74.270838       928.340653         0.198886          4             v2.0   
2  29.000585       728.246399         0.455055          9             v2.0   
3  77.607516      3101.854739         0.628558          8             v1.0   
4  63.762251      3235.445541         0.704064          8             v1.2   

   last_maintena

       ambient_temperature  sampling_frequency  signal_strength    device_age  \
count         10000.000000        10000.000000     10000.000000  10000.000000   
mean             21.982912           30.920940       -70.063393     99.997927   
std               8.027699           17.080844        14.865141    100.829921   
min              -9.379202            1.002839      -127.845630      0.001674   
25%              16.619276           16.194986       -80.356717     28.344672   
50%              21.979240           31.164889       -70.034839     68.139154   
75%              27.368647           45.674881       -59.898538    139.263169   
max              53.409902           59.995565       -10.865035   1000.000000   

           humidity  light_intensity  vibration_level     device_id  \
count  10000.000000     10000.000000     10000.000000  10000.000000   
mean      54.994893       999.486223         0.495939      5.531700   
std       20.194389       998.696746         0.486621    