## Lab 3 ‚Äì Dataanalys (EDA) f√∂r Smart Home IoT
# Business Scenario

**F√∂retag**: Smart Home Energy AB  
**Kund**: Villa√§gare med smart home-system  
**Data**: 128 dagars m√§tningar fr√•n 10 rum + v√§der (18 538 rader)  

## m√•l:
1.  S√§nka elr√§kningen (spara energi)
2.  √ñka komfort (r√§tt temperatur)
3.  F√∂rebygga fuktskador (uppt√§cka problem tidigt)

## Din uppgift:
Analysera datan och ge **konkreta rekommendationer** som f√∂retaget kan s√§lja som tj√§nster!

In [61]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data_ren = pd.read_csv("../data/cleaned_raw_energydata.csv")

print("SMART HOME ENERGY AB - DATAANALYS RAPPORT")
print("=" * 60)
print(f"Totalt antal m√§tningar: {len(data_ren):,}")
print(f"Tidsperiod: {data_ren['Datum_Tid'].min()} ‚Üí {data_ren['Datum_Tid'].max()}")
print(f"Antal sensorer: {len(data_ren.columns)} kolumner")
print("=" * 60)

SMART HOME ENERGY AB - DATAANALYS RAPPORT
Totalt antal m√§tningar: 17,700
Tidsperiod: 2016-01-11 17:00:00 ‚Üí 2016-05-27 17:30:00
Antal sensorer: 29 kolumner


In [None]:
temp_outliers = data_ren[(data_ren['Temp_K√∂k_C'] < -50) |
                   (data_ren['Temp_K√∂k_C'] > 60)]
print("Antal orimliga temperaturer:", len(temp_outliers))

### Bra nu har vi ren data och vi kan b√∂rja analysera datat

In [None]:
data_ren.head()

In [None]:
# FR√ÖGA 1: N√§r p√• dygnet anv√§nds mest energi?
# Business-v√§rde: F√∂rst√• energim√∂nster √∂ver dygnet

print("\nFR√ÖGA 1: Energif√∂rbrukning per timme p√• dygnet")
print("-" * 60)

# G√∂r om till datetime
data_ren['Datum_Tid'] = pd.to_datetime(data_ren['Datum_Tid'])
data_ren['Timme'] = data_ren['Datum_Tid'].dt.hour

# R√§kna medelv√§rdet per timme
energi_per_timme = data_ren.groupby('Timme')['Vitvaror_Energi_Wh'].mean()

# Hitta topptimme och l√•gtimme
topp_timme = energi_per_timme.idxmax()
topp_energi = energi_per_timme.max()
l√•g_timme = energi_per_timme.idxmin()
l√•g_energi = energi_per_timme.min()

print(f" H√ñGST energi: Kl {topp_timme}:00 ({topp_energi:.0f} Wh)")
print(f" L√ÑGST energi: Kl {l√•g_timme}:00 ({l√•g_energi:.0f} Wh)")
print(f" SKILLNAD: {topp_energi - l√•g_energi:.0f} Wh")

# GRAF 1: Energi per timme
plt.figure(figsize=(12, 5))
plt.plot(energi_per_timme.index, energi_per_timme.values, marker='o', linewidth=2)
plt.axhline(y=energi_per_timme.mean(), color='red', linestyle='--', label='Medel')
plt.xlabel('Timme p√• dygnet')
plt.ylabel('Energi (Wh)')
plt.title('Genomsnittlig energif√∂rbrukning per timme')
plt.grid(True, alpha=0.3)
plt.xticks(range(0, 24))
plt.legend()
plt.show()

print(f"\nTOLKNING: Toppen kl {topp_timme} = troligen matlagning/aktivitet")

In [None]:
data_ren.columns

In [None]:
#positiv skevhet betyder de flesta v√§rden √§r l√•ga men om det finns n√•gra extrema v√§rden d√• drar den grafen √•t h√∂ger
#negativ skevhet de flesta v√§rden √§r h√∂ga och n√•gra f√• √§r l√•ga
#0 betyder normalf√∂rdelning
col = 'Vitvaror_Energi_Wh'
skew_value = data_ren[col].skew()
print("Skevhet (skewness):", skew_value)

In [None]:
data_ren[col].hist(bins=30)
plt.xlabel(col)
plt.ylabel("Antal")
plt.title(f"F√∂rdelning av {col}\nSkevhet = {skew_value:.2f}")
plt.show()

In [None]:
# FR√ÖGA 2: Hur f√∂rdelas energif√∂rbrukningen?
# Business-v√§rde: Hitta extremv√§rden och m√∂nster

print("\nFR√ÖGA 2: F√∂rdelning av energif√∂rbrukning")
print("-" * 60)

# Beskrivande statistik
print(f"Statistik f√∂r energif√∂rbrukning:")
print(f"   Min: {data_ren['Vitvaror_Energi_Wh'].min():.0f} Wh")
print(f"   Max: {data_ren['Vitvaror_Energi_Wh'].max():.0f} Wh")
print(f"   Medel: {data_ren['Vitvaror_Energi_Wh'].mean():.0f} Wh")
print(f"   Median: {data_ren['Vitvaror_Energi_Wh'].median():.0f} Wh")

# R√§kna olika niv√•er
l√•g = len(data_ren[data_ren['Vitvaror_Energi_Wh'] < 50])
medel = len(data_ren[(data_ren['Vitvaror_Energi_Wh'] >= 50) & (data_ren['Vitvaror_Energi_Wh'] < 100)])
h√∂g = len(data_ren[data_ren['Vitvaror_Energi_Wh'] >= 100])

print(f"\nüîç F√∂rdelning:")
print(f"   L√•g (<50 Wh): {l√•g} m√§tningar ({l√•g/len(data_ren)*100:.1f}%)")
print(f"   Medel (50-100 Wh): {medel} m√§tningar ({medel/len(data_ren)*100:.1f}%)")
print(f"   H√∂g (>100 Wh): {h√∂g} m√§tningar ({h√∂g/len(data_ren)*100:.1f}%)")

# GRAF 2: Histogram
plt.figure(figsize=(10, 5))
plt.hist(data_ren['Vitvaror_Energi_Wh'], bins=30, edgecolor='black')
plt.axvline(x=data_ren['Vitvaror_Energi_Wh'].mean(), color='red', linestyle='--', 
            label=f'Medel: {data_ren["Vitvaror_Energi_Wh"].mean():.0f} Wh')
plt.xlabel('Energi (Wh)')
plt.ylabel('Antal m√§tningar')
plt.title('F√∂rdelning av energif√∂rbrukning')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nTOLKNING: Mestadels {medel/len(data_ren)*100:.0f}% ligger i normalomr√•det 50-100 Wh")

In [None]:
plt.scatter(data_ren['Fukt_K√∂k_Procent'], data_ren['Vitvaror_Energi_Wh'])
plt.xlabel("Temperature (¬∞C)")
plt.ylabel("Energy Consumption (kWh)")
plt.title("Scatter Plot: Temperatur vs Energif√∂rbrukning")
plt.show()

In [None]:
data_ren[['Fukt_K√∂k_Procent', 'Vitvaror_Energi_Wh']].corr()

In [None]:
# FR√ÖGA 3: Vilka rum har h√∂gst fuktighet?
# Business-v√§rde: Uppt√§ck risk f√∂r m√∂gel

print("\nFR√ÖGA 3: Fuktighet per rum")
print("-" * 60)

# Hitta alla fuktkolumner
fukt_kolumner = [col for col in data_ren.columns if 'Fukt' in col and 'Utomhus' not in col]

# R√§kna medelv√§rde
fukt_per_rum = {}
for kolumn in fukt_kolumner:
    rum_namn = kolumn.replace('Fukt_', '').replace('_Procent', '').replace('_', ' ')
    fukt_per_rum[rum_namn] = data_ren[kolumn].mean()

# Sortera
sorterad = sorted(fukt_per_rum.items(), key=lambda x: x[1], reverse=True)

print("FUKTIGHETS-RANKING:")
for i, (rum, fukt) in enumerate(sorterad, 1):
    risk = "RISK!" if fukt > 60 else "‚ö†Ô∏è H√∂gt" if fukt > 50 else "‚úÖ OK"
    print(f"{i}. {rum:20} {fukt:5.1f}% {risk}")

# GRAF 3: Stapeldiagram
plt.figure(figsize=(12, 6))
rum_namn = [item[0] for item in sorterad]
fukt_v√§rden = [item[1] for item in sorterad]

colors = ['red' if v > 60 else 'orange' if v > 50 else 'green' for v in fukt_v√§rden]
plt.bar(rum_namn, fukt_v√§rden, color=colors, edgecolor='black')
plt.axhline(y=60, color='red', linestyle='--', label='M√∂gelrisk (>60%)')
plt.axhline(y=50, color='orange', linestyle='--', label='H√∂gt (>50%)')
plt.xlabel('Rum')
plt.ylabel('Fuktighet (%)')
plt.title('Genomsnittlig fuktighet per rum')
plt.xticks(rotation=45, ha='right')
plt.legend()
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

h√∂gst_rum = sorterad[0][0]
h√∂gst_fukt = sorterad[0][1]
if h√∂gst_fukt > 50:
    print(f"\nVARNING: {h√∂gst_rum} har m√∂gelrisk!")
    print(f"REKOMMENDATION: Installera avfuktare")

In [None]:
# FR√ÖGA 4: Temperaturskillnader mellan rum?
# Business-v√§rde: Uppt√§ck d√•lig v√§rmebalans

print("\nFR√ÖGA 4: Temperatur per rum")
print("-" * 60)

# Hitta temperaturkolumner (inomhus)
temp_kolumner = [col for col in data_ren.columns 
                 if 'Temp' in col and 'Utomhus' not in col and 'V√§derstation' not in col]

# R√§kna medelv√§rde
temp_per_rum = {}
for kolumn in temp_kolumner:
    rum_namn = kolumn.replace('Temp_', '').replace('_C', '').replace('_', ' ')
    temp_per_rum[rum_namn] = data_ren[kolumn].mean()

# Sortera
sorterad_temp = sorted(temp_per_rum.items(), key=lambda x: x[1], reverse=True)

print("TEMPERATUR-RANKING:")
for i, (rum, temp) in enumerate(sorterad_temp, 1):
    print(f"{i}. {rum:20} {temp:5.1f}¬∞C")

varmast = sorterad_temp[0][0]
kallast = sorterad_temp[-1][0]
skillnad = sorterad_temp[0][1] - sorterad_temp[-1][1]

print(f"\nSKILLNAD: {skillnad:.1f}¬∞C mellan varmaste och kallaste rum")

# GRAF 4: Stapeldiagram
plt.figure(figsize=(12, 6))
rum_namn = [item[0] for item in sorterad_temp]
temp_v√§rden = [item[1] for item in sorterad_temp]

plt.bar(rum_namn, temp_v√§rden, color='skyblue', edgecolor='black')
plt.axhline(y=np.mean(temp_v√§rden), color='red', linestyle='--', 
            label=f'Medel: {np.mean(temp_v√§rden):.1f}¬∞C')
plt.xlabel('Rum')
plt.ylabel('Temperatur (¬∞C)')
plt.title('Genomsnittlig temperatur per rum')
plt.xticks(rotation=45, ha='right')
plt.legend()
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

if skillnad > 3:
    print(f"\nPROBLEM: Stor skillnad mellan {varmast} och {kallast}")
    print(f"REKOMMENDATION: Balansera v√§rmesystemet")
else:
    print(f"\nBRA: J√§mn temperatur i alla rum")

In [None]:
# Grupp efter veckodag
mean_values = data_ren.groupby('Timme')['Vitvaror_Energi_Wh'].mean()

mean_values.plot(kind='bar')
plt.ylabel("Genomsnittlig Energif√∂rbrukning (kWh)")
plt.title("Bar Chart: Energif√∂rbrukning per veckodag")
plt.show()


In [None]:
# FR√ÖGA 5: Sammanfattning och rekommendationer


print("\nSAMMANFATTNING & REKOMMENDATIONER")
print("=" * 60)

print("\n VIKTIGA UPPT√ÑCKTER:")
print("\n1. ENERGIM√ñNSTER")
print("   ‚Üí H√∂gst f√∂rbrukning vissa timmar p√• dygnet")
print("   ‚Üí Identifiera topptider f√∂r att f√∂rst√• beteende")

print("\n2. TEMPERATURBALANS")
if skillnad > 3:
    print(f"   Stor skillnad ({skillnad:.1f}¬∞C) mellan rum")
    print(f"   ‚Üí Balansera v√§rmesystem f√∂r j√§mn komfort")
else:
    print(f"   Bra balans mellan rum")

print("\n3. FUKTKONTROLL")
if h√∂gst_fukt > 50:
    print(f"    RISK: {h√∂gst_rum} har {h√∂gst_fukt:.1f}% fukt")
    print(f"   ‚Üí AKUT: Installera avfuktare f√∂r att undvika m√∂gel")
else:
    print(f"    Fuktniv√•er under kontroll")

print("\n UPPSKATTAD BESPARING:")
print("   ‚Ä¢ Temperaturoptimering: ~500-1000 SEK/√•r")
print("   ‚Ä¢ Undvika fuktskador: 50 000+ SEK")

print("\n" + "="*60)
print(" ANALYS KLAR! ")

## Extrema v√§rden (outliers) betyder inte automatiskt fel men:
Outliers kan p√•verka (f√∂rst√∂ra) vissa ML-modeller kraftigt.
Men inte alla modeller.


### Ska man ta bort outliers?
H√§r √§r n√•gra regler: 

**Ta bort outliers om**:

1. de √§r fysiskt om√∂jliga (t.ex. inomhustemperatur = ‚Äì128¬∞C)

2. de f√∂rst√∂r v√§rden

3. de √§r skrivfel (t.ex. ‚Äú20000 Wh‚Äù ist√§llet f√∂r ‚Äú200 Wh‚Äù)

4. de st√∂r distributionen utan att ha verklig betydelse

**Outliers som √§r √ÑKTA och betyder n√•got (ska INTE tas bort)
Exempel**:

1. Energif√∂rbrukning 180 Wh vid matlagning ‚Äî det √§r h√∂gt, men sant

2. Trafikvolym 800 bilar/h vid rusningstid

3. Huspris 20 miljoner i ett fint omr√•de

4. Hotel ‚Äúavg price per room‚Äù 3000 kr ‚Üí dyr helg, men korrekt

1. Statistiska metoder (n√§r man INTE vet gr√§nser)

A- IQR-metoden

    Q1 = 25-percentilen

    Q3 = 75-percentilen

    IQR = Q3 ‚Äì Q1

Outliers = v√§rden < Q1 ‚Äì 1.5 IQR eller > Q3 + 1.5 IQR

B- Z-score (>3 eller <‚Äì3)
    Det betyder: v√§rden som √§r mer √§n 3 standardavvikelser fr√•n medel ‚Üí ovanliga.
    Passar normalf√∂rdelad data (inte alltid bra f√∂r skev data!)

2. Dom√§nkunskap (n√§r man VET vad som √§r rimligt)
    Temperatur inomhus: kan inte vara 100¬∞C ‚Üí outlier

    Luftfuktighet >100% ‚Üí outlier (fysiskt om√∂jligt)

    Temperatur under ‚Äì20¬∞C inne ‚Üí outlier

3. Praktiska cutoffs (f√∂r energidata, trafik, ekonomi osv)
    Exempel energif√∂rbrukning:

    Om 99% av v√§rdena ligger mellan 20‚Äì120 Wh

    Och bara 1% ligger 150‚Äì200 Wh ‚Üí d√• √§r 150+ extrema

    Det √§r inte fel ‚Äì EDA handlar om tolkning.


In [None]:
#f√∂r att hantera outliers om man inte vet gr√§nsen finns det statistika metoder:


In [62]:
from scipy.stats import zscore


#print(outliers)

col = 'Vitvaror_Energi_Wh'
data_ren['z'] = (data_ren[col] - data_ren[col].mean()) / data_ren[col].std()

# H√§mta outliers
outliers = data_ren[data_ren['z'].abs() > 3]
print(outliers[['Datum_Tid', col, 'z']].head())

               Datum_Tid  Vitvaror_Energi_Wh         z
17   2016-01-11 20:30:00               190.0  3.983849
100  2016-01-12 12:10:00               190.0  3.983849
101  2016-01-12 12:30:00               170.0  3.328774
210  2016-01-13 08:20:00               180.0  3.656312
267  2016-01-13 18:50:00               180.0  3.656312


In [63]:
Q1 = data_ren[col].quantile(0.25)
Q3 = data_ren[col].quantile(0.75)
IQR = Q3 - Q1

lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

outliers = data_ren[(data_ren[col] < lower) | (data_ren[col] > upper)]
print(outliers[['Datum_Tid', col]].head())

               Datum_Tid  Vitvaror_Energi_Wh
15   2016-01-11 20:10:00               140.0
17   2016-01-11 20:30:00               190.0
78   2016-01-12 08:00:00               140.0
100  2016-01-12 12:10:00               190.0
101  2016-01-12 12:30:00               170.0
