In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import seaborn as sns
from datetime import datetime

In [None]:
# ex 1
dados_power = pd.read_csv('household_power_consumption.txt', sep=";", low_memory=False, na_values=['?'])
dados_power.head(11)

# Ex 2

## Global Active Power (Potência Ativa)
É a potência real que efetivamente realiza trabalho útil, convertendo energia elétrica em outras formas de energia como luz, calor e movimento. Medida em kilowatts (kW), é a energia que acende lâmpadas, alimenta motores e aquece resistências. Esta é a potência que consumimos de fato e que aparece na nossa conta de luz.

---

## Global Reactive Power (Potência Reativa)
É a potência necessária para criar e manter os campos magnéticos em equipamentos como motores e transformadores, mas que não realiza trabalho útil. Medida em kilovolt-ampere reativo (kVAR), essa energia oscila entre a carga e a fonte, sendo constantemente armazenada e devolvida ao sistema. Embora não produza trabalho real, é essencial para o funcionamento de muitos equipamentos elétricos.

In [None]:
# ex 3
# Filtrar apenas colunas com valores ausentes
valores_ausentes = dados_power.isnull().sum()
colunas_com_ausentes = valores_ausentes[valores_ausentes > 0]

print("Colunas com valores ausentes e suas quantidades:")
print(colunas_com_ausentes)

print("\nPercentual de valores ausentes nas colunas afetadas:")
percentual_ausentes = (colunas_com_ausentes / len(dados_power)) * 100
print(percentual_ausentes.round(2))

Colunas com valores ausentes e suas quantidades:
Global_active_power      25979
Global_reactive_power    25979
Voltage                  25979
Global_intensity         25979
Sub_metering_1           25979
Sub_metering_2           25979
Sub_metering_3           25979
dtype: int64

Percentual de valores ausentes nas colunas afetadas:
Global_active_power      1.25
Global_reactive_power    1.25
Voltage                  1.25
Global_intensity         1.25
Sub_metering_1           1.25
Sub_metering_2           1.25
Sub_metering_3           1.25
dtype: float64


In [None]:
# Ex 4
import pandas as pd

dados_power['DateTime'] = pd.to_datetime(dados_power['Date'] + ' ' + dados_power['Time'], format='%d/%m/%Y %H:%M:%S')

# Criar coluna com dia da semana (0=Segunda, 6=Domingo)
dados_power['Dia_da_Semana'] = dados_power['DateTime'].dt.dayofweek

# Criar coluna com nome do dia em português
dados_power['Nome_Dia'] = dados_power['Dia_da_Semana'].map({
    0: 'Segunda-feira',
    1: 'Terça-feira',
    2: 'Quarta-feira',
    3: 'Quinta-feira',
    4: 'Sexta-feira',
    5: 'Sábado',
    6: 'Domingo'
})

# Mostrar amostras de diferentes dias
print("Amostras de diferentes dias da semana:")
print(dados_power[['Date', 'Time', 'DateTime', 'Dia_da_Semana', 'Nome_Dia']].drop_duplicates('Date').head(10))

In [None]:
# Ex 5

# Converter Date para datetime
dados_power['Date'] = pd.to_datetime(dados_power['Date'], format='%d/%m/%Y')

# Converter Global_active_power para numérico
dados_power['Global_active_power'] = pd.to_numeric(dados_power['Global_active_power'], errors='coerce')

# Filtrar apenas registros de 2007
dados_2007 = dados_power[dados_power['Date'].dt.year == 2007].copy()

# Calcular média diária de consumo
media_diaria = dados_2007.groupby('Date')['Global_active_power'].mean()

# Mostrar resultado
print("Média diária de Global_active_power em 2007:")
print(media_diaria.head(213))
print(f"\nTotal de dias analisados: {len(media_diaria)}")
print(f"Média geral de 2007: {media_diaria.mean():.3f} kW")

In [1]:
# Exercício 6

dados_power = pd.read_csv('household_power_consumption.txt',
                 sep=';',
                 na_values=['?'],
                 usecols=['Date', 'Time', 'Global_active_power'],
                 low_memory=False)

dados_power = dados_power.dropna()

dados_power['DateTime'] = pd.to_datetime(dados_power['Date'] + ' ' + dados_power['Time'], format='%d/%m/%Y %H:%M:%S')

dados_power['Global_active_power'] = pd.to_numeric(dados_power['Global_active_power'], errors='coerce')

dados_power = dados_power.dropna()

print(f"Período dos dados: {dados_power['DateTime'].min()} até {dados_power['DateTime'].max()}")
print(f"Total de registros: {len(dados_power)}")

NameError: name 'pd' is not defined

In [None]:
target_date = '2007-01-07'
day_data = dados_power[dados_power['DateTime'].dados_power.date == pd.to_datetime(target_date).date()]

print(f"Dados para {target_date}: {len(day_data)} registros")

if len(day_data) > 0:

    plt.figure(figsize=(15, 8))

    plt.plot(day_data['DateTime'], day_data['Global_active_power'],
             linewidth=1, color='blue', alpha=0.8)

    plt.title(f'Variação do Global Active Power em {target_date}', fontsize=16, fontweight='bold')
    plt.xlabel('Hora do Dia', fontsize=12)
    plt.ylabel('Global Active Power (kilowatts)', fontsize=12)
    plt.grid(True, alpha=0.3)

    plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%H:%M'))
    plt.gca().xaxis.set_major_locator(mdates.HourLocator(interval=2))
    plt.xticks(rotation=45)

    mean_power = day_data['Global_active_power'].mean()
    plt.axhline(y=mean_power, color='red', linestyle='--', alpha=0.8,
                label=f'Média do dia: {mean_power:.2f} kW')

    plt.legend()
    plt.tight_layout()
    plt.show()

    print(f"\nEstatísticas para {target_date}:")
    print(f"Mínimo: {day_data['Global_active_power'].min():.3f} kW")
    print(f"Máximo: {day_data['Global_active_power'].max():.3f} kW")
    print(f"Média: {day_data['Global_active_power'].mean():.3f} kW")
    print(f"Mediana: {day_data['Global_active_power'].median():.3f} kW")

else:
    print(f"Não há dados disponíveis para {target_date}")

In [None]:
# Exercício 7
dados_power = pd.read_csv('household_power_consumption.txt',
                 sep=';',
                 na_values=['?'],
                 usecols=['Voltage'],
                 low_memory=False)

dados_power = dados_power.dropna()
dados_power['Voltage'] = pd.to_numeric(dados_power['Voltage'], errors='coerce')
dados_power = dados_power.dropna()

print(f"Total de registros de Voltage: {len(dados_power):,}")
print("\nEstatísticas descritivas da Voltage:")
print(dados_power['Voltage'].describe())

In [None]:

plt.style.use('default')
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

axes[0, 0].hist(dados_power['Voltage'], bins=100, alpha=0.7, color='lightcoral', edgecolor='black', density=True)
axes[0, 0].set_title('Distribuição da Tensão Elétrica (Voltage)', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Tensão (Volts)')
axes[0, 0].set_ylabel('Densidade')
axes[0, 0].grid(True, alpha=0.3)

mean_voltage = dados_power['Voltage'].mean()
axes[0, 0].axvline(mean_voltage, color='red', linestyle='--', linewidth=2,
                  label=f'Média: {mean_voltage:.2f} V')

nominal_voltage = 236
tolerance = 2.36  # ±1%
axes[0, 0].axvline(nominal_voltage - tolerance, color='orange', linestyle=':', linewidth=2,
                  label=f'236V ±1%: {nominal_voltage - tolerance:.1f} - {nominal_voltage + tolerance:.1f} V')
axes[0, 0].axvline(nominal_voltage + tolerance, color='orange', linestyle=':', linewidth=2)
axes[0, 0].axvline(nominal_voltage, color='green', linestyle='-', linewidth=1, alpha=0.7,
                  label=f'Tensão Nominal: 236V')

axes[0, 0].legend()

axes[0, 1].boxplot(dados_power['Voltage'])
axes[0, 1].set_title('Boxplot da Tensão Elétrica', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Volts')
axes[0, 1].grid(True, alpha=0.3)

axes[1, 0].hist(dados_power['Voltage'], bins=150, alpha=0.7, color='lightseagreen', edgecolor='black', density=True)
axes[1, 0].set_title('Distribuição da Tensão (Zoom na Região Principal)', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Tensão (Volts)')
axes[1, 0].set_ylabel('Densidade')
axes[1, 0].set_xlim(230, 245)
axes[1, 0].grid(True, alpha=0.3)
axes[1, 0].axvline(mean_voltage, color='red', linestyle='--', linewidth=2)

voltage_values = np.linspace(dados_power['Voltage'].min(), dados_power['Voltage'].max(), 1000)
from scipy.stats import gaussian_kde
kde = gaussian_kde(dados_power['Voltage'])
axes[1, 1].plot(voltage_values, kde(voltage_values), color='purple', linewidth=2)
axes[1, 1].fill_between(voltage_values, kde(voltage_values), alpha=0.3, color='purple')
axes[1, 1].set_title('Função de Densidade de Probabilidade (KDE)', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Tensão (Volts)')
axes[1, 1].set_ylabel('Densidade')
axes[1, 1].grid(True, alpha=0.3)
axes[1, 1].axvline(mean_voltage, color='red', linestyle='--', linewidth=2)

plt.tight_layout()
plt.show()

In [None]:
# Exercício 8
cols_to_use = ['Date', 'Time', 'Global_active_power']
dados_power = pd.read_csv('household_power_consumption.txt',
                 sep=';',
                 na_values=['?'],
                 usecols=cols_to_use,
                 low_memory=False)

dados_power = dados_power.dropna()

dados_power['DateTime'] = pd.to_datetime(dados_power['Date'] + ' ' + dados_power['Time'], format='%d/%m/%Y %H:%M:%S')

dados_power['Global_active_power'] = pd.to_numeric(dados_power['Global_active_power'], errors='coerce')
dados_power = dados_power.dropna()

print(f"Período dos dados: {dados_power['DateTime'].min()} até {dados_power['DateTime'].max()}")
print(f"Total de registros: {len(dados_power):,}")



In [None]:
dados_power['Year'] = dados_power['DateTime'].dt.year
dados_power['Month'] = dados_power['DateTime'].dt.month
dados_power['YearMonth'] = dados_power['DateTime'].dt.to_period('M')

dados_power['Energy_kWh_minute'] = dados_power['Global_active_power'] / 60

monthly_consumption = dados_power.groupby('YearMonth').agg({
    'Energy_kWh_minute': 'sum',
    'DateTime': 'count'
}).rename(columns={'Energy_kWh_minute': 'Total_Energy_kWh', 'DateTime': 'Record_Count'})

monthly_consumption['Days_in_month'] = monthly_consumption.index.days_in_month
monthly_consumption['Avg_Daily_Consumption_kWh'] = monthly_consumption['Total_Energy_kWh'] / monthly_consumption['Days_in_month']
monthly_consumption['Avg_Monthly_Consumption_kWh'] = monthly_consumption['Total_Energy_kWh']

print("Consumo Mensal:")
print(monthly_consumption[['Total_Energy_kWh', 'Avg_Daily_Consumption_kWh', 'Record_Count']].round(2))

In [None]:
plt.style.use('default')
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

axes[0, 0].plot(monthly_consumption.index.astype(str), monthly_consumption['Total_Energy_kWh'],
                marker='o', linewidth=2, markersize=4, color='royalblue')
axes[0, 0].set_title('Consumo Total de Energia por Mês', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Mês/Ano')
axes[0, 0].set_ylabel('Consumo Total (kWh)')
axes[0, 0].tick_params(axis='x', rotation=45)
axes[0, 0].grid(True, alpha=0.3)

axes[0, 1].plot(monthly_consumption.index.astype(str), monthly_consumption['Avg_Daily_Consumption_kWh'],
                marker='s', linewidth=2, markersize=4, color='crimson')
axes[0, 1].set_title('Consumo Médio Diário por Mês', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Mês/Ano')
axes[0, 1].set_ylabel('Consumo Médio Diário (kWh)')
axes[0, 1].tick_params(axis='x', rotation=45)
axes[0, 1].grid(True, alpha=0.3)

yearly_data = []
years = sorted(dados_power['Year'].unique())
for year in years:
    yearly_data.append(monthly_consumption[monthly_consumption.index.year == year]['Total_Energy_kWh'])

axes[1, 0].boxplot(yearly_data, labels=years)
axes[1, 0].set_title('Distribuição do Consumo Mensal por Ano', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Ano')
axes[1, 0].set_ylabel('Consumo Mensal (kWh)')
axes[1, 0].grid(True, alpha=0.3)

monthly_avg = monthly_consumption.groupby(monthly_consumption.index.month).agg({
    'Total_Energy_kWh': 'mean',
    'Avg_Daily_Consumption_kWh': 'mean'
})

month_names = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun',
               'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dec']

axes[1, 1].bar(month_names, monthly_avg['Total_Energy_kWh'],
               color='lightgreen', alpha=0.7, edgecolor='darkgreen')
axes[1, 1].set_title('Consumo Médio Mensal (Todos os Anos)', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Mês')
axes[1, 1].set_ylabel('Consumo Médio (kWh)')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Exercício 9
cols_to_use = ['Date', 'Time', 'Global_active_power']
dados_power = pd.read_csv('household_power_consumption.txt',
                 sep=';',
                 na_values=['?'],
                 usecols=cols_to_use,
                 low_memory=False)

dados_power = dados_power.dropna()

dados_power['DateTime'] = pd.to_datetime(dados_power['Date'] + ' ' + dados_power['Time'], format='%d/%m/%Y %H:%M:%S')

dados_power['Global_active_power'] = pd.to_numeric(dados_power['Global_active_power'], errors='coerce')
dados_power = dados_power.dropna()

print(f"Período dos dados: {dados_power['DateTime'].min()} até {dados_power['DateTime'].max()}")
print(f"Total de registros: {len(dados_power):,}")

In [None]:
dados_power['Date_only'] = dados_power['DateTime'].dt.date

dados_power['Energy_kWh_minute'] = dados_power['Global_active_power'] / 60

daily_consumption = dados_power.groupby('Date_only').agg({
    'Energy_kWh_minute': 'sum',
    'Global_active_power': ['mean', 'max', 'min'],
    'DateTime': 'count'
}).round(4)

daily_consumption.columns = ['Total_Energy_kWh', 'Avg_Power_kW', 'Max_Power_kW', 'Min_Power_kW', 'Record_Count']

daily_consumption_sorted = daily_consumption.sort_values('Total_Energy_kWh', ascending=False)

print("Top 10 dias com maior consumo:")
print(daily_consumption_sorted.head(10))

max_consumption_day = daily_consumption_sorted.iloc[0]
max_consumption_date = daily_consumption_sorted.index[0]

print("\n" + "="*60)
print(f"📈 DIA COM MAIOR CONSUMO: {max_consumption_date}")
print("="*60)
print(f"Consumo Total: {max_consumption_day['Total_Energy_kWh']:.2f} kWh")
print(f"Consumo Médio: {max_consumption_day['Avg_Power_kW']:.2f} kW")
print(f"Pico Máximo: {max_consumption_day['Max_Power_kW']:.2f} kW")
print(f"Mínimo: {max_consumption_day['Min_Power_kW']:.2f} kW")
print(f"Registros no dia: {max_consumption_day['Record_Count']}")

In [None]:
# Exercício 10
cols_to_use = ['Date', 'Time', 'Global_active_power']
dados_power = pd.read_csv('household_power_consumption.txt',
                 sep=';',
                 na_values=['?'],
                 usecols=cols_to_use,
                 low_memory=False)

dados_power = dados_power.dropna()

dados_power['DateTime'] = pd.to_datetime(dados_power['Date'] + ' ' + dados_power['Time'], format='%d/%m/%Y %H:%M:%S')

dados_power['Global_active_power'] = pd.to_numeric(dados_power['Global_active_power'], errors='coerce')
dados_power = dados_power.dropna()

print(f"Período dos dados: {dados_power['DateTime'].min()} até {dados_power['DateTime'].max()}")
print(f"Total de registros: {len(dados_power):,}")

In [None]:
dados_power['Date_only'] = dados_power['DateTime'].dt.date
dados_power['Day_of_week'] = dados_power['DateTime'].dt.dayofweek
dados_power['Is_weekend'] = dados_power['Day_of_week'].isin([5, 6])
dados_power['Hour'] = dados_power['DateTime'].dt.hour

dados_power['Energy_kWh_minute'] = dados_power['Global_active_power'] / 60

daily_consumption = dados_power.groupby(['Date_only', 'Is_weekend', 'Day_of_week']).agg({
    'Energy_kWh_minute': 'sum',
    'Global_active_power': ['mean', 'max', 'min'],
    'DateTime': 'count'
}).round(4)

daily_consumption.columns = ['Total_Energy_kWh', 'Avg_Power_kW', 'Max_Power_kW', 'Min_Power_kW', 'Record_Count']
daily_consumption = daily_consumption.reset_index()

weekend_stats = daily_consumption[daily_consumption['Is_weekend'] == True]['Total_Energy_kWh'].describe()
weekday_stats = daily_consumption[daily_consumption['Is_weekend'] == False]['Total_Energy_kWh'].describe()

print("="*60)
print("COMPARAÇÃO: DIAS DE SEMANA vs FINAIS DE SEMANA")
print("="*60)

print(f"\n📊 ESTATÍSTICAS GERAIS:")
print(f"Dias de semana analisados: {len(daily_consumption[daily_consumption['Is_weekend'] == False])}")
print(f"Finais de semana analisados: {len(daily_consumption[daily_consumption['Is_weekend'] == True])}")

print(f"\n📍 CONSUMO DIÁRIO MÉDIO:")
print(f"Dias de semana: {weekday_stats['mean']:.2f} kWh")
print(f"Finais de semana: {weekend_stats['mean']:.2f} kWh")
print(f"Diferença: {weekend_stats['mean'] - weekday_stats['mean']:.2f} kWh ({((weekend_stats['mean']/weekday_stats['mean'])-1)*100:.1f}%)")

from scipy.stats import ttest_ind

weekday_data = daily_consumption[daily_consumption['Is_weekend'] == False]['Total_Energy_kWh']
weekend_data = daily_consumption[daily_consumption['Is_weekend'] == True]['Total_Energy_kWh']

t_stat, p_value = ttest_ind(weekday_data, weekend_data, equal_var=False)

print(f"\n📈 TESTE ESTATÍSTICO (t-test):")
print(f"Estatística t: {t_stat:.3f}")
print(f"Valor-p: {p_value:.6f}")
print(f"Significativo (p < 0.05): {'SIM' if p_value < 0.05 else 'NÃO'}")

In [None]:
# Exercício 11
df_somente_colunas_ex_11 = dados_power.drop(['Date','Time','Sub_metering_1','Sub_metering_2','Sub_metering_3'],axis=1)
df_somente_colunas_ex_11.head()
df_somente_colunas_ex_11 = df_somente_colunas_ex_11.apply(pd.to_numeric,errors='coerce')
df_somente_colunas_ex_11.corr('pearson')

In [None]:
# Exercício 12
dados_power.head()
colunas_numericas = ["Global_active_power", "Global_reactive_power",
                     "Voltage", "Global_intensity",
                     "Sub_metering_1", "Sub_metering_2", "Sub_metering_3"]

dados_power[colunas_numericas] = dados_power[colunas_numericas].apply(pd.to_numeric, errors="coerce")
dados_power["Total_Sub_metering"] = (
    dados_power["Sub_metering_1"] +
    dados_power["Sub_metering_2"] +
    dados_power["Sub_metering_3"]
)
dados_power.head()

In [None]:
# Exercício 13
dados_power['Date'] = pd.to_datetime(dados_power['Date'], format="%d/%m/%Y")
dados_power["Total_Sub_metering"] = (
    dados_power["Sub_metering_1"] +
    dados_power["Sub_metering_2"] +
    dados_power["Sub_metering_3"]
)

dados_power["AnoMes"] = dados_power["Date"].dt.to_period("M")

media_mensal_gap = dados_power.groupby("AnoMes")["Global_active_power"].mean()


media_mensal_tsm = dados_power.groupby("AnoMes")["Total_Sub_metering"].mean()

comparacao = pd.DataFrame({
    "Media_Global_active_power": media_mensal_gap,
    "Media_Total_Sub_metering": media_mensal_tsm
})

resultado = comparacao[comparacao["Media_Total_Sub_metering"] > comparacao["Media_Global_active_power"]]

print(f'meses que a média do total sub metering foi maior que a média do global active power \n{resultado}')

In [None]:
# Exercício 14

dados_power['Date'] = pd.to_datetime(dados_power['Date'], format="%d/%m/%Y", errors="coerce")

dados_power['DateTime'] = pd.to_datetime(dados_power['Date'].astype(str) + " " + dados_power['Time'], errors="coerce")

dados_2008 = dados_power[dados_power['DateTime'].dt.year == 2008]

plt.figure(figsize=(14,5))
plt.plot(dados_2008['DateTime'], dados_2008['Voltage'], color="blue", linewidth=0.5)

plt.title("Série Temporal do Voltage - Ano de 2008")
plt.xlabel("Data")
plt.ylabel("Voltage (V)")
plt.grid(True, linestyle="--", alpha=0.5)
plt.show()


In [None]:
# Patch mínimo p/ viabilizar as análises
dados_power['Datetime'] = pd.to_datetime(dados_power['Date'] + ' ' + dados_power['Time'],
                                         dayfirst=True, errors='coerce')
num_cols = ['Global_active_power','Global_reactive_power','Voltage',
            'Global_intensity','Sub_metering_1','Sub_metering_2','Sub_metering_3']
dados_power[num_cols] = dados_power[num_cols].apply(pd.to_numeric, errors='coerce')
dados_power = dados_power.set_index('Datetime').dropna(subset=['Global_active_power']).sort_index()

# Exercício 15
dados_power['month'] = dados_power.index.month
summer = dados_power.loc[dados_power['month'].isin([6,7,8]), 'Global_active_power'].dropna()
winter = dados_power.loc[dados_power['month'].isin([12,1,2]), 'Global_active_power'].dropna()
print("15) Verão vs Inverno (HN)")
print(f"Média GAP Verão (kW):  {summer.mean():.4f}")
print(f"Média GAP Inverno (kW): {winter.mean():.4f}")
print(f"Mediana GAP Verão (kW):  {summer.median():.4f}")
print(f"Mediana GAP Inverno (kW): {winter.median():.4f}")

monthly_mean = dados_power['Global_active_power'].groupby([dados_power.index.year, dados_power.index.month]).mean()
monthly_mean.index = pd.to_datetime([f"{y}-{m:02d}-01" for y,m in monthly_mean.index])

plt.figure(figsize=(10,4))
monthly_mean.plot()
plt.title('Média Mensal de Global_active_power (kW)')
plt.xlabel('Mês'); plt.ylabel('kW'); plt.tight_layout(); plt.show()

plt.figure(figsize=(6,4))
plt.boxplot([summer.values, winter.values], labels=['Verão(HN)','Inverno(HN)'])
plt.title('Distribuição de Global_active_power — Verão vs Inverno (HN)')
plt.ylabel('kW'); plt.tight_layout(); plt.show()

In [None]:
# Exercício 16
full = dados_power['Global_active_power'].dropna()
sample_1pct = full.sample(frac=0.01, random_state=42)
stat, pval = ks_2samp(full.values, sample_1pct.values)
print("\n16) KS test (completa vs 1%)")
print(f"KS stat: {stat:.4f} | p-value: {pval:.4e}  (p alto ⇒ distribuições semelhantes)")

plt.figure(figsize=(10,4))
plt.hist(full.values, bins=80, alpha=0.5, density=True, label='Completa')
plt.hist(sample_1pct.values, bins=80, alpha=0.5, density=True, label='Amostra 1%')
plt.title('Distribuição de Global_active_power — Completa vs 1%')
plt.xlabel('kW'); plt.ylabel('Densidade'); plt.legend(); plt.tight_layout(); plt.show()

In [None]:
# Exercício 17
features = ['Global_active_power','Global_reactive_power','Voltage',
            'Global_intensity','Sub_metering_1','Sub_metering_2','Sub_metering_3']
dados_num = dados_power[features].dropna()
scaler = MinMaxScaler()
dados_scaled_vals = scaler.fit_transform(dados_num.values)
dados_power_scaled = pd.DataFrame(dados_scaled_vals, columns=features, index=dados_num.index)
print("\n17) Min-Max (preview):")
print(dados_power_scaled.head())

In [None]:
# Exercício 18

agg = {
    'Global_active_power': ['mean','sum'],
    'Global_reactive_power': 'mean',
    'Voltage': 'mean',
    'Global_intensity': 'mean',
    'Sub_metering_1': 'sum',
    'Sub_metering_2': 'sum',
    'Sub_metering_3': 'sum'
}
diarios = dados_power.resample('D').agg(agg)
diarios.columns = ['_'.join(c) if isinstance(c, tuple) else c for c in diarios.columns]
diarios['energy_kWh'] = diarios['Global_active_power_sum'] * (1.0/60.0)
diarios = diarios.dropna()

cluster_features = ['Global_active_power_mean','Global_reactive_power_mean','Voltage_mean',
                    'Global_intensity_mean','Sub_metering_1_sum','Sub_metering_2_sum',
                    'Sub_metering_3_sum','energy_kWh']
X = diarios[cluster_features].values
scaler_days = MinMaxScaler()
X_scaled = scaler_days.fit_transform(X)

kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
labels = kmeans.fit_predict(X_scaled)
diarios['cluster'] = labels

print("\n18) K-means diário — tamanhos:", diarios['cluster'].value_counts().sort_index().to_dict())
centers_scaled = kmeans.cluster_centers_
centers = scaler_days.inverse_transform(centers_scaled)
centers_df = pd.DataFrame(centers, columns=cluster_features)
centers_df['cluster'] = range(3)
centers_df = centers_df.sort_values(by='energy_kWh').reset_index(drop=True)
print("Centros (unidades originais):")
print(centers_df.round(3))

plt.figure(figsize=(6,4))
box_data = [diarios.loc[diarios['cluster']==i, 'energy_kWh'].values for i in sorted(diarios['cluster'].unique())]
plt.boxplot(box_data, labels=[f'C{i}' for i in sorted(diarios["cluster"].unique())])
plt.title('Energia diária (kWh) por cluster'); plt.ylabel('kWh'); plt.tight_layout(); plt.show()

In [None]:
# Exercício 19
gap_daily = dados_power['Global_active_power'].resample('D').mean().dropna()
start = gap_daily.index.min().normalize()
end = start + pd.DateOffset(months=6) - pd.DateOffset(days=1)
if end > gap_daily.index.max():
    end = gap_daily.index.max().normalize()
    start = end - pd.DateOffset(months=6) + pd.DateOffset(days=1)
gap_6m = gap_daily.loc[start:end].asfreq('D').interpolate()
print(f"\n19) Janela 6m: {start.date()} → {end.date()}")

decomp = seasonal_decompose(gap_6m, model='additive', period=7)
plt.figure(figsize=(10,3)); plt.plot(gap_6m); plt.title('Série Original (GAP diária)'); plt.tight_layout(); plt.show()
plt.figure(figsize=(10,3)); plt.plot(decomp.trend); plt.title('Tendência'); plt.tight_layout(); plt.show()
plt.figure(figsize=(10,3)); plt.plot(decomp.seasonal); plt.title('Sazonalidade (semanal)'); plt.tight_layout(); plt.show()
plt.figure(figsize=(10,3)); plt.plot(decomp.resid); plt.title('Resíduo'); plt.tight_layout(); plt.show()


In [None]:
# Exercício 20
df_xy = dados_power[['Global_active_power','Global_intensity']].dropna()
X = df_xy[['Global_intensity']].values
y = df_xy['Global_active_power'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

lr = LinearRegression().fit(X_train, y_train)
y_pred = lr.predict(X_test)

mae  = mean_absolute_error(y_test, y_pred)
mse  = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2   = r2_score(y_test, y_pred)
mask_nonzero = y_test != 0
mape = np.mean(np.abs((y_test[mask_nonzero]-y_pred[mask_nonzero]) / y_test[mask_nonzero]))*100

res     = y_test - y_pred
abs_err = np.abs(res)
medae = np.median(abs_err); p90 = np.percentile(abs_err, 90); p95 = np.percentile(abs_err, 95)

print("\n20) Regressão: GAP ~ Global_intensity")
print(f"MAE : {mae:.4f} | RMSE: {rmse:.4f} | R²: {r2:.4f} | MAPE: {mape:.2f}%")
print(f"MedAE: {medae:.4f} | P90: {p90:.4f} | P95: {p95:.4f}")
print(f"Coef.: {lr.coef_[0]:.6f} | Intercepto: {lr.intercept_:.6f}")

# ÚNICO gráfico: Real vs Previsto (com linha identidade)
plt.figure(figsize=(6,6))
n = min(5000, len(y_test))
plt.scatter(y_test[:n], y_pred[:n], s=2)
lo = min(y_test[:n].min(), y_pred[:n].min())
hi = max(y_test[:n].max(), y_pred[:n].max())
plt.plot([lo, hi], [lo, hi])
plt.xlabel('Global_active_power (real)'); plt.ylabel('Global_active_power (previsto)')
plt.title('Calibração: Real vs Previsto'); plt.tight_layout(); plt.show()

# Testes textuais (sem gráficos)
exog = sm.add_constant(X_test)
bp_stat, bp_pval, _, _ = het_breuschpagan(res, exog)
dw = durbin_watson(res)
print(f"Breusch–Pagan p-valor: {bp_pval:.4e} | Durbin–Watson: {dw:.3f}")

# Erro por decis de intensidade (tabela)
test_df = pd.DataFrame({'gi': X_test.ravel(), 'ae': abs_err})
bins = pd.qcut(test_df['gi'], q=10, duplicates='drop')
by_bin = test_df.groupby(bins)['ae'].agg(count='count', mae_bin='mean', medae_bin='median',
                                         p90_bin=lambda s: np.percentile(s,90))
print("\nErro por faixa de Global_intensity (decis):")
print(by_bin.round(4))