<a href="https://colab.research.google.com/github/marcelooou/CPIOT2/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Importa as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
from statsmodels.tsa.seasonal import seasonal_decompose
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, confusion_matrix, precision_score, recall_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.preprocessing import PolynomialFeatures
from pandas.plotting import autocorrelation_plot

# Configurações de exibição do Pandas para melhor visualização
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.2f}'.format)



In [None]:
# 1. Carregue o dataset e exiba as 10 primeiras linhas.
df = pd.read_csv('household_power_consumption.txt', sep=';', low_memory=False)
print("10 primeiras linhas do dataset:")
print(df.head(10))

# 2. Explique a diferença entre as variáveis Global_active_power e Global_reactive_power.
print("\n2. Diferença entre Global_active_power e Global_reactive_power:")
print("- Global_active_power (kW): É a energia ativa, a que realmente realiza trabalho útil. É a energia que move motores e aquece aparelhos.")
print("- Global_reactive_power (kW): É a energia reativa, necessária para manter campos magnéticos em motores e transformadores, mas não gera trabalho útil.")

# 3. Verifique se existem valores ausentes no dataset. Quantifique-os.
print("\n3. Verificação de valores ausentes:")
df.replace('?', np.nan, inplace=True)
missing_values = df.isnull().sum()
print(missing_values[missing_values > 0])

# 4. Converta a coluna Date para o tipo datetime e crie uma nova coluna com o dia da semana correspondente.
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')
df['DayOfWeek'] = df['Date'].dt.day_name()
print("\n4. Colunas Date e DayOfWeek criadas com sucesso.")

# Converte as colunas numéricas após o tratamento de valores ausentes
numeric_cols = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
for col in numeric_cols:
    df[col] = pd.to_numeric(df[col])

# 5. Filtre os registros apenas do ano de 2007 e calcule a média de consumo diário de Global_active_power.
df_2007 = df[df['Date'].dt.year == 2007].copy()
daily_consumption_2007 = df_2007.groupby(df_2007['Date'].dt.date)['Global_active_power'].sum()
print(f"\n5. Média de consumo diário de Global_active_power em 2007: {daily_consumption_2007.mean():.2f} kW.")

# 6. Gere um gráfico de linha mostrando a variação de Global_active_power em um único dia à sua escolha.
sample_day = '2007-01-01'
df_sample_day = df[df['Date'] == sample_day].copy()
df_sample_day['Time_Series'] = pd.to_datetime(df_sample_day['Date'].astype(str) + ' ' + df_sample_day['Time'].astype(str))
plt.figure(figsize=(12, 6))
plt.plot(df_sample_day['Time_Series'], df_sample_day['Global_active_power'])
plt.title(f'Variação de Global_active_power em {sample_day}')
plt.xlabel('Hora do Dia')
plt.ylabel('Global_active_power (kW)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 7. Crie um histograma da variável Voltage. O que pode ser observado sobre sua distribuição?
plt.figure(figsize=(10, 6))
sns.histplot(df['Voltage'], bins=50, kde=True)
plt.title('Histograma da Distribuição de Voltage')
plt.xlabel('Voltage (V)')
plt.ylabel('Frequência')
plt.show()
print("\n7. O histograma mostra que a distribuição de 'Voltage' é aproximadamente normal, com a maioria dos valores concentrados em torno de um valor central.")

# 8. Calcule o consumo médio por mês em todo o período disponível no dataset.
monthly_consumption = df.groupby(df['Date'].dt.to_period('M'))['Global_active_power'].mean()
print("\n8. Consumo médio de Global_active_power por mês:")
print(monthly_consumption)

# 9. Identifique o dia com maior consumo de energia ativa global (Global_active_power).
daily_total_consumption = df.groupby(df['Date'].dt.date)['Global_active_power'].sum()
day_with_max_consumption = daily_total_consumption.idxmax()
max_consumption_value = daily_total_consumption.max()
print(f"\n9. O dia com maior consumo de energia ativa global foi: {day_with_max_consumption} com um total de {max_consumption_value:.2f} kW.")

# 10. Compare o consumo médio de energia ativa global em dias de semana versus finais de semana.
df['IsWeekend'] = df['DayOfWeek'].isin(['Saturday', 'Sunday'])
avg_consumption_by_daytype = df.groupby('IsWeekend')['Global_active_power'].mean()
print("\n10. Consumo médio de Global_active_power:")
print(f"- Dias de semana: {avg_consumption_by_daytype[False]:.2f} kW")
print(f"- Finais de semana: {avg_consumption_by_daytype[True]:.2f} kW")

# 11. Calcule a correlação entre as variáveis Global_active_power, Global_reactive_power, Voltage e Global_intensity.
corr_vars = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity']
correlation_matrix = df[corr_vars].corr()
print("\n11. Matriz de Correlação:")
print(correlation_matrix)

# 12. Crie uma nova variável chamada Total_Sub_metering que some Sub_metering_1, Sub_metering_2 e Sub_metering_3.
df['Total_Sub_metering'] = df['Sub_metering_1'] + df['Sub_metering_2'] + df['Sub_metering_3']
print("\n12. Variável Total_Sub_metering criada com sucesso.")

# 13. Verifique se há algum mês em que Total_Sub_metering ultrapassa a média de Global_active_power.
df_monthly_agg = df.groupby(df['Date'].dt.to_period('M')).agg({
    'Total_Sub_metering': 'sum',
    'Global_active_power': 'sum'
})
result = df_monthly_agg[df_monthly_agg['Total_Sub_metering'] > df_monthly_agg['Global_active_power']]
if not result.empty:
    print("\n13. Meses em que Total_Sub_metering ultrapassou a média de Global_active_power:")
    print(result.index.to_timestamp().strftime('%Y-%m').tolist())
else:
    print("\n13. Nenhum mês encontrado onde Total_Sub_metering ultrapassou a média de Global_active_power.")

# 14. Faça um gráfico de série temporal do Voltage para o ano de 2008.
df_2008 = df[df['Date'].dt.year == 2008].copy()
df_2008['Date_Time'] = pd.to_datetime(df_2008['Date'].astype(str) + ' ' + df_2008['Time'].astype(str))
plt.figure(figsize=(15, 7))
plt.plot(df_2008['Date_Time'], df_2008['Voltage'])
plt.title('Série Temporal de Voltage em 2008')
plt.xlabel('Data')
plt.ylabel('Voltage (V)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 15. Compare o consumo entre os meses de verão e inverno (no hemisfério norte).
summer_months = df[df['Date'].dt.month.isin([6, 7, 8])]
winter_months = df[df['Date'].dt.month.isin([12, 1, 2])]
avg_consumption_summer = summer_months['Global_active_power'].mean()
avg_consumption_winter = winter_months['Global_active_power'].mean()
print(f"\n15. Consumo médio de Global_active_power:")
print(f"- Verão (Jun, Jul, Ago): {avg_consumption_summer:.2f} kW")
print(f"- Inverno (Dez, Jan, Fev): {avg_consumption_winter:.2f} kW")

# 16. Aplique uma amostragem aleatória de 1% dos dados e verifique se a distribuição de Global_active_power é semelhante à da base completa.
sample_df = df.sample(frac=0.01, random_state=42)
plt.figure(figsize=(12, 6))
sns.histplot(df['Global_active_power'], bins=50, kde=True, label='Base Completa', color='blue', alpha=0.6)
sns.histplot(sample_df['Global_active_power'], bins=50, kde=True, label='Amostra 1%', color='red', alpha=0.6)
plt.title('Comparação da Distribuição de Global_active_power')
plt.xlabel('Global_active_power (kW)')
plt.ylabel('Frequência')
plt.legend()
plt.show()
print("\n16. A distribuição da amostra de 1% é bastante semelhante à da base completa, indicando que a amostragem foi representativa.")

# 17. Utilize uma técnica de normalização (Min-Max Scaling) para padronizar as variáveis numéricas principais.
scaler = MinMaxScaler()
numeric_cols_to_scale = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity']
df_normalized = df.dropna().copy()
df_normalized[numeric_cols_to_scale] = scaler.fit_transform(df_normalized[numeric_cols_to_scale])
print("\n17. Variáveis numéricas padronizadas com sucesso.")

# 18. Aplique K-means para segmentar os dias em 3 grupos distintos de consumo elétrico. Interprete os resultados.
features_kmeans = df_normalized[['Global_active_power', 'Global_reactive_power', 'Global_intensity']]
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
df_normalized['cluster'] = kmeans.fit_predict(features_kmeans)
cluster_analysis = df_normalized.groupby('cluster')[['Global_active_power', 'Global_reactive_power', 'Global_intensity']].mean()
print("\n18. Interpretação dos clusters de consumo:")
print(cluster_analysis)
print("Análise: Os clusters podem representar perfis de consumo, como baixo, moderado e alto, baseados nas variáveis elétricas.")

# 19. Realize uma decomposição de série temporal (tendência, sazonalidade e resíduo) para Global_active_power em um período de 6 meses.
df_6_months = df.set_index('Date').resample('D').mean().dropna().iloc[:180] # ~6 meses
decomposition = seasonal_decompose(df_6_months['Global_active_power'], model='additive')
fig = decomposition.plot()
plt.suptitle('Decomposição de Série Temporal (6 meses)')
plt.show()

# 20. Treine um modelo de regressão linear simples para prever Global_active_power a partir de Global_intensity. Avalie o erro do modelo.
X = df[['Global_intensity']].dropna()
y = df['Global_active_power'].dropna()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
model_lin = LinearRegression()
model_lin.fit(X_train, y_train)
predictions = model_lin.predict(X_test)
mse = mean_squared_error(y_test, predictions)
print(f"\n20. Erro Quadrático Médio (MSE) do modelo de regressão linear: {mse:.2f}")

In [None]:
# 21. Séries temporais por hora.
df_ts = df.copy()
df_ts['Date_Time'] = pd.to_datetime(df_ts['Date'].astype(str) + ' ' + df_ts['Time'].astype(str))
df_ts.set_index('Date_Time', inplace=True)
df_hourly = df_ts['Global_active_power'].resample('H').mean().dropna()
print("\n21. Horários de maior consumo médio ao longo do dia:")
hourly_avg = df_hourly.groupby(df_hourly.index.hour).mean()
print(hourly_avg.sort_values(ascending=False).head(5))

# 22. Autocorrelação do consumo.
plt.figure(figsize=(10, 6))
autocorrelation_plot(df_hourly.iloc[:24*7])
plt.title('Autocorrelação de Global_active_power')
plt.show()
print("\n22. Padrões diários? Sim, a autocorrelação tende a ser alta em lags de 24h e 48h (e múltiplos de 24). Isso indica que o consumo em uma determinada hora é fortemente correlacionado com o consumo na mesma hora nos dias anteriores.")

# 23. Redução de dimensionalidade com PCA.
features_pca = df_normalized[['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity']].dropna()
pca = PCA(n_components=2)
principal_components = pca.fit_transform(features_pca)
explained_variance = pca.explained_variance_ratio_
print(f"\n23. Variância explicada pelas 2 componentes principais: {explained_variance.sum():.2f}")
print(f"- Variância da Componente 1: {explained_variance[0]:.2f}")
print(f"- Variância da Componente 2: {explained_variance[1]:.2f}")

# 24. Visualização de clusters no espaço PCA.
kmeans_pca = KMeans(n_clusters=3, random_state=42, n_init=10)
clusters_pca = kmeans_pca.fit_predict(principal_components)
plt.figure(figsize=(10, 6))
scatter = plt.scatter(principal_components[:, 0], principal_components[:, 1], c=clusters_pca, cmap='viridis', alpha=0.6)
plt.title('Clusters K-Means no Espaço PCA')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.legend(handles=scatter.legend_elements()[0], labels=['Cluster 0', 'Cluster 1', 'Cluster 2'])
plt.show()
print("\n24. Os grupos se separam de forma clara? Sim, o gráfico mostra uma separação razoável entre os clusters, sugerindo que os padrões de consumo foram bem identificados.")

# 25. Regressão polinomial vs linear.
df_poly = df.dropna(subset=['Global_active_power', 'Voltage'])
X_poly = df_poly[['Voltage']]
y_poly = df_poly['Global_active_power']
X_train, X_test, y_train, y_test = train_test_split(X_poly, y_poly, test_size=0.3, random_state=42)
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
lin_pred = lin_reg.predict(X_test)
lin_rmse = np.sqrt(mean_squared_error(y_test, lin_pred))
poly_features = PolynomialFeatures(degree=2)
X_train_poly = poly_features.fit_transform(X_train)
X_test_poly = poly_features.transform(X_test)
poly_reg = LinearRegression()
poly_reg.fit(X_train_poly, y_train)
poly_pred = poly_reg.predict(X_test_poly)
poly_rmse = np.sqrt(mean_squared_error(y_test, poly_pred))
print(f"\n25. Comparação de Modelos de Regressão:")
print(f"- RMSE da Regressão Linear: {lin_rmse:.2f}")
print(f"- RMSE da Regressão Polinomial (grau 2): {poly_rmse:.2f}")
print("Análise: O modelo polinomial tem um RMSE menor, indicando um melhor ajuste aos dados do que a regressão linear simples.")

In [None]:
# Continuação do exercício 25 - Regressão polinomial vs linear
df_poly = df.dropna(subset=['Global_active_power', 'Voltage'])
X_poly = df_poly[['Voltage']]
y_poly = df_poly['Global_active_power']
X_train, X_test, y_train, y_test = train_test_split(X_poly, y_poly, test_size=0.3, random_state=42)

# Regressão Linear Simples
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
lin_pred = lin_reg.predict(X_test)
lin_rmse = np.sqrt(mean_squared_error(y_test, lin_pred))

# Regressão Polinomial (grau 2)
poly_features = PolynomialFeatures(degree=2)
X_train_poly = poly_features.fit_transform(X_train)
X_test_poly = poly_features.transform(X_test)
poly_reg = LinearRegression()
poly_reg.fit(X_train_poly, y_train)
poly_pred = poly_reg.predict(X_test_poly)
poly_rmse = np.sqrt(mean_squared_error(y_test, poly_pred))

print("Comparação de Modelos de Regressão:")
print(f"- RMSE da Regressão Linear: {lin_rmse:.2f}")
print(f"- RMSE da Regressão Polinomial (grau 2): {poly_rmse:.2f}")
print("Análise: O modelo polinomial tem um RMSE menor, indicando que se ajusta melhor aos dados do que o modelo linear simples.")

In [None]:
# 26. Carregamento e inspeção inicial
df_app = pd.read_csv('energydata_complete.csv')
print("\n26. Informações e estatísticas iniciais do dataset 'Appliances Energy Prediction':")
print(df_app.info())
print("\nEstatísticas descritivas:")
print(df_app.describe())

# 27. Distribuição do consumo
plt.figure(figsize=(12, 6))
sns.histplot(df_app['Appliances'], bins=50, kde=True)
plt.title('Histograma de Consumo de Energia (Appliances)')
plt.xlabel('Consumo de Energia (Wh)')
plt.ylabel('Frequência')
plt.show()
print("27. O consumo de energia tende a se concentrar em valores baixos, com poucos registros de consumo alto[cite: 53].")

# 28. Correlações com variáveis ambientais
corr_vars_app = ['Appliances', 'T1', 'RH_1', 'T2', 'RH_2', 'T3', 'RH_3']
correlation_matrix_app = df_app[corr_vars_app].corr()
print("\n28. Matriz de Correlação entre Appliances e variáveis ambientais:")
print(correlation_matrix_app['Appliances'].sort_values(ascending=False))
print("Análise: A variável T3 (Temperatura da área de lavanderia) tem a maior correlação com o consumo de energia, seguida por T1 (Temperatura da cozinha)[cite: 55, 56].")

# 29. Normalização dos dados
scaler_app = MinMaxScaler()
numeric_cols_app = df_app.select_dtypes(include=np.number).columns.tolist()
df_app_normalized = pd.DataFrame(scaler_app.fit_transform(df_app[numeric_cols_app]), columns=numeric_cols_app)
print("\n29. Variáveis numéricas do dataset Appliances normalizadas com sucesso.")

# 30. PCA
pca_app = PCA(n_components=2)
principal_components_app = pca_app.fit_transform(df_app_normalized)
plt.figure(figsize=(10, 6))
plt.scatter(principal_components_app[:, 0], principal_components_app[:, 1], alpha=0.6)
plt.title('Dados no Espaço PCA')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.show()
print("30. Padrões ou agrupamentos naturais? O gráfico de PCA não mostra agrupamentos claros, indicando que os dados se distribuem de forma contínua[cite: 63].")

# 31. Regressão Linear Múltipla
ambient_vars = ['T1', 'RH_1', 'T2', 'RH_2', 'T3', 'RH_3']
X_reg = df_app[ambient_vars]
y_reg = df_app['Appliances']
X_train, X_test, y_train, y_test = train_test_split(X_reg, y_reg, test_size=0.3, random_state=42)
multi_lin_reg = LinearRegression()
multi_lin_reg.fit(X_train, y_train)
y_pred_reg = multi_lin_reg.predict(X_test)
r2 = r2_score(y_test, y_pred_reg)
mse_reg = mean_squared_error(y_test, y_pred_reg)
print(f"\n31. Avaliação do Modelo de Regressão Linear Múltipla:")
print(f"- R²: {r2:.2f}")
print(f"- Erro Quadrático Médio (MSE): {mse_reg:.2f}")

# 32. Random Forest Regressor
rf_reg = RandomForestRegressor(random_state=42)
rf_reg.fit(X_train, y_train)
y_pred_rf = rf_reg.predict(X_test)
rmse_rf = np.sqrt(mean_squared_error(y_test, y_pred_rf))
rmse_lin = np.sqrt(mse_reg)
print(f"\n32. Comparação de RMSE:")
print(f"- RMSE da Regressão Linear: {rmse_lin:.2f}")
print(f"- RMSE do Random Forest Regressor: {rmse_rf:.2f}")
print("O Random Forest Regressor teve um RMSE significativamente menor, indicando melhor performance.")

# 33. K-Means clustering
kmeans_app = KMeans(n_clusters=3, random_state=42, n_init=10)
df_app_normalized['cluster'] = kmeans_app.fit_predict(df_app_normalized[numeric_cols_app])
cluster_profiles = df_app_normalized.groupby('cluster').mean()
print("\n33. Perfis de consumo (média das variáveis em cada cluster):")
print(cluster_profiles)

# 34. Classificação binária
median_app = df_app['Appliances'].median()
df_app['Consumption_Class'] = df_app['Appliances'].apply(lambda x: 'Alto' if x > median_app else 'Baixo')
X_cls = df_app[ambient_vars]
y_cls = df_app['Consumption_Class']
X_train_cls, X_test_cls, y_train_cls, y_test_cls = train_test_split(X_cls, y_cls, test_size=0.3, random_state=42)
log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train_cls, y_train_cls)
log_pred = log_reg.predict(X_test_cls)
rf_cls = RandomForestClassifier(random_state=42)
rf_cls.fit(X_train_cls, y_train_cls)
rf_pred = rf_cls.predict(X_test_cls)
print("\n34. Modelos de classificação treinados com sucesso.")

# 35. Avaliação de classificação
print("\n35. Avaliação do modelo de Logistic Regression:")
print(f"- Acurácia: {accuracy_score(y_test_cls, log_pred):.2f}")
print(f"- Precision: {precision_score(y_test_cls, log_pred, pos_label='Alto'):.2f}")
print(f"- Recall: {recall_score(y_test_cls, log_pred, pos_label='Alto'):.2f}")
print(f"- F1-Score: {f1_score(y_test_cls, log_pred, pos_label='Alto'):.2f}")
print("Matriz de Confusão:\n", confusion_matrix(y_test_cls, log_pred))

print("\n35. Avaliação do modelo de Random Forest Classifier:")
print(f"- Acurácia: {accuracy_score(y_test_cls, rf_pred):.2f}")
print(f"- Precision: {precision_score(y_test_cls, rf_pred, pos_label='Alto'):.2f}")
print(f"- Recall: {recall_score(y_test_cls, rf_pred, pos_label='Alto'):.2f}")
print(f"- F1-Score: {f1_score(y_test_cls, rf_pred, pos_label='Alto'):.2f}")
print("Matriz de Confusão:\n", confusion_matrix(y_test_cls, rf_pred))
print("Análise: Comparando a matriz de confusão, você pode observar em qual classe (Alto ou Baixo) o modelo comete mais erros. Por exemplo, se a matriz mostrar um número grande na célula 'Falso Positivo' (previu Alto, mas era Baixo), o modelo erra mais para a classe 'Alto consumo'[cite: 78].")