In [None]:
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd

# Gerar dados fictícios para o dataset
tipo_residencia = []
num_pessoas = []
aparelhos = []

# Gerar dados fictícios para as variáveis
for _ in range(1000):
    tipo_residencia.append(np.random.choice(['Casa', 'Apartamento']))
    num_pessoas.append(np.random.randint(1, 6))
    aparelhos.append(np.random.randint(0, 10))

# Criar um DataFrame com os dados gerados
data = pd.DataFrame({
    'tipo_residencia': tipo_residencia,
    'num_pessoas': num_pessoas,
    'aparelhos': aparelhos
})

# Realizar o agrupamento usando K-means
kmeans = KMeans(n_clusters=3, random_state=42)
data['grupo'] = kmeans.fit_predict(data[['num_pessoas', 'aparelhos']])

# Mapear os grupos para os níveis de consumo
consumo_mapping = {0: 'Baixo', 1: 'Médio', 2: 'Alto'}
data['consumo'] = data['grupo'].map(consumo_mapping)
data = data.drop(columns='grupo')

n_noise_samples = int(len(data) * 0.1)
noise_indices = np.random.choice(len(data), n_noise_samples, replace=False)
data.loc[noise_indices, 'consumo'] = np.random.choice(['Baixo', 'Médio', 'Alto'], n_noise_samples)

data.to_csv('data_consumo.csv')

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix

In [None]:
data = pd.read_csv('data_consumo.csv',index_col=0)
data

In [None]:
# Resumo estatístico do dataset
print(data.describe())

In [None]:
# Converter as variáveis categóricas em variáveis numéricas usando one-hot encoding
data_encoded = pd.get_dummies(data, columns=['tipo_residencia'])
data_encoded

In [None]:
# Resumo estatístico do dataset
data_encoded.describe()

In [None]:
# Separar os recursos (X) e o rótulo (y)
X = data_encoded.drop('consumo', axis=1)
y = data_encoded['consumo']

# Dividir o conjunto de dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Criar e treinar o modelo Random Forest Classifier
model = RandomForestClassifier()

# # Criar e treinar o modelo Decision Tree Classifier
# model = DecisionTreeClassifier()

# # Criar e treinar o modelo MLPClassifier
# model = MLPClassifier()

# # Criar e treinar o modelo SVM Classifier
# model = SVC()


model.fit(X_train, y_train)

In [None]:
# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliar o modelo usando acurácia
accuracy = accuracy_score(y_test, y_pred)

print("Acurácia:", accuracy)

In [None]:
# Calcular a matriz de confusão
confusion_matrix_ = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:")
print(confusion_matrix_)

In [None]:

# Características de exemplo
exemplo = {
    'tipo_residencia': 'Casa',
    'num_pessoas': 1,
    'aparelhos': 3
}


In [None]:
# Converter o exemplo em um DataFrame
exemplo_df = pd.DataFrame(exemplo, index=[0])

# Codificar o exemplo usando one-hot encoding
exemplo_encoded = pd.get_dummies(exemplo_df)

missing_cols = set(X.columns) - set(exemplo_encoded.columns)
for col in missing_cols:
    exemplo_encoded[col] = 0

# Fazer a previsão para o exemplo
col = X_test.columns
y_pred_exemplo = model.predict(exemplo_encoded[col])

print(y_pred_exemplo)