In [16]:
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd

# Gerar dados fictícios para o dataset
tipo_residencia = []
num_pessoas = []
aparelhos = []

# Gerar dados fictícios para as variáveis
for _ in range(1000):
    tipo_residencia.append(np.random.choice(['Casa', 'Apartamento']))
    num_pessoas.append(np.random.randint(1, 6))
    aparelhos.append(np.random.randint(0, 10))

# Criar um DataFrame com os dados gerados
data = pd.DataFrame({
    'tipo_residencia': tipo_residencia,
    'num_pessoas': num_pessoas,
    'aparelhos': aparelhos
})

# Realizar o agrupamento usando K-means
kmeans = KMeans(n_clusters=3, random_state=42)
data['grupo'] = kmeans.fit_predict(data[['num_pessoas', 'aparelhos']])

# Mapear os grupos para os níveis de consumo
consumo_mapping = {0: 'Baixo', 1: 'Médio', 2: 'Alto'}
data['consumo'] = data['grupo'].map(consumo_mapping)
data = data.drop(columns='grupo')

n_noise_samples = int(len(data) * 0.1)
noise_indices = np.random.choice(len(data), n_noise_samples, replace=False)
data.loc[noise_indices, 'consumo'] = np.random.choice(['Baixo', 'Médio', 'Alto'], n_noise_samples)

data.to_csv('data_consumo.csv')



In [17]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix

In [18]:
data = pd.read_csv('data_consumo.csv',index_col=0)
print(data)

    tipo_residencia  num_pessoas  aparelhos consumo
0       Apartamento            1          7    Alto
1              Casa            3          7    Alto
2              Casa            3          6   Baixo
3       Apartamento            3          3   Médio
4              Casa            5          3   Médio
..              ...          ...        ...     ...
995            Casa            2          4   Baixo
996     Apartamento            1          9    Alto
997            Casa            3          5   Baixo
998     Apartamento            5          5   Baixo
999     Apartamento            2          2   Médio

[1000 rows x 4 columns]


In [19]:
# Resumo estatístico do dataset
print(data.describe())

       num_pessoas    aparelhos
count  1000.000000  1000.000000
mean      2.936000     4.450000
std       1.424055     2.876765
min       1.000000     0.000000
25%       2.000000     2.000000
50%       3.000000     5.000000
75%       4.000000     7.000000
max       5.000000     9.000000


In [20]:
# Converter as variáveis categóricas em variáveis numéricas usando one-hot encoding
data_encoded = pd.get_dummies(data, columns=['tipo_residencia'])
print(data_encoded)

     num_pessoas  aparelhos consumo  tipo_residencia_Apartamento  \
0              1          7    Alto                            1   
1              3          7    Alto                            0   
2              3          6   Baixo                            0   
3              3          3   Médio                            1   
4              5          3   Médio                            0   
..           ...        ...     ...                          ...   
995            2          4   Baixo                            0   
996            1          9    Alto                            1   
997            3          5   Baixo                            0   
998            5          5   Baixo                            1   
999            2          2   Médio                            1   

     tipo_residencia_Casa  
0                       0  
1                       1  
2                       1  
3                       0  
4                       1  
..             

In [21]:
# Resumo estatístico do dataset
print(data_encoded.describe())

       num_pessoas    aparelhos  tipo_residencia_Apartamento  \
count  1000.000000  1000.000000                  1000.000000   
mean      2.936000     4.450000                     0.523000   
std       1.424055     2.876765                     0.499721   
min       1.000000     0.000000                     0.000000   
25%       2.000000     2.000000                     0.000000   
50%       3.000000     5.000000                     1.000000   
75%       4.000000     7.000000                     1.000000   
max       5.000000     9.000000                     1.000000   

       tipo_residencia_Casa  
count           1000.000000  
mean               0.477000  
std                0.499721  
min                0.000000  
25%                0.000000  
50%                0.000000  
75%                1.000000  
max                1.000000  


In [22]:
# Separar os recursos (X) e o rótulo (y)
X = data_encoded.drop('consumo', axis=1)
y = data_encoded['consumo']

# Dividir o conjunto de dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [23]:
# Criar e treinar o modelo Random Forest Classifier
model = RandomForestClassifier()

# # Criar e treinar o modelo Decision Tree Classifier
# model = DecisionTreeClassifier()

# # Criar e treinar o modelo MLPClassifier
# model = MLPClassifier()

# # Criar e treinar o modelo SVM Classifier
# model = SVC()


model.fit(X_train, y_train)

In [24]:
# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliar o modelo usando acurácia
accuracy = accuracy_score(y_test, y_pred)

print("Acurácia:", accuracy)

Acurácia: 0.925


In [25]:
# Calcular a matriz de confusão
confusion_matrix_ = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:")
print(confusion_matrix_)

Matriz de Confusão:
[[59  3  3]
 [ 2 52  2]
 [ 3  2 74]]


In [26]:

# Características de exemplo
exemplo = {
    'tipo_residencia': 'Casa',
    'num_pessoas': 1,
    'aparelhos': 3
}


['Médio']


In [27]:
# Converter o exemplo em um DataFrame
exemplo_df = pd.DataFrame(exemplo, index=[0])

# Codificar o exemplo usando one-hot encoding
exemplo_encoded = pd.get_dummies(exemplo_df)

missing_cols = set(X.columns) - set(exemplo_encoded.columns)
for col in missing_cols:
    exemplo_encoded[col] = 0

# Fazer a previsão para o exemplo
col = X_test.columns
y_pred_exemplo = model.predict(exemplo_encoded[col])

print(y_pred_exemplo)

['Médio']
