In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt


In [11]:
# 1. Carregar os dados
file_path = "C:/Users/afili/Desktop/Uni/Mestrado/AASE/apartments_for_rent_100k_final.csv" 
data = pd.read_csv(file_path, sep=';')

In [12]:
# 2. Verificar e tratar valores ausentes
print("Valores nulos por coluna:")
print(data.isna().sum())  # Conta valores nulos por coluna

Valores nulos por coluna:
id                              0
price                           0
category                        0
title                           0
body                            0
amenities                   16078
bathrooms                       0
bedrooms                        0
currency                        0
fee                             0
has_photo                       0
pets_allowed                60630
price_display                   0
price_type                      0
square_feet                     0
address                     91906
cityname                      302
state                         302
latitude                       25
longitude                      25
source                          0
time                            0
cityname_transformed            0
pets_allowed_transformed        0
has_photo_transformed           0
AC                              0
Alarm                           0
Basketball                      0
Cable or Satellite    

In [27]:
# Eliminar linhas com valores nulos na variável alvo
data = data.dropna(subset=["price_class"])

KeyError: ['price_class']

In [None]:
# 3. Separar variáveis preditoras (X) e alvo (y)
target_column = "price_class" 
X = data.drop(target_column, axis=1)
y = data[target_column]


In [None]:
# 4. Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [16]:
# 5. Seleção de colunas específicas
selected_columns = [
    'bathrooms', 'bedrooms', 'pets_allowed_transformed', 'cityname_transformed', 
    'has_photo_transformed', 'square_feet', 'AC', 'Alarm', 'Basketball', 
    'Cable or Satellite', 'Clubhouse', 'Dishwasher', 'Doorman', 'Elevator', 
    'Fireplace', 'Garbage Disposal', 'Gated', 'Golf', 'Gym', 'Hot Tub',
    'Internet Access', 'Luxury', 'Parking', 'Patio/Deck', 'Playground', 
    'Pool', 'Refrigerator', 'Storage', 'TV', 'Tennis', 'View', 'Washer Dryer', 
    'Wood Floors'
]

In [17]:
# Filtrar para manter apenas as colunas selecionadas
X_train = X_train[selected_columns]
X_test = X_test[selected_columns]

In [18]:
# 6. Codificar variáveis categóricas
X_train = pd.get_dummies(X_train, drop_first=True)
X_test = pd.get_dummies(X_test, drop_first=True)

In [19]:
# Garantir que X_train e X_test tenham as mesmas colunas
X_test = X_test.reindex(columns=X_train.columns, fill_value=0)

In [20]:
# 7. Modelo de Classificação (Decision Tree)
print("\nModelo de Classificação (Decision Tree)")
classifier = DecisionTreeClassifier(random_state=42)
classifier.fit(X_train, y_train)


Modelo de Classificação (Decision Tree)


In [21]:
# Previsões e avaliação para Classificação
y_pred_classification = classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred_classification)
print(f"Precisão: {accuracy:.2f}")


Precisão: 0.12


In [22]:
# Validação cruzada para Classificação
cv_scores_classification = cross_val_score(classifier, X_train, y_train, cv=5, scoring='accuracy')
print(f"Validação Cruzada (Classificação) - Média da Precisão: {cv_scores_classification.mean():.2f}")



Validação Cruzada (Classificação) - Média da Precisão: 0.11


In [26]:
plt.figure(figsize=(20, 10))

# Geração automática de class_names com base nas classes aprendidas
plot_tree(
    classifier,
    filled=True,
    feature_names=X_train_classification.columns,
    class_names=[str(cls) for cls in classifier.classes_]
)

plt.title("Árvore de Decisão - Classificação")
plt.show()


NameError: name 'X_train_classification' is not defined

<Figure size 2000x1000 with 0 Axes>