## Instalar módulos Python necessários

In [4]:
pip install plotly

Note: you may need to restart the kernel to use updated packages.


In [5]:
import plotly.express as px
import pandas as pd


# Caminho para o ficheiro CSV
file_path = "/Users/pires/Desktop/Mestrado/AVI/Momento1/airbnb_dataset_merged.csv"

# Importar o dataset para um DataFrame
dataset = pd.read_csv(file_path)

# Exibir as primeiras linhas para verificar o conteúdo
print(dataset.head())

# Garantir que a coluna 'City' não contém valores nulos
dataset["City"] = dataset["City"].fillna("Desconhecida")

# Depuração: Listar valores únicos na coluna 'City'
unique_cities = dataset["City"].unique()
print("Valores únicos na coluna 'City':", unique_cities)

# Lista de cidades de interesse (baseada nos valores reais do dataset)
cities_of_interest = unique_cities  # Ajuste aqui com base no output

# Filtrar apenas as cidades de interesse
dataset_filtered = dataset[dataset["City"].isin(cities_of_interest)]

# Depuração: Verificar o número de linhas após a filtragem
print("Número de linhas após a filtragem:", len(dataset_filtered))

# Verificar se o dataset está vazio
if dataset_filtered.empty:
    raise ValueError("O dataset está vazio após filtrar as cidades de interesse. Confirme os valores da coluna 'City'.")

# Mapear as cidades para valores numéricos para representar as cores
city_mapping = {city: i for i, city in enumerate(cities_of_interest)}
dataset_filtered["city_numeric"] = dataset_filtered["City"].map(city_mapping)

# Criar o gráfico de coordenadas paralelas
fig = px.parallel_coordinates(
    dataset_filtered,
    dimensions=[
        "realSum",             # Preço da estadia
        "person_capacity",     # Capacidade do alojamento
        "cleanliness_rating",  # Avaliação de limpeza
        "centre_dist",         # Distância ao centro
        "metro_dist",          # Distância ao metro
        "attr_index_norm",     # Índice de atrações
        "rest_index_norm"      # Índice de restaurantes
    ],
    color="city_numeric",  # Usar valores numéricos para as cores
    color_continuous_scale=px.colors.qualitative.T10,  # Paleta de cores
    labels={
        "realSum": "Preço (€)",
        "person_capacity": "Capacidade",
        "cleanliness_rating": "Limpeza",
        "centre_dist": "Distância ao Centro (km)",
        "metro_dist": "Distância ao Metro (km)",
        "attr_index_norm": "Índice de Atrações",
        "rest_index_norm": "Índice de Restaurantes",
        "city_numeric": "Cidade"
    },
    title="Gráfico de Coordenadas Paralelas - Comparação por Cidade"
)

# Exibir o gráfico
fig.show()


   multi  person_capacity  room_private       lat  guest_satisfaction_overall  \
0      1              2.0          True  52.41772                        93.0   
1      0              4.0          True  52.37432                        85.0   
2      0              2.0          True  52.36103                        87.0   
3      0              4.0          True  52.37663                        90.0   
4      0              2.0          True  52.37508                        98.0   

   room_shared    id      dist  host_is_superhost  rest_index_norm  ...  \
0        False  1012  5.022964              False         6.846473  ...   
1        False   929  0.488389              False        58.342928  ...   
2        False  1303  5.748312              False         6.646700  ...   
3        False   793  0.384862              False        60.973565  ...   
4        False   941  0.544738               True        56.811677  ...   

   bedrooms attr_index_norm  cleanliness_rating  attr_index  r

ValueError: Value of 'dimensions_3' is not the name of a column in 'data_frame'. Expected one of ['multi', 'person_capacity', 'room_private', 'lat', 'guest_satisfaction_overall', 'room_shared', 'id', 'dist', 'host_is_superhost', 'rest_index_norm', 'biz', 'room_type', 'lng', 'bedrooms', 'attr_index_norm', 'cleanliness_rating', 'attr_index', 'rest_index', 'City', 'Period', 'realSum', 'metro_dist', 'Period.1', 'city_numeric'] but received: centre_dist