# üß† Projeto: Impacto dos Alojamentos Locais no Mercado da Habita√ß√£o
Este notebook faz parte da Fase 1 do projeto da unidade curricular.

## üìå Objetivos:
- Integrar dados de diferentes fontes.
- Analisar a rela√ß√£o entre densidade de alojamentos locais, popula√ß√£o e rendas
- Implementar t√©cnicas de data cleaning, schema integration e identity resolution

---

## üì¶ Importa√ß√£o de Dados

Nesta sec√ß√£o, s√£o importados os diferentes datasets necess√°rios para a an√°lise do impacto do Airbnb em fatores urbanos em Portugal. Cada dataset prov√©m de uma fonte distinta e representa uma perspetiva espec√≠fica da realidade urbana, como densidade populacional, oferta de alojamentos locais, pre√ßos de renda, e dados territoriais.

Os datasets importados s√£o os seguintes:

- **`portugal_listings.csv`**: Cont√©m informa√ß√µes sobre os im√≥veis dispon√≠veis para aluguer em territ√≥rio nacional, com detalhes como `Price`, `District`, `City` e `Town`.
- **`rendasm2.json`**: Fornece os valores m√©dios das rendas por metro quadrado em diferentes regi√µes para o ano de **2023**.
- **`densidadePopulacional.json`**: Indica a densidade populacional (N¬∫ habitantes/km¬≤) por concelho para o ano de **2023**.
- **`densidadealojamentosm2.json`**: Apresenta a densidade de alojamentos locais (N¬∫ alojamentos/km¬≤), com granularidade ao n√≠vel da freguesia, referente ao ano de **2021**.
- **`Areas_Freg_Conc_Dist_Pais_CAOP2019.xls`**: Ficheiro do CAOP (Carta Administrativa Oficial de Portugal) que define a estrutura administrativa do pa√≠s, incluindo distritos, concelhos e freguesias. Utilizado como base de refer√™ncia para unificar c√≥digos geogr√°ficos (`DICO`, `geocod`, etc.).

> ‚ö†Ô∏è Cada ficheiro foi lido respeitando a estrutura interna dos formatos `.csv`, `.json` ou `.xls`, e apenas os dados relevantes foram extra√≠dos para posterior limpeza e integra√ß√£o.



In [257]:
import pandas as pd

# Leitura dos datasets
# O dataset listings cont√©m informa√ß√µes sobre os im√≥veis dispon√≠veis para venda
listings = pd.read_csv(r'dados\portugal_listings.csv')

# O dataset rendas cont√©m informa√ß√µes sobre os pre√ßos das rendas por metro quadrado
rendas = pd.read_json(r'dados\rendasm2.json')
rendas = pd.DataFrame(rendas['Dados'][0]['2023'])

# O dataset densidade_pop cont√©m informa√ß√µes sobre a densidade populacional (N¬∫/km2) por conselho
densidade_pop = pd.read_json(r'dados\densidadePopulacional.json')
densidade_pop = pd.DataFrame(densidade_pop['Dados'][0]['2023'])

# O dataset densidade_aloj cont√©m informa√ß√µes sobre a densidade de alojamentos (N¬∫/km2) por freguesia
densidade_aloj = pd.read_json(r'dados\densidadealojamentosm2.json')
densidade_aloj = pd.DataFrame(densidade_aloj['Dados'][0]['2021'])

# A tabela municipios cont√©m informa√ß√µes sobre a ordena√ß√£o territorial portuguesa
concelhos = pd.read_excel(r'dados\Areas_Freg_Conc_Dist_Pais_CAOP2019.xls', sheet_name='Areas_Concelhos_CAOP2019')

Ap√≥s a importa√ß√£o dos dados, o pr√≥ximo passo ser√° o data profiling e integration, de modo a perceber as estruturas de dados

---

## üîç Data Profiling

Ap√≥s a importa√ß√£o dos dados, foi realizada uma an√°lise explorat√≥ria (data profiling) para compreender a estrutura de cada dataset. Esta an√°lise incluiu:

- Verifica√ß√£o dos tipos de dados;
- N√∫mero de valores nulos;
- Percentagem de nulos;
- Cardinalidade (valores √∫nicos) por coluna.

A fun√ß√£o usada para este processo foi:


In [258]:
def DataProfiling(dataframe: pd.DataFrame):
    # Data profiling completo para todas as colunas
    data_profiling = pd.DataFrame({
        "Coluna": dataframe.columns,
        "Tipo de Dado": dataframe.dtypes.values,
        "Valores N√£o Nulos": dataframe.notnull().sum().values,
        "Valores Nulos": dataframe.isnull().sum().values,
        "% Nulos": (dataframe.isnull().mean() * 100).round(2).values,
        "Valores √önicos": dataframe.nunique().values
    })
    display(data_profiling)  

### Areas_Freg_Conc_Dist_Pais_CAOP2019.xls



In [259]:
DataProfiling(concelhos)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,DICO,int64,308,0,0.0,308
1,NUTSI_DSG,object,308,0,0.0,3
2,NUTSI_COD,int64,308,0,0.0,3
3,NUTSII_DSG,object,308,0,0.0,7
4,NUTSII_COD,int64,308,0,0.0,7
5,NUTSIII_DSG,object,308,0,0.0,25
6,NUTSIII_COD,object,308,0,0.0,25
7,DISTRITO_ILHA_DSG,object,308,0,0.0,29
8,CONCELHO_DSG,object,308,0,0.0,307
9,AREA_2019_ha,float64,308,0,0.0,308


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `Areas_Concelhos_CAOP2019`**

Cont√©m 14 colunas, das quais apenas 3 foram consideradas relevantes:

- `DICO`: Identificador √∫nico do concelho (**manter**).
- `CONCELHO_DSG`: Nome oficial do concelho (**manter**).
- `NUTSIII_DSG`: Regi√£o NUTS III (**manter**).

As colunas a eliminar incluem:
- `NUTSI_DSG`, `NUTSI_COD`, `NUTSII_DSG`, `NUTSII_COD`, `NUTSIII_COD`: n√£o necess√°rias √† an√°lise.
- `DISTRITO_ILHA_DSG`: n√≠vel distrital, n√£o ser√° utilizado.
- `AREA_2019_ha`, `AREA_2019_km2`, `PERIM_km`, `ALTITUDE_MAX_m`, `ALTITUDE_MIN_m`: n√£o relevantes para o estudo.



### densidadealojamentosm2.json



In [260]:
DataProfiling(densidade_aloj)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,geocod,object,3439,0,0.0,3439
1,geodsg,object,3439,0,0.0,3075
2,ind_string,object,3439,0,0.0,1656
3,valor,object,3439,0,0.0,1656


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `densidadealojamentosm2`**

Cont√©m 4 colunas, sendo √∫teis:

- `geocod`: Identificador √∫nico da freguesia (**manter**).
- `geodsg`: Nome oficial da freguesia (**manter**).
- `valor`: Valor do indicador (**manter**, a converter para `float`).

A coluna `ind_string` √© redundante e ser√° **eliminada**.

### DensidadePopulacional.json



In [261]:
DataProfiling(densidade_pop)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,geocod,object,347,0,0.0,347
1,geodsg,object,347,0,0.0,340
2,ind_string,object,347,0,0.0,316
3,valor,object,347,0,0.0,316


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `DensidadePopulacional`**

Com estrutura semelhante ao anterior. Colunas relevantes:

- `geocod`: Identificador do concelho (**manter**).
- `geodsg`: Nome oficial do concelho (**manter**).
- `valor`: Valor do indicador (**manter**, a converter para `float`).

`ind_string` ser√° **eliminado**.




### portugal_listings.csv

In [262]:
DataProfiling(listings)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,Price,float64,135236,300,0.22,4754
1,District,object,135536,0,0.0,27
2,City,object,135536,0,0.0,275
3,Town,object,135534,2,0.0,2263
4,Unnamed: 4,float64,0,135536,100.0,0
5,Unnamed: 5,float64,0,135536,100.0,0
6,Unnamed: 6,float64,0,135536,100.0,0
7,Unnamed: 7,float64,0,135536,100.0,0
8,Unnamed: 8,float64,0,135536,100.0,0
9,Unnamed: 9,float64,0,135536,100.0,0


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `portugal_listings`**

Cont√©m 14 colunas. Apenas 3 foram consideradas essenciais:

- `Price`: Pre√ßo do im√≥vel (**manter**).
- `District`: Nome do distrito (**manter**).
- `City`: Nome da cidade (**manter**).

As colunas `Town` e `Unnamed: 4` a `Unnamed: 13` ser√£o **eliminadas** por irrelev√¢ncia e redund√¢ncia, respetivamente.



### rendasm2.json


In [263]:
DataProfiling(rendas)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,geocod,object,638,0,0.0,638
1,geodsg,object,638,0,0.0,616
2,ind_string,object,638,0,0.0,343
3,valor,object,431,207,32.45,341
4,sinal_conv,object,207,431,67.55,2
5,sinal_conv_desc,object,207,431,67.55,2


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `rendasm2`**

Cont√©m 6 colunas. As seguintes foram mantidas:

- `geocod`: Identificador do concelho (**manter**).
- `geodsg`: Nome do concelho (**manter**).
- `valor`: Valor m√©dio da renda (**manter**, a converter para `float`).

As colunas `ind_string`, `sinal_conv`, `sinal_conv_desc` foram consideradas auxiliares e ser√£o **eliminadas**.



### üìä Conclus√µes do Data Profiling

Ap√≥s a leitura e an√°lise dos datasets, foram identificadas as seguintes caracter√≠sticas e decis√µes de limpeza e prepara√ß√£o:


#### üìå Colunas-Chave Identificadas

| Dataset                     | Chave Prim√°ria                              | Chave(s) Secund√°ria(s)         |
|----------------------------|---------------------------------------------|--------------------------------|
| `Areas_Concelhos_CAOP2019` | `DICO` ‚Üí renomeado para `MunicipalityCode` | `CONCELHO_DSG`, `NUTSIII_DSG` |
| `densidadePopulacional`    | `geocod` (√∫ltimos 4 d√≠gitos) ‚Üí `MunicipalityCode` | `geodsg`             |
| `densidadealojamentosm2`   | `geocod` (primeiros 4 d√≠gitos) ‚Üí `MunicipalityCode` | `geodsg`            |
| `rendasm2`                 | `geocod` (√∫ltimos 4 d√≠gitos) ‚Üí `MunicipalityCode` | `geodsg`             |
| `portugal_listings`        | `City`                                      | `District`, `Price`             |

‚ö†Ô∏è Nota: `geocod` foi mapeado para `MunicipalityCode` com `str[:4]` ou `str[-4:]` conforme o dataset, garantindo uniformidade nas jun√ß√µes.


#### üîç Convers√µes e Limpezas Realizadas

- As colunas `valor` foram convertidas para `float` com `pd.to_numeric(errors='coerce')`.
- Os registos com valores **nulos em `Price`** (no dataset `listings`) foram **removidos**.
- Os valores nulos nas colunas `valor` dos datasets **`rendas`** foram **substitu√≠dos pela m√©dia do distrito**.
- Todas as colunas geogr√°ficas foram **normalizadas**:
  - Remo√ß√£o de acentos;
  - Convers√£o para min√∫sculas;
  - Remo√ß√£o de espa√ßos em branco;
  - Cria√ß√£o de colunas auxiliares como `*_norm`.


#### üß± Diferen√ßa de Granularidade

- Os datasets `densidadealojamentosm2` e `rendasm2` est√£o ao n√≠vel da **freguesia**.
- Os restantes datasets est√£o ao n√≠vel do **concelho** (`MunicipalityCode`).

üîÑ **Solu√ß√£o**:
- Realizar um **agrupamento por concelho** (usando os primeiros ou √∫ltimos 4 d√≠gitos de `geocod`).
- As **m√©dias por concelho** ser√£o calculadas para:
  - Densidade de alojamentos locais;
  - Pre√ßo das rendas por m¬≤.
- Isso garante coer√™ncia na granularidade entre os diferentes conjuntos de dados para posterior integra√ß√£o e an√°lise.


---

## üßΩ Data Cleaning & Preparation

Ap√≥s a fase de **Data Profiling**, foi poss√≠vel identificar v√°rias inconsist√™ncias nos datasets utilizados neste projeto. Esta fase de **Data Cleaning & Integration** tem como objetivo preparar os dados para a integra√ß√£o e an√°lise final, assegurando que todas as fontes de dados partilham uma estrutura coerente e limpa.


### üîç Problemas Identificados

- Colunas com valores num√©ricos armazenados como `string`;
- Utiliza√ß√£o inconsistente de separadores decimais (`"."` e `","`);
- Exist√™ncia de **valores nulos** em campos cr√≠ticos como `Price` e `valor`;
- Presen√ßa de acentos, letras mai√∫sculas/min√∫sculas e espa√ßos inconsistentes em nomes geogr√°ficos (`District`, `Town`, `City`, `geodsg`, etc.);
- Diferen√ßa de granularidade entre datasets (ex: freguesia vs concelho).



### üéØ Objetivos da Limpeza e Prepara√ß√£o

1. **Convers√£o de colunas num√©ricas** para o tipo `float`, garantindo a coer√™ncia dos dados;
2. **Tratamento de valores nulos**, atrav√©s de:
   - Remo√ß√£o em colunas como `Price`;
   - Substitui√ß√£o pela **m√©dia distrital** no dataset com `valor`, `rendasm2`;
3. **Normaliza√ß√£o dos nomes de localidades** para garantir a consist√™ncia entre datasets:
   - Remo√ß√£o de acentos;
   - Convers√£o para min√∫sculas;
   - Elimina√ß√£o de espa√ßos em branco;
4. **Cria√ß√£o de colunas normalizadas (`*_norm`)**, que servir√£o como **chaves secund√°rias** durante a integra√ß√£o dos dados;
5. **Harmoniza√ß√£o das chaves prim√°rias**, como `MunicipalityCode`, obtidas a partir do `geocod` (in√≠cio ou fim da string, conforme o dataset);
6. **Prepara√ß√£o de DataFrames tratados**, com apenas as colunas essenciais para futura an√°lise.


Com estas opera√ß√µes de limpeza, os datasets ficam prontos para a pr√≥xima etapa do projeto: **Schema Integration e Identity Resolution**.


In [264]:
!pip install unidecode




[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Fun√ß√£o para normalizar os nomes:

In [265]:
import unidecode

# Normalizar nomes
def normalizar(texto):
    return unidecode.unidecode(str(texto).strip().lower())

#### Areas_Freg_Conc_Dist_Pais_CAOP2019

Este ficheiro do CAOP fornece a divis√£o administrativa oficial de Portugal, com hierarquias de freguesia, concelho e distrito. A folha Areas_Concelhos_CAOP2019 foi selecionada como base de refer√™ncia para garantir consist√™ncia geogr√°fica durante a integra√ß√£o dos dados.
- Inclui diversas colunas administrativas, nem todas relevantes para a an√°lise;
- Os nomes dos concelhos e regi√µes precisam de ser normalizados;
- √â necess√°rio renomear colunas para maior clareza e coer√™ncia com os restantes datasets.

‚úÖ Objetivos da Limpeza:
- Selecionar apenas colunas relevantes: `DICO`, `CONCELHO_DSG`, `NUTSIII_DSG`;
- Renomear colunas para `MunicipalityCode`, `Municipality`, `Region`;
- Normalizar nomes (`Municipality`, `Region`);
- Exportar dataset tratado como refer√™ncia para jun√ß√µes (concelhosTratado.csv).

 1. Selecionar Colunas Relevantes

In [266]:
dfConcelhos = pd.DataFrame(concelhos)

colunasParaManter = ['DICO', 'CONCELHO_DSG', 'NUTSIII_DSG']
dfConcelhos = dfConcelhos[colunasParaManter]

2. Renomear Colunas com Nomes Descritivos

In [267]:
dfConcelhos = dfConcelhos.rename(columns={
    'DICO': 'MunicipalityCode',
    'CONCELHO_DSG': 'Municipality',
    'NUTSIII_DSG': 'Region'
})

 3. Normalizar Colunas de Texto

In [268]:
dfConcelhos['MunicipalityCode'] = dfConcelhos['MunicipalityCode'].astype(str).str.zfill(4)
dfConcelhos['Municipality_norm'] = dfConcelhos['Municipality'].apply(normalizar)
dfConcelhos['Region_norm'] = dfConcelhos['Region'].apply(normalizar)

> As colunas `Municipality_norm` e `Region_norm` ser√£o usadas como auxilary keys nos joins entre datasets.

4. Exportar Tabela Tratada

In [269]:
dfConcelhosTratado = dfConcelhos[[
    'MunicipalityCode', 'Municipality', 'Municipality_norm',
    'Region', 'Region_norm'
]].drop_duplicates().copy()

dfConcelhosTratado.to_csv(r'dados\dados tradados/concelhosTratado.csv', index=False)

> A tabela `concelhosTratado.csv` ser√° usada como base de refer√™ncia para integrar os dados das rendas, densidade populacional, alojamentos e listings.

#### densidadealojamentosm2

Este dataset indica a densidade de alojamentos locais por km¬≤ ao n√≠vel da freguesia. Por estar numa granularidade inferior, √© necess√°rio ajust√°-lo para concelho, a fim de permitir compara√ß√µes consistentes com os restantes dados.
- Os dados est√£o organizados por geocod, que representa freguesias;
- Existem valores nulos em algumas entradas da densidade;
- Os nomes (`geodsg`) requerem normaliza√ß√£o para integra√ß√£o.

‚úÖ Objetivos da Limpeza:
- Extrair o c√≥digo do concelho (`MunicipalityCode`) a partir do `geocod`;
- Normalizar os nomes das freguesias (`geodsg`);
- Substituir valores nulos pela m√©dia do concelho;
- Agregar a densidade m√©dia por concelho;
- Adicionar colunas normalizadas para integra√ß√£o.

1. Carregar Dados e Extrair C√≥digo do Concelho

In [270]:
dfAloj = pd.DataFrame(densidade_aloj)

# üßæ Extrair c√≥digo do concelho (4 primeiros d√≠gitos do geocod)
dfAloj['MunicipalityCode'] = dfAloj['geocod'].str[:4]

2. Juntar com Concelhos (para nomes normalizados)

In [271]:
# üîÅ Juntar com concelhos para obter nomes e norm
dfAlojMerged = dfAloj.merge(
    dfConcelhos[['MunicipalityCode', 'Municipality', 'Municipality_norm']],
    on='MunicipalityCode', how='left'
)

3. Filtrar Matches V√°lidos

In [272]:
# Filtrar apenas matches v√°lidos
alojamentosMatch = dfAlojMerged[dfAlojMerged['Municipality'].notna()].copy()

 4. Converter Densidade para float e Substituir Nulos

In [273]:
# Converter densidade para float
alojamentosMatch['Density'] = pd.to_numeric(alojamentosMatch['valor'], errors='coerce')

# Substituir valores nulos pela m√©dia do concelho
alojamentosMatch['Density'] = alojamentosMatch.groupby('MunicipalityCode')['Density'].transform(
    lambda x: x.fillna(x.mean())
)

5. Agregar Freguesias por Concelho (tratar da granularidade)

In [274]:
densidadeAlojMedia = (
    alojamentosMatch
    .groupby(['MunicipalityCode', 'Municipality', 'Municipality_norm'])
    .agg({'Density': 'mean'})
    .reset_index()
    .rename(columns={'Density': 'DensityAlojMean'})
)

6. Exportar Dataset Tradato

In [275]:
densidadeAlojMedia.to_csv(r'dados\dados tradados/densidadeAlojTratado.csv', index=False)

> A tabela final `densidadeAlojTratado.csv` cont√©m a m√©dia da densidade de alojamentos por concelho, pronta para integra√ß√£o com os restantes datasets.

#### DensidadePopulacional

Este dataset apresenta a densidade populacional (n√∫mero de habitantes por km¬≤) por concelho, com dados j√° estruturados ao n√≠vel municipal, o que facilita a sua integra√ß√£o com os restantes datasets.
- J√° inclui o c√≥digo do concelho (`geocod`);

- Os nomes das regi√µes (`geodsg`) necessitam de normaliza√ß√£o;

- A coluna valor deve ser convertida para num√©rica.

‚úÖ Objetivos da Limpeza:

- Extrair `MunicipalityCode` a partir do `geocod`;

- Normalizar o nome da unidade geogr√°fica (`geodsg`);

- Converter a densidade (`valor`) para float;

- Gerar colunas auxiliares (`Municipality`, `Municipality_norm`);

- Preparar o dataset final sem necessidade de agrega√ß√£o.

1. Extrair c√≥digo do concelho (√∫ltimos 4 d√≠gitos do geocod)

In [276]:
dfPop = pd.DataFrame(densidade_pop)

# üßæ Extrair c√≥digo do concelho (√∫ltimos 4 d√≠gitos do geocod)
dfPop['MunicipalityCode'] = dfPop['geocod'].str[-4:]

2. Normalizar nome da unidade geogr√°fica (`geodsg` ‚Üí `Municipality_norm`)

In [277]:
dfPop['Municipality_norm'] = dfPop['geodsg'].apply(normalizar)
dfPop.rename(columns={'geodsg': 'Municipality'}, inplace=True)

3. Converter `valor` para float ‚Üí coluna `Density`

In [278]:
dfPop['Density'] = pd.to_numeric(dfPop['valor'], errors='coerce')

4. Exportar CSV final tratado

In [279]:
dfPopTratado = dfPop[['geocod', 'Municipality', 'Municipality_norm', 'Density']]

# üíæ Exportar CSV final
dfPopTratado.to_csv(r'dados\dados tradados/densidadePopTratado.csv', index=False)


#### portugal_listings

Este dataset cont√©m informa√ß√µes sobre os im√≥veis anunciados para aluguer em territ√≥rio nacional. Apesar de ser o dataset mais importante para o estudo do impacto do alojamento local, apresenta estrutura inconsistente com os restantes datasets, nomeadamente:
- Falta de c√≥digo administrativo (geocod);
- Nomes de localidades em diferentes formatos (`District`, `City`, `Town`);
- Registos com pre√ßos inv√°lidos (nulos ou 0).

‚úÖ Objetivos da Limpeza:
- Remover colunas irrelevantes (`Unnamed`, `Town`);
- Converter Price para float, tratando entradas inv√°lidas;
- Eliminar registos com pre√ßos ausentes ou inferiores a 1‚Ç¨;
- Normalizar os nomes das localidades (`District` e `City`);
- Substituir `City` por `Municipality`, para manter coer√™ncia com os restantes datasets;
- Gerar colunas auxiliares `*_norm` para usar como chaves durante o blocking e resolu√ß√£o de identidade.
> üß† Nesta fase, ainda n√£o √© poss√≠vel adicionar `MunicipalityCode` ou `geocod`, visto que o dataset listings carece desta informa√ß√£o. A resolu√ß√£o de identidade com `dfConcelhosTratado` ser√° feita na fase seguinte, atrav√©s de blocking e similaridade textual.

1. Remover colunas irrelevantes

In [280]:
dfListings = pd.DataFrame(listings)

# üßπ Remover colunas 'Unnamed' e 'Town' (n√£o ser√° usada)
dfListings = dfListings.drop(columns=[col for col in dfListings.columns if "Unnamed" in col])
dfListings = dfListings.drop(columns=['Town'], errors='ignore')

2. Converter `Price` para float e remover linhas com `Price` nulo ou menor que 0

In [281]:
# Converter 'Price' para float
dfListings['Price'] = pd.to_numeric(dfListings['Price'], errors='coerce')

# Filtrar linhas com pre√ßo v√°lido (> 0)
dfListings = dfListings[dfListings['Price'].notna() & (dfListings['Price'] > 0)].copy()


3. Normalizar as colunas de texto e rename √† coluna `City` para `Municipality`

In [282]:

dfListings['District_norm'] = dfListings['District'].apply(normalizar)
dfListings['Municipality'] = dfListings['City']  # Substitui City por Municipality
dfListings['Municipality_norm'] = dfListings['Municipality'].apply(normalizar)
dfListings = dfListings.drop(columns=['City'])

4. Exportar dados para tabela tradata

In [283]:
# üíæ Exportar CSV final tratado
dfListings.to_csv(r'dados\dados tradados/listingsTratado.csv', index=False)

#### rendasm2

Este dataset disponibiliza os valores m√©dios das rendas por m<sup>2</sup> em Portugal, com granularidade ao n√≠vel da freguesia. √â uma fonte crucial para entender os padr√µes de custo de habita√ß√£o e a sua varia√ß√£o regional. No entanto, apresenta algumas limita√ß√µes estruturais:
- Est√° ao n√≠vel da freguesia, sendo necess√°rio agreg√°-lo ao n√≠vel do concelho;
- Algumas entradas t√™m valores nulos na coluna valor;
- Os nomes das regi√µes (coluna `geodsg`) podem apresentar varia√ß√µes e inconsist√™ncias lingu√≠sticas.

‚úÖ Objetivos da Limpeza:
- Converter a coluna valor para o tipo float;
- Extrair o c√≥digo do concelho (`MunicipalityCode`) a partir do geocod;
- Normalizar os nomes geogr√°ficos (`geodsg`);
- Substituir valores nulos pela m√©dia do concelho;
- Agregar os valores m√©dios de renda ao n√≠vel municipal;
- Incluir colunas `Municipality` e `Municipality_norm` para integra√ß√£o.

1. Converter `valor` para float

In [284]:
dfRendas = pd.DataFrame(rendas)

# Converter 'valor' para float
dfRendas['RentValue'] = pd.to_numeric(dfRendas['valor'], errors='coerce')

2. Extrair c√≥digo do concelho e normalizar nome

In [285]:

dfRendas['MunicipalityCode'] = dfRendas['geocod'].str[-4:]

# Normalizar nome do munic√≠pio
dfRendas['MunicipalityNorm'] = dfRendas['geodsg'].apply(normalizar)

3. Juntar com concelhos para validar correspond√™ncias

In [286]:
# Juntar com concelhos apenas para validar matches
rendasMerged = dfRendas.merge(
    dfConcelhos[['MunicipalityCode', 'Municipality', 'Municipality_norm']],
    on='MunicipalityCode', how='left'
)

4. Filtrar apenas correspond√™ncias v√°lidas

In [287]:
# filtrar apenas matches v√°lidos
rendasMatch = rendasMerged[rendasMerged['Municipality'].notna()].copy()

5. Substituir valores nulos pela m√©dia do concelho

In [288]:
# Substituir valores nulos pela m√©dia por concelho
rendasMatch['RentValue'] = rendasMatch.groupby('MunicipalityCode')['RentValue'].transform(
    lambda x: x.fillna(x.mean())
)

6. Agregar valor m√©dio por concelho

In [289]:
# Agregar m√©dia por concelho
rendasPorConcelho = (
    rendasMatch
    .groupby('MunicipalityCode')
    .agg({'RentValue': 'mean'})
    .reset_index()
    .rename(columns={'RentValue': 'RentValueMean'})
)

7. Adicionar nomes normalizados ao resultado final

In [290]:
# Adicionar Municipality e MunicipalityNorm
rendasPorConcelho = rendasPorConcelho.merge(
    dfConcelhos[['MunicipalityCode', 'Municipality', 'Municipality_norm']],
    on='MunicipalityCode', how='left'
)

8. Exportar CSV final tratado

In [291]:
dfRendas = pd.DataFrame(rendasPorConcelho)

# Exportar CSV final
dfRendas.to_csv(r'dados\dados tradados/rendasTratado.csv', index=False)

---

## üîó Plano de Integra√ß√£o de Esquemas

Ap√≥s o processo de limpeza e normaliza√ß√£o dos dados, foi definido o seguinte plano para integrar os diversos datasets, tendo em conta as diferen√ßas de granularidade e estrutura dos mesmos.

### üß© Objetivo da Integra√ß√£o

Integrar os datasets a um **n√≠vel municipal (MunicipalityCode)** para permitir a an√°lise cruzada entre:
- Pre√ßos das rendas por m¬≤ (`rendasm2`)
- Densidade populacional (`densidadePopulacional`)
- Densidade de alojamentos locais (`densidadeAlojamentosm2`)
- Pre√ßos dos im√≥veis (`portugal_listings`)
- Localiza√ß√£o administrativa (`Areas_Concelhos_CAOP2019`)


### üóÇÔ∏è Granularidade dos Dados

| Dataset                | Granularidade Original | Estrat√©gia de Uniformiza√ß√£o       |
|------------------------|------------------------|-----------------------------------|
| `densidadeAlojamentos` | Freguesia              | Agrupar por concelho com a m√©dia  |
| `rendasm2`             | Freguesia              | Agrupar por concelho com a m√©dia  |
| `densidadePopulacional`| Concelho               | J√° est√° no n√≠vel correto          |
| `portugal_listings`    | Freguesia              | Usar a coluna concelho            |
| `Areas_Concelhos_CAOP2019` | Concelho           | Base de refer√™ncia administrativa |


### üß± Chaves

- A **chave de integra√ß√£o principal** ser√° `MunicipalityCode`, extra√≠da de `geocod`, `DICO`, ou derivada de `City`.
- Para garantir consist√™ncia, foi criada a coluna `Municipality_norm` (nomes normalizados de concelhos).
- Os nomes de cidades (`City`) ser√£o normalizados e mapeados para os concelhos correspondentes manualmente ou via regra de decis√£o (ex: correspond√™ncia direta com `Municipality_norm`).


### üìã Estrat√©gia de Integra√ß√£o

1. **Densidade de Alojamentos**:  
   - Agregar por `MunicipalityCode` (m√©dia dos valores da freguesia).
   - Gerar dataset final com: `MunicipalityCode`, `DensityAlojMean` e `Municipality_norm`.

2. **Densidade Populacional**:  
   - J√° vem por `MunicipalityCode`, apenas normalizar e confirmar correspond√™ncia.

3. **Rendas por m¬≤**:  
   - Agregar por `MunicipalityCode` (m√©dia dos valores da freguesia).
   - Gerar dataset com: `MunicipalityCode`, `RentValueMean` e `Municipality_norm`.

4. **Listings**:  
   - Associar `Municipality_norm` a `Municipality_norm` da tabela `concelhosTratado.csv` e obter `MunicipalityCode`.
   - Calcular estat√≠sticas agregadas (m√©dia de pre√ßo, contagem) por concelho.


### üß† Considera√ß√µes Finais

- O dataset `concelhosTratado.csv` ser√° a **tabela base** para todas as jun√ß√µes.
- As colunas `MunicipalityCode` e `Municipality_norm` ser√£o usadas como **blocking keys**.
- Pode ser necess√°rio fazer **resolu√ß√£o de identidade** entre nomes de cidades (`City`) e concelhos (`Municipality`) para garantir boas liga√ß√µes entre listings e os restantes datasets.

---

## üß± Blocking Strategy & Similarity Metrics

Durante a resolu√ß√£o de identidade e planeamento da integra√ß√£o, √© essencial preparar mecanismos que reduzam o custo computacional das compara√ß√µes entre registos (blocking) e definam crit√©rios objetivos para medir semelhan√ßa (similarity metrics).

### üì¶ Blocking Strategy

**Objetivo:** Reduzir o n√∫mero de compara√ß√µes entre entidades de diferentes datasets, criando "blocos" onde a compara√ß√£o faz sentido (ex: localidades com o mesmo prefixo ou regi√£o).

#### Estrat√©gia adotada:
- Criar blocos com base no prefixo do nome normalizado (`Municipality_norm`).
- Apenas comparamos nomes dentro do mesmo bloco.

### üìè Similarity Metrics

Ap√≥s o processo de blocking, √© necess√°rio aplicar m√©tricas de similaridade para avaliar o qu√£o pr√≥ximos s√£o dois nomes normalizados (`Municipality_norm`) de diferentes datasets. Para isso, foram utilizadas tr√™s m√©tricas distintas da biblioteca `RapidFuzz`, que abordam a compara√ß√£o textual sob diferentes perspetivas.

#### ‚úÖ M√©tricas Utilizadas

| M√©trica                   | Descri√ß√£o                                                                 | Vantagens                                                                 |
|---------------------------|---------------------------------------------------------------------------|---------------------------------------------------------------------------|
| `token_sort_ratio`        | Ordena alfabeticamente as palavras antes da compara√ß√£o                   | Lida bem com nomes invertidos, como `"porto vila"` vs `"vila porto"`      |
| `ratio` (Levenshtein)     | Mede a dist√¢ncia de edi√ß√£o entre duas strings                            | Capta pequenas varia√ß√µes e erros de digita√ß√£o                             |
| `token_set_ratio`         | Compara os conjuntos √∫nicos de palavras, ignorando repeti√ß√µes e ordem    | √ötil quando um nome √© subconjunto do outro: `"santa maria da feira"` vs `"feira"` |

Estas m√©tricas s√£o complementares e foram escolhidas por permitirem capturar:
- Similaridade estrutural (`token_sort_ratio`);
- Varia√ß√µes simples de escrita (`ratio`);
- Inclus√µes e subconjuntos de palavras (`token_set_ratio`).

> üìå A utiliza√ß√£o combinada destas m√©tricas aumenta a robustez da correspond√™ncia entre nomes, facilitando a resolu√ß√£o de identidade.

In [292]:
!pip install rapidfuzz




[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


#### 1. ‚úèÔ∏è Compara√ß√£o 1: `listings` vs `rendas`

1.1 Carregar os datasets tratados

In [293]:
import pandas as pd
from rapidfuzz import fuzz

dfListings = pd.read_csv('dados/dados tradados/listingsTratado.csv')
dfRendas = pd.read_csv('dados/dados tradados/rendasTratado.csv')

> üßæ Objetivo: Importar os dois datasets que ser√£o comparados ‚Äî os listings e os valores de renda (rendas). Estes j√° foram limpos e normalizados anteriormente, incluindo a cria√ß√£o da coluna `Municipality_norm`.

1.2 Criar chave de blocking

In [294]:
dfListings['block_key'] = dfListings['Municipality_norm'].str[:4]
dfRendas['block_key'] = dfRendas['Municipality_norm'].str[:4]

> üîç Objetivo: Reduzir o n√∫mero de compara√ß√µes utilizando uma chave de blocking.
>- A chave `block_key` √© formada pelos primeiros 4 caracteres da string normalizada (`Municipality_norm`).
>- Assim, apenas localidades com prefixos semelhantes ser√£o comparadas, o que melhora a performance e reduz falsos positivos.

1.3 Gerar pares candidatos com base no bloco

In [295]:
candidatos = pd.merge(
    dfListings[['Municipality', 'Municipality_norm', 'block_key']],
    dfRendas[['Municipality', 'Municipality_norm', 'block_key']],
    on='block_key',
    suffixes=('_listings', '_rendas')
)

> üîó Objetivo: Criar todas as combina√ß√µes poss√≠veis dentro de cada bloco.
>- Une as duas tabelas pelos block_key.
>- O resultado √© um conjunto de pares candidatos a representar a mesma entidade (concelho), mesmo que com varia√ß√µes no nome.

1.4 Calcular as 3 medidas de similaridade

In [296]:
candidatos['similaridade_token_sort'] = candidatos.apply(
    lambda row: fuzz.token_sort_ratio(row['Municipality_norm_listings'], row['Municipality_norm_rendas']) / 100,
    axis=1
)

candidatos['similaridade_levenshtein'] = candidatos.apply(
    lambda row: fuzz.ratio(row['Municipality_norm_listings'], row['Municipality_norm_rendas']) / 100,
    axis=1
)

candidatos['similaridade_token_set'] = candidatos.apply(
    lambda row: fuzz.token_set_ratio(row['Municipality_norm_listings'], row['Municipality_norm_rendas']) / 100,
    axis=1
)

> üìê Objetivo: Avaliar o grau de semelhan√ßa entre os nomes dos concelhos nos dois datasets usando 3 m√©tricas:
> -    `token_sort_ratio`: ordena as palavras antes de comparar, √∫til quando a ordem das palavras varia.
> -    `ratio (Levenshtein)`: mede a dist√¢ncia de edi√ß√£o entre as strings.
> -    `token_set_ratio`: ignora palavras repetidas e compara subconjuntos √∫nicos, ideal quando h√° muitos termos comuns.
> Valores de `0` (menos similar) a `1` (mais similar).

1.5 Visualizar os pares com maior similaridade

In [297]:
top_pares = candidatos.sort_values(by='similaridade_token_sort', ascending=False)

display(top_pares[[
    'Municipality_listings', 'Municipality_rendas',
    'similaridade_token_sort',
    'similaridade_levenshtein',
    'similaridade_token_set'
]])

Unnamed: 0,Municipality_listings,Municipality_rendas,similaridade_token_sort,similaridade_levenshtein,similaridade_token_set
471810,Valpa√ßos,VALPA√áOS,1.000000,1.000000,1.000000
0,Valpa√ßos,VALPA√áOS,1.000000,1.000000,1.000000
471790,Moita,MOITA,1.000000,1.000000,1.000000
471789,Barreiro,BARREIRO,1.000000,1.000000,1.000000
471786,Montijo,MONTIJO,1.000000,1.000000,1.000000
...,...,...,...,...,...
82394,Santo Tirso,SANTA CRUZ DA GRACIOSA,0.242424,0.424242,0.242424
88687,Santo Tirso,SANTA CRUZ DA GRACIOSA,0.242424,0.424242,0.242424
95242,Santo Tirso,SANTA CRUZ DA GRACIOSA,0.242424,0.424242,0.242424
75912,Santo Tirso,SANTA CRUZ DA GRACIOSA,0.242424,0.424242,0.242424


> Objetivo: Ordenar os pares por similaridade mais alta (com base em `token_sort_ratio`) e apresentar os resultados mais promissores.
> - Permite analisar os pares com maior probabilidade de corresponderem √† mesma entidade ‚Äî essencial para fazer identity resolution entre `Municipality` do listings e `Municipality` dos valores de renda.

#### 2. ‚úèÔ∏è Compara√ß√£o 2: `listings` vs `densidadePop`

2.1 Carregar ps datasets tratados

In [298]:
dfListings = pd.read_csv('dados/dados tradados/listingsTratado.csv')
dfPop = pd.read_csv('dados/dados tradados/densidadePopTratado.csv')


> üßæ **Objetivo:** Importar os datasets tratados para an√°lise ‚Äî neste caso, os listings e a densidade populacional (`densidadePop`).  
> Ambos foram previamente limpos e normalizados, incluindo a coluna `Municipality_norm`.


2.2 Criar chave de blocking

In [299]:
dfListings['block_key'] = dfListings['Municipality_norm'].str[:4]
dfPop['block_key'] = dfPop['Municipality_norm'].str[:4]

> üîç **Objetivo:** Reduzir o n√∫mero de compara√ß√µes com base em blocos.  
> - A chave `block_key` √© extra√≠da dos primeiros 4 caracteres da `Municipality_norm`.  
> - Isso permite comparar apenas localidades com nomes semelhantes, reduzindo falsos positivos.

2.3 Gerar pares candidatos com base no bloco

In [300]:
candidatosPop = pd.merge(
    dfListings[['Municipality', 'Municipality_norm', 'block_key']],
    dfPop[['Municipality', 'Municipality_norm', 'block_key']],
    on='block_key',
    suffixes=('_listings', '_pop')
)

> üîó **Objetivo:** Criar pares candidatos dentro de cada bloco.  
> - Junta ambos os datasets atrav√©s do `block_key`.  
> - Resulta em pares com potencial para corresponder √† mesma entidade.

2.4 Calcular as 3 medidas de similaridade

In [301]:
candidatosPop['similaridade_token_sort'] = candidatosPop.apply(
    lambda row: fuzz.token_sort_ratio(row['Municipality_norm_listings'], row['Municipality_norm_pop']) / 100,
    axis=1
)

candidatosPop['similaridade_levenshtein'] = candidatosPop.apply(
    lambda row: fuzz.ratio(row['Municipality_norm_listings'], row['Municipality_norm_pop']) / 100,
    axis=1
)

candidatosPop['similaridade_token_set'] = candidatosPop.apply(
    lambda row: fuzz.token_set_ratio(row['Municipality_norm_listings'], row['Municipality_norm_pop']) / 100,
    axis=1
)

> üìê **Objetivo:** Avaliar semelhan√ßa textual entre os nomes das localidades.  
> - `token_sort_ratio`: √∫til se a ordem das palavras varia.  
> - `ratio`: mede a dist√¢ncia de edi√ß√£o.  
> - `token_set_ratio`: ideal quando h√° muitos termos comuns entre os nomes.

2.5 Visualizar os pares com maior similaridade

In [302]:
top_pares_pop = candidatosPop.sort_values(by='similaridade_token_sort', ascending=False)

display(top_pares_pop[[
    'Municipality_listings', 'Municipality_pop',
    'similaridade_token_sort',
    'similaridade_levenshtein',
    'similaridade_token_set'
]])

Unnamed: 0,Municipality_listings,Municipality_pop,similaridade_token_sort,similaridade_levenshtein,similaridade_token_set
494913,Valpa√ßos,Valpa√ßos,1.000000,1.000000,1.000000
0,Valpa√ßos,Valpa√ßos,1.000000,1.000000,1.000000
494894,Montalegre,Montalegre,1.000000,1.000000,1.000000
494893,Moita,Moita,1.000000,1.000000,1.000000
494892,Barreiro,Barreiro,1.000000,1.000000,1.000000
...,...,...,...,...,...
161261,Santo Tirso,Santa Cruz da Graciosa,0.242424,0.424242,0.242424
161077,Santo Tirso,Santa Cruz da Graciosa,0.242424,0.424242,0.242424
134729,Santo Tirso,Santa Cruz da Graciosa,0.242424,0.424242,0.242424
360334,Santo Tirso,Santa Cruz da Graciosa,0.242424,0.424242,0.242424


> üìä **Objetivo:** Mostrar os pares com maior probabilidade de corresponderem √† mesma entidade (`Municipality`).  
> Essencial para ligar listings √† densidade populacional ao n√≠vel do concelho.

#### 3. ‚úèÔ∏è Compara√ß√£o 2: `listings` vs `densidadeAloj`

3.1 Carregar os datasets tratados

In [303]:
dfListings = pd.read_csv('dados/dados tradados/listingsTratado.csv')
dfAloj = pd.read_csv('dados/dados tradados/densidadeAlojTratado.csv')

> üßæ **Objetivo:** Importar os datasets normalizados ‚Äî listings e densidade de alojamentos locais.

3.2 Criar chave de blocking

In [304]:
dfListings['block_key'] = dfListings['Municipality_norm'].str[:4]
dfAloj['block_key'] = dfAloj['Municipality_norm'].str[:4]

> üîç **Objetivo:** Aplicar blocking para limitar as compara√ß√µes a pares com prefixo semelhante.  
> Reduz o custo computacional e melhora a precis√£o da compara√ß√£o.

3.3 Gerar pares candidatos com base no bloco

In [305]:
candidatosAloj = pd.merge(
    dfListings[['Municipality', 'Municipality_norm', 'block_key']],
    dfAloj[['Municipality', 'Municipality_norm', 'block_key']],
    on='block_key',
    suffixes=('_listings', '_aloj')
)

> üîó **Objetivo:** Obter pares candidatos entre listings e densidade de alojamento.  
> Os pares s√£o agrupados com base na chave de blocking.

3.4 Calcular as 3 medidas de similaridade

In [306]:
candidatosAloj['similaridade_token_sort'] = candidatosAloj.apply(
    lambda row: fuzz.token_sort_ratio(row['Municipality_norm_listings'], row['Municipality_norm_aloj']) / 100,
    axis=1
)

candidatosAloj['similaridade_levenshtein'] = candidatosAloj.apply(
    lambda row: fuzz.ratio(row['Municipality_norm_listings'], row['Municipality_norm_aloj']) / 100,
    axis=1
)

candidatosAloj['similaridade_token_set'] = candidatosAloj.apply(
    lambda row: fuzz.token_set_ratio(row['Municipality_norm_listings'], row['Municipality_norm_aloj']) / 100,
    axis=1
)

> üìê **Objetivo:** Calcular a similaridade entre nomes para facilitar a correspond√™ncia autom√°tica.  
> As tr√™s m√©tricas permitem complementar a an√°lise em diferentes cen√°rios de varia√ß√£o textual.

3.5 Visualizar os pares com maior similaridade

In [307]:
top_pares_aloj = candidatosAloj.sort_values(by='similaridade_token_sort', ascending=False)

display(top_pares_aloj[[
    'Municipality_listings', 'Municipality_aloj',
    'similaridade_token_sort',
    'similaridade_levenshtein',
    'similaridade_token_set'
]])

Unnamed: 0,Municipality_listings,Municipality_aloj,similaridade_token_sort,similaridade_levenshtein,similaridade_token_set
471810,Valpa√ßos,VALPA√áOS,1.000000,1.000000,1.000000
0,Valpa√ßos,VALPA√áOS,1.000000,1.000000,1.000000
471790,Moita,MOITA,1.000000,1.000000,1.000000
471789,Barreiro,BARREIRO,1.000000,1.000000,1.000000
471786,Montijo,MONTIJO,1.000000,1.000000,1.000000
...,...,...,...,...,...
82394,Santo Tirso,SANTA CRUZ DA GRACIOSA,0.242424,0.424242,0.242424
88687,Santo Tirso,SANTA CRUZ DA GRACIOSA,0.242424,0.424242,0.242424
95242,Santo Tirso,SANTA CRUZ DA GRACIOSA,0.242424,0.424242,0.242424
75912,Santo Tirso,SANTA CRUZ DA GRACIOSA,0.242424,0.424242,0.242424


> üìä **Objetivo:** Analisar os melhores pares encontrados entre listings e densidade de alojamento local.  
> Essencial para realizar a correspond√™ncia autom√°tica entre os datasets.

### ‚úÖ Conclus√£o da Resolu√ß√£o de Identidade

Com base na estrat√©gia de **blocking por prefixo** e no uso de tr√™s m√©tricas complementares de similaridade textual (`token_sort`, `token_set` e `Levenshtein`), foi poss√≠vel gerar uma lista de pares candidatos com elevada probabilidade de corresponderem √† mesma entidade (concelho), mesmo quando os nomes diferem ligeiramente entre datasets.

Este processo de **identity resolution** √© fundamental para garantir a correta jun√ß√£o entre os dados dos `listings` e os restantes datasets (`rendasm2`, `densidadePopulacional`, etc.), assegurando que os valores agregados por concelho sejam coerentes e fi√°veis.

As pr√≥ximas etapas poder√£o incluir:
- Definir um **limiar de corte** para considerar pares como correspondentes (ex: ‚â• 0.9 em `token_sort`);
- Realizar a **atribui√ß√£o de `MunicipalityCode` ao dataset `listings`**, com base nos matches mais prov√°veis;
- Integrar os datasets agora harmonizados para an√°lise estat√≠stica e visualiza√ß√£o dos impactos territoriais.

Este processo completa a **Fase 1** do projeto, deixando os dados prontos para an√°lise cruzada, correla√ß√µes e visualiza√ß√µes interativas.


---

## üßæ Conclus√µes e Trabalho Futuro

A Fase 1 do projeto consistiu na importa√ß√£o, profiling, limpeza, prepara√ß√£o e in√≠cio da integra√ß√£o de m√∫ltiplos datasets relacionados com o impacto dos Alojamentos Locais (Airbnb) no mercado habitacional portugu√™s.

### ‚úÖ Conclus√µes

- Os dados foram transformados e normalizados de forma a garantir **consist√™ncia sem√¢ntica e estrutural** entre fontes com granularidade e formato distintos;
- Foi adotado um **modelo de integra√ß√£o baseado no concelho (`MunicipalityCode`)**, com o apoio de chaves auxiliares (`Municipality_norm`) para facilitar jun√ß√µes;
- T√©cnicas de **blocking e similarity metrics** permitiram gerar pares candidatos para a resolu√ß√£o de identidade, essencial para ligar dados do `portugal_listings` (sem `geocod`) aos restantes datasets georreferenciados;
- As tr√™s m√©tricas escolhidas (Levenshtein, token_sort, token_set) mostraram-se eficazes na identifica√ß√£o de correspond√™ncias mesmo com nomes amb√≠guos, longos ou com ordem trocada.

### üîÆ Trabalho Futuro

- **Definir limiares de confian√ßa** para aceitar ou rejeitar pares com base nas medidas de similaridade (ex: ‚â• 0.90);
- **Atribuir `MunicipalityCode` ao dataset `listings`** com base nos matches validados;
- **Integrar os datasets finais** para construir uma tabela √∫nica por concelho com: m√©dia de pre√ßos, densidade populacional, densidade de alojamentos e valor m√©dio de renda;
- Aplicar **visualiza√ß√µes interativas** (ex: choropleths) para explorar o impacto do alojamento local;
- Avaliar poss√≠veis **correla√ß√µes** entre as vari√°veis ‚Äî por exemplo, se maior densidade de listings est√° associada a aumento de pre√ßos ou densidade populacional.

---

> Esta prepara√ß√£o abre caminho para an√°lises explorat√≥rias, estat√≠sticas e preditivas que respondam √† quest√£o central:  
**Qual o impacto da prolifera√ß√£o de Alojamentos Locais no custo e estrutura urbana do mercado de habita√ß√£o em Portugal?**
