# üß† Projeto: Impacto dos Alojamentos Locais no Mercado da Habita√ß√£o
Este notebook faz parte da Fase 1 do projeto da unidade curricular.

## üìå Objetivos:
- Integrar dados de diferentes fontes.
- Analisar a rela√ß√£o entre densidade de alojamentos locais, popula√ß√£o e rendas
- Implementar t√©cnicas de data cleaning, schema integration e identity resolution

---

## üì¶ Importa√ß√£o de Dados

Nesta sec√ß√£o, s√£o importados os diferentes datasets necess√°rios para a an√°lise do impacto do Airbnb em fatores urbanos em Portugal. Cada dataset prov√©m de uma fonte distinta e representa uma perspetiva espec√≠fica da realidade urbana, como densidade populacional, oferta de alojamentos locais, pre√ßos de renda, e dados territoriais.

Os datasets importados s√£o os seguintes:

- **`portugal_listings.csv`**: Cont√©m informa√ß√µes sobre os im√≥veis dispon√≠veis para aluguer em territ√≥rio nacional, com detalhes como `Price`, `District`, `City` e `Town`.
- **`rendasm2.json`**: Fornece os valores m√©dios das rendas por metro quadrado em diferentes regi√µes para o ano de **2023**.
- **`densidadePopulacional.json`**: Indica a densidade populacional (N¬∫ habitantes/km¬≤) por concelho para o ano de **2023**.
- **`densidadealojamentosm2.json`**: Apresenta a densidade de alojamentos locais (N¬∫ alojamentos/km¬≤), com granularidade ao n√≠vel da freguesia, referente ao ano de **2021**.
- **`Areas_Freg_Conc_Dist_Pais_CAOP2019.xls`**: Ficheiro do CAOP (Carta Administrativa Oficial de Portugal) que define a estrutura administrativa do pa√≠s, incluindo distritos, concelhos e freguesias. Utilizado como base de refer√™ncia para unificar c√≥digos geogr√°ficos (`DICO`, `geocod`, etc.).

> ‚ö†Ô∏è Cada ficheiro foi lido respeitando a estrutura interna dos formatos `.csv`, `.json` ou `.xls`, e apenas os dados relevantes foram extra√≠dos para posterior limpeza e integra√ß√£o.



In [154]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Leitura dos datasets
# O dataset listings cont√©m informa√ß√µes sobre os im√≥veis dispon√≠veis para venda
listings = pd.read_csv(r'dados\portugal_listings.csv')

# O dataset rendas cont√©m informa√ß√µes sobre os pre√ßos das rendas por metro quadrado
rendas = pd.read_json(r'dados\rendasm2.json')
rendas = pd.DataFrame(rendas['Dados'][0]['2023'])

# O dataset densidade_pop cont√©m informa√ß√µes sobre a densidade populacional (N¬∫/km2) por conselho
densidade_pop = pd.read_json(r'dados\densidadePopulacional.json')
densidade_pop = pd.DataFrame(densidade_pop['Dados'][0]['2023'])

# O dataset densidade_aloj cont√©m informa√ß√µes sobre a densidade de alojamentos (N¬∫/km2) por freguesia
densidade_aloj = pd.read_json(r'dados\densidadealojamentosm2.json')
densidade_aloj = pd.DataFrame(densidade_aloj['Dados'][0]['2021'])

# A tabela municipios cont√©m informa√ß√µes sobre a ordena√ß√£o territorial portuguesa
concelhos = pd.read_excel(r'dados\Areas_Freg_Conc_Dist_Pais_CAOP2019.xls', sheet_name='Areas_Concelhos_CAOP2019')

Ap√≥s a importa√ß√£o dos dados, o pr√≥ximo passo ser√° o data profiling e integration, de modo a perceber as estruturas de dados

---

## üîç Data Profiling

Ap√≥s a importa√ß√£o dos dados, foi realizada uma an√°lise explorat√≥ria (data profiling) para compreender a estrutura de cada dataset. Esta an√°lise incluiu:

- Verifica√ß√£o dos tipos de dados;
- N√∫mero de valores nulos;
- Percentagem de nulos;
- Cardinalidade (valores √∫nicos) por coluna.

A fun√ß√£o usada para este processo foi:


In [155]:
def DataProfiling(dataframe: pd.DataFrame):
    # Data profiling completo para todas as colunas
    data_profiling = pd.DataFrame({
        "Coluna": dataframe.columns,
        "Tipo de Dado": dataframe.dtypes.values,
        "Valores N√£o Nulos": dataframe.notnull().sum().values,
        "Valores Nulos": dataframe.isnull().sum().values,
        "% Nulos": (dataframe.isnull().mean() * 100).round(2).values,
        "Valores √önicos": dataframe.nunique().values
    })
    display(data_profiling)  

### Areas_Freg_Conc_Dist_Pais_CAOP2019.xls



In [156]:
DataProfiling(concelhos)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,DICO,int64,308,0,0.0,308
1,NUTSI_DSG,object,308,0,0.0,3
2,NUTSI_COD,int64,308,0,0.0,3
3,NUTSII_DSG,object,308,0,0.0,7
4,NUTSII_COD,int64,308,0,0.0,7
5,NUTSIII_DSG,object,308,0,0.0,25
6,NUTSIII_COD,object,308,0,0.0,25
7,DISTRITO_ILHA_DSG,object,308,0,0.0,29
8,CONCELHO_DSG,object,308,0,0.0,307
9,AREA_2019_ha,float64,308,0,0.0,308


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `Areas_Concelhos_CAOP2019`**

Cont√©m 14 colunas, das quais apenas 3 foram consideradas relevantes:

- `DICO`: Identificador √∫nico do concelho (**manter**).
- `CONCELHO_DSG`: Nome oficial do concelho (**manter**).
- `NUTSIII_DSG`: Regi√£o NUTS III (**manter**).

As colunas a eliminar incluem:
- `NUTSI_DSG`, `NUTSI_COD`, `NUTSII_DSG`, `NUTSII_COD`, `NUTSIII_COD`: n√£o necess√°rias √† an√°lise.
- `DISTRITO_ILHA_DSG`: n√≠vel distrital, n√£o ser√° utilizado.
- `AREA_2019_ha`, `AREA_2019_km2`, `PERIM_km`, `ALTITUDE_MAX_m`, `ALTITUDE_MIN_m`: n√£o relevantes para o estudo.



### densidadealojamentosm2.json



In [157]:
DataProfiling(densidade_aloj)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,geocod,object,3439,0,0.0,3439
1,geodsg,object,3439,0,0.0,3075
2,ind_string,object,3439,0,0.0,1656
3,valor,object,3439,0,0.0,1656


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `densidadealojamentosm2`**

Cont√©m 4 colunas, sendo √∫teis:

- `geocod`: Identificador √∫nico da freguesia (**manter**).
- `geodsg`: Nome oficial da freguesia (**manter**).
- `valor`: Valor do indicador (**manter**, a converter para `float`).

A coluna `ind_string` √© redundante e ser√° **eliminada**.

### DensidadePopulacional.json



In [158]:
DataProfiling(densidade_pop)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,geocod,object,347,0,0.0,347
1,geodsg,object,347,0,0.0,340
2,ind_string,object,347,0,0.0,316
3,valor,object,347,0,0.0,316


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `DensidadePopulacional`**

Com estrutura semelhante ao anterior. Colunas relevantes:

- `geocod`: Identificador do concelho (**manter**).
- `geodsg`: Nome oficial do concelho (**manter**).
- `valor`: Valor do indicador (**manter**, a converter para `float`).

`ind_string` ser√° **eliminado**.




### portugal_listings.csv

In [159]:
DataProfiling(listings)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,Price,float64,135236,300,0.22,4754
1,District,object,135536,0,0.0,27
2,City,object,135536,0,0.0,275
3,Town,object,135534,2,0.0,2263
4,Unnamed: 4,float64,0,135536,100.0,0
5,Unnamed: 5,float64,0,135536,100.0,0
6,Unnamed: 6,float64,0,135536,100.0,0
7,Unnamed: 7,float64,0,135536,100.0,0
8,Unnamed: 8,float64,0,135536,100.0,0
9,Unnamed: 9,float64,0,135536,100.0,0


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `portugal_listings`**

Cont√©m 14 colunas. Apenas 3 foram consideradas essenciais:

- `Price`: Pre√ßo do im√≥vel (**manter**).
- `District`: Nome do distrito (**manter**).
- `City`: Nome da cidade (**manter**).

As colunas `Town` e `Unnamed: 4` a `Unnamed: 13` ser√£o **eliminadas** por irrelev√¢ncia e redund√¢ncia, respetivamente.



### rendasm2.json


In [160]:
DataProfiling(rendas)

Unnamed: 0,Coluna,Tipo de Dado,Valores N√£o Nulos,Valores Nulos,% Nulos,Valores √önicos
0,geocod,object,638,0,0.0,638
1,geodsg,object,638,0,0.0,616
2,ind_string,object,638,0,0.0,343
3,valor,object,431,207,32.45,341
4,sinal_conv,object,207,431,67.55,2
5,sinal_conv_desc,object,207,431,67.55,2


‚öôÔ∏è **Sele√ß√£o de Colunas Relevantes ‚Äî `rendasm2`**

Cont√©m 6 colunas. As seguintes foram mantidas:

- `geocod`: Identificador do concelho (**manter**).
- `geodsg`: Nome do concelho (**manter**).
- `valor`: Valor m√©dio da renda (**manter**, a converter para `float`).

As colunas `ind_string`, `sinal_conv`, `sinal_conv_desc` foram consideradas auxiliares e ser√£o **eliminadas**.



### üìä Conclus√µes do Data Profiling

Ap√≥s a leitura e an√°lise dos datasets, foram identificadas as seguintes caracter√≠sticas e decis√µes de limpeza e prepara√ß√£o:


#### üìå Colunas-Chave Identificadas

| Dataset                     | Chave Prim√°ria                              | Chave(s) Secund√°ria(s)         |
|----------------------------|---------------------------------------------|--------------------------------|
| `Areas_Concelhos_CAOP2019` | `DICO` ‚Üí renomeado para `MunicipalityCode` | `CONCELHO_DSG`, `NUTSIII_DSG` |
| `densidadePopulacional`    | `geocod` (√∫ltimos 4 d√≠gitos) ‚Üí `MunicipalityCode` | `geodsg`             |
| `densidadealojamentosm2`   | `geocod` (primeiros 4 d√≠gitos) ‚Üí `MunicipalityCode` | `geodsg`            |
| `rendasm2`                 | `geocod` (√∫ltimos 4 d√≠gitos) ‚Üí `MunicipalityCode` | `geodsg`             |
| `portugal_listings`        | `City`                                      | `District`, `Price`             |

‚ö†Ô∏è Nota: `geocod` foi mapeado para `MunicipalityCode` com `str[:4]` ou `str[-4:]` conforme o dataset, garantindo uniformidade nas jun√ß√µes.


#### üîç Convers√µes e Limpezas Realizadas

- As colunas `valor` foram convertidas para `float` com `pd.to_numeric(errors='coerce')`.
- Os registos com valores **nulos em `Price`** (no dataset `listings`) foram **removidos**.
- Os valores nulos nas colunas `valor` dos datasets **`rendas`** foram **substitu√≠dos pela m√©dia do distrito**.
- Todas as colunas geogr√°ficas foram **normalizadas**:
  - Remo√ß√£o de acentos;
  - Convers√£o para min√∫sculas;
  - Remo√ß√£o de espa√ßos em branco;
  - Cria√ß√£o de colunas auxiliares como `*_norm`.


#### üß± Diferen√ßa de Granularidade

- Os datasets `densidadealojamentosm2` e `rendasm2` est√£o ao n√≠vel da **freguesia**.
- Os restantes datasets est√£o ao n√≠vel do **concelho** (`MunicipalityCode`).

üîÑ **Solu√ß√£o**:
- Realizar um **agrupamento por concelho** (usando os primeiros ou √∫ltimos 4 d√≠gitos de `geocod`).
- As **m√©dias por concelho** ser√£o calculadas para:
  - Densidade de alojamentos locais;
  - Pre√ßo das rendas por m¬≤.
- Isso garante coer√™ncia na granularidade entre os diferentes conjuntos de dados para posterior integra√ß√£o e an√°lise.


---

## üßΩ Data Cleaning & Preparation

Ap√≥s a fase de **Data Profiling**, foi poss√≠vel identificar v√°rias inconsist√™ncias nos datasets utilizados neste projeto. Esta fase de **Data Cleaning & Integration** tem como objetivo preparar os dados para a integra√ß√£o e an√°lise final, assegurando que todas as fontes de dados partilham uma estrutura coerente e limpa.


### üîç Problemas Identificados

- Colunas com valores num√©ricos armazenados como `string`;
- Utiliza√ß√£o inconsistente de separadores decimais (`"."` e `","`);
- Exist√™ncia de **valores nulos** em campos cr√≠ticos como `Price` e `valor`;
- Presen√ßa de acentos, letras mai√∫sculas/min√∫sculas e espa√ßos inconsistentes em nomes geogr√°ficos (`District`, `Town`, `City`, `geodsg`, etc.);
- Diferen√ßa de granularidade entre datasets (ex: freguesia vs concelho).



### üéØ Objetivos da Limpeza e Prepara√ß√£o

1. **Convers√£o de colunas num√©ricas** para o tipo `float`, garantindo a coer√™ncia dos dados;
2. **Tratamento de valores nulos**, atrav√©s de:
   - Remo√ß√£o em colunas como `Price`;
   - Substitui√ß√£o pela **m√©dia distrital** no dataset com `valor`, `rendasm2`;
3. **Normaliza√ß√£o dos nomes de localidades** para garantir a consist√™ncia entre datasets:
   - Remo√ß√£o de acentos;
   - Convers√£o para min√∫sculas;
   - Elimina√ß√£o de espa√ßos em branco;
4. **Cria√ß√£o de colunas normalizadas (`*_norm`)**, que servir√£o como **chaves secund√°rias** durante a integra√ß√£o dos dados;
5. **Harmoniza√ß√£o das chaves prim√°rias**, como `MunicipalityCode`, obtidas a partir do `geocod` (in√≠cio ou fim da string, conforme o dataset);
6. **Prepara√ß√£o de DataFrames tratados**, com apenas as colunas essenciais para futura an√°lise.


Com estas opera√ß√µes de limpeza, os datasets ficam prontos para a pr√≥xima etapa do projeto: **Schema Integration e Identity Resolution**.


In [161]:
!pip install unidecode




[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [162]:
import unidecode

# Normalizar nomes
def normalizar(texto):
    return unidecode.unidecode(str(texto).strip().lower())

#### Areas_Freg_Conc_Dist_Pais_CAOP2019

In [163]:
dfConcelhos = pd.DataFrame(concelhos)

# ‚úÖ Selecionar colunas relevantes
colunasParaManter = ['DICO', 'CONCELHO_DSG', 'NUTSIII_DSG']
dfConcelhos = dfConcelhos[colunasParaManter]

# üîÅ Renomear colunas para nomes mais descritivos
dfConcelhos = dfConcelhos.rename(columns={
    'DICO': 'MunicipalityCode',
    'CONCELHO_DSG': 'Municipality',
    'NUTSIII_DSG': 'Region'
})

# üßΩ Normalizar colunas de texto
dfConcelhos['MunicipalityCode'] = dfConcelhos['MunicipalityCode'].astype(str).str.zfill(4)
dfConcelhos['Municipality_norm'] = dfConcelhos['Municipality'].apply(normalizar)
dfConcelhos['Region_norm'] = dfConcelhos['Region'].apply(normalizar)

# üíæ Exportar tabela final com as colunas normalizadas inclu√≠das
dfConcelhosTratado = dfConcelhos[[
    'MunicipalityCode', 'Municipality', 'Municipality_norm',
    'Region', 'Region_norm'
]].drop_duplicates().copy()

dfConcelhosTratado.to_csv(r'dados\dados tradados/concelhosTratado.csv', index=False)


#### densidadealojamentosm2

In [164]:
# üì• Criar DataFrame a partir do dataset original
dfAloj = pd.DataFrame(densidade_aloj)

# üßæ Extrair c√≥digo do concelho (4 primeiros d√≠gitos do geocod)
dfAloj['MunicipalityCode'] = dfAloj['geocod'].str[:4]

# üî§ Normalizar nome da freguesia
dfAloj['FreguesiaNorm'] = dfAloj['geodsg'].apply(normalizar)

# üîÅ Juntar com concelhos para obter nomes e norm
dfAlojMerged = dfAloj.merge(
    dfConcelhos[['MunicipalityCode', 'Municipality', 'Municipality_norm']],
    on='MunicipalityCode', how='left'
)

# ‚úÖ Filtrar apenas matches v√°lidos
alojamentosMatch = dfAlojMerged[dfAlojMerged['Municipality'].notna()].copy()

# üî¢ Converter densidade para float
alojamentosMatch['Density'] = pd.to_numeric(alojamentosMatch['valor'], errors='coerce')

# üîÑ Substituir valores nulos pela m√©dia do concelho
alojamentosMatch['Density'] = alojamentosMatch.groupby('MunicipalityCode')['Density'].transform(
    lambda x: x.fillna(x.mean())
)

# üìä Agregar m√©dia da densidade por concelho
densidadeAlojMedia = (
    alojamentosMatch
    .groupby(['MunicipalityCode', 'Municipality', 'Municipality_norm'])
    .agg({'Density': 'mean'})
    .reset_index()
    .rename(columns={'Density': 'DensityAlojMean'})
)

# üíæ Exportar CSV final
densidadeAlojMedia.to_csv(r'dados\dados tradados/densidadeAlojTratado.csv', index=False)


#### DensidadePopulacional

In [165]:
# üì• Criar DataFrame a partir do dataset original
dfPop = pd.DataFrame(densidade_pop)

# üßæ Extrair c√≥digo do concelho (√∫ltimos 4 d√≠gitos do geocod)
dfPop['MunicipalityCode'] = dfPop['geocod'].str[-4:]

# üî§ Normalizar nome do concelho (geodsg ‚Üí nome da unidade geogr√°fica)
dfPop['MunicipalityNorm'] = dfPop['geodsg'].apply(normalizar)

# üîÅ Juntar com concelhos para obter nomes oficiais
dfPopMerged = dfPop.merge(
    dfConcelhos[['MunicipalityCode', 'Municipality', 'Municipality_norm']],
    on='MunicipalityCode', how='left'
)

# ‚úÖ Filtrar apenas matches v√°lidos
populacionalMatch = dfPopMerged[dfPopMerged['Municipality'].notna()].copy()

# üî¢ Converter densidade para float
populacionalMatch['Density'] = pd.to_numeric(populacionalMatch['valor'], errors='coerce')

# üîÑ Substituir valores nulos pela m√©dia do concelho
populacionalMatch['Density'] = populacionalMatch.groupby('MunicipalityCode')['Density'].transform(
    lambda x: x.fillna(x.mean())
)

# üìä Agregar m√©dia da densidade por concelho
densidadePopMedia = (
    populacionalMatch
    .groupby(['MunicipalityCode', 'Municipality', 'Municipality_norm'])
    .agg({'Density': 'mean'})
    .reset_index()
    .rename(columns={'Density': 'DensityPopMean'})
)

# üíæ Exportar CSV final
densidadePopMedia.to_csv(r'dados\dados tradados/densidadePopTratado.csv', index=False)


#### portugal_listings

In [166]:
# üì• Criar DataFrame a partir do CSV original
dfListings = pd.DataFrame(listings)

# üßπ Remover colunas 'Unnamed' e 'Town' (n√£o ser√° usada)
dfListings = dfListings.drop(columns=[col for col in dfListings.columns if "Unnamed" in col])
dfListings = dfListings.drop(columns=['Town'], errors='ignore')


# üí∞ Converter 'Price' para float
dfListings['Price'] = pd.to_numeric(dfListings['Price'], errors='coerce')

# ‚úÖ Filtrar linhas com pre√ßo v√°lido (> 0)
dfListings = dfListings[dfListings['Price'].notna() & (dfListings['Price'] > 0)].copy()

# üî§ Normalizar nomes de localiza√ß√£o
dfListings['District_norm'] = dfListings['District'].apply(normalizar)
dfListings['Municipality'] = dfListings['City']  # Substitui City por Municipality
dfListings['Municipality_norm'] = dfListings['Municipality'].apply(normalizar)
dfListings = dfListings.drop(columns=['City'])

# üíæ Exportar CSV final tratado
dfListings.to_csv(r'dados\dados tradados/listingsTratado.csv', index=False)


#### rendasm2

In [170]:
dfRendas = pd.DataFrame(rendas)

# üí∂ Converter 'valor' para float
dfRendas['RentValue'] = pd.to_numeric(dfRendas['valor'], errors='coerce')

# üÜî Extrair c√≥digo do concelho (√∫ltimos 4 d√≠gitos de geocod)
dfRendas['MunicipalityCode'] = dfRendas['geocod'].str[-4:]

# üî§ Normalizar nome do munic√≠pio
dfRendas['MunicipalityNorm'] = dfRendas['geodsg'].apply(normalizar)

# üîÅ Juntar com concelhos apenas para validar matches
rendasMerged = dfRendas.merge(
    dfConcelhos[['MunicipalityCode', 'Municipality', 'Municipality_norm']],
    on='MunicipalityCode', how='left'
)

# ‚úÖ Filtrar apenas matches v√°lidos
rendasMatch = rendasMerged[rendasMerged['Municipality'].notna()].copy()

# üîÑ Substituir valores nulos pela m√©dia por concelho
rendasMatch['RentValue'] = rendasMatch.groupby('MunicipalityCode')['RentValue'].transform(
    lambda x: x.fillna(x.mean())
)

# üìä Agregar m√©dia por concelho
rendasPorConcelho = (
    rendasMatch
    .groupby('MunicipalityCode')
    .agg({'RentValue': 'mean'})
    .reset_index()
    .rename(columns={'RentValue': 'RentValueMean'})
)

# üß© Adicionar Municipality e MunicipalityNorm
rendasPorConcelho = rendasPorConcelho.merge(
    dfConcelhos[['MunicipalityCode', 'Municipality', 'Municipality_norm']],
    on='MunicipalityCode', how='left'
)

dfRendas = pd.DataFrame(rendasPorConcelho)

# üíæ Exportar CSV final
dfRendas.to_csv(r'dados\dados tradados/rendasTratado.csv', index=False)


---

## üîó Plano de Integra√ß√£o de Esquemas

Ap√≥s o processo de limpeza e normaliza√ß√£o dos dados, foi definido o seguinte plano para integrar os diversos datasets, tendo em conta as diferen√ßas de granularidade e estrutura dos mesmos.

### üß© Objetivo da Integra√ß√£o

Integrar os datasets a um **n√≠vel municipal (MunicipalityCode)** para permitir a an√°lise cruzada entre:
- Pre√ßos das rendas por m¬≤ (`rendasm2`)
- Densidade populacional (`densidadePopulacional`)
- Densidade de alojamentos locais (`densidadeAlojamentosm2`)
- Pre√ßos dos im√≥veis (`portugal_listings`)
- Localiza√ß√£o administrativa (`Areas_Concelhos_CAOP2019`)


### üóÇÔ∏è Granularidade dos Dados

| Dataset                | Granularidade Original | Estrat√©gia de Uniformiza√ß√£o       |
|------------------------|------------------------|-----------------------------------|
| `densidadeAlojamentos` | Freguesia              | Agrupar por concelho com a m√©dia  |
| `rendasm2`             | Freguesia              | Agrupar por concelho com a m√©dia  |
| `densidadePopulacional`| Concelho               | J√° est√° no n√≠vel correto          |
| `portugal_listings`    | Freguesia              | Usar a coluna concelho            |
| `Areas_Concelhos_CAOP2019` | Concelho           | Base de refer√™ncia administrativa |


### üß± Chaves e Mapeamentos

- A **chave de integra√ß√£o principal** ser√° `MunicipalityCode`, extra√≠da de `geocod`, `DICO`, ou derivada de `City`.
- Para garantir consist√™ncia, foi criada a coluna `Municipality_norm` (nomes normalizados de concelhos).
- Os nomes de cidades (`City`) ser√£o normalizados e mapeados para os concelhos correspondentes manualmente ou via regra de decis√£o (ex: correspond√™ncia direta com `Municipality_norm`).


### üìã Estrat√©gia de Integra√ß√£o

1. **Densidade de Alojamentos**:  
   - Agregar por `MunicipalityCode` (m√©dia dos valores da freguesia).
   - Gerar dataset final com: `MunicipalityCode`, `DensityAlojMean` e `Municipality_norm`.

2. **Densidade Populacional**:  
   - J√° vem por `MunicipalityCode`, apenas normalizar e confirmar correspond√™ncia.

3. **Rendas por m¬≤**:  
   - Agregar por `MunicipalityCode` (m√©dia dos valores da freguesia).
   - Gerar dataset com: `MunicipalityCode`, `RentValueMean` e `Municipality_norm`.

4. **Listings**:  
   - Associar `Municipality_norm` a `Municipality_norm` da tabela `concelhosTratado.csv` e obter `MunicipalityCode`.
   - Calcular estat√≠sticas agregadas (m√©dia de pre√ßo, contagem) por concelho.


### üß† Considera√ß√µes Finais

- O dataset `concelhosTratado.csv` ser√° a **tabela base** para todas as jun√ß√µes.
- As colunas `MunicipalityCode` e `Municipality_norm` ser√£o usadas como **blocking keys**.
- Pode ser necess√°rio fazer **resolu√ß√£o de identidade** entre nomes de cidades (`City`) e concelhos (`Municipality`) para garantir boas liga√ß√µes entre listings e os restantes datasets.

---

## üß± Blocking Strategy & Similarity Metrics

Durante a resolu√ß√£o de identidade e planeamento da integra√ß√£o, √© essencial preparar mecanismos que reduzam o custo computacional das compara√ß√µes entre registos (blocking) e definam crit√©rios objetivos para medir semelhan√ßa (similarity metrics).

### üì¶ Blocking Strategy

**Objetivo:** Reduzir o n√∫mero de compara√ß√µes entre entidades de diferentes datasets, criando "blocos" onde a compara√ß√£o faz sentido (ex: localidades com o mesmo prefixo ou regi√£o).

#### Estrat√©gia adotada:
- Criar blocos com base no prefixo do nome normalizado (`Municipality_norm`) ou na `Region`.
- Apenas comparamos nomes dentro do mesmo bloco.

In [179]:
!pip install rapidfuzz

Collecting rapidfuzz
  Downloading rapidfuzz-3.13.0-cp312-cp312-win_amd64.whl.metadata (12 kB)
Downloading rapidfuzz-3.13.0-cp312-cp312-win_amd64.whl (1.6 MB)
   ---------------------------------------- 0.0/1.6 MB ? eta -:--:--
   ------ --------------------------------- 0.3/1.6 MB ? eta -:--:--
   ------------ --------------------------- 0.5/1.6 MB 1.7 MB/s eta 0:00:01
   ------------------------- -------------- 1.0/1.6 MB 1.9 MB/s eta 0:00:01
   -------------------------------- ------- 1.3/1.6 MB 1.9 MB/s eta 0:00:01
   ---------------------------------------- 1.6/1.6 MB 1.9 MB/s eta 0:00:00
Installing collected packages: rapidfuzz
Successfully installed rapidfuzz-3.13.0



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [181]:
import pandas as pd
from rapidfuzz import fuzz

# 1Ô∏è‚É£ Carregar os datasets tratados
dfListings = pd.read_csv('dados/dados tradados/listingsTratado.csv')
dfRendas = pd.read_csv('dados/dados tradados/rendasTratado.csv')

# 2Ô∏è‚É£ Criar chave de blocking com prefixo (3 letras)
dfListings['block_key'] = dfListings['Municipality_norm'].str[:3]
dfRendas['block_key'] = dfRendas['Municipality_norm'].str[:3]

# 3Ô∏è‚É£ Gerar pares candidatos com base no bloco
candidatos = pd.merge(
    dfListings[['Municipality', 'Municipality_norm', 'block_key']],
    dfRendas[['Municipality', 'Municipality_norm', 'block_key']],
    on='block_key',
    suffixes=('_listings', '_rendas')
)

# 4Ô∏è‚É£ Calcular as 3 medidas de similaridade
candidatos['similaridade_token_sort'] = candidatos.apply(
    lambda row: fuzz.token_sort_ratio(row['Municipality_norm_listings'], row['Municipality_norm_rendas']) / 100,
    axis=1
)

candidatos['similaridade_levenshtein'] = candidatos.apply(
    lambda row: fuzz.ratio(row['Municipality_norm_listings'], row['Municipality_norm_rendas']) / 100,
    axis=1
)

candidatos['similaridade_token_set'] = candidatos.apply(
    lambda row: fuzz.token_set_ratio(row['Municipality_norm_listings'], row['Municipality_norm_rendas']) / 100,
    axis=1
)

# 5Ô∏è‚É£ Visualizar os pares com maior similaridade
top_pares = candidatos.sort_values(by='similaridade_token_sort', ascending=False)

# Mostrar apenas as colunas principais
display(top_pares[[
    'Municipality_listings', 'Municipality_rendas',
    'similaridade_token_sort',
    'similaridade_levenshtein',
    'similaridade_token_set'
]])


Unnamed: 0,Municipality_listings,Municipality_rendas,similaridade_token_sort,similaridade_levenshtein,similaridade_token_set
3,Valpa√ßos,VALPA√áOS,1.00,1.00,1.00
576423,Valpa√ßos,VALPA√áOS,1.00,1.00,1.00
576419,Alij√≥,ALIJ√ì,1.00,1.00,1.00
576418,Valpa√ßos,VALPA√áOS,1.00,1.00,1.00
576398,Alc√°cer do Sal,ALC√ÅCER DO SAL,1.00,1.00,1.00
...,...,...,...,...,...
35123,Peniche,PENALVA DO CASTELO,0.24,0.40,0.24
478530,Montalegre,MONDIM DE BASTO,0.24,0.32,0.24
196369,Peniche,PENALVA DO CASTELO,0.24,0.40,0.24
126329,Mondim de Basto,MONTALEGRE,0.24,0.32,0.24


## üìù Conclus√µes e Trabalho Futuro

---