# Scrap My Prop

### Laboratórios de Engenharia Informática

**"Development of an IT solution for the extraction and automatic analysis of data and relevant information for the calculation of land and properties."**

## Importar Bibliotecas Python

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import re
from scipy import stats
from collections import defaultdict

# 'ERA'

## Ler Dados do CSV

In [None]:
data_era = pd.read_csv('dados/dados_era_01_04.csv')
pd.set_option('display.max_columns', None)
data_era.head()

## Pré-processamento comum a todo o Dataset

**Funções auxiliares**

In [None]:
def ajustPreco(string):
    res = re.sub(r"(.*?)€",r"\1",string)
    res = res.replace(".", "")
    res = pd.to_numeric(res, errors='ignore')
    return res

**Colunas 'Distrito' e 'Concelho': Retirar colunas de forma total porque já era uma pré-condição do projeto, mas primeiro verificar se, de facto, todos os campos estão preenchidos com 'Braga';**

In [None]:
print("Distritos existentes:", data_era['Distrito'].unique())
print("Concelhos existentes:", data_era['Concelho'].unique())

In [None]:
if 'Distrito' in data_era.columns:
    data_era = data_era.drop(['Distrito'], axis = 1) 
if 'Concelho' in data_era.columns:
    data_era = data_era.drop(['Concelho'], axis = 1) 

**Colunas 'Nome' e 'Referência': Não são características dos imóveis mas sim identificadores, portanto não devem entrar nos cálculos (Drop);**

In [None]:
if 'Nome' in data_era.columns:
    data_era = data_era.drop(['Nome'], axis = 1) 
if 'Referência' in data_era.columns:
    data_era = data_era.drop(['Referência'], axis = 1) 

**Coluna 'Preço de Venda': Drop dos imóveis que estão 'Sob Consulta'; Retirar símbolo '€'; Transformar em dado numérico;**

In [None]:
data_era = data_era.drop(data_era[(data_era['Preço de Venda'] == 'Sob Consulta')].index)
data_era.index = np.arange(1, len(data_era) + 1)
data_era['Preço de Venda'] = data_era['Preço de Venda'].apply(ajustPreco)
data_era.head()

**Coluna 'Freguesia': Não podem existir valores nulos nesta coluna, senão estamos a perder o principal fator de diferenciação dos preços;**

In [None]:
data_era['Freguesia'].isnull().values.any()

**Coluna 'Estado': 'N/D' deve passar a notação que seja interpretada pelas bibliotecas do Python ('NaN')**

In [None]:
data_era = data_era.replace('N/D',np.nan)

In [None]:
data_era.info()

## Pré-processamento diferenciado por tipologia

**Listar todas as tipologias existentes**

In [None]:
data_era['Tipo de Imóvel'].unique()

**Dividir os dados por tipologia**

In [None]:
data_era_moradias = data_era.loc[(data_era['Tipo de Imóvel'] == 'Moradia em Banda') | (data_era['Tipo de Imóvel'] == 'Moradia Geminada') | (data_era['Tipo de Imóvel'] == 'Moradia Isolada') | (data_era['Tipo de Imóvel'] == 'Moradia') | (data_era['Tipo de Imóvel'] == 'Andar Moradia') | (data_era['Tipo de Imóvel'] == 'Moradia Rústica')]
data_era_moradias.index = np.arange(1, len(data_era_moradias) + 1)

## Dados - Moradias

In [None]:
data_era_moradias.head()

In [None]:
data_era_moradias.info()

**Análise exploratória de dados**

*Distribuição da feature 'Preço de Venda'*

In [None]:
fig = plt.figure(figsize = (20,5))
sns.set_style('darkgrid')
data_era_moradias['Preço de Venda'].hist(bins=30)
plt.xlabel('Preço de Venda')

In [None]:
fig = plt.figure(figsize = (10,3))
sns.boxplot(x=data_era_moradias['Preço de Venda'])

*Relacionamento do 'Preço de Venda' com outras features numéricas importantes*

In [None]:
fig = plt.figure(figsize = (25,10))

ax1 = fig.add_subplot(2,3,1)
ax1.scatter(data_era_moradias['Área Útil'], data_era_moradias['Preço de Venda'])
ax1.set_xlabel('Área Útil')
ax1.set_ylabel('Preço de Venda')

ax2 = fig.add_subplot(2,3,2)
ax2.scatter(data_era_moradias['Área Terreno'], data_era_moradias['Preço de Venda'])
ax2.set_xlabel('Área Terreno')
ax2.set_ylabel('Preço de Venda')

ax3 = fig.add_subplot(2,3,4)
ax3.scatter(data_era_moradias['Nº Quartos'], data_era_moradias['Preço de Venda'])
ax3.set_xlabel('Nº Quartos')
ax3.set_ylabel('Preço de Venda')


*Relacionamento do 'Preço de Venda' com outras features categóricas importantes*

In [None]:
#cat_data = data_era_moradias.select_dtypes(include=['object'])
cat_data = data_era_moradias[['Freguesia']]

In [None]:
for cat in cat_data.dtypes[:10].index.values:
    plt.figure(figsize=(20, 8))
    plt.xticks(rotation=90)
    sns.boxplot(x=cat, y='Preço de Venda', data=data_era_moradias) 
    sns.swarmplot(x=cat, y='Preço de Venda', data=data_era_moradias)
    plt.show()

**Remoção de Outliers**

*Através da visualização dos gráficos*

In [None]:
outliers = data_era_moradias.loc[data_era_moradias['Preço de Venda'] > 500000].index
data_era_moradias = data_era_moradias.drop(outliers)
data_era_moradias.index = np.arange(1, len(data_era_moradias) + 1)
data_era_moradias.shape

In [None]:
fig = plt.figure(figsize = (20,5))
sns.set_style('darkgrid')
data_era_moradias['Preço de Venda'].hist(bins=30)
plt.xlabel('Preço de Venda')

*Através de métodos matemáticos*

In [None]:
#z = np.abs(stats.zscore(data_era_moradias[['Preço de Venda']]))
#threshold = 3
#print(np.where(z > threshold))
# The first array contains the list of row numbers and second array respective column numbers
#data_era_moradias.loc[ 31 , : ]

In [None]:
# Só fazer 1 vez
#data = data[(np.abs(stats.zscore(data)) < 3).all(axis=1)]
#data.index = np.arange(1, len(data) + 1)
#data

**Dados em falta por coluna**

In [None]:
percent_missing = data_era_moradias.isnull().sum() * 100 / len(data_era_moradias)
missing_value_data_era_moradias_columns = pd.DataFrame({'percent_missing (%)': percent_missing})
sort_data = missing_value_data_era_moradias_columns.copy()
sort_data.sort_values('percent_missing (%)', inplace=True, ascending=False)
sort_data

**Remover colunas com percentagem de dados em falta superior a 30%**

In [None]:
a_manter = list(missing_value_data_era_moradias_columns.index[missing_value_data_era_moradias_columns['percent_missing (%)'] < 30])
data_era_moradias = data_era_moradias[a_manter]

**Dados em falta por linha**

In [None]:
percent_missing = (1 - data_era_moradias.apply(lambda x: x.count(), axis=1) / len(data_era_moradias.columns)) * 100
missing_value_data_era_moradias_rows = pd.DataFrame({'percent_missing (%)': percent_missing})
sort_data = missing_value_data_era_moradias_rows.copy()
sort_data.sort_values('percent_missing (%)', inplace=True, ascending=False)
sort_data

**Remover linhas com percentagem de dados em falta superior a 50%**

*De forma a não existir linhas com mais de metade da informação 'falsa'*

In [None]:
a_excluir = missing_value_data_era_moradias_rows[(missing_value_data_era_moradias_rows['percent_missing (%)'] >= 50)]
data_era_moradias = data_era_moradias.drop(a_excluir.index)
data_era_moradias.index = np.arange(1, len(data_era_moradias) + 1)

**Inserir dados em falta**

In [None]:
for x in data_era_moradias.select_dtypes(include=['float64']).columns.tolist():
    median_value=data_era_moradias[x].median()
    data_era_moradias[x]=data_era_moradias[x].fillna(median_value)

for y in data_era_moradias.select_dtypes(include=['object']).columns.tolist():
    mode_value=data_era_moradias[y].mode()
    data_era_moradias[y]=data_era_moradias[y].fillna(mode_value[0])    
    
data_era_moradias.head()

In [None]:
sns.heatmap(data_era_moradias.isnull(),yticklabels=False,cbar=False,cmap='viridis')

## Estruturação dos Dados

**Aplicar One Hot Encoding nas features 'Nº Quartos', 'Nº Casas de Banho', 'Nº Estacionamentos' e 'Finalidade'**

In [None]:
#data_era_moradias['Nº Quartos'].unique()
#data_era_moradias['Nº Casas de Banho'].unique()
#data_era_moradias['Nº Estacionamentos'].unique()
#data_era_moradias['Finalidade'].unique()

In [None]:
n_quartos = pd.get_dummies(data_era_moradias['Nº Quartos'])
data_era_moradias = data_era_moradias.drop('Nº Quartos',axis = 1)
data_era_moradias = data_era_moradias.join(n_quartos)
data_era_moradias = data_era_moradias.rename(columns={1.0: 'Nº Quartos - 1', 2.0: 'Nº Quartos - 2', \
                                                      3.0: 'Nº Quartos - 3', 4.0: 'Nº Quartos - 4', \
                                                      5.0: 'Nº Quartos - 5', 6.0: 'Nº Quartos - 6', \
                                                      7.0: 'Nº Quartos - 7', 8.0: 'Nº Quartos - 8'})

n_casas_banho = pd.get_dummies(data_era_moradias['Nº Casas de Banho'])
data_era_moradias = data_era_moradias.drop('Nº Casas de Banho',axis = 1)
data_era_moradias = data_era_moradias.join(n_casas_banho)
data_era_moradias = data_era_moradias.rename(columns={1.0: 'Nº Casas de Banho - 1', 2.0: 'Nº Casas de Banho - 2', \
                                                      3.0: 'Nº Casas de Banho - 3', 4.0: 'Nº Casas de Banho - 4', \
                                                      5.0: 'Nº Casas de Banho - 5', 6.0: 'Nº Casas de Banho - 6', \
                                                      7.0: 'Nº Casas de Banho - 7', 8.0: 'Nº Casas de Banho - 8',})

n_estacionamentos = pd.get_dummies(data_era['Nº Estacionamentos'])
data_era_moradias = data_era_moradias.drop('Nº Estacionamentos',axis = 1)
data_era_moradias = data_era_moradias.join(n_estacionamentos)
data_era_moradias = data_era_moradias.rename(columns={1.0: 'Nº Estacionamentos - 1', 2.0: 'Nº Estacionamentos - 2', \
                                                      3.0: 'Nº Estacionamentos - 3', 4.0: 'Nº Estacionamentos - 4', \
                                                      5.0: 'Nº Estacionamentos - 5', 6.0: 'Nº Estacionamentos - 6', \
                                                      7.0: 'Nº Estacionamentos - 7', 8.0: 'Nº Estacionamentos - 8', \
                                                      25.0: 'Nº Estacionamentos - 25'})

finalidade = pd.get_dummies(data_era_moradias['Finalidade'])
data_era_moradias = data_era_moradias.drop('Finalidade',axis = 1)
data_era_moradias = data_era_moradias.join(finalidade)
data_era_moradias = data_era_moradias.rename(columns={'Venda': 'Finalidade - Venda', 'Venda, Arrendamento': 'Finalidade - Venda Arrendamento'})

**Estruturar dados que ainda estão em bruto na feature 'Zona'**

In [None]:
#data_era_moradias['Zona'].unique()

In [None]:
def getAcessos(string):
    return re.search(r"Acessos:\s(.*?);",string)

def getCentralidades(string):
    return re.search(r"Centralidade:\s(.*?);",string)

def getProximidades(string):
    return re.search(r"Proximidade:\s(.*?);",string)

In [None]:
zona = data_era_moradias['Zona']

acessosDict = defaultdict(list)
centralidadesDict = defaultdict(list)
proximidadesDict = defaultdict(list)


j = 0

for value in zona:
    j = j+1
    if getAcessos(str(value)) is not None:
        acessos = getAcessos(str(value))
        for acesso in acessos.groups():
            acesso = acesso.split(', ')
            for x in acesso:
                acessosDict[x].append(j)

    if getCentralidades(str(value)) is not None:
        centralidades = getCentralidades(str(value))
        for centralidade in centralidades.groups():
            centralidade = centralidade.split(', ')
            for x in centralidade:
                centralidadesDict[x].append(j)
           
    if getProximidades(str(value)) is not None:
        proximidades = getProximidades(str(value))
        for proximidade in proximidades.groups():
            proximidade = proximidade.split(', ')
            for x in proximidade:
                proximidadesDict[x].append(j)

In [None]:
data_era_moradias = data_era_moradias.drop('Zona',axis = 1)

for k, v in acessosDict.items():
    data_era_moradias[k] = 0

for k, v in acessosDict.items():
    for j in v:
        data_era_moradias.at[j, k] = 1
        
data_era_moradias = data_era_moradias.rename(columns={'Calçada': 'Zona Acessos - Calçada', \
                                    'Alcatrão': 'Zona Acessos - Alcatrão', \
                                    'Bons': 'Zona Acessos - Bons', \
                                    'Transportes Púb.': 'Zona Acessos - Transportes Púb.', \
                                    'Auto-Estrada': 'Zona Acessos - Auto-Estrada', \
                                    'Comboio': 'Zona Acessos - Comboio', \
                                    'Terra Batida': 'Zona Acessos - Terra Batida', \
                                    'Aeroporto': 'Zona Acessos - Aeroporto', \
                                    'Metro': 'Zona Acessos - Metro'})

for k, v in centralidadesDict.items():
    data_era_moradias[k] = 0

for k, v in centralidadesDict.items():
    for j in v:
        data_era_moradias.at[j, k] = 1        

data_era_moradias = data_era_moradias.rename(columns={'Distante Cidade': 'Zona Centralidade - Distante Cidade',\
                                   'Periferia Cidade': 'Zona Centralidade - Periferia Cidade', \
                                   'Centro da Cidade': 'Zona Centralidade - Centro da Cidade', \
                                   'Rural': 'Zona Centralidade - Rural'})

for k, v in proximidadesDict.items():
    data_era_moradias[k] = 0

for k, v in proximidadesDict.items():
    for j in v:
        data_era_moradias.at[j, k] = 1

data_era_moradias = data_era_moradias.rename(columns={'Centros Comerciais': 'Zona Proximidade - Centros Comerciais',\
                                   'Escolas': 'Zona Proximidade - Escolas',\
                                   'Ginásio': 'Zona Proximidade - Ginásio',\
                                   'Hospital': 'Zona Proximidade - Hospital',\
                                   'Jardins': 'Zona Proximidade - Jardins',\
                                   'Jardins Infância': 'Zona Proximidade - Jardins Infância',\
                                   'Padaria': 'Zona Proximidade - Padaria',\
                                   'Supermercado': 'Zona Proximidade - Supermercado',\
                                   'Bancos': 'Zona Proximidade - Bancos',\
                                   'Farmácia': 'Zona Proximidade - Farmácia',\
                                   'Praias': 'Zona Proximidade - Praias',\
                                   'Serviços Públicos': 'Zona Proximidade - Serviços Públicos',\
                                   'Bombeiros': 'Zona Proximidade - Bombeiros',\
                                   'Clínica': 'Zona Proximidade - Clínica',\
                                   'Polícia': 'Zona Proximidade - Polícia'})

**Estruturar dados que ainda estão em bruto na feature 'Constituição'**

In [None]:
#data_era_moradias['Constituição'].unique()

In [None]:
def getPisos(string):
    return re.search(r"Nº Pisos:\s(.*?);",string)

def getFrentes(string):
    return re.search(r"Nº Frentes:\s(.*?);",string)

def getCave(string):
    if re.search(r"Cave",string) is not None:
        return True
    else: return False

def getSotao(string):
    if re.search(r"Vão de Telhado / Sotão",string) is not None:
        return True
    else: return False

In [None]:
constituicao = data_era_moradias['Constituição']

pisosDict = defaultdict(list)
frentesDict = defaultdict(list)
caveList = []
sotaoList = []


j = 0

for value in constituicao:
    j = j+1
    if getPisos(str(value)) is not None:
        pisos = getPisos(str(value))
        for piso in pisos.groups():
            for x in piso:
                pisosDict[x].append(j)
                
    if getFrentes(str(value)) is not None:
        frentes = getFrentes(str(value))
        for frente in frentes.groups():
            for x in frente:
                frentesDict[x].append(j)
                
    if getCave(str(value)) is True:
        caveList.append(j)
        
    if getSotao(str(value)) is True:
        sotaoList.append(j)

In [None]:
data_era_moradias = data_era_moradias.drop('Constituição',axis = 1)

for k, v in pisosDict.items():
    data_era_moradias[k] = 0

for k, v in pisosDict.items():
    for j in v:
        data_era_moradias.at[j, k] = 1
        
data_era_moradias = data_era_moradias.rename(columns={'1':'Nº Pisos - 1', '2':'Nº Pisos - 2', \
                                                      '3':'Nº Pisos - 3', '4':'Nº Pisos - 4', \
                                                      '8':'Nº Pisos - 8'})

for k, v in frentesDict.items():
    data_era_moradias[k] = 0

for k, v in frentesDict.items():
    for j in v:
        data_era_moradias.at[j, k] = 1
        
data_era_moradias = data_era_moradias.rename(columns={'1':'Nº Frentes - 1', '2':'Nº Frentes - 2', \
                                                      '3':'Nº Frentes - 3','4':'Nº Frentes - 4' })


data_era_moradias['Cave'] = 0

for k in caveList:
    data_era_moradias.at[k, 'Cave'] = 1
    
data_era_moradias['Sotão'] = 0

for k in sotaoList:
    data_era_moradias.at[k, 'Sotão'] = 1

**Dataset estruturado**

In [None]:
data_era_moradias.head()