# Scrap My Prop

### Laboratórios de Engenharia Informática

**"Development of an IT solution for the extraction and automatic analysis of data and relevant information for the calculation of land and properties."**

## Importar Bibliotecas Python

In [None]:
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from IPython.core.debugger import set_trace
#import googlemaps
#import geopy.distance

# 'Imovirtual'

## Ler Dados do CSV

In [None]:
data_imo = pd.read_csv('dados/dados_imovirtual_16_04.csv', engine='python', encoding='utf8')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 10)

## Pré-processamento comum a todo o Dataset

**Funções auxiliares**

In [None]:
def toNumeric(string):
    res = str(string)
    res = res.replace(" ", "")
    res = res.replace(",", ".")
    res = float(pd.to_numeric(res, errors='ignore')) # tem que ser float porque esse tipo consegue interpretar o np.nan
    return res

**Colunas 'Distrito' e 'Concelho': Retirar colunas de forma total porque já era uma pré-condição do projeto, mas primeiro verificar se, de facto, todos os campos estão preenchidos com 'Braga';**

In [None]:
print("Distritos existentes:", data_imo['Distrito'].unique())
print("Concelhos existentes:", data_imo['Concelho'].unique())

In [None]:
if 'Distrito' in data_imo.columns:
    data_imo = data_imo.drop(['Distrito'], axis = 1) 
if 'Concelho' in data_imo.columns:
    data_imo = data_imo.drop(['Concelho'], axis = 1) 

**Colunas 'Nome' e 'Id': Não são características dos imóveis mas sim identificadores, portanto não devem entrar nos cálculos (Drop);**

In [None]:
if 'Nome' in data_imo.columns:
    data_imo = data_imo.drop(['Nome'], axis = 1) 
if 'Id' in data_imo.columns:
    data_imo = data_imo.drop(['Id'], axis = 1) 

**Dar join a colunas que, apesar de aparentarem ter nomes diferentes, representam o mesmo**

**Exemplo: Valores de 'Box 1 carro' e 'Box 2 carros' -> 'Garagem box'; Valores de 'Parqueamento (1 carro)' e 'Parqueamento (2 carros)' -> 'Estacionamento'; Valores de 'Hidromassagem' e 'Jacuzzi' -> 'Hidromassagem/jacuzzi'; ...**

**Fazer o mesmo com piscina e piscina privada???**

In [None]:
#pd.set_option('display.max_columns', None)
#data_imo.columns.to_numpy()

In [None]:
for index,val in data_imo['Vista de cidade.1'].items():
    if (val==True):
        data_imo['Vista de cidade'].iloc[index] = True
for index,val in data_imo['Sótão'].items():
    if (val==True):
        data_imo['Sotão'].iloc[index] = True
for index,val in data_imo['Vista de Serra'].items():
    if (val==True):
        data_imo['Vista de campo/serra'].iloc[index] = True
for index,val in data_imo['Adaptada a mobilidade reduzida'].items():
    if (val==True):
        data_imo['Adaptado a mobilidade reduzida'].iloc[index] = True
for index,val in data_imo['Box 1 carro'].items():
    if (val==True):
        data_imo['Garagem box'].iloc[index] = True
for index,val in data_imo['Box 2 carros'].items():
    if (val==True):
        data_imo['Garagem box'].iloc[index] = True
for index,val in data_imo['Parqueamento (1 carro)'].items():
    if (val==True):
        data_imo['Estacionamento'].iloc[index] = True
for index,val in data_imo['Parqueamento (2 carros)'].items():
    if (val==True):
        data_imo['Estacionamento'].iloc[index] = True
for index,val in data_imo['Hidromassagem'].items():
    if (val==True):
        data_imo['Hidromassagem/jacuzzi'].iloc[index] = True
for index,val in data_imo['Jacuzzi'].items():
    if (val==True):
        data_imo['Hidromassagem/jacuzzi'].iloc[index] = True
        
data_imo.drop(['Vista de cidade.1', 'Sótão', 'Vista de Serra', 'Hidromassagem', 'Jacuzzi', 'Adaptada a mobilidade reduzida'], axis=1)


In [None]:
#data_imo.info(verbose=True, null_counts=True)

**Normalizar os valores de todas as áreas; Transformar em dado numérico;**

In [None]:
for column in data_imo.columns:
    if "Área" in column and "Área administrativa" not in column and "Área florestal" not in column:
        for i in range(len(data_imo[column])):
            if not pd.isnull(data_imo[column].iloc[i]):
                #print(data_imo[column].iloc[i])
                data_imo[column].iloc[i]=toNumeric(str(data_imo[column].iloc[i])[0:-3])
                #print(data_imo[column].iloc[i])
                #print(type(data_imo[column].iloc[i]))

**Coluna 'Preço' e 'Preço m/2': Drop dos imóveis com valor 'nan'; Transformar em dado numérico;**

In [None]:
data_imo['Preço'] = data_imo['Preço'].apply(toNumeric)

nan_prices = data_imo['Preço'].index[data_imo['Preço'].apply(np.isnan)]
data_imo = data_imo.drop(nan_prices)
data_imo.index = np.arange(1, len(data_imo) + 1)

data_imo['Preço'] = data_imo['Preço'].apply(int)

# ------

data_imo['Preço m/2'] = data_imo['Preço m/2'].apply(toNumeric)

nan_prices = data_imo['Preço m/2'].index[data_imo['Preço m/2'].apply(np.isnan)]
data_imo = data_imo.drop(nan_prices)
data_imo.index = np.arange(1, len(data_imo) + 1)

data_imo['Preço m/2'] = data_imo['Preço m/2'].apply(int)

In [None]:
data_imo.info(verbose=True)

# Dados - Moradias

**Ver os valores únicos de cada coluna para proceder ao processamento**

In [None]:
for col in data_imo.columns:
    uniques=data_imo[col].unique()
    print("Valores únicos para a coluna ", col, ": ", uniques)

**Dividir os dados por tipologia**

In [None]:
data_imo_moradias = data_imo.loc[(data_imo['Tipo de imóvel'] == 'Moradia')]
data_imo_moradias.index = np.arange(1, len(data_imo_moradias) + 1)

In [None]:
data_imo_moradias.head()

In [None]:
#data_imo_moradias.info(verbose=True, null_counts=True)

## Análise exploratória de dados

*Distribuição da feature 'Preço'*

In [None]:
fig = plt.figure(figsize = (20,5))
sns.set_style('darkgrid')
data_imo_moradias['Preço'].hist(bins=30)
plt.xlabel('Preço')

In [None]:
fig = plt.figure(figsize = (10,3))
sns.boxplot(x=data_imo_moradias['Preço'])

*Relação entre o Preço e outras variáveis*

In [None]:
fig = plt.figure(figsize = (30,15))

ax1 = fig.add_subplot(2,3,1)
ax1.scatter(data_imo_moradias['Área útil m/2'], data_imo_moradias['Preço'])
ax1.set_xlabel('Área útil')
ax1.set_ylabel('Preço')

*Relacionamento do 'Preço' com outras features categóricas importantes*

In [None]:
cat_data = data_imo_moradias[['Freguesia']]

In [None]:
for cat in cat_data.dtypes[:10].index.values:
    plt.figure(figsize=(20, 8))
    plt.xticks(rotation=90)
    sns.boxplot(x=cat, y='Preço', data=data_imo_moradias) 
    sns.swarmplot(x=cat, y='Preço', data=data_imo_moradias)
    plt.show()

**Remoção de Outliers (Quantos eliminar?)**

*Através da visualização dos gráficos*

In [None]:
#outliers = data_imo_moradias.loc[data_imo_moradias['Preço'] > 1000000].index
#data_imo_moradias = data_imo_moradias.drop(outliers)
#data_imo_moradias.index = np.arange(1, len(data_imo_moradias) + 1)
#data_imo_moradias.shape

*Através de métodos matemáticos*

In [None]:
z = np.abs(stats.zscore(data_imo_moradias[['Preço']]))
threshold = 2
print(np.where(z > threshold))
# The first array contains the list of row numbers and second array respective column numbers

In [None]:
# Só fazer 1 vez
data_imo_moradias = data_imo_moradias[(np.abs(stats.zscore(data_imo_moradias[['Preço']])) < 2).all(axis=1)]
data_imo_moradias.index = np.arange(1, len(data_imo_moradias) + 1)
data_imo_moradias

**Análise exploratória dos dados sem outliers**

In [None]:
fig = plt.figure(figsize = (20,5))
sns.set_style('darkgrid')
data_imo_moradias['Preço'].hist(bins=30)
plt.xlabel('Preço')

In [None]:
fig = plt.figure(figsize = (30,15))

ax1 = fig.add_subplot(2,3,1)
ax1.scatter(data_imo_moradias['Área útil m/2'], data_imo_moradias['Preço'])
ax1.set_xlabel('Área útil')
ax1.set_ylabel('Preço')

**Dados em falta por coluna**

In [None]:
pd.set_option('display.max_rows', None)
percent_missing = data_imo_moradias.isnull().sum() * 100 / len(data_imo_moradias)
missing_value_data_imo_moradias_columns = pd.DataFrame({'percent_missing (%)': percent_missing})
sort_data = missing_value_data_imo_moradias_columns.copy()
sort_data.sort_values('percent_missing (%)', inplace=True, ascending=False)
sort_data

In [None]:
pd.set_option('display.max_rows', 10)

**Remover colunas que tenham mais de 30% (?) de missing values**

In [None]:
a_manter = list(missing_value_data_imo_moradias_columns.index[missing_value_data_imo_moradias_columns['percent_missing (%)'] < 30])
data_imo_moradias = data_imo_moradias[a_manter]
data_imo_moradias

**Dados em falta por linha**

In [None]:
percent_missing = (1 - data_imo_moradias.apply(lambda x: x.count(), axis=1) / len(data_imo_moradias.columns)) * 100
missing_value_data_imo_moradias_rows = pd.DataFrame({'percent_missing (%)': percent_missing})
sort_data = missing_value_data_imo_moradias_rows.copy()
sort_data.sort_values('percent_missing (%)', inplace=True, ascending=False)
sort_data

**Remover linhas com percentagem de dados em falta superior a 50%**

In [None]:
a_excluir = missing_value_data_imo_moradias_rows[(missing_value_data_imo_moradias_rows['percent_missing (%)'] >= 50)]
data_imo_moradias = data_imo_moradias.drop(a_excluir.index)
data_imo_moradias.index = np.arange(1, len(data_imo_moradias) + 1)

**Inserir dados em falta**

In [None]:
for x in data_imo_moradias.select_dtypes(include=['float64']).columns.tolist():
    median_value=data_imo_moradias[x].median()
    data_imo_moradias[x]=data_imo_moradias[x].fillna(median_value)

for y in data_imo_moradias.select_dtypes(include=['object']).columns.tolist():
    mode_value=data_imo_moradias[y].mode()
    data_imo_moradias[y]=data_imo_moradias[y].fillna(mode_value[0])    
    
data_imo_moradias.head()

In [None]:
sns.heatmap(data_imo_moradias.isnull(),yticklabels=False,cbar=False,cmap='viridis')

## Inserir dados acerca da localização do imóvel

**Funções auxiliares**

In [None]:
import geopy.distance

def distance_coordinates(lat1,lon1,lat2,lon2):
    
    coords_1 = (lat1, lon1)
    coords_2 = (lat2, lon2)
    
    res = geopy.distance.geodesic(coords_1, coords_2).km

    return round(res,3)

**É preciso obter uma key primeiro**

In [None]:
'''
gmaps = googlemaps.Client(key='AIzaSyBHNlhGjuSCdbaIPI-7QO8C-i53yNJ0c7c')
types_array=['airport',
'bank',
'bar',
'beauty_salon',
'bus_station',
'cafe',
'cemetery',
'city_hall',
'convenience_store',
'courthouse',
'electronics_store',
'embassy',
'gas_station',
'grocery_or_supermarket',
'gym',
'hospital',
'jewelry_store',
'laundry',
'library',
'light_rail_station',
'local_government_office',
'movie_theater',
'museum',
'night_club',
'park',
'pharmacy',
'police',
'post_office',
'restaurant',
'school',
'shopping_mall',
'stadium',
'store',
'subway_station',
'taxi_stand',
'train_station',
'transit_station',
'university',
'veterinary_care']
for t in types_array:
    temp=[]
    print(t)
    for index,row in data_imo_moradias.iterrows():
        places_type=gmaps.places_nearby(location=(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude']), language='pt-PT', type=t, rank_by='distance')
        if not places_type['status']=="ZERO_RESULTS":
            coord_maps=(places_type['results'][0]['geometry']['location']['lat'],places_type['results'][0]['geometry']['location']['lng'])
            coord_imov=(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'])
            dist = abs(geopy.distance.distance(coord_maps,coord_imov).km)
            temp.append(dist)    
        else:
            temp.append(-1)
    data_imo_moradias[str(t)]=temp
'''

**Centro da Cidade**

In [None]:
centro_cidade = 41.5514083,-8.4230248

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    value = centro_cidade
    dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])  
    distancias.append(dist)
    
data_imo_moradias['Centro Cidade (km)'] = distancias

**Hospitais**

In [None]:
hospitais = {}
hospitais['Hospital de Braga'] = 41.5679738,-8.3990116
hospitais['Trofa Saúde - Braga Sul'] = 41.5246625,-8.4141593
hospitais['Trofa Saúde - Braga Centro'] = 41.5498965,-8.4187538

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    min_dist = 99999999.9
    for value in hospitais.values():
        dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])
        if dist < min_dist:
            min_dist = dist    
    distancias.append(min_dist)
    
data_imo_moradias['Hospital (km)'] = distancias

**Centros Comerciais**

In [None]:
centroscomerciais = {}
centroscomerciais['Braga Parque'] = 41.5577669,-8.4060603
centroscomerciais['Minho Center'] = 41.540935,-8.400464
centroscomerciais['Nova Arcada'] = 41.579068,-8.429654

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    min_dist = 99999999.9
    for value in centroscomerciais.values():
        dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])
        if dist < min_dist:
            min_dist = dist    
    distancias.append(min_dist)
    
data_imo_moradias['Centro Comercial (km)'] = distancias

**Escolas**

In [None]:
escolas = {}
escolas['Secundária Sá de Miranda'] = 41.5568137,-8.4182525
escolas['Básica Francisco Sanches'] = 41.5548131,-8.4118978
escolas['Básica de Gualtar'] = 41.5669867,-8.38796
escolas['Básica de Lamaçães'] = 41.5471216,-8.4016327
escolas['Secundária Carlos Amarante'] = 41.5509961,-8.413909
escolas['Básica de Palmeira'] = 41.5771831,-8.4245399
escolas['Secundária de Maximinos'] = 41.5424538,-8.4415713
escolas['Básica André Soares'] = 41.5470115,-8.415924
escolas['Básica do 1º Ciclo de São Vitor'] = 41.55186,-8.4129202
escolas['Básica de Real'] = 41.5577824,-8.4395854
escolas['Jardim Escola João de Deus'] = 41.5447436,-8.407904
escolas['Colégio Luso Internacional de Braga'] = 41.56979,-8.3885487
escolas['EB1 Quinta da Veiga'] = 41.5590263,-8.4239226
escolas['Secundária D. Maria II'] = 41.5487484,-8.4177364
escolas['Básica Bairro da Misericórdia'] = 41.5578043,-8.4262862
escolas['EB1 Carandá'] = 41.5452545,-8.4156397
escolas['Colégio Dom Diogo de Sousa'] = 41.5575,-8.415931
escolas['Centro Escolar Ponte Pedrinha'] = 41.5403601,-8.4294783
escolas['EB1/J1 Bairro da Alegria'] = 41.5638599,-8.402921

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    min_dist = 99999999.9
    for value in escolas.values():
        dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])
        if dist < min_dist:
            min_dist = dist    
    distancias.append(min_dist)
    
data_imo_moradias['Escola (km)'] = distancias

**Universidades**

In [None]:
universidades = {}
universidades['Universidade do Minho - Campus de Gualtar'] = 41.5607319,-8.3962368
universidades['IPCA - Pólo de Braga'] = 41.5421121,-8.4210972
universidades['Universidade Católica Portuguesa'] = 41.554852,-8.4209143

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    min_dist = 99999999.9
    for value in universidades.values():
        dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])
        if dist < min_dist:
            min_dist = dist    
    distancias.append(min_dist)
    
data_imo_moradias['Universidade (km)'] = distancias

**Estação de Comboios**

In [None]:
estacao = 41.548143,-8.4344431

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    value = estacao
    dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])  
    distancias.append(dist)
    
data_imo_moradias['Estação de Comboios (km)'] = distancias

**Parques Industriais**

*https://www.igogo.pt/parques-industriais-braga/*

In [None]:
parques_industriais = {}
parques_industriais['Frossos'] = 41.5595545,-8.447319
parques_industriais['Quinta do Carreiro'] = 41.5653531,-8.4454561
parques_industriais['Adaúfe'] = 41.5974779,-8.4135554
parques_industriais['Celeirós'] = 41.5109663,-8.454419
parques_industriais['Marvilha'] = 41.5318363,-8.4735374
parques_industriais['Mire de Tibães'] = 41.5819656,-8.4767172
parques_industriais['Padim da Graça'] = 41.5692605,-8.4890601
parques_industriais['Pitancinhos'] = 41.5840245,-8.4219733
parques_industriais['Vilça'] = 41.5154222,-8.4937553

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    min_dist = 99999999.9
    for value in parques_industriais.values():
        dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])
        if dist < min_dist:
            min_dist = dist    
    distancias.append(min_dist)
    
data_imo_moradias['Parque Industrial (km)'] = distancias

**Central de Autocarros**

In [None]:
central_autocarros = {}
central_autocarros = 41.555324,-8.425410

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    value = central_autocarros
    dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])   
    distancias.append(min_dist)
    
data_imo_moradias['Central Autocarros (km)'] = distancias

**Bancos**

In [None]:
bancos = {}
bancos['BPI Frossos'] = 41.561298,-8.447379
bancos['BPI Gualtar'] = 41.5647823,-8.3876109
bancos['Crédito Agrícola Braga'] = 41.5514726,-8.4278259
bancos['Activo Bank'] = 41.5521836,-8.4267081
bancos['Banif Centro'] = 41.5524396,-8.4236611
bancos['Banco de Portugal'] = 41.5518264,-8.4234077
bancos['Montepio Centro'] = 41.5517009,-8.4180607
bancos['Montepio Centro 2'] = 41.5507289,-8.4250391
bancos['Novo Banco Centro'] = 41.5507776,-8.4238804
bancos['Banco de Investimento Global'] = 41.5495727,-8.4251216
bancos['Novo Banco Centro 2'] = 41.5492902,-8.4121129
bancos['Banco Millenium BCP São Lázaro'] = 41.5475307,-8.4210104
bancos['BBVA São Lázaro'] = 41.5464477,-8.4199778
bancos['Santander Totta Lamaçães'] = 41.5479773,-8.4033012
bancos['Caixa Geral de Depósito Lamaçães'] = 41.5480627,-8.4035902
bancos['BPI Dume'] = 41.5450355,-8.4019862
bancos['Novo Banco Maximinos'] = 41.5448869,-8.4337664
bancos['Caixa Geral de Depósitos Maximinos'] = 41.547196,-8.4338421
bancos['BPI N14'] = 41.53774,-8.434457

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    min_dist = 99999999.9
    for value in bancos.values():
        dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])
        if dist < min_dist:
            min_dist = dist    
    distancias.append(min_dist)
    
data_imo_moradias['Bancos (km)'] = distancias

**Correios**

In [None]:
correios = {}
correios['CTT Maximinos'] = 41.5444322,-8.4340695
correios['CTT São Lázaro'] = 41.544917,-8.420586
correios['CTT Fonte Seca'] = 41.535935,-8.4016483
correios['CTT 25 de Abril'] = 41.5474966,-8.4204056
correios['Estação de Correios de Santa Tecla'] = 41.5484275,-8.4118152
correios['CTT Nogueira, Fraiões e Lamaçães'] = 41.5480095,-8.4040274
correios['Posto de Correios de Braga (São José de Lázaro)'] = 41.5497985,-8.4193059
correios['CTT Largo de São Francisco'] = 41.5518429,-8.423987
correios['CTT Braga Parque'] = 41.556725,-8.4056481
correios['CTT Largo de Infias'] = 41.5579778,-8.4165392

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    min_dist = 99999999.9
    for value in correios.values():
        dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])
        if dist < min_dist:
            min_dist = dist    
    distancias.append(min_dist)
    
data_imo_moradias['Correios (km)'] = distancias

**Parques e zonas verdes**

In [None]:
parques_lazer = {}
parques_lazer['Parque de Lazer de Gerizes'] = 41.5835983,-8.449529
parques_lazer['Parque da Rodovia'] = 41.552828,-8.4031463
parques_lazer['Jardim da Avenida Central'] = 41.551519,-8.421523
parques_lazer['Parque São João da Ponte'] = 41.5454706,-8.4265083
parques_lazer['Parque da Ponte'] = 41.541304, -8.419441
parques_lazer['Parque de Lazer da Rampa da Falperra'] = 41.5309717,-8.3944834
parques_lazer['Parque de Lazer do Ribeiro dos Prados'] = 41.5052344,-8.4422877 

In [None]:
distancias = []
for index, row in data_imo_moradias.iterrows():
    min_dist = 99999999.9
    for value in parques_lazer.values():
        dist = distance_coordinates(data_imo_moradias.iloc[index-1]['Latitude'],data_imo_moradias.iloc[index-1]['Longitude'],value[0],value[1])
        if dist < min_dist:
            min_dist = dist    
    distancias.append(min_dist)
    
data_imo_moradias['Parques e Zonas Verdes (km)'] = distancias

In [None]:
data_imo_moradias