# Imports

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import inflection

from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

## Load Data

In [7]:
#concat
path = '/home/edilson07/projects/rp_housing/datasets/'
df1 = pd.read_csv(path + 'imoveis_atuatliza_0_199.csv')
df2 = pd.read_csv(path + 'imoveis_atuatliza_200_300.csv')
df3 = pd.read_csv(path + 'imoveis_atuatliza_301_490.csv')
df4 = pd.read_csv(path + 'imoveis_atuatliza_491_max.csv')

df_ap = pd.concat([df1,df2,df3,df4])
df_ap['Tipo'] = 'apartamento'

#df_raw.to_excel('apartamentos_rp.xlsx', index=False)

In [8]:
#concat
path = '/home/edilson07/projects/rp_housing/datasets/'
df1 = pd.read_csv(path + 'casa_0_149.csv')
df2 = pd.read_csv(path + 'casa_2m_max.csv')
df3 = pd.read_csv(path + 'casa_10m_139m.csv')
df4 = pd.read_csv(path + 'casa_14m_199m.csv')
df5 = pd.read_csv(path + 'casa_150_299.csv')
df6 = pd.read_csv(path + 'casa_300_499.csv')
df7 = pd.read_csv(path + 'casa_450_699.csv')
df8 = pd.read_csv(path + 'casa_700_999.csv')


df_houses = pd.concat([df1,df2,df3,df4, df5, df6, df7, df8])
df_houses['Tipo'] = 'casa'

#df_raw.to_excel('casas_rp.xlsx', index=False)

In [10]:
df_imob = pd.concat([df_ap, df_houses])

# 1.0 Data Description

In [191]:
df1 = df_imob.copy()

In [192]:
df1.head()

Unnamed: 0,Nome,Preço,Localização,Quartos,Garagem,Área,Banheiros,IPTU,Condomínio,Link,Tipo
0,"Vendo apartamento MRV (rio amazonas 1º andar, ...",R$ 180.000,"São José do Rio Preto, Centro",2,1.0,50m²,1,,205.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento
1,Apartamento para venda em Jardim Santa Lúcia d...,R$ 150.000,"São José do Rio Preto, Jardim Santa Lúcia",2,1.0,56m²,1,1.0,220.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento
2,Apartamento para venda em Residencial Ana Céli...,R$ 150.000,"São José do Rio Preto, Residencial Ana Célia",2,,45m²,1,1.0,,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento
3,Apartamento para venda em Centenário Da Emanci...,R$ 140.000,"São José do Rio Preto, Centenário da Emancipação",2,1.0,52m²,2,1.0,,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento
4,Apartamento para venda em Jardim Yolanda de 48...,R$ 170.000,"São José do Rio Preto, Jardim Yolanda",2,1.0,48m²,1,1.0,240.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento


## Rename Columns

In [193]:
df1.columns = df1.columns.map(lambda x: inflection.parameterize(x, separator='_'))

## Check NaN

In [194]:
df1.isna().sum()

nome               0
preco              0
localizacao        0
quartos           14
garagem         2676
area             147
banheiros         47
iptu           27716
condominio     24514
link               0
tipo               0
dtype: int64

In [195]:
df1['garagem'] = df1['garagem'].fillna(0)
df1['condominio'] = df1['condominio'].fillna(0)

In [196]:
df1 = df1.drop(['iptu'], axis=1)

In [197]:
df1 = df1.dropna()

## Data Types

In [198]:
df1.dtypes

nome           object
preco          object
localizacao    object
quartos        object
garagem        object
area           object
banheiros      object
condominio     object
link           object
tipo           object
dtype: object

In [199]:
#Remove R$ Sign from preco
df1['preco'] = df1['preco'].apply(lambda x: x.split()[1]).str.replace('.', '').str.replace(',', '.').astype(float)

In [200]:
df1['area'] = df1['area'].str.replace('m²','').astype(int)

In [201]:
df1['banheiros'] = df1['banheiros'].astype(str).str.replace('+','')
df1['banheiros'] = df1['banheiros'].astype(float).astype(int)

df1['garagem'] = df1['garagem'].astype(str).str.replace('+','')
df1['garagem'] = df1['garagem'].astype(float).astype(int)

df1['quartos'] = df1['quartos'].astype(str).str.replace('+','')
df1['quartos'] = df1['quartos'].astype(float).astype(int)

In [202]:
def handle_thousand_separator(val):
    if isinstance(val, str) and val.count('.') > 1:
        return float(val.replace('.', ''))
    return val

df1['condominio'] = df1['condominio'].apply(handle_thousand_separator)
df1['condominio'] = df1['condominio'].astype(float)

## Descriptive Statistics

In [203]:
pd.set_option('display.float_format', '{:.2f}'.format)

In [204]:
df1.describe()

Unnamed: 0,preco,quartos,garagem,area,banheiros,condominio
count,49197.0,49197.0,49197.0,49197.0,49197.0,49197.0
mean,882353.22,2.82,2.41,225.93,2.88,254.97
std,1091569.36,0.74,1.36,5547.38,1.41,9993.96
min,9900.0,1.0,0.0,10.0,1.0,0.0
25%,300000.0,2.0,1.0,86.0,2.0,0.0
50%,520000.0,3.0,2.0,150.0,3.0,1.0
75%,1150000.0,3.0,4.0,224.0,4.0,360.0
max,111111111.0,5.0,5.0,1111111.0,5.0,1750000.0


In [205]:
df1.nunique()

nome           29521
preco           1732
localizacao      563
quartos            5
garagem            6
area             671
banheiros          5
condominio       827
link           49197
tipo               2
dtype: int64

## Filter Regions

In [206]:
df1['localizacao'].value_counts(normalize=True).sort_values(ascending=False)

localizacao
São José do Rio Preto, Centro                               0.04
Bady Bassitt                                                0.04
São José do Rio Preto, Residencial Maria Júlia              0.02
São José do Rio Preto, Quinta do Lago Residence             0.02
Mirassol, Setlife Mirassol                                  0.02
                                                            ... 
Olímpia, Jardim Santa Rita                                  0.00
São José do Rio Preto, Estância Suíça (Zona Rural)          0.00
Ruilândia, Mirassol, Ruilândia                              0.00
São José do Rio Preto, Estância Vista Bonita (Zona Rural)   0.00
São José do Rio Preto, Loteamento Nevada                    0.00
Name: proportion, Length: 563, dtype: float64

In [207]:
df1['localizacao'].unique()

array(['São José do Rio Preto, Centro',
       'São José do Rio Preto, Jardim Santa Lúcia',
       'São José do Rio Preto, Residencial Ana Célia',
       'São José do Rio Preto, Centenário da Emancipação',
       'São José do Rio Preto, Jardim Yolanda',
       'São José do Rio Preto, Eldorado',
       'São José do Rio Preto, Jardim Conceição',
       'São José do Rio Preto, Rios de Spagna',
       'São José do Rio Preto, Higienópolis',
       'São José do Rio Preto, Jardins Rio Preto',
       'São José do Rio Preto, Rios di Itália',
       'São José do Rio Preto, Jardim Nunes',
       'São José do Rio Preto, Residencial Anna Angélica',
       'São José do Rio Preto, Jardim Manoel Del Arco',
       'São José do Rio Preto, Jardim Vista Alegre',
       'São José do Rio Preto, Residencial Macedo Teles I',
       'São José do Rio Preto, Vila Cristina', 'Mirassol',
       'São José do Rio Preto, Parque Residencial Lauriano Tebar',
       'São José do Rio Preto, Loteamento Clube V',
       'S

In [208]:
df1['cidade'] = df1['localizacao'].str.split(',').str[0]

In [209]:
df1['cidade'].value_counts(normalize=True)

cidade
São José do Rio Preto    0.86
Mirassol                 0.08
Bady Bassitt             0.04
Cedral                   0.00
Olímpia                  0.00
Ipiguá                   0.00
Guapiaçu                 0.00
Guaraci                  0.00
Potirendaba              0.00
Mendonça                 0.00
Ibirá                    0.00
Monte Aprazível          0.00
José Bonifácio           0.00
Bálsamo                  0.00
Nova Aliança             0.00
Onda Verde               0.00
Neves Paulista           0.00
Tanabi                   0.00
Uchoa                    0.00
Adolfo                   0.00
Mirassolândia            0.00
Nova Granada             0.00
Jaci                     0.00
Nhandeara                0.00
Palestina                0.00
Paulo de Faria           0.00
Icém                     0.00
Ruilândia                0.00
Sebastianópolis do Sul   0.00
Name: proportion, dtype: float64

In [210]:
df1 = df1.loc[df1['cidade'] == 'São José do Rio Preto',:] 

In [213]:
df1['localizacao'].value_counts()

localizacao
São José do Rio Preto, Centro                                     2116
São José do Rio Preto, Residencial Maria Júlia                    1137
São José do Rio Preto, Quinta do Lago Residence                   1070
São José do Rio Preto, Jardim Tarraf II                            910
São José do Rio Preto, Vila Imperial                               770
                                                                  ... 
São José do Rio Preto, Jardim dos Gomes                              1
São José do Rio Preto, Jardim Paraíso                                1
São José do Rio Preto, Residencial Vista Alegre I (Zona Rural)       1
São José do Rio Preto, Recanto Dos Eduardos                          1
São José do Rio Preto, Loteamento Nevada                             1
Name: count, Length: 422, dtype: int64

In [212]:
df1['bairro'] = df1['localizacao'].str.split(',').str[1]

In [187]:
df1['localizacao'].nunique()

421

In [190]:
import requests

def geocode_address(address, api_key):
    url = f"https://maps.googleapis.com/maps/api/geocode/json?address={address}&key={api_key}"
    response = requests.get(url)
    data = response.json()
    
    if data['status'] == "OK":
        location = data['results'][0]['geometry']['location']
        return location['lat'], location['lng']
    else:
        return None, None

# Exemplo:
address = "São José do Rio Preto, Centro"
api_key = "AIzaSyBN6nHVeWl8xQk6Zxokq7XOjb2EcEHF3PU"
latitude, longitude = geocode_address(address, api_key)
print(latitude, longitude)


-20.8118189 -49.3801685


In [216]:
# import requests
# import time

# def geocode_address(address, api_key):
#     url = f"https://maps.googleapis.com/maps/api/geocode/json?address={address}&key={api_key}"
#     response = requests.get(url)
#     data = response.json()
    
#     if data['status'] == "OK":
#         location = data['results'][0]['geometry']['location']
#         return location['lat'], location['lng']
#     else:
#         return None, None

# def geocode_unique_addresses(df, api_key, column_name='localizacao'):
#     # Extract unique addresses
#     unique_addresses = df[column_name].dropna().unique()

#     # Geocode the unique addresses
#     mapping = {}
#     for address in unique_addresses:
#         lat, lng = geocode_address(address, api_key)
#         mapping[address] = (lat, lng)
        
#         # Pause for a short time to avoid hitting the rate limit
#         time.sleep(0.1)

#     # Apply the mapping to the dataframe
#     df['latitude'] = df[column_name].map(lambda x: mapping.get(x, (None, None))[0])
#     df['longitude'] = df[column_name].map(lambda x: mapping.get(x, (None, None))[1])
    
#     return df

# # Exemplo:
# api_key = "AIzaSyBN6nHVeWl8xQk6Zxokq7XOjb2EcEHF3PU"
# result_df = geocode_unique_addresses(df1, api_key)

In [221]:
#result_df.to_csv('df_cleaned.csv', index=False)

## Load DF with lat-long

In [2]:
df_clean = pd.read_csv('/home/edilson07/projects/rp_housing/notebooks/df_cleaned.csv')

In [3]:
df_clean.isna().sum()

nome            0
preco           0
localizacao     0
quartos         0
garagem         0
area            0
banheiros       0
condominio      0
link            0
tipo            0
cidade          0
bairro         24
latitude       33
longitude      33
dtype: int64

In [4]:
df_clean['bairro'] = df_clean['bairro'].fillna('nenhum')
df_clean = df_clean.dropna()

In [5]:
df_clean.shape

(42234, 14)

## Apply DBSCAN to cluster regions

In [6]:
data = df_clean.copy()

In [7]:
# Extract coordinates for scaling
coords = data[['latitude', 'longitude']].values

In [8]:
scaler = StandardScaler()
scaled_coords = scaler.fit_transform(coords)

In [None]:
db = DBSCAN(eps=10, min_samples=10).fit(scaled_coords)
labels = db.labels_

In [None]:
# Add cluster labels back to the dataframe
data['cluster'] = labels

In [None]:
# Number of clusters (ignoring noise if present)
n_clusters = len(set(labels)) - (1 if -1 in labels else 0)

n_clusters, data[['latitude', 'longitude', 'cluster']].head()