# Imports

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import inflection

from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

## Load Data

In [2]:
#concat
path = '/home/edilson07/projects/rp_housing/datasets/'
df1 = pd.read_csv(path + 'imoveis_atuatliza_0_199.csv')
df2 = pd.read_csv(path + 'imoveis_atuatliza_200_300.csv')
df3 = pd.read_csv(path + 'imoveis_atuatliza_301_490.csv')
df4 = pd.read_csv(path + 'imoveis_atuatliza_491_max.csv')

df_ap = pd.concat([df1,df2,df3,df4])
df_ap['Tipo'] = 'apartamento'

#df_raw.to_excel('apartamentos_rp.xlsx', index=False)

In [3]:
#concat
path = '/home/edilson07/projects/rp_housing/datasets/'
df1 = pd.read_csv(path + 'casa_0_149.csv')
df2 = pd.read_csv(path + 'casa_2m_max.csv')
df3 = pd.read_csv(path + 'casa_10m_139m.csv')
df4 = pd.read_csv(path + 'casa_14m_199m.csv')
df5 = pd.read_csv(path + 'casa_150_299.csv')
df6 = pd.read_csv(path + 'casa_300_499.csv')
df7 = pd.read_csv(path + 'casa_450_699.csv')
df8 = pd.read_csv(path + 'casa_700_999.csv')


df_houses = pd.concat([df1,df2,df3,df4, df5, df6, df7, df8])
df_houses['Tipo'] = 'casa'

#df_raw.to_excel('casas_rp.xlsx', index=False)

In [4]:
df_imob = pd.concat([df_ap, df_houses])

# 1.0 Data Description

In [5]:
df1 = df_imob.copy()

In [6]:
df1.head()

Unnamed: 0,Nome,Preço,Localização,Quartos,Garagem,Área,Banheiros,IPTU,Condomínio,Link,Tipo
0,"Vendo apartamento MRV (rio amazonas 1º andar, ...",R$ 180.000,"São José do Rio Preto, Centro",2,1.0,50m²,1,,205.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento
1,Apartamento para venda em Jardim Santa Lúcia d...,R$ 150.000,"São José do Rio Preto, Jardim Santa Lúcia",2,1.0,56m²,1,1.0,220.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento
2,Apartamento para venda em Residencial Ana Céli...,R$ 150.000,"São José do Rio Preto, Residencial Ana Célia",2,,45m²,1,1.0,,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento
3,Apartamento para venda em Centenário Da Emanci...,R$ 140.000,"São José do Rio Preto, Centenário da Emancipação",2,1.0,52m²,2,1.0,,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento
4,Apartamento para venda em Jardim Yolanda de 48...,R$ 170.000,"São José do Rio Preto, Jardim Yolanda",2,1.0,48m²,1,1.0,240.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento


## Rename Columns

In [7]:
df1.columns = df1.columns.map(lambda x: inflection.parameterize(x, separator='_'))

## Check NaN

In [8]:
df1.isna().sum()

nome               0
preco              0
localizacao        0
quartos           14
garagem         2676
area             147
banheiros         47
iptu           27716
condominio     24514
link               0
tipo               0
dtype: int64

In [9]:
df1['garagem'] = df1['garagem'].fillna(0)
df1['condominio'] = df1['condominio'].fillna(0)

In [10]:
df1 = df1.drop(['iptu'], axis=1)

In [11]:
df1 = df1.dropna()

## Data Types

In [12]:
df1.dtypes

nome           object
preco          object
localizacao    object
quartos        object
garagem        object
area           object
banheiros      object
condominio     object
link           object
tipo           object
dtype: object

In [13]:
#Remove R$ Sign from preco
df1['preco'] = df1['preco'].apply(lambda x: x.split()[1]).str.replace('.', '').str.replace(',', '.').astype(float)

In [14]:
df1['area'] = df1['area'].str.replace('m²','').astype(int)

In [15]:
df1['banheiros'] = df1['banheiros'].astype(str).str.replace('+','')
df1['banheiros'] = df1['banheiros'].astype(float).astype(int)

df1['garagem'] = df1['garagem'].astype(str).str.replace('+','')
df1['garagem'] = df1['garagem'].astype(float).astype(int)

df1['quartos'] = df1['quartos'].astype(str).str.replace('+','')
df1['quartos'] = df1['quartos'].astype(float).astype(int)

In [16]:
def handle_thousand_separator(val):
    if isinstance(val, str) and val.count('.') > 1:
        return float(val.replace('.', ''))
    return val

df1['condominio'] = df1['condominio'].apply(handle_thousand_separator)
df1['condominio'] = df1['condominio'].astype(float)

## Descriptive Statistics

In [17]:
pd.set_option('display.float_format', '{:.2f}'.format)

In [18]:
df1.describe()

Unnamed: 0,preco,quartos,garagem,area,banheiros,condominio
count,49197.0,49197.0,49197.0,49197.0,49197.0,49197.0
mean,882353.22,2.82,2.41,225.93,2.88,254.97
std,1091569.36,0.74,1.36,5547.38,1.41,9993.96
min,9900.0,1.0,0.0,10.0,1.0,0.0
25%,300000.0,2.0,1.0,86.0,2.0,0.0
50%,520000.0,3.0,2.0,150.0,3.0,1.0
75%,1150000.0,3.0,4.0,224.0,4.0,360.0
max,111111111.0,5.0,5.0,1111111.0,5.0,1750000.0


In [19]:
df1.nunique()

nome           29521
preco           1732
localizacao      563
quartos            5
garagem            6
area             671
banheiros          5
condominio       827
link           49197
tipo               2
dtype: int64

## Filter Regions

In [20]:
df1['localizacao'].value_counts(normalize=True).sort_values(ascending=False)

localizacao
São José do Rio Preto, Centro                               0.04
Bady Bassitt                                                0.04
São José do Rio Preto, Residencial Maria Júlia              0.02
São José do Rio Preto, Quinta do Lago Residence             0.02
Mirassol, Setlife Mirassol                                  0.02
                                                            ... 
Olímpia, Jardim Santa Rita                                  0.00
São José do Rio Preto, Estância Suíça (Zona Rural)          0.00
Ruilândia, Mirassol, Ruilândia                              0.00
São José do Rio Preto, Estância Vista Bonita (Zona Rural)   0.00
São José do Rio Preto, Loteamento Nevada                    0.00
Name: proportion, Length: 563, dtype: float64

In [21]:
df1['localizacao'].unique()

array(['São José do Rio Preto, Centro',
       'São José do Rio Preto, Jardim Santa Lúcia',
       'São José do Rio Preto, Residencial Ana Célia',
       'São José do Rio Preto, Centenário da Emancipação',
       'São José do Rio Preto, Jardim Yolanda',
       'São José do Rio Preto, Eldorado',
       'São José do Rio Preto, Jardim Conceição',
       'São José do Rio Preto, Rios de Spagna',
       'São José do Rio Preto, Higienópolis',
       'São José do Rio Preto, Jardins Rio Preto',
       'São José do Rio Preto, Rios di Itália',
       'São José do Rio Preto, Jardim Nunes',
       'São José do Rio Preto, Residencial Anna Angélica',
       'São José do Rio Preto, Jardim Manoel Del Arco',
       'São José do Rio Preto, Jardim Vista Alegre',
       'São José do Rio Preto, Residencial Macedo Teles I',
       'São José do Rio Preto, Vila Cristina', 'Mirassol',
       'São José do Rio Preto, Parque Residencial Lauriano Tebar',
       'São José do Rio Preto, Loteamento Clube V',
       'S

In [22]:
df1['cidade'] = df1['localizacao'].str.split(',').str[0]

In [23]:
df1['cidade'].value_counts(normalize=True)

cidade
São José do Rio Preto    0.86
Mirassol                 0.08
Bady Bassitt             0.04
Cedral                   0.00
Olímpia                  0.00
Ipiguá                   0.00
Guapiaçu                 0.00
Guaraci                  0.00
Potirendaba              0.00
Mendonça                 0.00
Ibirá                    0.00
Monte Aprazível          0.00
José Bonifácio           0.00
Bálsamo                  0.00
Nova Aliança             0.00
Onda Verde               0.00
Neves Paulista           0.00
Tanabi                   0.00
Uchoa                    0.00
Adolfo                   0.00
Mirassolândia            0.00
Nova Granada             0.00
Jaci                     0.00
Nhandeara                0.00
Palestina                0.00
Paulo de Faria           0.00
Icém                     0.00
Ruilândia                0.00
Sebastianópolis do Sul   0.00
Name: proportion, dtype: float64

In [24]:
df1 = df1.loc[df1['cidade'] == 'São José do Rio Preto',:] 

In [25]:
df1['localizacao'].value_counts()

localizacao
São José do Rio Preto, Centro                                     2116
São José do Rio Preto, Residencial Maria Júlia                    1137
São José do Rio Preto, Quinta do Lago Residence                   1070
São José do Rio Preto, Jardim Tarraf II                            910
São José do Rio Preto, Vila Imperial                               770
                                                                  ... 
São José do Rio Preto, Jardim dos Gomes                              1
São José do Rio Preto, Jardim Paraíso                                1
São José do Rio Preto, Residencial Vista Alegre I (Zona Rural)       1
São José do Rio Preto, Recanto Dos Eduardos                          1
São José do Rio Preto, Loteamento Nevada                             1
Name: count, Length: 422, dtype: int64

In [26]:
df1['bairro'] = df1['localizacao'].str.split(',').str[1]

In [27]:
df1['localizacao'].nunique()

422

In [28]:
import requests

def geocode_address(address, api_key):
    url = f"https://maps.googleapis.com/maps/api/geocode/json?address={address}&key={api_key}"
    response = requests.get(url)
    data = response.json()
    
    if data['status'] == "OK":
        location = data['results'][0]['geometry']['location']
        return location['lat'], location['lng']
    else:
        return None, None

# Exemplo:
address = "São José do Rio Preto, Centro"
api_key = "AIzaSyBN6nHVeWl8xQk6Zxokq7XOjb2EcEHF3PU"
latitude, longitude = geocode_address(address, api_key)
print(latitude, longitude)


-20.8118189 -49.3801685


In [29]:
import requests
import time

def geocode_address(address, api_key):
    url = f"https://maps.googleapis.com/maps/api/geocode/json?address={address}&key={api_key}"
    response = requests.get(url)
    data = response.json()
    
    if data['status'] == "OK":
        location = data['results'][0]['geometry']['location']
        return location['lat'], location['lng']
    else:
        return None, None

def geocode_unique_addresses(df, api_key, column_name='localizacao'):
    # Extract unique addresses
    unique_addresses = df[column_name].dropna().unique()

    # Geocode the unique addresses
    mapping = {}
    for address in unique_addresses:
        lat, lng = geocode_address(address, api_key)
        mapping[address] = (lat, lng)
        
        # Pause for a short time to avoid hitting the rate limit
        time.sleep(0.1)

        print(mapping)

    # Apply the mapping to the dataframe
    df['latitude'] = df[column_name].map(lambda x: mapping.get(x, (None, None))[0])
    df['longitude'] = df[column_name].map(lambda x: mapping.get(x, (None, None))[1])
    
    return df

# Exemplo:
result_df = geocode_unique_addresses(df1, api_key)

{'São José do Rio Preto, Centro': (-20.8118189, -49.3801685)}
{'São José do Rio Preto, Centro': (-20.8118189, -49.3801685), 'São José do Rio Preto, Jardim Santa Lúcia': (-20.7991669, -49.4040384)}
{'São José do Rio Preto, Centro': (-20.8118189, -49.3801685), 'São José do Rio Preto, Jardim Santa Lúcia': (-20.7991669, -49.4040384), 'São José do Rio Preto, Residencial Ana Célia': (-20.7790137, -49.3976885)}
{'São José do Rio Preto, Centro': (-20.8118189, -49.3801685), 'São José do Rio Preto, Jardim Santa Lúcia': (-20.7991669, -49.4040384), 'São José do Rio Preto, Residencial Ana Célia': (-20.7790137, -49.3976885), 'São José do Rio Preto, Centenário da Emancipação': (-20.7633142, -49.381182)}
{'São José do Rio Preto, Centro': (-20.8118189, -49.3801685), 'São José do Rio Preto, Jardim Santa Lúcia': (-20.7991669, -49.4040384), 'São José do Rio Preto, Residencial Ana Célia': (-20.7790137, -49.3976885), 'São José do Rio Preto, Centenário da Emancipação': (-20.7633142, -49.381182), 'São José do

In [30]:
#result_df.to_csv('df_cleaned.csv', index=False)
mapping

NameError: name 'mapping' is not defined

## Load DF with lat-long

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import inflection
import folium

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import hdbscan


In [2]:
df_clean = pd.read_csv('/home/edilson07/projects/rp_housing/notebooks/df_cleaned.csv')

In [3]:
df_clean.isna().sum()

nome            0
preco           0
localizacao     0
quartos         0
garagem         0
area            0
banheiros       0
condominio      0
link            0
tipo            0
cidade          0
bairro         24
latitude       33
longitude      33
dtype: int64

In [4]:
df_clean['bairro'] = df_clean['bairro'].fillna('nenhum')
df_clean = df_clean.dropna()

In [5]:
df_clean.shape

(42234, 14)

In [6]:
df_clean['latitude'].min(), df_clean['latitude'].max(), df_clean['longitude'].min(), df_clean['longitude'].max()

(-23.5369017, 41.3873974, -49.4554183, 2.168568)

## Plot Coordinates

In [86]:
import folium

# Coordenadas atualizadas fornecidas pelo usuário
regioes_coords_atualizadas = {
    'HB': [
        (-20.816000, -49.449000), (-20.825000, -49.406000), (-20.825000, -49.368000), (-20.842000, -49.353000),
        (-20.852000, -49.366000), (-20.869000, -49.352000), (-20.875000, -49.355000), (-20.876000, -49.349000),
        (-20.880000, -49.345000), (-20.891000, -49.355000), (-20.904000, -49.345000), (-20.930000, -49.348000),
        (-20.906000, -49.445000), (-20.816000, -49.449000)
    ],
    'Cidade das Crianças': [
        (-20.814000, -49.450000), (-20.790000, -49.459000), (-20.781000, -49.416000), (-20.790000, -49.413000),
        (-20.779000, -49.402000), (-20.791000, -49.388000), (-20.806000, -49.409000), (-20.816000, -49.411000),
        (-20.823000, -49.419000), (-20.814000, -49.450000)
    ],
    'Pinheirinho': [
        (-20.790000, -49.459000), (-20.689000, -49.469000), (-20.716000, -49.463000), (-20.684000, -49.462000),
        (-20.705000, -49.423000), (-20.730000, -49.428000), (-20.766000, -49.411000), (-20.767000, -49.386000),
        (-20.777000, -49.386000), (-20.785000, -49.379000), (-20.791000, -49.388000), (-20.779000, -49.402000),
        (-20.789000, -49.412000), (-20.781000, -49.417000), (-20.790000, -49.459000)
    ],
    'CEU': [
        (-20.723000, -49.424000), (-20.709000, -49.387000), (-20.749000, -49.375000), (-20.710000, -49.387000), (-20.750000, -49.374000),
        (-20.779000, -49.382000), (-20.768000, -49.385000), (-20.766000, -49.411000), (-20.723000, -49.424000)
    ],
    'BOSQUE': [
        (-20.710000, -49.387000), (-20.725000, -49.382000), (-20.749000, -49.375000), (-20.778000, -49.383000),
        (-20.791000, -49.364000), (-20.781000, -49.353000), (-20.742000, -49.338000), (-20.666000, -49.341000),
        (-20.635000, -49.354000), (-20.672000, -49.362000), (-20.679000, -49.347000), (-20.723000, -49.370000),
        (-20.710000, -49.387000)
    ],
    'Talhados': [
        (-20.666000, -49.341000), (-20.739000, -49.338000), (-20.774000, -49.349000), (-20.762000, -49.306000),
        (-20.769000, -49.282000), (-20.680000, -49.266000), (-20.666000, -49.341000)
    ],
    'Represa': [
        (-20.773000, -49.351000), (-20.761000, -49.307000), (-20.770000, -49.282000), (-20.843000, -49.265000),
        (-20.843000, -49.281000), (-20.828000, -49.288000), (-20.837000, -49.314000), (-20.826000, -49.307000),
        (-20.818000, -49.325000), (-20.828000, -49.335000), (-20.811000, -49.356000), (-20.773000, -49.351000)
    ]
}

regioes_coords_atualizadas['Vila Toninho'] = [
    (-20.811000, -49.356000), (-20.831000, -49.361000), (-20.841000, -49.353000), (-20.852000, -49.365000),
    (-20.876000, -49.349000), (-20.847000, -49.312000), (-20.837000, -49.315000), (-20.826000, -49.307000),
    (-20.819000, -49.324000), (-20.827000, -49.344000), (-20.811000, -49.356000)
]

regioes_coords_atualizadas['Schimidt'] = [
    (-20.931000, -49.348000), (-20.876000, -49.348000), (-20.846000, -49.308000), (-20.829000, -49.289000),
    (-20.844000, -49.280000), (-20.844000, -49.263000), (-20.864000, -49.256000), (-20.915000, -49.314000),
    (-20.931000, -49.348000)
]

regioes_coords_atualizadas['Centro'] = [
    (-20.824000, -49.42000), (-20.806000, -49.411000), (-20.788000, -49.381000), (-20.782000, -49.381000),
    (-20.781000, -49.368000), (-20.791000, -49.364000), (-20.781000, -49.352000), (-20.832000, -49.359000),
    (-20.825000, -49.373000), (-20.824000, -49.420000)
]

In [87]:
# Crie um mapa centralizado em São José do Rio Preto
m = folium.Map(location=[-20.8118, -49.3802], zoom_start=12)

# Adicione polígonos ao mapa para cada região
for regiao, coordenadas in regioes_coords_atualizadas.items():
    folium.Polygon(
        locations=coordenadas,
        fill=True,
        popup=regiao,
        color="blue",
        fill_color="blue"
    ).add_to(m)

m.save("rio_preto_map.html")  # Salva o mapa como um arquivo HTML
m  # Exibe o mapa

## verify

In [94]:
import folium

# Centro de São José do Rio Preto
latitude_centro = -20.8196
longitude_centro = -49.3797

# Criar mapa centrado em São José do Rio Preto
m = folium.Map(location=[latitude_centro, longitude_centro], zoom_start=12)

# Adicionar polígonos das regiões ao mapa
for regiao, coords in regioes_coords_atualizadas.items():
    folium.Polygon(
        locations=coords,
        color="blue",
        fill=True,
        fill_opacity=0.4,
        popup=regiao
    ).add_to(m)

# Adicionar os primeiros 100 pontos do dataframe ao mapa
for idx, row in df_clean.head(100).iterrows():
    folium.Marker(
        location=(row['latitude'], row['longitude']),
        popup=f"{row['localizacao']}",
        icon=folium.Icon(icon="cloud"),
    ).add_to(m)

m

## Create Region

In [95]:
from shapely.geometry import Point
from shapely.geometry import Polygon

# Dicionário para armazenar os polígonos das regiões
regioes_poligonos = {regiao: Polygon(coords) for regiao, coords in regioes_coords_atualizadas.items()}

def determinar_regiao(row, regioes_poligonos):
    ponto = Point(row['latitude'], row['longitude'])
    
    for regiao, poligono in regioes_poligonos.items():
        if poligono.contains(ponto):
            return regiao
    return None

# Adicionar coluna de região ao dataframe
df_clean['regiao'] = df_clean.apply(lambda row: determinar_regiao(row, regioes_poligonos), axis=1)


In [96]:
df_clean.head()

Unnamed: 0,nome,preco,localizacao,quartos,garagem,area,banheiros,condominio,link,tipo,cidade,bairro,latitude,longitude,regiao
0,"Vendo apartamento MRV (rio amazonas 1º andar, ...",180000.0,"São José do Rio Preto, Centro",2,1,50,1,205.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Centro,-20.811819,-49.380169,Centro
1,Apartamento para venda em Jardim Santa Lúcia d...,150000.0,"São José do Rio Preto, Jardim Santa Lúcia",2,1,56,1,220.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Jardim Santa Lúcia,-20.799167,-49.404038,Cidade das Crianças
2,Apartamento para venda em Residencial Ana Céli...,150000.0,"São José do Rio Preto, Residencial Ana Célia",2,0,45,1,0.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Residencial Ana Célia,-20.779014,-49.397689,Pinheirinho
3,Apartamento para venda em Centenário Da Emanci...,140000.0,"São José do Rio Preto, Centenário da Emancipação",2,1,52,2,0.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Centenário da Emancipação,-20.763314,-49.381182,CEU
4,Apartamento para venda em Jardim Yolanda de 48...,170000.0,"São José do Rio Preto, Jardim Yolanda",2,1,48,1,240.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Jardim Yolanda,-20.803619,-49.348818,Represa


In [97]:
null_locations = df_clean.loc[df_clean['regiao'].isnull(),:]

In [98]:
null_locations

Unnamed: 0,nome,preco,localizacao,quartos,garagem,area,banheiros,condominio,link,tipo,cidade,bairro,latitude,longitude,regiao
9,"Apartamento à venda, Rios de Spagna, Rio LIma,...",184900.0,"São José do Rio Preto, Rios de Spagna",2,0,43,1,237.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Rios de Spagna,40.463667,-3.749220,
20,Apartamento para venda em Rios De Spagna de 47...,160000.0,"São José do Rio Preto, Rios de Spagna",2,1,47,1,200.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Rios de Spagna,40.463667,-3.749220,
52,Apartamento para venda em Rios De Spagna de 43...,160000.0,"São José do Rio Preto, Rios de Spagna",2,1,43,1,270.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Rios de Spagna,40.463667,-3.749220,
64,"Apartamento com 2 dormitórios à venda, 39 m² p...",152000.0,"São José do Rio Preto, Rios de Spagna",2,1,39,1,235.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Rios de Spagna,40.463667,-3.749220,
79,Oportunidade leilão Caixa - São José do Rio Pr...,87600.0,"São José do Rio Preto, Rios de Spagna",2,1,39,1,0.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,São José do Rio Preto,Rios de Spagna,40.463667,-3.749220,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38786,"Casa com 3 dormitórios à venda, 150 m² por R$ ...",650000.0,"São José do Rio Preto, Condomínio Residencial ...",3,2,150,2,395.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,casa,São José do Rio Preto,Condomínio Residencial Jardins de Barcelona,41.387397,2.168568,
38789,Casa Padrão em São José do Rio Preto,500000.0,"São José do Rio Preto, Parque das Perdizes",3,2,166,4,0.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,casa,São José do Rio Preto,Parque das Perdizes,-23.536902,-46.674317,
38838,Casa Condomínio em São José do Rio Preto,550000.0,"São José do Rio Preto, Condomínio Residencial ...",3,4,74,3,315.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,casa,São José do Rio Preto,Condomínio Residencial Jardins de Barcelona,41.387397,2.168568,
39003,Casa Padrão em São José do Rio Preto,500000.0,"São José do Rio Preto, Parque das Perdizes",3,2,166,4,0.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,casa,São José do Rio Preto,Parque das Perdizes,-23.536902,-46.674317,


## Check Nulls

In [99]:
# Criar mapa centrado em São José do Rio Preto
m = folium.Map(location=[latitude_centro, longitude_centro], zoom_start=12)

# Adicionar polígonos das regiões ao mapa
for regiao, coords in regioes_coords_atualizadas.items():
    folium.Polygon(
        locations=coords,
        color="blue",
        fill=True,
        fill_opacity=0.4,
        popup=regiao
    ).add_to(m)

# Adicionar os primeiros 100 pontos do dataframe ao mapa
for idx, row in null_locations.iterrows():
    folium.Marker(
        location=(row['latitude'], row['longitude']),
        popup=f"{row['localizacao']}",
        icon=folium.Icon(icon="cloud"),
    ).add_to(m)

m

## Final Cleaned dataset

In [118]:
df_region = df_clean.loc[~df_clean['regiao'].isnull(),:]
df_region = df_region.drop(['cidade','localizacao'], axis=1)
df_region.to_csv('imoveis_region.csv', index=False)

In [117]:
df_region.head()


Unnamed: 0,nome,preco,quartos,garagem,area,banheiros,condominio,link,tipo,bairro,latitude,longitude,regiao
0,"Vendo apartamento MRV (rio amazonas 1º andar, ...",180000.0,2,1,50,1,205.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,Centro,-20.81,-49.38,Centro
1,Apartamento para venda em Jardim Santa Lúcia d...,150000.0,2,1,56,1,220.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,Jardim Santa Lúcia,-20.8,-49.4,Cidade das Crianças
2,Apartamento para venda em Residencial Ana Céli...,150000.0,2,0,45,1,0.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,Residencial Ana Célia,-20.78,-49.4,Pinheirinho
3,Apartamento para venda em Centenário Da Emanci...,140000.0,2,1,52,2,0.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,Centenário da Emancipação,-20.76,-49.38,CEU
4,Apartamento para venda em Jardim Yolanda de 48...,170000.0,2,1,48,1,240.0,https://sp.olx.com.br/regiao-de-sao-jose-do-ri...,apartamento,Jardim Yolanda,-20.8,-49.35,Represa


## Check Types

In [109]:
df_region.shape

(41968, 14)

In [110]:
df_region.dtypes

nome            object
preco          float64
localizacao     object
quartos          int64
garagem          int64
area             int64
banheiros        int64
condominio     float64
link            object
tipo            object
bairro          object
latitude       float64
longitude      float64
regiao          object
dtype: object

In [111]:
df_region.isna().sum()

nome           0
preco          0
localizacao    0
quartos        0
garagem        0
area           0
banheiros      0
condominio     0
link           0
tipo           0
bairro         0
latitude       0
longitude      0
regiao         0
dtype: int64

## Descriptive Statistics

In [106]:
df_region.nunique()

nome           25151
preco           1561
localizacao      417
quartos            5
garagem            6
area             648
banheiros          5
condominio       805
link           41968
tipo               2
cidade             1
bairro           417
latitude         347
longitude        284
regiao            10
dtype: int64

In [114]:
pd.set_option('display.float_format', '{:.2f}'.format)

In [113]:
df_region.describe()

Unnamed: 0,preco,quartos,garagem,area,banheiros,condominio,latitude,longitude
count,41968.0,41968.0,41968.0,41968.0,41968.0,41968.0,41968.0,41968.0
mean,880367.9,2.811356,2.344596,200.085208,2.836471,276.7431,-20.81265,-49.374901
std,1127692.0,0.754167,1.354261,2300.211672,1.424594,10820.06,0.026341,0.029717
min,10000.0,1.0,0.0,10.0,1.0,0.0,-20.895347,-49.455418
25%,290000.0,2.0,1.0,80.0,2.0,0.0,-20.8303,-49.394514
50%,485000.0,3.0,2.0,140.0,3.0,1.4,-20.811819,-49.379895
75%,1150000.0,3.0,4.0,225.0,4.0,380.0,-20.798347,-49.348818
max,111111100.0,5.0,5.0,276161.0,5.0,1750000.0,-20.705027,-49.293016
