# üìä Projeto de Teste T√©cnico ‚Äî Cientista de Dados J√∫nior

* Este projeto tem como objetivo demonstrar habilidades anal√≠ticas, conhecimento em ci√™ncia de dados e capacidade de transformar dados brutos em insights acion√°veis. Para isso, ser√£o aplicadas t√©cnicas de explora√ß√£o, processamento e modelagem de dados, utilizando ferramentas e bibliotecas populares da √°rea.


## üìå Introdu√ß√£o

O desafio envolve a an√°lise de um conjunto de dados fornecido, passando pelas seguintes etapas:

- **Entendimento dos Dados**: Compreens√£o da estrutura do dataset, as vari√°veis dispon√≠veis.
- **Pr√©-processamento dos dados**: Identifica√ß√£o e remo√ß√£o de outliers, tratamento de valores ausentes se tiver, engenharia de atributos.
- **Pr√©-processamento de texto (NLP)**: Aplica√ß√£o de t√©cnicas de **Processamento de Linguagem Natural (NLP)**, incluindo remo√ß√£o de stopwords, stemming, lematiza√ß√£o e vetoriza√ß√£o de texto para melhorar a qualidade dos dados textuais.
- **Extra√ß√£o de outras fontes de dados**: Requisi√ß√£o feita na API do IBGE para a extra√ß√£o da informa√ß√£o sobre a regi√£o geogr√°fica de cada estado.
- **An√°lise Explorat√≥ria de dados**: Entender como as vari√°veis est√£o distribuidas
- **Resolu√ß√£o das Perguntas Propostas**

1 - Quais s√£o os estados e cidades com o maior n√∫mero de transa√ß√µes?

2 - Como as transa√ß√µes s√£o distribu√≠das ao longo do tempo (por m√™s/ano)?

3 - Houve um aumento ou diminui√ß√£o no n√∫mero de transa√ß√µes ao longo do tempo? Em quais estados isso √© mais evidente?

4 - Gere um gr√°fico de s√©rie temporal mostrando a evolu√ß√£o das transa√ß√µes ao longo dos meses

5 - Proponha uma segmenta√ß√£o dos cart√≥rios com base nos crit√©rios que achar relevante.




### Dicion√°rio de dados:

* id_cartorio: Vari√°vel num√©rica - regra: 1 cart√≥rio pode ter diversos tipos de transa√ß√µes
* texto: Vari√°vel string - Vari√°vel Texto - Possui informa√ß√µes sobre as transa√ß√µes, tipo de transacao, quem comprou e vendeu, tipo do im√≥vel e o tamanho
* Estado: Vari√°vel Categ√≥rica - Possui a sigla do Estado
* Cidade: Vari√°vel Categ√≥rica - Possui o nome das cidades
* data: Vari√°vel do tipo data - Possui o m√™s e o ano da transa√ß√£o

**Extra√≠do via NLP**

* tamanho_imovel (metros quadrados): Vari√°vel num√©rica - poussui valores inteiros
* Tipo_transfer√™ncia: Vari√°vel Categ√≥rica - Com valores sendo  "Usucapi√£o Extrajudicial", "Recupera√ß√£o de Cr√©dito", "Compra e Venda"
* Tipo_im√≥vel: Vari√°vel Categ√≥rica - Com valores sendo "Casa", "Apartamento" e "Terreno Rural"

**Extra**

regiao: Vari√°vel categ√≥rica - Nome da regi√£o sendo "Norte, Nordeste, Centro Oeste, Sul, Sudeste"

In [None]:
# Visualiza√ß√£o e Manipula√ß√£o de dados

import pandas as pd
import numpy as np
import plotly.express as px
from scipy import stats

#Requisicao HTTP
import requests

#Avaliacao da clusterizacao e modelo nao supervisionado
from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans

In [None]:
# Manipula√ß√£o de texto
import re
import spacy



#Processamento de texto
from fuzzywuzzy import fuzz, process
import string

# Codificacao de vari√°veis
from sklearn.preprocessing import LabelEncoder

# üìå Entendimento dos Dados  

Nesta etapa, realizamos uma an√°lise inicial do conjunto de dados para garantir que ele esteja adequado para as pr√≥ximas fases do projeto. Esse processo inclui a verifica√ß√£o da estrutura dos dados, identifica√ß√£o de poss√≠veis inconsist√™ncias e a defini√ß√£o de estrat√©gias para trat√°-las.  

Os principais aspectos analisados s√£o:  

- **Extra√ß√£o dos Dados**: Importa√ß√£o e carregamento dos dados a partir da fonte original.
- **Verifica√ß√£o de Valores Ausentes**: Identifica√ß√£o de poss√≠veis lacunas nos dados e defini√ß√£o de estrat√©gias para lidar com elas.
- **Tipos das Vari√°veis**: An√°lise dos tipos de dados (num√©ricos, categ√≥ricos, texto, etc.) para garantir compatibilidade com os m√©todos de an√°lise e modelagem.
- **Descri√ß√£o Estat√≠stica**: Estat√≠sticas descritivas, como m√©dia, mediana, desvio padr√£o e distribui√ß√£o das vari√°veis.
- **Poss√≠veis Problemas**: Por existir uma coluna de texto, precisamos avaliar quais t√©cnicas seram √∫teis para capturar informa√ß√µes relevantes para an√°lise


### Conceitos importantes.

**Compra e venda**: √© o processo jur√≠dico e financeiro que envolve a transfer√™ncia de um im√≥vel de um vendedor para um comprador, com o pagamento de um pre√ßo acordado. Esse processo √© regulamentado por leis espec√≠ficar e envolve uma s√©ria de etapas para garantir que a transa√ß√£o seja legal, segura e v√°lida.


**Recupera√ß√£o de cr√©dito**: √© o processo pelo qual uma institui√ß√£o financeira, empresa ou credor busca recuperar valores devidos por clientes ou empresas que n√£o cumpriram com suas obriga√ß√µes financeiras, como o pgamento de d√≠vidas ou empr√©stimos. Esse processo √© uma parte essencial da gest√£o de cr√©dito, garantindo que o credor congia minimizar perdas financeiras decorrentes de inadimpl√™ncia,


**Usucapi√£o Extrajudicial**: √© um procedimento legal que permite a aquisi√ß√£o da propriedade de um bem im√≥vel por meio da posse cont√≠nua e ininterrupta por um determinado per√≠odo, sem a necessidade de processo judicial. Esse processo ocorre diretamente no **cart√≥rio de registro de im√≥veis**, sendo uma alternativa mais r√°pida e menos burocr√°tica em compara√ß√£o com a usucapi√£o judicial, que exige a interven√ß√£o do Poder Judici√°rio.


**Usucapi√£o**: √© a forma pela qual uma pessoa adquire a propriedade de um im√≥vel atrav√©s da posse prolongada e sem oposi√ß√£o do propriet√°rio anterior.



In [300]:
# Extraindo os dados
dados = pd.read_csv('dataset_registros_imobiliarios.csv')

In [301]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10485 entries, 0 to 10484
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id_cartorio  10485 non-null  int64 
 1   texto        10485 non-null  object
 2   estado       10485 non-null  object
 3   cidade       10485 non-null  object
 4   data         10485 non-null  object
dtypes: int64(1), object(4)
memory usage: 409.7+ KB


# Pr√©-processamento

* A coluna de data se encontra no tipo 'object', ser√° feito uma transforma√ß√£o para que seja transmita sua informa√ß√£o de maneira mais concreta.

In [302]:
dados.head()

Unnamed: 0,id_cartorio,texto,estado,cidade,data
0,193,Processo de Usucapi√£o Extrajudicial: Apartamen...,PI,Picos,08/2023
1,276,Processo de Usucapi√£o Extrajudicial: Terreno R...,MA,S√£o Lu√≠s,11/2023
2,70,Processo de Usucapi√£o Extrajudicial: Terreno R...,SC,Blumenau,02/2024
3,277,Casa (291m¬≤) transferido de Ana Beatriz da Roc...,CE,Fortaleza,04/2024
4,166,Processo de Compra e Venda: Casa de 153m¬≤ pass...,RJ,Niter√≥i,10/2024


In [303]:
dados['data'] = pd.to_datetime(dados['data'], format = '%m/%Y')
dados.dtypes

id_cartorio             int64
texto                  object
estado                 object
cidade                 object
data           datetime64[ns]
dtype: object

A **engenharia de atributos** √© um processo fundamental no ciclo de vida de um projeto de ci√™ncia de dados. Consiste na cria√ß√£o, modifica√ß√£o ou sele√ß√£o de vari√°veis (atributos) que ser√£o utilizadas nos modelos de machine learning, com o objetivo de melhorar a performance e a capacidade preditiva dos modelos.

Esse processo pode ser dividido em v√°rias etapas, dependendo dos dados e do problema que estamos tentando resolver. Algumas das principais atividades envolvem:

 1. **Cria√ß√£o de Atributos**
A cria√ß√£o de novos atributos pode ser feita a partir de vari√°veis j√° existentes. Isso pode incluir:
- Combina√ß√£o de v√°rias colunas para gerar uma nova vari√°vel (por exemplo, somar a idade e a experi√™ncia para criar uma vari√°vel de "experi√™ncia total").
- Convers√£o de vari√°veis categ√≥ricas em vari√°veis num√©ricas (como o uso de one-hot encoding ou label encoding).
- Extra√ß√£o de informa√ß√µes de texto, como mostrado anteriormente, para capturar dados importantes que podem n√£o ser expl√≠citos na estrutura original dos dados.

2. **Transforma√ß√£o de Atributos**
Em alguns casos, as vari√°veis precisam ser transformadas para tornar os modelos mais eficientes:
- **Escalonamento de vari√°veis** (normaliza√ß√£o ou padroniza√ß√£o) para garantir que as vari√°veis num√©ricas estejam na mesma escala, evitando que vari√°veis com maior magnitude dominem a an√°lise.
- **Log-transform** para lidar com distribui√ß√µes assim√©tricas ou com grandes varia√ß√µes entre os dados.


No nosso caso, criamos a vari√°vel m√™s e ano a partir da coluna de data.

In [304]:
# Agora com a coluna transformada, iremos extrair o mes e o ano
dados['ano'] = dados['data'].dt.year
dados['mes'] = dados['data'].dt.month
dados.head(2)

Unnamed: 0,id_cartorio,texto,estado,cidade,data,ano,mes
0,193,Processo de Usucapi√£o Extrajudicial: Apartamen...,PI,Picos,2023-08-01,2023,8
1,276,Processo de Usucapi√£o Extrajudicial: Terreno R...,MA,S√£o Lu√≠s,2023-11-01,2023,11


üîç Extra√ß√£o de Informa√ß√µes de Texto

A coluna de texto cont√©m frases longas, que podem incluir informa√ß√µes valiosas para futuras an√°lises. No entanto, esses dados n√£o estruturados precisam ser processados para que possamos extrair insights √∫teis. Alguns dos elementos que podem ser extra√≠dos incluem:

- **Tipo de Transfer√™ncia**: Identifica√ß√£o do tipo de transa√ß√£o imobili√°ria realizada.
- **Tipo do Im√≥vel**: Classifica√ß√£o do im√≥vel, como casa, apartamento, terreno, entre outros.
- **Tamanho do Im√≥vel**: Extra√ß√£o de informa√ß√µes sobre √°rea constru√≠da ou √°rea total.

Para tornar essas informa√ß√µes utiliz√°veis em nossas an√°lises, √© essencial realizar um **pr√©-processamento de texto**. Esse processo envolve a limpeza e estrutura√ß√£o dos dados textuais, o que pode incluir:

‚úÖ **Remo√ß√£o de caracteres especiais e stopwords** para evitar ru√≠dos na an√°lise.

‚úÖ **Tokeniza√ß√£o** para segmentar as frases em palavras individuais.

‚úÖ **Identifica√ß√£o de padr√µes e extra√ß√£o de palavras-chave** para capturar as informa√ß√µes relevantes.

Esse tratamento garante que os dados textuais sejam transformados em vari√°veis estruturadas, facilitando an√°lises futuras e contribuindo para uma modelagem mais eficiente.

Esse processo √© conhecido como processamento de linguagem natural, ser√° melhor definido mais a frente


In [305]:
# Como est√° estruturado a coluna de texto
for i in range(-5, 0):
    print(dados['texto'].iloc[i])

Processo de Recupera√ß√£o de Cr√©dito: Casa de 277m¬≤ passou de Ferreira (90.163.257/0001-57) para Raul Monteiro (176.384.259-28).
Apartamento de 204m¬≤ transferido de Ryan Novaes (146.985.027-30) para Mirella Castro (470.836.259-56) via Usucapi√£o Extrajudicial.
Terreno Rural de 43156m¬≤ transferido de Mendon√ßa (73.548.169/0001-54) para Ara√∫jo (85.641.397/0001-53) via Recupera√ß√£o de Cr√©dito.
Apartamento de 204m¬≤ transferido de Cirino e Filhos (76.025.983/0001-82) para Ribeiro (70.246.983/0001-26) via Compra e Venda.
Casa de 199m¬≤, Usucapi√£o Extrajudicial realizado entre Rafaela da Luz (301.879.425-79) e Moraes Andrade - ME (65.984.172/0001-92).


# Pr√©-processamento de texto (NLP)

**Processamento de Linguagem Natural (NLP)** √© uma sub√°rea da Intelig√™ncia Artificial (IA) que envolve a intera√ß√£o entre computadores e a linguagem humana. O principal objetivo do NLP √© permitir que os computadores compreendam, interpretem, analisem e gerem linguagem natural de maneira √∫til e significativa.

### Fuzzy Matching 

**Fuzzy Matching** √© uma t√©cnica que permite encontrar correspond√™ncias aproximadas entre strings (sequ√™ncias de caracteres), ou seja, n√£o √© necess√°rio que as palavras ou frases sejam id√™nticas. Em vez de exigir uma correspond√™ncia exata, o Fuzzy Matching encontra strings que s√£o **semelhantes**, mesmo quando h√° erros de digita√ß√£o, varia√ß√µes de escrita ou pequenas diferen√ßas.

Por exemplo, ao tentar encontrar a palavra "apartamento", o Fuzzy Matching pode identificar palavras semelhantes, como "apartamanto" ou "apartemanto", mesmo que haja erros de digita√ß√£o.

O Fuzzy Matching √© √∫til em v√°rias situa√ß√µes, como:

- **Corre√ß√£o de erros de digita√ß√£o** em buscas de texto.
- **Identifica√ß√£o de palavras semelhantes**, mesmo que tenham varia√ß√µes ortogr√°ficas.
- **Busca aproximada** em bases de dados ou sistemas de recomenda√ß√£o.

Como o Fuzzy Matching Funciona

O Fuzzy Matching funciona calculando a **semelhan√ßa** entre duas strings usando algoritmos espec√≠ficos, como:

- **Dist√¢ncia de Levenshtein**: Mede o n√∫mero m√≠nimo de edi√ß√µes (inser√ß√µes, exclus√µes ou substitui√ß√µes) necess√°rias para transformar uma string em outra. Quanto menor a dist√¢ncia, maior a similaridade entre as palavras.
- **Algoritmo de Jaccard**: Mede a similaridade entre conjuntos de palavras ou caracteres.
- **Algoritmo de Jaro-Winkler**: √â uma varia√ß√£o da dist√¢ncia de Jaro que penaliza mais as diferen√ßas no in√≠cio das palavras, que s√£o mais significativas.

Que no nosso caso, estamos utilizando o **scorer** que √© uma varia√ß√£o do c√°lculo de dist√¢ncia de Levenshtein. O que ele faz √© comparar a palavra do texto com as op√ß√µes da lista (no caso, os tipos de imoveis, tipo de transferencia) e calcular a dist√¢ncia de Levenshtein. Ele considera o alinhamento da palavra no texto com as palavras da lista, permitindo uma correspond√áencia mais flex√≠vel, at√© mesmo quando a palavra no texto √© apenas uma parte da palavra da lista

Diferen√ßa entre Fuzzy Matching e Outras Bibliotecas de NLP

O Fuzzy Matching √© diferente de outras bibliotecas de NLP porque seu foco n√£o est√° na **an√°lise sem√¢ntica** ou na **compreens√£o profunda** do texto, mas sim em **comparar e medir a similaridade entre palavras ou frases**.

Outro ponto interessante do Fuzzy, √© que ele se mostrou mais r√°pido em alguns processos do que modelos de nlp.

Enquanto o Fuzzy Matching se concentra em encontrar correspond√™ncias aproximadas de strings, as bibliotecas de NLP muitas vezes analisam o significado das palavras e as rela√ß√µes contextuais entre elas, utilizando modelos baseados em aprendizado profundo (deep learning). No nosso caso, Fuzzy apresentou ser bastante eficiente para o problema atual


Foi escolhido o modelo "pt_core_news_sm" porque ele foi treinado para entender a gram√°tica, sintaxe e sem√¢ntica do portugu√™s.

In [306]:
# Carregar modelo de processamento de linguagem natural em portugu√™s
nlp = spacy.load("pt_core_news_sm")

In [307]:
# Limpa e pr√©-processa o texto removendo pontua√ß√£o, caracteres especiais e stopwords.

def preprocessar_texto(texto):

    # Remover caracteres especiais e pontua√ß√£o
    texto = texto.translate(str.maketrans("", "", string.punctuation))
    texto = re.sub(r'[@#\$%\&\*\(\)\+\=\[\]\{\};:<>/\\,.\?¬°!]', '', texto)

    # Criar o objeto doc usando spaCy
    doc = nlp(texto)

    # Remover stopwords e manter apenas tokens relevantes
    tokens_processados = [token.text for token in doc if not token.is_stop]

    # Reconstruir o texto processado
    texto_processado = " ".join(tokens_processados)
    return texto_processado

def extrair_tamanho(texto):
    # Regex para capturar o tamanho do im√≥vel (em m¬≤, m, ou n√∫mero apenas)
    match = re.search(r'(\d+)(?:[ ]?m¬≤?|m)?', texto)

    if match:
        return int(match.group(1))

    return None

No contexto de an√°lise de texto, como no caso da extra√ß√£o de tipos de im√≥vel e transa√ß√µes, o uso de Fuzzy Matching pode ser mais vantajoso em compara√ß√£o com abordagens baseadas em modelos de linguagem natural (NLP) tradicionais, como o spaCy, Foi escolhido o Fuzzy por alguns motivos:

- *1 Varia√ß√µes de Texto: Muitas vezes, os textos podem conter erros de digita√ß√£o, abrevia√ß√µes ou varia√ß√µes na forma como os termos s√£o escritos. O Fuzzy Matching permite que se identifique correspond√™ncias aproximadas entre palavras ou frases, mesmo que estas n√£o coincidam exatamente. Isso √© √∫til para lidar com erros de digita√ß√£o ou express√µes que n√£o sejam padronizadas.

- *2 Simplicidade: O uso de Fuzzy Matching √© mais simples e direto quando os tipos de dados a serem extra√≠dos s√£o conhecidos e limitados, como listas de tipos de im√≥vel ou transa√ß√µes. Ao usar Fuzzy Matching, a compara√ß√£o √© feita diretamente entre a entrada do usu√°rio (texto) e os poss√≠veis tipos, sem a necessidade de um modelo complexo de NLP.

- 3* Performance: O Fuzzy Matching, especialmente com algoritmos como o Levenshtein Distance (usado pelo fuzz.partial_ratio), oferece uma solu√ß√£o computacionalmente mais eficiente para tarefas de correspond√™ncia aproximada entre texto curto (como os nomes de tipos de im√≥veis ou transa√ß√µes) em compara√ß√£o com o uso de modelos pesados de NLP.

O modelo carregado foi testado em algumas atividades, como a extra√ß√£o do tipo de im√≥vel, e apresentou um custo computacional significativamente maior, resultando em uma execu√ß√£o mais lenta da fun√ß√£o. Para tarefas simples de correspond√™ncia exata, como a que estamos realizando, o uso do spaCy pode ser mais custoso do que realmente necess√°rio. Por esse motivo, o spaCy foi utilizado com parcim√¥nia durante o processo, enquanto o Fuzzy Matching teve maior √™nfase, pois √© mais r√°pido e eficiente para essas tarefas espec√≠ficas.

In [308]:

def extrair_tipo_imovel(texto):
    tipos_imovel = ["casa", "apartamento", "terreno rural"]

    # Tokeniza o texto para trabalhar palavra por palavra
    palavras = texto.split()

    tipo_imovel_encontrado = None
    maior_score = 0

    for palavra in palavras:
        # Faz o Fuzzy Matching para comparar cada palavra
        melhor_match, score = process.extractOne(palavra, tipos_imovel, scorer=fuzz.partial_ratio)

        if score > maior_score:
            maior_score = score
            tipo_imovel_encontrado = melhor_match

    return tipo_imovel_encontrado if maior_score > 80 else None

def extrair_tipo_transacao(texto):
    # Definir os tipos de transa√ß√µes comuns
    tipos_transacao = ["Compra e Venda", "Usucapi√£o Extrajudicial", "Recupera√ß√£o de Cr√©dito"]

    # Criar uma lista de poss√≠veis correspond√™ncias
    tipo_transacao_encontrado = None
    for transacao in tipos_transacao:

        # Fuzzy matching para lidar com varia√ß√µes
        match = process.extractOne(transacao, texto.split(), scorer=fuzz.partial_ratio)
        if match and match[1] > 80:  # Define a confian√ßa de 80% para considerar a correspond√™ncia
            tipo_transacao_encontrado = transacao
            break

    return tipo_transacao_encontrado

In [309]:
# Limparemos o texto primeiro para evitar problem√°ticas a frente
dados['texto'] = dados['texto'].apply(preprocessar_texto)
dados['tamanho_imovel'] = dados['texto'].apply(extrair_tamanho)

In [310]:
dados['tipo_transferencia'] = dados['texto'].apply(extrair_tipo_transacao)

In [311]:
dados['tipo_imovel'] = dados['texto'].apply(extrair_tipo_imovel)

A fun√ß√£o extrair_tipo_transacao ou extrair_tipo_imovel retorna None quando n√£o encontra uma correspond√™ncia com os tipos de transa√ß√£o definidos na lista tipos_transacao. Isso ocorre porque, no bloco de c√≥digo onde realizamos o fuzzy matching com a fun√ß√£o process.extractOne, comparamos a transa√ß√£o do texto com as transa√ß√µes pr√©-definidas. Caso o score de confian√ßa da correspond√™ncia seja inferior a 80, a fun√ß√£o n√£o considera a transa√ß√£o como v√°lida e retorna None.

O retorno de None tem como objetivo facilitar a identifica√ß√£o dos casos em que o tipo de transa√ß√£o n√£o foi adequadamente identificado ou registrado. Isso permite que, ao utilizarmos dados.isnull().sum(), possamos verificar rapidamente quais registros possuem valores ausentes (nulos) e precisam ser corrigidos ou ajustados, seja por erro de digita√ß√£o ou por outros fatores que impediram a identifica√ß√£o correta do tipo de transa√ß√£o. Essa abordagem facilita a limpeza e a organiza√ß√£o dos dados antes de realizar an√°lises mais aprofundadas.

In [312]:
dados.isnull().sum()

id_cartorio           0
texto                 0
estado                0
cidade                0
data                  0
ano                   0
mes                   0
tamanho_imovel        0
tipo_transferencia    0
tipo_imovel           2
dtype: int64

In [313]:
# Verificando as linhas que n√£o foram atribuidas valor do tipo_imovel devidamente
dados[dados['tipo_imovel'].isnull()]

Unnamed: 0,id_cartorio,texto,estado,cidade,data,ano,mes,tamanho_imovel,tipo_transferencia,tipo_imovel
3108,54,Csa 194 m¬≤ transferido Jos√© Miguel Paz 8910642...,RJ,Niter√≥i,2023-03-01,2023,3,194,Usucapi√£o Extrajudicial,
9909,75,Caa 237 m¬≤ transferido Sousa 45681390000140 Sr...,SE,Nossa Senhora do Socorro,2024-01-01,2024,1,237,Usucapi√£o Extrajudicial,


Como dois textos apresentaram o nome da casa digitado incorretamente ap√≥s o processamento, foi decidida a utiliza√ß√£o de um replace para corrigir esses erros na coluna. Ap√≥s essa corre√ß√£o, a fun√ß√£o para extrair os tipos de im√≥veis foi executada novamente para garantir a precis√£o dos dados.

In [314]:
# Condi√ß√£o para selecionar cart√≥rios 54 ou 75
indice_alteracao = dados['id_cartorio'].isin([54, 75])

# Substituindo 'Csa' e 'Caa' por 'Casa' na coluna 'texto' onde a condi√ß√£o √© verdadeira
dados.loc[indice_alteracao , 'texto'] = dados.loc[indice_alteracao , 'texto'].replace({'Csa': 'Casa', 'Caa': 'Casa'}, regex=True)

In [315]:
dados[dados['tipo_imovel'].isnull()]

Unnamed: 0,id_cartorio,texto,estado,cidade,data,ano,mes,tamanho_imovel,tipo_transferencia,tipo_imovel
3108,54,Casa 194 m¬≤ transferido Jos√© Miguel Paz 891064...,RJ,Niter√≥i,2023-03-01,2023,3,194,Usucapi√£o Extrajudicial,
9909,75,Casa 237 m¬≤ transferido Sousa 45681390000140 S...,SE,Nossa Senhora do Socorro,2024-01-01,2024,1,237,Usucapi√£o Extrajudicial,


In [316]:
# Realizando o processo novamente
dados['tipo_imovel'] = dados['texto'].apply(extrair_tipo_imovel)

In [317]:
# Verificando se ouve algum caso onde algum valor n√£o foi colocado
dados.isnull().sum()

id_cartorio           0
texto                 0
estado                0
cidade                0
data                  0
ano                   0
mes                   0
tamanho_imovel        0
tipo_transferencia    0
tipo_imovel           0
dtype: int64

### An√°lise de Inconsist√™ncias no Conjunto de Dados

Durante a an√°lise, identificamos registros com tamanhos de im√≥veis irreais, como o caso de im√≥veis com apenas 2 metros quadrados. Esses registros foram considerados inconsistentes e, portanto, exclu√≠dos. Especificamente, foram encontrados 2 casos com essa caracter√≠stica:
ID Cart√≥rio 51 e 7.
Esses registros foram tratados para garantir a qualidade dos dados e a precis√£o das an√°lises subsequentes.

In [318]:
tamanho = dados['tamanho_imovel'].min()
dados[dados['tamanho_imovel'] == tamanho]

Unnamed: 0,id_cartorio,texto,estado,cidade,data,ano,mes,tamanho_imovel,tipo_transferencia,tipo_imovel
2246,51,Casa 2 m¬≤ transferido Sra Maria J√∫lia Albuquer...,PI,Parna√≠ba,2024-06-01,2024,6,2,Compra e Venda,casa
2750,7,Casa 2 m¬≤ transferido Rios 92641875000190 Anth...,AP,Macap√°,2024-02-01,2024,2,2,Recupera√ß√£o de Cr√©dito,casa


In [319]:
indices_para_remover = dados[dados['id_cartorio'].isin([51, 7])].index
dados = dados.drop(indices_para_remover)

An√°lise de Transa√ß√µes por Ano e Identifica√ß√£o de Poss√≠veis Outliers
Durante a an√°lise dos registros de transa√ß√µes agrupados por ano, observamos uma anomalia no ano de 2025. Este ano apresenta um n√∫mero de transa√ß√µes significativamente baixo, sugerindo que os dados podem estar incompletos. O √∫ltimo registro dispon√≠vel √© de fevereiro, um m√™s que ainda n√£o se completou, o que pode indicar que o conjunto de dados est√° incompleto at√© o momento, caracterizando-se como um poss√≠vel outlier.

Al√©m disso, a an√°lise da s√©rie temporal revelou que o m√™s de fevereiro de 2023 tamb√©m apresenta um valor abaixo da m√©dia, com apenas 224 registros. Esse dado tamb√©m deve ser tratado com cautela, pois, ao analisar s√©ries temporais, a presen√ßa de meses com n√∫mero reduzido de registros pode distorcer as conclus√µes.

√â importante ressaltar que, ao observar o crescimento dos meses anteriores, pode-se observar uma tend√™ncia de aumento nas transa√ß√µes. Contudo, ao chegarmos a 2025, especialmente em fevereiro, √© poss√≠vel que uma aparente queda seja observada, devido √† poss√≠vel falta de dados completos para esse ano. Essa redu√ß√£o aparente pode ser apenas um reflexo da falta de registros suficientes para representar fielmente o m√™s, o que √© esperado, j√° que o m√™s de fevereiro ainda n√£o terminou.

In [320]:
ano_agrupados = dados.groupby('ano').size().reset_index(name = 'contagem')
ano_agrupados = ano_agrupados.sort_values(by = 'contagem', ascending= False)
ano_agrupados

Unnamed: 0,ano,contagem
1,2024,5214
0,2023,4567
2,2025,636


In [321]:
data_agrupada = dados.groupby('data').size().reset_index(name = 'contagem')
data_agrupada = data_agrupada.sort_values(by = 'data')
data_agrupada

Unnamed: 0,data,contagem
0,2023-02-01,224
1,2023-03-01,412
2,2023-04-01,448
3,2023-05-01,466
4,2023-06-01,406
5,2023-07-01,461
6,2023-08-01,480
7,2023-09-01,406
8,2023-10-01,439
9,2023-11-01,419


In [322]:
print("M√©dia da quantidade de transacoes por ano:",data_agrupada['contagem'].mean())

M√©dia da quantidade de transacoes por ano: 416.68


# Extra√ß√£o de dados de outras fontes

Para enriquecer o conjunto de dados, utilizamos informa√ß√µes sobre os estados brasileiros e suas respectivas regi√µes geogr√°ficas. Esses dados foram obtidos diretamente da **API p√∫blica do IBGE**, garantindo que as informa√ß√µes estejam sempre atualizadas e estruturadas.

A obten√ß√£o dos dados foi realizada atrav√©s de uma **requisi√ß√£o HTTP**, resultando em um arquivo **JSON** contendo a sigla do estado e sua respectiva regi√£o geogr√°fica. Para facilitar a manipula√ß√£o e integra√ß√£o com nosso conjunto de dados, os dados foram convertidos para um **DataFrame do pandas**.

Essa abordagem permitiu uma integra√ß√£o din√¢mica e confi√°vel, garantindo que qualquer atualiza√ß√£o realizada pelo IBGE seja refletida automaticamente em nosso sistema.

In [323]:
url = "https://servicodados.ibge.gov.br/api/v1/localidades/estados"
response = requests.get(url)
estados_dados = response.json()
dados_regioes = pd.DataFrame([(estado['sigla'], estado['regiao']['nome']) for estado in estados_dados], columns = ['estado', 'regiao'])

In [324]:
# Merge junta os dois dataframes pela coluna sigla
dados = dados.merge(dados_regioes, on = 'estado', how = 'left')
dados.head(3)

Unnamed: 0,id_cartorio,texto,estado,cidade,data,ano,mes,tamanho_imovel,tipo_transferencia,tipo_imovel,regiao
0,193,Processo Usucapi√£o Extrajudicial Apartamento 1...,PI,Picos,2023-08-01,2023,8,121,Usucapi√£o Extrajudicial,apartamento,Nordeste
1,276,Processo Usucapi√£o Extrajudicial Terreno Rural...,MA,S√£o Lu√≠s,2023-11-01,2023,11,35049,Usucapi√£o Extrajudicial,terreno rural,Nordeste
2,70,Processo Usucapi√£o Extrajudicial Terreno Rural...,SC,Blumenau,2024-02-01,2024,2,28034,Usucapi√£o Extrajudicial,terreno rural,Sul


# An√°lise Explorat√≥ria



Observa-se que o im√≥vel do tipo "apartamento" apresenta um valor de tamanho maior em compara√ß√£o aos outros tipos de im√≥vel, embora a diferen√ßa n√£o seja muito expressiva.

In [325]:
tipo_imovel = dados.groupby('tipo_imovel').size().reset_index(name='contagem')

fig1 = px.bar(tipo_imovel,
              x='tipo_imovel',
              y='contagem',
              title='Distribui√ß√£o do Tipo de Im√≥vel',
              labels={'contagem': 'N√∫mero de Registros', 'tipo_imovel': 'Im√≥vel'},
              color_discrete_sequence=['royalblue'])


# Ajuste para melhorar a exibi√ß√£o das barras
fig1.update_traces(
    texttemplate='%{y}',
    textposition='inside',
    marker=dict(line=dict(color='black', width=1))
)

fig1.update_layout(
    xaxis_tickangle=0,
    plot_bgcolor='white',
    showlegend=False,
    bargap=0.15
)

fig1.show()

O processo de compra e venda apresenta um valor superior em rela√ß√£o aos outros processos analisados. No entanto, a diferen√ßa n√£o √© t√£o expressiva, indicando que, embora haja uma varia√ß√£o, os outros tipos de transa√ß√£o, como usucapi√£o extrajudicial e recupera√ß√£o de cr√©dito, possuem valores pr√≥ximos. Isso pode sugerir que as transa√ß√µes de compra e venda s√£o frequentes, mas n√£o s√£o, de maneira significativa, mais representativas ou impactantes do que os demais processos, pelo menos dentro do contexto dos dados analisados. A aus√™ncia de uma grande disparidade entre os valores sugere um equil√≠brio nas transa√ß√µes realizadas em compara√ß√£o com os outros tipos de processo.

In [326]:
# Agrupar os dados pelo tipo de transfer√™ncia
tipo_transferencia = dados.groupby('tipo_transferencia').size().reset_index(name='contagem')

fig1 = px.bar(tipo_transferencia,
              x='tipo_transferencia',
              y='contagem',
              title='Distribui√ß√£o do Tipo de Transfer√™ncia',
              labels={'contagem': 'N√∫mero de Registros', 'tipo_transferencia': 'Tipo de Transfer√™ncia'})

# Ajuste para melhorar a exibi√ß√£o das barras
fig1.update_traces(
    texttemplate='%{y}',
    textposition='inside',
    marker=dict(color='royalblue', line=dict(color='black', width=1))
)

fig1.update_layout(
    xaxis_tickangle=0,
    plot_bgcolor='white',
    showlegend=False,
    bargap=0.15
)

fig1.show()

A suaviza√ß√£o logar√≠tmica foi aplicada devido √† grande disparidade nos valores dos tamanhos dos im√≥veis, especialmente no caso dos terrenos rurais. Esses terrenos possuem valores significativamente mais altos, o que √© esperado, j√° que podem representar √°reas como fazendas, s√≠tios ou terrenos para cultivo. Para lidar com essa diferen√ßa acentuada, utilizamos a mediana como medida de tend√™ncia central, pois ela √© menos sens√≠vel a valores discrepantes, o que garante uma compara√ß√£o mais robusta.

A an√°lise sugere que os tamanhos dos terrenos rurais, de fato, apresentam valores muito elevados em rela√ß√£o aos outros tipos de im√≥veis. Esse fato corrobora a hip√≥tese de que qualquer compara√ß√£o envolvendo a coluna de tamanhos de im√≥veis deve ser feita com cautela, especialmente quando envolve terrenos rurais, devido √† sua magnitude. Portanto, qualquer an√°lise comparativa envolvendo esses valores precisa ser moderada, considerando a natureza excepcional dos dados relacionados aos terrenos rurais.

In [327]:
mediana_tamanho_por_tipo = dados.groupby('tipo_imovel')['tamanho_imovel'].mean().reset_index(name='mediana_tamanho')

# Aplicando transforma√ß√£o logar√≠tmica para suavizar grandes discrep√¢ncias
mediana_tamanho_por_tipo['mediana_log'] = np.log1p(mediana_tamanho_por_tipo['mediana_tamanho'])

fig = px.bar(mediana_tamanho_por_tipo,
             x='tipo_imovel',
             y='mediana_log',
             title='Mediana do Tamanho do Im√≥vel por Tipo de Im√≥vel (Escala Logar√≠tmica)',
             labels={'mediana_log': 'Mediana do Tamanho do Im√≥vel (Log)', 'tipo_imovel': 'Tipo de Im√≥vel'},
             color='mediana_log',
             color_continuous_scale='blues')


# Ajuste para melhorar a exibi√ß√£o das barras
fig.update_traces(
    texttemplate='%{y:.2f}',
    textposition='inside',
    marker=dict(color='royalblue', line=dict(color='black', width=1))
)

fig.update_layout(
    xaxis_tickangle=360,
    plot_bgcolor='white',
    showlegend=False,
    bargap=0.15
)

fig.show()

# Solu√ß√£o das Perguntas


# 1- Quais s√£o os estados e cidades com o maior n√∫mero de transa√ß√µes?

* Para responder essa pergunta foi criado um gr√°fico de barras para cada grupo. Estados e cidades.

In [328]:
#Agrupando por estado e cidades
estados_agrupados = dados.groupby('estado').size().reset_index(name='quantidade_registros')
cidades_agrupados = dados.groupby('cidade').size().reset_index(name='quantidade_registros')

#Ordenando por quantidade de registros
estados_agrupados = estados_agrupados.sort_values(by = 'quantidade_registros', ascending= False)
cidades_agrupados = cidades_agrupados.sort_values(by = 'quantidade_registros', ascending= False)

top_10_estados = estados_agrupados.head(10)
top_10_cidade = cidades_agrupados.head(10)

In [329]:
# Gr√°fico para Estados
fig1 = px.bar(top_10_estados,
              x='estado',
              y='quantidade_registros',
              title='N√∫mero de Registros por Estado',
              labels={'quantidade_registros': 'N√∫mero de Registros', 'estado': 'Estado'},
              color='quantidade_registros',
              color_continuous_scale='blues')

fig1.update_traces(texttemplate='%{y}', textposition='inside', marker=dict(line=dict(color='black', width=1)))
fig1.update_layout(showlegend=False)  # Remover a legenda
fig1.show()

# Gr√°fico para Cidades
fig2 = px.bar(top_10_cidade,
              x='cidade',
              y='quantidade_registros',
              title='N√∫mero de Registros por Cidade',
              labels={'quantidade_registros': 'N√∫mero de Registros', 'cidade': 'Cidade'},
              color='quantidade_registros',
              color_continuous_scale='greens')

fig2.update_traces(texttemplate='%{y}', textposition='inside', marker=dict(line=dict(color='black', width=1)))
fig2.update_layout(showlegend=False)  # Remover a legenda
fig2.show()

**Notas**

O gr√°fico superior mostra os 10 estados com o maior n√∫mero de transa√ß√µes, enquanto o gr√°fico inferior exibe as 10 cidades com o maior volume de registros. Ambos os gr√°ficos est√£o organizados de forma decrescente, proporcionando uma visualiza√ß√£o clara das regi√µes com maior concentra√ß√£o de transa√ß√µes, facilitando a an√°lise das √°reas de maior atividade.


# 2 - Como as transa√ß√µes s√£o distribu√≠das ao longo do tempo (por m√™s/ano)?

Dois gr√°ficos ser√£o gerados para esta an√°lise. Conforme discutido anteriormente, h√° ind√≠cios de que o primeiro e o √∫ltimo m√™s podem ser considerados outliers, potencialmente distorcendo a an√°lise das transa√ß√µes ao longo do tempo. A abordagem escolhida consiste em plotar ambos os gr√°ficos ‚Äî um que inclui todos os meses e outro que exclui os meses extremos ‚Äî para comparar as diferen√ßas entre eles. Dessa forma, ser√° poss√≠vel avaliar o impacto desses valores e tirar conclus√µes sobre o comportamento dos dados.

In [330]:
transacoes_por_mes = dados.groupby('data').size().reset_index(name='quantidade_transacoes')

# Gr√°fico 1: Incluindo todos os meses
media_transacoes_completos = transacoes_por_mes['quantidade_transacoes'].mean()

fig1 = px.line(transacoes_por_mes, x='data', y='quantidade_transacoes',
               title='Distribui√ß√£o de Transa√ß√µes ao Longo do Tempo (Todos os Meses)',
               labels={'quantidade_transacoes': 'N√∫mero de Transa√ß√µes', 'data': 'M√™s/Ano'},
               markers=True)

# Adicionando a linha de m√©dia no primeiro gr√°fico
fig1.add_hline(y=media_transacoes_completos, line_dash="dot", line_color="red",
               annotation_text=f"M√©dia: {media_transacoes_completos:.2f}",
               annotation_position="top left")

# Formatando o eixo X no primeiro gr√°fico
fig1.update_layout(xaxis=dict(tickformat="%m/%Y"))

# Gr√°fico 2: Excluindo o primeiro e o √∫ltimo m√™s
transacoes_por_mes_filtrado = transacoes_por_mes.sort_values(by='data').iloc[1:-1]
media_transacoes_filtrado = transacoes_por_mes_filtrado['quantidade_transacoes'].mean()



fig2 = px.line(transacoes_por_mes_filtrado, x='data', y='quantidade_transacoes',
               title='Distribui√ß√£o de Transa√ß√µes ao Longo do Tempo (Excluindo 1¬∫ e √öltimo M√™s)',
               labels={'quantidade_transacoes': 'N√∫mero de Transa√ß√µes', 'data': 'M√™s/Ano'},
               markers=True)

# Adicionando a linha de m√©dia no segundo gr√°fico
fig2.add_hline(y=media_transacoes_filtrado, line_dash="dot", line_color="red",
               annotation_text=f"M√©dia: {media_transacoes_filtrado:.2f}",
               annotation_position="top left")

# Formatando o eixo X no segundo gr√°fico
fig2.update_layout(xaxis=dict(tickformat="%m/%Y"))

fig1.show()
fig2.show()

Nos dois gr√°ficos apresentados inicialmente, √© poss√≠vel observar um crescimento nas transa√ß√µes, mas com diferen√ßas not√°veis entre eles. No primeiro gr√°fico, que inclui todos os meses, √© evidente uma tend√™ncia acentuada de queda no final, o que resulta em valores significativamente mais baixos em compara√ß√£o ao segundo gr√°fico. Este, por sua vez, exclui o primeiro e o √∫ltimo m√™s, e apresenta uma trajet√≥ria de crescimento mais consistente, especialmente a partir de novembro de 2024. O primeiro gr√°fico se manteve acima da m√©dia por um per√≠odo mais longo, mas a queda abrupta no final foi um fator de desvio importante. J√° o segundo gr√°fico, sem os meses extremos, apresentou um comportamento mais equilibrado, alternando altos e baixos, sem um claro per√≠odo de estabilidade.

Um poss√≠vel fator que pode explicar essa diferen√ßa nos comportamentos de transa√ß√µes ao longo do tempo est√° relacionado √† falta de estrat√©gias adequadas no setor imobili√°rio. A aus√™ncia de a√ß√µes eficazes por parte dos profissionais do mercado imobili√°rio para se adaptarem √†s mudan√ßas econ√¥micas e comportamentais pode impactar diretamente as vendas. Al√©m disso, a falta de uma interpreta√ß√£o correta do cen√°rio do mercado e a falta de adapta√ß√£o frente √† atual situa√ß√£o econ√¥mica s√£o fatores que podem contribuir para a diminui√ß√£o das transa√ß√µes, como evidenciado nos gr√°ficos.

Fonte: [Rankim - Diminui√ß√£o de vendas de im√≥veis: descubra agora o porqu√™](https://rankim.com.br/blog/diminuicao-de-venda-de-imoveis-descubra-agora-o-porque)

# 3 - Houve um aumento ou diminui√ß√£o no n√∫mero de transa√ß√µes ao longo do tempo? Em quais estados isso √© mais evidente?

* No gr√°fico √© poss√≠vel notar que as transa√ß√µes ao longo do tempo mantiveram-se na casa das 400 transa√ß√µes, para ser mais exato possui uma m√©dia de 419.40, logo ao √≠nicio do ano de 2025, teve uma queda 
brusca.

* Para ver quais estados isso √© mais evidente iremos calcular a varia√ß√£o percentual. Iremos calcular o crescimento relativo ou diminui√ß√£o relativa de um valor em compara√ß√£o com um per√≠odo anterior.

Iremos usar a formula:

$$

\text{Varia√ß√£o Percentual} = \left( \frac{\text{Valor de 2024} - \text{Valor de 2023}}{\text{Valor de 2023}} \right) \times 100

$$



* Foi decido usar os anos 2023 e 2024 porque possuem os meses completos em compara√ß√£o a 2025, que se s√≥ possui janeiro e fevereiro. Para os c√°lculos ficarem mais acertiveis, ires fazer apenas com esses dois anos.

* ano de 2023 vai ser o valor de refer√™ncia - ano anterior que est√° sendo comparado com o valor atual que no caso iremos usar o de 2024.

* A varia√ß√£o vai ser divida por 2023 porque dividr pela quantidade de transa√ß√µes de 2023 d√° uma medida relativa de quanto o valor de 2024 √© maior ou menor em rela√ß√£o a 2023. Sem essa divis√£o, a varia√ß√£o seria apenas uma diferen√ßa absoluta, sem contexto de como isso se compara com o total de 2023

* Estados com maior varia√ß√£o positiva indicam um **aumento** substancial nas transa√ß√µes.

* Estados com maior varua√ß√£o negativa indicam uma **diminui√ß√£o** substancial nas transa√ß√µes


In [331]:
transacoes_por_estado = dados.groupby(['estado', 'data']).size().reset_index(name='quantidade_transacoes')
transacoes_por_estado['ano'] = transacoes_por_estado['data'].dt.year

total_transacoes_por_estado_ano = transacoes_por_estado.groupby(['estado', 'ano'])['quantidade_transacoes'].sum().reset_index()

# Filtrando os dados para os anos de 2023 e 2024
dados_2023_2024 = total_transacoes_por_estado_ano[total_transacoes_por_estado_ano['ano'].isin([2023, 2024])]

dados_pivotados = dados_2023_2024.pivot(index='estado', columns='ano', values='quantidade_transacoes').reset_index()
dados_pivotados['diferenca_percentual'] = ((dados_pivotados[2024] - dados_pivotados[2023]) / dados_pivotados[2023]) * 100

# Ordenando os estados pela varia√ß√£o percentual
dados_pivotados = dados_pivotados.sort_values('diferenca_percentual', ascending=False)

fig = px.bar(dados_pivotados,
             x='estado',
             y='diferenca_percentual',
             title='Varia√ß√£o Percentual das Transa√ß√µes entre 2023 e 2024 por Estado',
             labels={'diferenca_percentual': 'Varia√ß√£o Percentual (%)', 'estado': 'Estado'},
             color='diferenca_percentual',
             color_continuous_scale='RdYlGn',
             text=dados_pivotados['diferenca_percentual'].round(2),  # Adiciona o texto com a varia√ß√£o
             category_orders={'estado': dados_pivotados['estado'].tolist()})


# Ajustando a posi√ß√£o dos textos
fig.update_traces(texttemplate='%{text:.2f}%', textposition='outside')

# Ajustando o layout para melhorar a visualiza√ß√£o
fig.update_layout(
    xaxis_title='Estado',
    yaxis_title='Varia√ß√£o Percentual das Transa√ß√µes',
    title_x=0.5,
    plot_bgcolor='white',
    font=dict(size=12),
    xaxis={'categoryorder': 'total descending'}
)
fig.show()

### Notas

### **Cear√° teve uma varia√ß√£o percentual superior aos outros estados**

O estado do Cear√° teve uma varia√ß√£o positiva e de maior magnitude em rela√ß√£o aos outros estados. Al√©m disso, na p√°gina "Sinduscon CE" com o t√≠tulo "Recorde hist√≥rico: Mercado Imobili√°rio de Forteza e Regi√£o Metropolitana alcan√ßa Valor geral de Vendas de R$ 8.5 bilhoes em 2024"

O mercado imobili√°rio do Cear√° aprensetou um crescimento significativo entre 2023 e 2024. Em 2024, o Valor Geral de Vendas (VGV) em Fortaleza e Regi√£o Metropolitana atingiu R$ 8.5 bilh√µes, representando um aumento de 23% em rela√ß√£o a 2023. Al√©m disso, o volume de financiamentos imobili√°rios com recursos da poupan√ßa alcan√ßou R$ 3.7 bilh√µes em 2024, o maior dos √∫ltimos cinco anos, refletindo um aumento de 84,3% desde 2020.

Fatorias que favorecem esse crescimento expressivo:

* **Demanda por Segunda Moradia**: Houve aumento de 50% na procura por im√≥veis destinados a segunda resid√™ncia, especialmente em √°reas litor√¢neas como Meireles e Praia de Iracema.

Fonte: https://investindoporai.com.br/mercado-imobiliario-do-ceara-experimenta-expansao-com-segunda-moradia-e-superpredios

*  **Programas Habitacionais**: Iniciativas como o "Minha Casa, Minha Vida" impulsionaram o setor, facilitando o acesso √† moradia e estimulando o mercado

Fonte: https://investindoporai.com.br/mercado-imobiliario-cearense-atinge-numeros-recordes-em-2024-e-projeta-crescimento-para-2025

* **Aumento nos Lan√ßamentos Imobili√°rios**: Fortaleza registrou um aumento de 233% nos lan√ßamentos imobili√°rios no primeiro trimestre de 2024 em compara√ß√£o ao mesmo per√≠odo do ano anterior, indicando confian√ßa dos incorporadores no mercado

Fonte: https://cbic.org.br/mercado-imobiliario-de-fortaleza-e-regiao-metropolitana-registra-melhor-trimestre-em-9-anos

----------------------------

### **Espirito Santo, Minas Gerais e Parana apresentam queda em transferencias imobiliarias**

A diminui√ß√£o nas transa√ß√µes imobili√°rias nos estados do Esp√≠rito Santo (ES), Minas Gerais (MG) e Paran√° (PR) pode ser atribu√≠da a diversos fatores econ√¥micos. Foi feito uma pesquisa para buscar causas que poderiam provocar esses acontecimentos

* **Aumento nos Pre√ßos dos Im√≥veis**: Em Vit√≥ria, capital do Esp√≠rito Santo, os pre√ßos dos im√≥veis registraram um aumento de 12,51% em 2024, atingindo R$ 12.287 por metro quadrado. Esse crescimento √© atribu√≠do √† escassez de terrenos dispon√≠veis para constru√ß√£o e √† busca por qualidade de vida, fatores que podem ter elevado os pre√ßos e, consequentemente, reduzido a demanda por im√≥veis.

Fonte: https://g1.globo.com/es/espirito-santo/noticia/2025/01/08/vitoria-e-a-capital-com-o-metro-quadrado-mais-caro-do-brasil-entenda-os-motivos.ghtml

* **Taxa de Desocupa√ß√£o e Desemprego**: Embora a redu√ß√£o na taxa de desocupa√ß√£o seja geralmente positiva, uma diminui√ß√£o significativa pode indicar uma escassez de m√£o de obra dispon√≠vel, afetando a constru√ß√£o civil e, por consequ√™ncia, o mercado imobili√°rio. No **Paran√°** e em **Minas Gerais**, houve recuos na taxa de desocupa√ß√£o o que pode ter impactado o setor

Fonte: https://g1.globo.com/es/espirito-santo/noticia/2025/01/08/vitoria-e-a-capital-com-o-metro-quadrado-mais-caro-do-brasil-entenda-os-motivos.ghtml



# 4 - Gere um gr√°fico de s√©rie temporal mostrando a evolu√ß√£o das transa√ß√µes ao longo dos meses

In [332]:
transacoes_por_data = dados.groupby('mes').size().reset_index(name='quantidade_transacoes')

# Calcular a m√©dia das transa√ß√µes
media_transacoes = transacoes_por_data['quantidade_transacoes'].mean()

# Criando o gr√°fico de linha
fig = px.line(transacoes_por_data, x='mes', y='quantidade_transacoes',
              title='Distribui√ß√£o de Transa√ß√µes por M√™s',
              labels={'quantidade_transacoes': 'N√∫mero de Transa√ß√µes', 'mes': 'M√™s'},
              markers=True)

# Adicionando a linha de m√©dia
fig.add_hline(y=media_transacoes, line=dict(color='red', dash='dash'),
              annotation_text=f'M√©dia: {media_transacoes:.2f}',
              annotation_position="bottom right", annotation_font_size=12)

# Formatando o eixo X para mostrar apenas o m√™s
fig.update_layout(xaxis=dict(tickmode='array', tickvals=transacoes_por_data['mes'], ticktext=[
                    'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']),
                  xaxis_title="M√™s",
                  yaxis_title="N√∫mero de Transa√ß√µes",
                  title_x=0.5,  # Centralizando o t√≠tulo
                  title_font=dict(size=16, family="Arial", color="black"))
fig.show()

A an√°lise aponta para uma tend√™ncia de crescimento no mercado imobili√°rio entre os meses de fevereiro e maio, com um pico de transa√ß√µes not√°vel em maio. Uma poss√≠vel explica√ß√£o para esse aumento pode estar relacionada a promo√ß√µes de in√≠cio de ano, como ofertas especiais e condi√ß√µes facilitadas que s√£o comuns nesse per√≠odo. Al√©m disso, durante o m√™s de fevereiro, h√° feriados que podem resultar em descontos ou condi√ß√µes atrativas para a compra de im√≥veis, o que acaba incentivando uma maior atividade nesse intervalo.

No entanto, essa tend√™ncia pode mudar √† medida que o ano avan√ßa. Nos meses finais, especialmente novembro e dezembro, observa-se uma diminui√ß√£o na procura, uma vez que muitas pessoas se preparam para viagens, festas de fim de ano ou momentos em fam√≠lia, o que acaba desviando a aten√ß√£o dos neg√≥cios imobili√°rios. Como resultado, muitos deixam decis√µes de compra ou venda para o ano seguinte, visando um novo planejamento ou retomada das atividades ap√≥s o per√≠odo de festas.

Esses padr√µes de comportamento no mercado podem ser influenciados tanto pela sazonalidade quanto pelos aspectos culturais e sociais, refletindo um comportamento mais comum de compra e venda em momentos espec√≠ficos do ano.

# 5 - Proponha uma segmenta√ß√£o dos cart√≥rios com base nos crit√©rios que achar relevante.

Utilizaremos o KMEANS para o processo de clusteriza√ß√£o para podemos fazer a segmenta√ß√£o dos cart√≥rios

**Clusteriza√ß√£o**: √© a tarefa de identificar inst√¢ncias semelhantes e atribu√≠las a cluster, ou grupos de inst√¢ncias semelhantes. Assim como classifica√ß√£o, cada inst√¢ncia √© atribu√≠da a um grupo. No entanto, diferentemente da classifica√ß√£o, a clusteriza√ß√£o √© uma tarefa n√£o supervisionada.

**Kmeans**: √â um algoritmo de aprendizado de m√°quina do tipo n√£o supervisionado utilizado para clusteriza√ß√£o. Ele agrupa os dados em K clusters com base na similaridade entre os pontos, minimizando a soma das dist√¢ncia quadradas entre os pontos e o centro do cluster.

Ele funciona da seguinte maneira:

1 - Escolha do n√∫mero de cluster (K)

* Definimos quantos clusters deseja formar.

2 - Inicializa√ß√£o dos centroides

* S√£o escolhidos K pontos aleat√≥rios para serem os centroides iniciais dos clusters.

3 - Atribui√ß√£o dos pontos aos clusters

* Cada ponto do dataset √© atribu√≠do ao cluster cujo centroide est√° mais pr√≥ximo (com base na dist√¢ncia Euclidiana)

4 - Recalculo dos centroides

* O centroide de cada cluster √© atualizado com base na m√©dia dos pontos pertencentes a ele.

5 - Repeti√ß√£o at√© a converg√™ncia

* Os passos 3 e 4 s√£o repetidos at√© que os centroides n√£o mudem mais (ou at√© atingir um n√∫mero m√°ximo de itera√ß√µes)


Segmenta√ß√£o Abordada

Ser√° feito uma segmenta√ß√£o do tamanho do im√≥vel por tipo do im√≥vel.

**Identifica√ß√£o de Padr√µes de Distribui√ß√£o**: Ao segmentar o tamanho do im√≥vel por tipo, pode-se identificar padr√µes ou tend√™ncias relacionadas ao tipo de im√≥vel.


In [333]:
dados_testar = dados.copy()

In [334]:
# Convertendo as vari√°veis categ√≥ricas (estado, cidade) para vari√°veis num√©ricas
dados_convertidos = pd.get_dummies(dados_testar, columns= ['estado', 'cidade'])

In [335]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Normalizando os dados
scaler = StandardScaler()
dados_scaled = scaler.fit_transform(dados[['tamanho_imovel']])

In [336]:
dados_cluster = dados.copy()

In [337]:
dados_cluster

Unnamed: 0,id_cartorio,texto,estado,cidade,data,ano,mes,tamanho_imovel,tipo_transferencia,tipo_imovel,regiao
0,193,Processo Usucapi√£o Extrajudicial Apartamento 1...,PI,Picos,2023-08-01,2023,8,121,Usucapi√£o Extrajudicial,apartamento,Nordeste
1,276,Processo Usucapi√£o Extrajudicial Terreno Rural...,MA,S√£o Lu√≠s,2023-11-01,2023,11,35049,Usucapi√£o Extrajudicial,terreno rural,Nordeste
2,70,Processo Usucapi√£o Extrajudicial Terreno Rural...,SC,Blumenau,2024-02-01,2024,2,28034,Usucapi√£o Extrajudicial,terreno rural,Sul
3,277,Casa 291 m¬≤ transferido Ana Beatriz Rocha 8910...,CE,Fortaleza,2024-04-01,2024,4,291,Usucapi√£o Extrajudicial,casa,Nordeste
4,166,Processo Compra Venda Casa 153 m¬≤ passou Ramos...,RJ,Niter√≥i,2024-10-01,2024,10,153,Compra e Venda,casa,Sudeste
...,...,...,...,...,...,...,...,...,...,...,...
10412,114,Processo Recupera√ß√£o Cr√©dito Casa 277 m¬≤ passo...,PR,Curitiba,2024-10-01,2024,10,277,Recupera√ß√£o de Cr√©dito,casa,Sul
10413,314,Apartamento 204 m¬≤ transferido Ryan Novaes 146...,MG,Uberl√¢ndia,2023-03-01,2023,3,204,Usucapi√£o Extrajudicial,apartamento,Sudeste
10414,234,Terreno Rural 43156 m¬≤ transferido Mendon√ßa 73...,CE,Sobral,2024-11-01,2024,11,43156,Recupera√ß√£o de Cr√©dito,terreno rural,Nordeste
10415,72,Apartamento 204 m¬≤ transferido Cirino Filhos 7...,SP,Campinas,2024-08-01,2024,8,204,Compra e Venda,apartamento,Sudeste


Pr√© - processamento de dados categ√≥ricos e num√©ricos

* Iremos fazer a transforma√ß√£o nas vari√°veis categ√≥ricas para transformalas em num√©ricos, porque nenhum modelo de aprendizado de m√°quina espera receber dados em formato de texto, iremos aplicar o LabelEncoder para fazer essa transforma√ß√£o.

In [338]:
dados_cluster = dados.copy()
dados_cluster.head(3)

Unnamed: 0,id_cartorio,texto,estado,cidade,data,ano,mes,tamanho_imovel,tipo_transferencia,tipo_imovel,regiao
0,193,Processo Usucapi√£o Extrajudicial Apartamento 1...,PI,Picos,2023-08-01,2023,8,121,Usucapi√£o Extrajudicial,apartamento,Nordeste
1,276,Processo Usucapi√£o Extrajudicial Terreno Rural...,MA,S√£o Lu√≠s,2023-11-01,2023,11,35049,Usucapi√£o Extrajudicial,terreno rural,Nordeste
2,70,Processo Usucapi√£o Extrajudicial Terreno Rural...,SC,Blumenau,2024-02-01,2024,2,28034,Usucapi√£o Extrajudicial,terreno rural,Sul


In [339]:
encoder = LabelEncoder()

dados_cluster['estado'] = encoder.fit_transform(dados['estado'])
dados_cluster['cidade'] = encoder.fit_transform(dados['cidade'])
dados_cluster['tipo_transferencia'] = encoder.fit_transform(dados['tipo_transferencia'])
dados_cluster['tipo_imovel'] = encoder.fit_transform(dados['tipo_imovel'])
dados_cluster['regiao'] = encoder.fit_transform(dados['regiao'])

**Normaliza√ß√£o utilizando Logaritmo**

A normaliza√ß√£o utilizando o logaritmo √© uma t√©cnica usada para transformar dados com distribui√ß√µes assim√©tricas ou com grande variabilidade em uma escala mais controlada. Essa transforma√ß√£o √© √∫til quando os dados apresentam valores extremos ou outliers, como √© o caso de terrenos rurais, que podem ter valores muito altos.

**Transforma√ß√£o Logar√≠tmica**

Ao aplicar o logaritmo aos dados, voc√™ reduz a magnitude das diferen√ßas entre os valores, tornando a distribui√ß√£o mais pr√≥xima de uma distribui√ß√£o normal. A transforma√ß√£o logar√≠tmica pode ser dada pela seguinte f√≥rmula:

$$
X_{\text{log}} = \log(X)
$$

Onde:
- **X** √© o valor original da vari√°vel.
- **X_log** √© o valor da vari√°vel ap√≥s a transforma√ß√£o logar√≠tmica.

Caracter√≠sticas da Transforma√ß√£o Logar√≠tmica

1. **Redu√ß√£o da variabilidade**: Ao aplicar o logaritmo, os valores mais altos s√£o comprimidos, reduzindo a varia√ß√£o entre os dados extremos.
2. **Manejo de outliers**: Valores muito altos (outliers) s√£o reduzidos, ajudando a melhorar a an√°lise de dados com grande dispers√£o.
3. **Distribui√ß√£o mais pr√≥xima da normal**: Muitos algoritmos de machine learning funcionam melhor quando os dados t√™m uma distribui√ß√£o mais sim√©trica, e o logaritmo pode ajudar a atingir isso.

In [340]:
# Normalizando a coluna do tamanho de imoveis
dados_cluster['tamanho_imovel'] = np.log1p((dados_cluster[['tamanho_imovel']]))

In [341]:
# Removendo a coluna de texto
dados_cluster = dados_cluster.drop('texto', axis = 1)

In [342]:
#Removendo a coluna de data
dados_cluster = dados_cluster.drop('data', axis =1)

In [343]:
dados_cluster.head(3)

Unnamed: 0,id_cartorio,estado,cidade,ano,mes,tamanho_imovel,tipo_transferencia,tipo_imovel,regiao
0,193,16,53,2023,8,4.804021,2,0,1
1,276,9,69,2023,11,10.464531,2,2,1
2,70,23,8,2024,2,10.241209,2,2,4


**M√©todo Elbow**

* Chamada tamb√©m de m√©todo do cotolevo, √© uma t√©cnica usada para determinar o n√∫mero ideal de clusters ao aplicar o algoritmo kmeans ou qualquer outro algoritmo de agrupamento.

* Ele √© baseado na an√°lise da in√©rcia do modelo kmeans, ou tamb√©m chamado de Soma dos Erros Quadr√°ticos Dentro do Cluster, essa in√©rcia √© a soma dos quadrados das dist√¢ncias entre cada ponto e o centroide de seu respectivo cluster. Ele mede qu√£o bem os dados s√£o agrupados dentro dos clusters. Quanto menor a in√©rcia, melhor a qualidade do agrupamento

* Nesse caso, o melhor ponto foi entre 3 e 4, optaremos por usar o k = 3

In [None]:
# Pegaremos 2 vari√°veis para essa segmentacao 
x = dados_cluster[['tamanho_imovel', 'regiao']].copy()

`'k-means++'` √© uma t√©cnica de inicializa√ß√£o para o algoritmo K-Means.
- Melhora a escolha dos centr√≥ides iniciais, evitando que fiquem muito pr√≥ximos.
- Ajuda a acelerar a converg√™ncia e melhora a qualidade da solu√ß√£o.

**Como funciona:**
1. O primeiro centr√≥ide √© escolhido aleatoriamente.
2. Os pr√≥ximos centr√≥ides s√£o escolhidos com maior probabilidade de estarem distantes dos anteriores.


Vamos usar ele porque

Escolha inteligente dos centr√≥ides: Melhora a inicializa√ß√£o ao escolher centr√≥ides mais distantes, evitando solu√ß√µes ruins.

Melhor converg√™ncia: Reduz o n√∫mero de itera√ß√µes necess√°rias para o algoritmo convergir.

Evita resultados inconsistentes: A inicializa√ß√£o aleat√≥ria pode gerar diferentes resultados em execu√ß√µes repetidas, mas o 'k-means++' minimiza esse risco.

In [None]:
inertia = []
K_range = range(1, 11)
for k in K_range:
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)
    kmeans.fit(dados_cluster[['tamanho_imovel', 'tipo_imovel']])
    inertia.append(kmeans.inertia_)

# Criando o gr√°fico com Plotly
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=list(K_range),
    y=inertia,
    mode='lines+markers',
    name='In√©rcia',
    marker=dict(size=10, color='blue'),
    line=dict(color='blue', width=2)
))

# Adicionando t√≠tulo e r√≥tulos
fig.update_layout(
    title='M√©todo do Cotovelo',
    xaxis_title='N√∫mero de Clusters',
    yaxis_title='In√©rcia',
    template='plotly_white'  # Altere para 'plotly_white' ou remova essa linha
)

# Exibindo o gr√°fico
fig.show()

Utilizaremos a m√©trica Silhouette Score para avaliar a qualidade do agrupamento. Ele mede o qu√£o bem cada ponto de dados se encaixa em seu pr√≥prio cluster em compara√ß√£o com outros clusters.

O valor do Silhouette Score varia de -1 a +1:

- +1: O ponto est√° muito bem agrupado (fortemente associado ao seu pr√≥prio cluster e bem distante dos outros clusters).
-  0: O ponto est√° entre dois clusters e n√£o pertence claramente a nenhum deles.
- -1: O ponto foi mal agrupado (muito mais pr√≥ximo de outro cluster do que do seu pr√≥prio).

In [None]:

kmeans = KMeans(n_clusters=3, init='k-means++', random_state=42)
dados_cluster['Cluster'] = kmeans.fit_predict(dados_cluster[['tamanho_imovel', 'tipo_imovel']])

# Verificando o Silhouette Score
score = silhouette_score(dados_cluster[['tamanho_imovel', 'tipo_imovel']], dados_cluster['Cluster'])
print(f"Silhouette Score: {score}")

Silhouette Score: 0.7390076503419519


In [347]:
fig = px.scatter(dados_cluster, x='tamanho_imovel', y='tipo_imovel', color=dados_cluster['Cluster'].astype(str),
                 title='Segmenta√ß√£o por Tamanho do Im√≥vel e Tipo de Im√≥vel',
                 labels={'Cluster': 'Grupo'},
                 hover_data=['tamanho_imovel', 'tipo_imovel'])

fig.show()

In [348]:
dados['cluster'] = kmeans.fit_predict(dados_cluster[['tamanho_imovel', 'tipo_imovel']])

In [349]:
dados.head()

Unnamed: 0,id_cartorio,texto,estado,cidade,data,ano,mes,tamanho_imovel,tipo_transferencia,tipo_imovel,regiao,cluster
0,193,Processo Usucapi√£o Extrajudicial Apartamento 1...,PI,Picos,2023-08-01,2023,8,121,Usucapi√£o Extrajudicial,apartamento,Nordeste,0
1,276,Processo Usucapi√£o Extrajudicial Terreno Rural...,MA,S√£o Lu√≠s,2023-11-01,2023,11,35049,Usucapi√£o Extrajudicial,terreno rural,Nordeste,1
2,70,Processo Usucapi√£o Extrajudicial Terreno Rural...,SC,Blumenau,2024-02-01,2024,2,28034,Usucapi√£o Extrajudicial,terreno rural,Sul,1
3,277,Casa 291 m¬≤ transferido Ana Beatriz Rocha 8910...,CE,Fortaleza,2024-04-01,2024,4,291,Usucapi√£o Extrajudicial,casa,Nordeste,0
4,166,Processo Compra Venda Casa 153 m¬≤ passou Ramos...,RJ,Niter√≥i,2024-10-01,2024,10,153,Compra e Venda,casa,Sudeste,0


Analisando os resultados do clustering, observa-se que as categorias de clusters 1 e 2 foram completamente dominadas por im√≥veis do tipo "terreno rural", enquanto o cluster 0 apresenta apenas uma pequena propor√ß√£o desse tipo de im√≥vel. Al√©m disso, o cluster 0 √© mais heterog√™neo, dividindo o espa√ßo entre im√≥veis de "apartamento" e "casa".

In [350]:
tipo_imovel_cluster = dados.groupby('cluster')['tipo_imovel'].value_counts(normalize=True).unstack()

# Criar um gr√°fico de barras empilhadas para visualizar
fig = px.bar(tipo_imovel_cluster,
             title="Distribui√ß√£o dos Tipos de Im√≥vel por Cluster",
             labels={'value': 'Propor√ß√£o', 'Cluster': 'Cluster'},
             barmode='stack')

fig.show()

In [351]:
# Agrupar os dados por 'cluster' e 'regiao' e contar as ocorr√™ncias
cluster_por_regiao = dados.groupby(['cluster', 'regiao']).size().reset_index(name='count')
cluster_por_regiao = cluster_por_regiao.sort_values(by = ['cluster', 'count'], ascending= False)
cluster_por_regiao

Unnamed: 0,cluster,regiao,count
11,2,Nordeste,287
12,2,Norte,226
13,2,Sudeste,110
10,2,Centro-Oeste,103
14,2,Sul,97
6,1,Nordeste,860
7,1,Norte,759
8,1,Sudeste,360
5,1,Centro-Oeste,320
9,1,Sul,308


- O gr√°fico de barras mostra que h√° uma predomin√¢ncia de terrenos rurais (verde) nos clusters 0 e 1, enquanto apartamentos (azul) e casas (vermelho) aparecem majoritariamente no primeiro cluster.

## **Distribui√ß√£o Regional dos Clusters**

- O **cluster 0** tem uma forte presen√ßa nas regi√µes:
  - **Nordeste** (2194 registros)
  - **Norte** (2015 registros)
  - **Sudeste** (1056 registros)
  - **Centro-Oeste** (881 registros)
  - **Sul** (841 registros)

  Isso sugere que o cluster 0 pode representar uma regi√£o espec√≠fica ou um perfil de im√≥veis mais comum nessas √°reas.

- O **cluster 1** se distribui principalmente entre as regi√µes:
  - **Nordeste** (860 registros)
  - **Norte** (759 registros)
  - **Sudeste** (360 registros)
  - **Centro-Oeste** (320 registros)
  - **Sul** (308 registros)

  Isso pode indicar um padr√£o de mercado diferenciado nessas regi√µes.

- O **cluster 2** √© mais frequente nas regi√µes:
  - **Nordeste** (287 registros)
  - **Norte** (226 registros)
  - **Sudeste** (110 registros)
  - **Centro-Oeste** (103 registros)
  - **Sul** (97 registros)

  Isso pode indicar um segmento de mercado ou faixa de pre√ßo espec√≠fica.



### Analisando cada cluster

- Cluster 0

* M√©dia 174.64 metros quadrados - Im√≥veis pequenos em geral.
* M√≠nimo/M√°ximo: De 5 at√© 300 metros quadrados, mostrando uma grande varia√ß√£o.
* 1¬∞ Quartil (112) e 3¬∞ Quartil (237): Mostra que 75% dos im√≥veis t√™m no m√°ximo 237 metros quadrados

- Cluster 1

* M√©dia: 31305.21 metros quadrados - Im√≥veis maiores que os do cluster 0
* Desvio Padr√£o: 10784.93 - H√° uma varia√ß√£o alta nos tamanhos.
* M√≠nimo/M√°ximo: De 12753.0 a 49921.0 metros quadrados, ou seja, **n√£o h√° im√≥veis pequenos** nesse cluster
* Distribui√ß√£o: Como a mediana (31322.0) √© pr√≥xima da m√©dia, a distribui√ß√£a para mais sim√©trica

- Cluster 2

* M√©dia: 6659.160 metros quadrados
* Desvio Pad√£o: 3356.41	- Possui alta varia√ß√£o.
* M√≠nimo/M√°ximo: De 1002 at√© 12720 metros quadrados
* Distribui√ß√£o: A mediana (6575.0 metros quadrados)


Cluster 0: Este cluster √© predominantemente composto por im√≥veis de tamanho pequeno a m√©dio, com uma m√©dia de 174.64 metros quadrados. A varia√ß√£o de tamanho √© significativa, indo de 5 a 300 metros quadrados, mas 75% dos im√≥veis t√™m no m√°ximo 237 metros quadrados, o que sugere uma concentra√ß√£o de im√≥veis menores. Esse cluster parece englobar im√≥veis comuns em v√°rias regi√µes, com uma forte presen√ßa no Nordeste e Norte.

Cluster 1: Im√≥veis neste cluster t√™m um tamanho m√©dio muito maior, com uma m√©dia de 31,305 metros quadrados. A faixa de tamanho vai de 12,753 a 49,921 metros quadrados, indicando que s√£o im√≥veis grandes ou terrenos rurais. A distribui√ß√£o desses im√≥veis √© mais concentrada nas regi√µes Nordeste e Norte, e o perfil sugere que s√£o im√≥veis de alto valor ou espec√≠ficos de determinadas localiza√ß√µes ou segmentos de mercado.

Cluster 2: Este cluster inclui im√≥veis de tamanho m√©dio, com uma m√©dia de 6,659 metros quadrados. A varia√ß√£o de tamanho vai de 1,002 a 12,720 metros quadrados, com uma mediana de 6,575 metros quadrados, indicando que a distribui√ß√£o √© mais equilibrada. Esse cluster parece representar im√≥veis com um perfil intermedi√°rio, tanto em termos de tamanho quanto de valor, e est√° mais concentrado em regi√µes menores como o Sudeste e o Centro-Oeste.

In [352]:
dados.groupby("cluster")["tamanho_imovel"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,6987.0,174.646629,72.652797,5.0,112.0,175.0,237.0,300.0
1,2607.0,31305.314921,10784.931929,12753.0,21835.0,31322.0,40666.0,49921.0
2,823.0,6659.160389,3356.412731,1002.0,3824.0,6575.0,9498.0,12720.0


# 6 - Existe alguma rela√ß√£o entre a quantidade de transa√ß√µes e a regi√£o geogr√°fica do Brasil?

In [355]:
transacoes_por_regiao = dados.groupby("regiao").size().reset_index(name = 'transacoes')
transacoes_por_regiao = transacoes_por_regiao.sort_values(by = 'transacoes', ascending= False)
print(transacoes_por_regiao)

         regiao  transacoes
1      Nordeste        3341
2         Norte        3000
3       Sudeste        1526
0  Centro-Oeste        1304
4           Sul        1246


In [356]:
# Gr√°fico de barras
fig = px.bar(transacoes_por_regiao, x="regiao", y="transacoes",
             title="Quantidade de Transa√ß√µes por Regi√£o", text_auto=True)
fig.show()


# Criando o gr√°fico de linhas
transacoes_por_mes_regiao = dados.groupby([dados['data'], 'regiao']).size().reset_index(name='transacoes')
fig = px.line(transacoes_por_mes_regiao,
              x='data',
              y='transacoes',
              color='regiao',
              title="Tend√™ncia de Transa√ß√µes por Regi√£o ao Longo do Tempo",
              labels={'data': 'Data', 'transacoes': 'Quantidade de Transa√ß√µes'},
              markers=True)

# Exibindo o gr√°fico
fig.show()

### Notas:

**Nordeste lidera nas transa√ß√µes imobiliarias**
Os dois gr√°ficos mostram que a regi√£o do Nordeste possui uma quantidade de transa√ß√µes maiores que os das outras regi√µes. De acordo com o site "SBR empreendimentos" - na sua mat√©ria com o t√≠tulo "O mercado mobili√°rio das capitais nodestinas est√° em plena ascens√£o" - O mercado imobili√°rio das capitais nordestinas continua a demonstrar sua for√ßa e resili√™ncia, registrando n√∫meros expressivos no primeiro trimestre de 2024. A regi√£o movimentou mais de R$ 6,6 bilh√µes, refletindo um crescimento de 6% no Valor Geral de Vendas (VGV) em compara√ß√£o com o mesmo per√≠odo do ano anterior. Esse desempenho robusto √© um indicativo claro de que o setor est√° em franca expans√£o, atraindo cada vez mais investidores e compradores em busca de oportunidades s√≥lidas e rent√°veis. Investidores est√£o de olho na valoriza√ß√£o cont√≠nua dos im√≥veis, impulsionada tanto pela demanda local quanto pelo interesse de pessoas de outras regi√µes do Brasil e do exterior. As capitais nordestinas oferecem um mix atrativo de oportunidades, que v√£o desde empreendimentos residenciais de alto padr√£o at√© op√ß√µes mais acess√≠veis, como as oferecidas pelo programa Minha Casa, Minha Vida."

Link da mat√©ria: https://sbrempreendimentos.com.br/o-mercado-imobiliario-das-capitais-nordestinas-esta-em-plena-ascensao/

fonte: Ademi-BA

Outra fonte interessante, dessa vez do site  "Movimento Econ√¥mico" - 15/02/2025 na sua mat√©ria com o t√≠tulo "Mercado de im√≥veis de luxo cresce 85% em dois anos no Nordeste"
O mercado de im√≥veis de luxo no Nordeste cresceu 85% nos √∫ltimos dois anos, destacando-se como um setor em ascens√£o. Em 2024, foram lan√ßadas 1.143 unidades no segmento de luxo e superluxo, representando 3% das vendas da regi√£o, mas correspondendo a 25% do valor total das transa√ß√µes imobili√°rias. Os dados s√£o da Brain Intelig√™ncia Estrat√©gica.

Link da mat√©ria: https://movimentoeconomico.com.br/estados/2025/02/15/mercado-de-imoveis-de-luxo-cresce-85-em-dois-anos-no-nordeste/

fonte: BRAIN | ELABORA√á√ÇO: BRAIN



**Sudeste - Centro Oeste - Sul com um pouco mais que a metade das transa√ß√µes do Norte e Nordeste**

√â not√≥rio perceber que essas tr√™s regi√µes apresentaram baixas transa√ß√µes imobiliarias, de acordo com o portal "imoveis.estadao.com.br"  19/09/2023 com a mat√©ria de "Sudeste registra queda em lan√ßamentos e vendas de im√≥veis no √∫ltimo trimestre" - "Esoecialistas aponta para efeitos da alta taxa de juros, n√≠vel de desemprego e turbul√™ncia pol√≠tica" "O mercado imobili√°rio do Sudeste n√£o vive um momento t√£o positivo em 2023. De acordo com um levantamento da Brain Intelig√™ncia Estrat√©gica, o setor registrou queda no n√∫mero de lan√ßamentos (-18%), vendas (-1,5%) e oferta final (-5,1%) na compara√ß√£o do √∫ltimo trimestre deste ano com o mesmo per√≠odo do ano passado. "Quando se analisa o primeiro semestre deste ano e o primeiro semestre de 2022, a queda permanece consider√°vel. A redu√ß√£o no n√∫mero de lan√ßamentos foi de 16,7%, do n√∫mero de vendas foi de 2,4% e a queda na oferta final tamb√©m foi de 5,1%. ‚ÄúA redu√ß√£o de lan√ßamentos justifica-se em especial por um primeiro trimestre fraco‚Äù, explica F√°bio Tadeu Ara√∫jo, CEO da Brain Intelig√™ncia Estrat√©gica.

‚ÄúIsso aconteceu por dois motivos: a economia, impulsionada pela elevada taxa de juros, n√≠vel de desemprego e um n√≠vel de renda baixo; e a incerteza pol√≠tica, simbolizada pela mudan√ßa de governo‚Äù, justifica. Na vis√£o dele, o primeiro trimestre do ano √© marcado pela indecis√£o de empreendedores e incorporadores e o adiamento dos lan√ßamentos para o segundo trimestre ou para o final do trimestre."

link da mat√©ria: https://imoveis.estadao.com.br/compra/sudeste-registra-queda-em-lancamentos-e-vendas-de-imoveis-no-ultimo-trimestre/

fonte: Levantamento Mercado Imobili√°rio da Regi√£o Sudeste/ Brain Intelig√™ncia Estrat√©gica


### Considera√ß√µes Finais

Este projeto foi um grande desafio desde o in√≠cio. Comecei lidando com a extra√ß√£o de dados de uma coluna de texto, algo que exigiu paci√™ncia e aten√ß√£o aos detalhes. Al√©m disso, fui capaz de entender um pouco mais sobre o funcionamento do mercado imobili√°rio, algo que n√£o conhecia profundamente antes.

Outro ponto desafiador foi a coluna referente ao "tamanho do im√≥vel", que apresentava uma grande varia√ß√£o nos valores. Esses dados n√£o eram necessariamente outliers, mas a falta de normaliza√ß√£o acabou tornando a an√°lise mais complexa. A pesquisa que fiz sobre o setor me abriu os olhos para a realidade do mercado, especialmente no nordeste, onde pude aprender sobre o crescimento das imobili√°rias e a valoriza√ß√£o do setor.

Ao longo deste processo, me dediquei ao m√°ximo e dei o melhor de mim. Foi uma experi√™ncia muito enriquecedora, tanto do ponto de vista t√©cnico quanto do conhecimento do mercado. Estou muito grato pela oportunidade de mostrar minhas habilidades, aprender mais sobre esse ramo e tamb√©m conhecer mais sobre a empresa e suas opera√ß√µes.

Espero que o meu trabalho tenha sido do seu agrado e que tenha agregado valor. Agrade√ßo pela oportunidade de participar deste projeto.