# Relatório do Projeto de Análise e Previsão de Compra de Casas

## Introdução

Neste projeto, foi realizada uma análise de dados de um site imobiliário com o objetivo de prever se um usuário comprará uma casa com base em suas interações no site e características pessoais. A variável alvo é "Compra (0 ou 1)", onde "1" indica que o usuário comprou a casa e "0" indica que não comprou. O modelo foi desenvolvido utilizando várias técnicas de aprendizado de máquina, como Regressão Logística, Árvore de Decisão, Random Forest e Gradient Boosting.

## Etapas do Projeto

### 1. Importação de Bibliotecas

Foram importadas as bibliotecas necessárias para o processamento de dados e construção dos modelos. As principais bibliotecas utilizadas foram:

- `pandas` e `numpy` para manipulação de dados.
- `matplotlib` para visualização.
- `sklearn` para construção de modelos e avaliação.
- `imblearn` para balanceamento das classes.

### 2. Carregamento e Preparação dos Dados

O dataset foi carregado e passaram por um processo de pré-processamento para tratar valores ausentes e garantir que os dados estivessem prontos para o treinamento dos modelos. As principais etapas incluem:

- Substituição de valores ausentes nas colunas "Idade", "Renda Anual (em $)", "Gênero" e "Anúncio Clicado".
- Substituição de valores negativos na coluna "Tempo no Site (min)" por valores nulos, seguidos pela substituição pelos valores médios da coluna.
- Conversão das variáveis categóricas "Gênero" e "Anúncio Clicado" para valores numéricos.

### 3. Balanceamento das Classes

O dataset foi balanceado utilizando a técnica de SMOTE (Synthetic Minority Over-sampling Technique), que gerou amostras sintéticas para a classe minoritária, garantindo que as classes de "Compra" e "Não Compra" estivessem balanceadas, o que ajuda a melhorar o desempenho do modelo.

### 4. Modelos de Aprendizado de Máquina

Foram utilizados quatro modelos de aprendizado de máquina para prever se o usuário compraria a casa:

- **Regressão Logística**
- **Árvore de Decisão**
- **Random Forest**
- **Gradient Boosting**

Além disso, foram aplicados ajustes de hiperparâmetros usando o GridSearchCV para otimizar os parâmetros dos modelos.

### 5. Avaliação dos Modelos

Para cada modelo, foi realizada uma avaliação com as métricas de Acurácia, Precisão, Recall e F1-Score, além de validação cruzada. Abaixo, estão os principais resultados obtidos:

#### Resultados de Acurácia, Precisão, Recall e F1-Score

| Modelo                | Acurácia  | Precisão  | Recall    | F1-Score  |
|-----------------------|-----------|-----------|-----------|-----------|
| Regressão Logística   | 0.8654    | 0.8696    | 0.8360    | 0.8524    |
| Árvore de Decisão     | 0.8323    | 0.8422    | 0.7862    | 0.8133    |
| Random Forest         | 0.8765    | 0.8902    | 0.8516    | 0.8696    |
| Gradient Boosting     | 0.8783    | 0.8925    | 0.8560    | 0.8738    |

### 6. Importância das Variáveis

Para os modelos baseados em árvore (Random Forest e Gradient Boosting), foi possível avaliar a importância das variáveis no modelo. As variáveis mais importantes para a previsão da compra de uma casa foram:

1. **Tempo no Site (min)**
2. **Renda Anual (em $)**
3. **Idade**
4. **Gênero**

Essas variáveis mostraram maior impacto na previsão da compra, indicando que os usuários com maior tempo no site e renda mais alta têm mais chances de realizar uma compra.

### 7. Conclusões

- O modelo **Random Forest** foi o mais preciso, alcançando uma acurácia de **74.07%**.
- A variável **Tempo no Site (min)** mostrou ser a mais importante para prever a compra de uma casa, destacando-se em relação às demais variáveis.
- A técnica de balanceamento de classes com SMOTE foi eficaz, melhorando o desempenho dos modelos, especialmente em termos de Recall, ao lidar com a classe minoritária.

Este projeto demonstrou a eficácia de diferentes algoritmos de aprendizado de máquina para prever o comportamento de compra dos usuários em um site imobiliário, com ênfase no uso de técnicas de pré-processamento e balanceamento de dados.

## Próximos Passos

- Explorar outras técnicas de balanceamento, como a Subamostragem ou técnicas mais avançadas de oversampling.
- Implementar modelos adicionais, como XGBoost ou Redes Neurais, para comparar os resultados.
- Ampliar o Dataset para melhor treino e teste e consequentemente resultados mais precisos.


