Neste projeto, foi realizado uma análise detalhada dos preços de aluguéis na cidade de São Paulo utilizando técnicas de análise de dados e regressão linear com a biblioteca Pandas e o pacote statsmodels
em Python. O objetivo principal foi explorar e modelar a relação entre as variáveis do conjunto de dados e os preços dos aluguéis, utilizando uma transformação logarítmica para lidar com a heterocedasticidade e outliers nos dados. A seguir, apresentamos as etapas realizadas, os resultados obtidos e as conclusões derivadas da análise.
-
Importação e Limpeza dos Dados:
- Os dados foram importados e carregados em um DataFrame do Pandas. A limpeza incluiu a remoção de valores ausentes e a aplicação de transformações necessárias.
-
Análise Descritiva:
- Realizamos uma análise descritiva das variáveis, incluindo estatísticas básicas como média, mediana, desvio padrão, e quartis.
-
Transformação dos Dados:
- Foi aplicada a transformação logarítmica na variável dependente (
rent
) e na variávelarea
para lidar com a heterocedasticidade e normalizar a distribuição dos dados.
- Foi aplicada a transformação logarítmica na variável dependente (
-
Modelagem de Regressão Linear:
- Ajustamos um modelo de regressão linear utilizando a transformação logarítmica das variáveis. Utilizamos a biblioteca
statsmodels
para ajustar o modelo e obter um resumo detalhado dos coeficientes e estatísticas.
- Ajustamos um modelo de regressão linear utilizando a transformação logarítmica das variáveis. Utilizamos a biblioteca
-
Avaliação do Modelo:
- Avaliamos o desempenho do modelo utilizando métricas como Mean Squared Error (MSE) e R-squared (R²). Também realizamos uma análise de resíduos para verificar a normalidade e a presença de padrões nos resíduos.
-
Visualização dos Resultados:
- Criamos diversas visualizações para explorar a relação entre as variáveis e os clusters formados utilizando o algoritmo K-means.
A análise descritiva revelou que a média dos preços de aluguéis em São Paulo é significativamente influenciada por variáveis como a área do imóvel, o número de quartos e vagas na garagem. Observamos uma variação considerável nos preços, o que justifica a aplicação de técnicas avançadas para modelar a relação entre essas variáveis e os preços de aluguel.
Utilizamos a transformação logarítmica para ajustar o modelo de regressão linear, resultando em um R² de 0.962, indicando que 96.2% da variação nos preços de aluguéis logarítmicos é explicada pelo modelo. Este é um ajuste excepcional, sugerindo que o modelo captura bem a variabilidade nos dados.
- Constante (const): 0.3239 (altamente significativo)
- Logaritmo da Área Total (total_log): 0.9296 (altamente significativo)
- Área (area): 0.0008 (altamente significativo)
- Número de Quartos (bedrooms): -0.0092 (altamente significativo)
- Número de Vagas na Garagem (garage): -0.0126 (altamente significativo)
- Cluster: -0.0114 (altamente significativo)
Os coeficientes sugerem que a área total do imóvel (em logaritmo) tem uma relação positiva forte com os preços de aluguel, enquanto o número de quartos e vagas na garagem apresentam uma relação inversa, embora significativas, o que pode ser um indicativo de peculiaridades específicas do mercado imobiliário de São Paulo.
A análise dos resíduos mostrou que os resíduos não seguem uma distribuição normal, conforme indicado pelos testes Omnibus e Jarque-Bera. No entanto, a estatística de Durbin-Watson sugere que não há autocorrelação significativa dos resíduos, o que é positivo para a validade do modelo.
-
Qualidade do Ajuste:
- O modelo logarítmico apresentou um excelente ajuste aos dados, explicando 96.2% da variação nos preços de aluguel. Este alto valor de R² indica que o modelo é robusto e confiável para previsões de preços de aluguel em São Paulo.
-
Transformação Logarítmica:
- A transformação logarítmica foi eficaz em lidar com a heterocedasticidade e os outliers, resultando em um modelo mais estável e previsões mais precisas.
-
Significância das Variáveis:
- Todas as variáveis independentes no modelo são altamente significativas, com exceção da constante, sugerindo que cada variável tem um impacto estatisticamente significativo nos preços de aluguel.
-
Interpretação dos Coeficientes:
- A área total (em logaritmo) tem a maior influência positiva nos preços de aluguel, seguido pela área linear. A relação inversa do número de quartos e vagas na garagem com os preços de aluguel pode indicar particularidades do mercado imobiliário que merecem uma análise mais aprofundada.
-
Multicolinearidade:
- A análise de VIF não indicou problemas significativos de multicolinearidade, com todos os valores de VIF abaixo de 10.
Para futuros estudos e modelos preditivos de preços de aluguel:
-
Explorar Modelos Alternativos:
- Considerar explorar modelos de regressão robusta e técnicas de machine learning para comparar a performance e robustez das previsões.
-
Analisar Outliers:
- Realizar uma análise detalhada dos outliers para entender melhor as peculiaridades do mercado e possivelmente ajustar o modelo para acomodar esses dados.
-
Incluir Variáveis Adicionais:
- Incluir variáveis adicionais que possam influenciar os preços de aluguel, como localização geográfica, proximidade a serviços e infraestrutura urbana.
-
Atualização Contínua do Modelo:
- Manter o modelo atualizado com dados mais recentes para garantir a precisão e relevância das previsões ao longo do tempo.
Este relatório fornece uma visão abrangente e detalhada da análise de dados e modelagem preditiva de preços de aluguel em São Paulo. Esperamos que os insights obtidos possam auxiliar na tomada de decisões estratégicas e no desenvolvimento de políticas de precificação mais eficazes.