# Análise exploratória de ponta parte 2

Agora, vamos pensar como se estivéssemos trabalhando!<br> Em uma empresa, começariámos o dia com a demanda do gestor, mas é importante que perguntar para ele o objetivo da análise e informações adicionais.

Nessa parte iremos aprender como mostrar nossas análises, como criar readme para os projetos e se destacar no mercado.

# Introdução

Neste estudo, nossa meta é mergulhar fundo nas relações que existem entre as características físicas de um imóvel, como metragem e número de cômodos, com seu preço e localização. A ideia é entender, principalmente, o que está por trás dos preços dos imóveis de São Paulo, uma das metrópoles mais agitadas e desafiadoras do Brasil. Os dados aqui analisados foram baixados na plataforma do Kaggle, bastante popular por suas competições de Machine Learning, e foram originadas de uma raspagem realizada no site do Quinto Andar, em março de 2023.

A análise aqui apresentada discute as variáveis citadas acima e explora o quanto, e como, elas influenciam tanto o preço de aluguel quanto o preço total de um imóvel, com encargos adicionais (não especificados no Kaggle). Buscaremos entender, por exemplo, como a localização de um imóvel em determinado bairro pode impactar seu preço de aluguel. Além disso, investigaremos a relevância de outras características físicas do imóvel, como o tamanho em metros quadrados, a quantidade de banheiros e quartos, entre outros, na determinação de seu valor total de venda ou aluguel. Também vamos identificar os bairros mais caros e mais baratos da cidade.

Este estudo foi feito apenas com o intuito de aprendizado, já que não sabemos se o dataset está enviesado de qualquer forma, com algum tipo de lacuna ou mesmo erros, já que não temos nenhum processo de validação.

Então, seja bem-vindo à nossa jornada exploratória pelo mercado imobiliário de São Paulo!

---

Link para o dataset: https://www.kaggle.com/datasets/renatosn/sao-paulo-housing-prices

Definição das colunas da tabela:
- Endereço: O endereço do imóvel
- Bairro: O bairro onde o imóvel está localizado
- Área: A área do imóvel em metros quadrados
- Quartos: O número de quartos no imóvel
- Garagem: O número de vagas de estacionamento disponíveis no imóvel
- Aluguel: O aluguel mensal do imóvel
- Tipo: O tipo do imóvel (apartamento, casa, etc.)
- Total: O custo total do imóvel, incluindo aluguel, impostos e outras taxas.

# Importando bibliotecas

In [8]:
# Bibliotecas para tratar dados
import pandas as pd
import numpy as np

# Bibliotecas para EDA
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import plotly.express as px

# Configurar o estilo de gráfico
plt.style.use('ggplot')

# Configurar para exibir até 15 linhas
pd.set_option("display.max_rows", 15)

# Configurar para mostrar todas as colunas
pd.set_option("display.max_columns", None)

- **pd.set_option()** serve para configurar o Pandas. No nosso caso, optamos por mostrar 15 linhas (display rows = exibir linhas) Essa linha configura o pandas para mostrar no máximo 15 linhas quando exibir DataFrames e por exibir todas as colunas possíveis (display columns = exibir colunas).

# Importando o Dataset

In [9]:
aptos = pd.read_csv("data.csv")
aptos.head()

Unnamed: 0,address,district,area,bedrooms,garage,type,rent,total
0,Rua Herval,Belenzinho,21,1,0,Studio e kitnet,2400,2939
1,Avenida São Miguel,Vila Marieta,15,1,1,Studio e kitnet,1030,1345
2,Rua Oscar Freire,Pinheiros,18,1,0,Apartamento,4000,4661
3,Rua Júlio Sayago,Vila Ré,56,2,2,Casa em condomínio,1750,1954
4,Rua Barata Ribeiro,Bela Vista,19,1,0,Studio e kitnet,4000,4654


In [11]:
print(f"O Dataframe possui {aptos.shape[0]} linhas e {aptos.shape[1]} colunas.")

O Dataframe possui 11657 linhas e 8 colunas.


In [12]:
aptos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11657 entries, 0 to 11656
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   address   11657 non-null  object
 1   district  11657 non-null  object
 2   area      11657 non-null  int64 
 3   bedrooms  11657 non-null  int64 
 4   garage    11657 non-null  int64 
 5   type      11657 non-null  object
 6   rent      11657 non-null  int64 
 7   total     11657 non-null  int64 
dtypes: int64(5), object(3)
memory usage: 728.7+ KB


Não temos nenhum campo nulo e uma amostra de tamanho razoável, tanto para criarmos boas inferências a respeito do padrão dos imóveis, quanto se quisermos, futuramente, criar modelos preditivos.

In [14]:
numerics = ["int16", "int32", "int64", "float16", "float32", "float64"]

numericas = aptos.select_dtypes(include=numerics)
categoricas = aptos.select_dtypes(exclude=numerics)

print(f"Temos {numericas.shape[1]} colunas numéricas e {categoricas.shape[1]} colunas categóricas")

Temos 5 colunas numéricas e 3 colunas categóricas


- **.select_dtypes(include=None, exclude=None):** Retorna um subconjunto das colunas do DataFrame com base nos dtypes de coluna.

# Explorando os dados