In [1]:
### Explorando os Dados de uma Imobiliária
# Autor: João Vitor, Cientista de Dados

## 1. Importando as bibliotecas necessárias
# Começamos com a importação do pandas, a principal biblioteca para manipulação de dados em Python.
import pandas as pd

## 2. Carregando a base de dados
# A base de dados foi fornecida no formato CSV. Vamos carregá-la em um DataFrame chamado `dados`.
# Aqui, especificamos o separador ';' para garantir que os dados sejam lidos corretamente.
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/base-de-dados/aluguel.csv'
dados = pd.read_csv(url, sep=';')

# Exibindo uma mensagem de confirmação para garantir que os dados foram carregados corretamente.
print("Base de dados carregada com sucesso!")

## 3. Visualização inicial dos dados
# Exibir os primeiros e os últimos registros da base de dados é essencial para compreender rapidamente a estrutura e o conteúdo dos dados.
display(dados.head())  # Primeiros 5 registros
display(dados.tail())  # Últimos 5 registros

# **Relevância:** Esses passos ajudam a validar se os dados foram carregados corretamente e dão uma ideia inicial do seu conteúdo, como colunas, tipos de dados e distribuição.

## 4. Estrutura e dimensões da base de dados
# Verificar o número de linhas e colunas.
print(f"A base de dados possui {dados.shape[0]} linhas e {dados.shape[1]} colunas.")

# **Relevância:** Saber as dimensões da base é importante para entender a escala da análise. Um dataset grande pode exigir técnicas de otimização.

## 5. Nome das colunas
# Exibir os nomes das colunas ajuda a entender quais variáveis estão presentes e se os nomes são claros e consistentes.
print("As colunas do dataset são:")
print(dados.columns)

# **Relevância:** Identificar colunas permite começar a planejar as análises futuras. 

## 6. Tipos de dados e informações gerais
# O método `info` fornece uma visão geral do DataFrame, incluindo o tipo de dado de cada coluna e a presença de valores nulos.
print("\nInformações gerais sobre a base de dados:")
dados.info()

# **Relevância:** Essa etapa é essencial para identificar possíveis problemas como dados ausentes ou tipos de dados inadequados para análise (por exemplo, números armazenados como texto).

## 7. Análise exploratória inicial

### 7.1. Exibir uma coluna específica
# Exibir os dados da coluna `Tipo` para observar os diferentes tipos de imóveis na base.
display(dados['Tipo'].unique())

# **Relevância:** Verificar valores exclusivos é importante para entender a variabilidade de categorias em uma variável.

### 7.2. Selecionar mais de uma coluna
# Visualizamos as colunas `Quartos` e `Valor` para avaliar a relação entre o número de quartos e o preço dos imóveis.
display(dados[['Quartos', 'Valor']].head())

# **Relevância:** Essa seleção facilita a análise inicial de variáveis relevantes para o negócio.

## 8. Próximos passos
# A partir dessa análise inicial, as próximas etapas podem incluir:
# - Tratamento de dados ausentes.
# - Análise estatística das variáveis numéricas (médias, medianas, distribuições).
# - Exploração mais profunda de variáveis categóricas (frequências, relações).
# - Visualizações gráficas para identificar tendências ou outliers.

print("Análise exploratória inicial concluída.")


Base de dados carregada com sucesso!


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,
32959,Conjunto Comercial/Sala,Centro,0,0,0,250,6500.0,4206.0,1109.0


A base de dados possui 32960 linhas e 9 colunas.
As colunas do dataset são:
Index(['Tipo', 'Bairro', 'Quartos', 'Vagas', 'Suites', 'Area', 'Valor',
       'Condominio', 'IPTU'],
      dtype='object')

Informações gerais sobre a base de dados:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


array(['Quitinete', 'Casa', 'Conjunto Comercial/Sala', 'Apartamento',
       'Casa de Condomínio', 'Prédio Inteiro', 'Flat', 'Loja/Salão',
       'Galpão/Depósito/Armazém', 'Casa Comercial', 'Casa de Vila',
       'Terreno Padrão', 'Box/Garagem', 'Loft',
       'Loja Shopping/ Ct Comercial', 'Chácara', 'Loteamento/Condomínio',
       'Sítio', 'Pousada/Chalé', 'Studio', 'Hotel', 'Indústria'],
      dtype=object)

Unnamed: 0,Quartos,Valor
0,1,1700.0
1,2,7000.0
2,0,5200.0
3,1,800.0
4,1,800.0


Análise exploratória inicial concluída.
