# IMERSÃO DADOS 4 - VALORES DE IMÓVEIS

### DIA 01

## IMPORTAÇÃO DE BIBLIOTECAS

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## IMPORTAÇÃO DO DATASET

In [None]:
link = 'https://gist.githubusercontent.com/tgcsantos/3bdb29eba6ce391e90df2b72205ba891/raw/22fa920e80c9fa209a9fccc8b52d74cc95d1599b/dados_imoveis.csv'
dataset = pd.read_csv(link)
dataset.head(11)

In [None]:
#Visualizar o tamanho do dataset
print(f'O dataset possui {dataset.shape[0]} linhas e {dataset.shape[1]} colunas')

In [None]:
#Visualizar as colunas do dataset
dataset.columns.values

In [None]:
#Visualizar algumas informações em geral
dataset.info()

In [None]:
#Visualizar quantidades de valores nulos
dataset.isnull().sum()

In [None]:
#Plot simples de um grafico de barra com os 10 bairros que mais aparecem no dataset
qtd_bairros = dataset['Bairro'].value_counts()
qtd_bairros.head(10).plot.bar()

### DIA 02 - TRATAMENTO DE DADOS

In [None]:
# Separando a coluna 'Valor'
# Com o 'split' estamos separando os dados
# O 'expand = True' estamos criando colunas para os dados separados
# E então estamos inserindo no nosso dataset colocando nomes para cada colunas
dataset[['Moeda', 'Valor_anuncio', 'Tipo']] = dataset['Valor'].str.split(expand = True)
dataset.head()

In [None]:
#Verificando que existe tipo 'Mes, Ano, Dia' no nosso dataset'Tipo' então iremos remover pois se trata de aluguéis.
dataset['Tipo'].unique()

In [None]:
#Inserindo apenas os dados em que o Tipo é 'None' no nosso dataset
dataset = dataset[dataset['Tipo'].isnull()]

In [None]:
#Removendo o '.' da coluna 'Valor_anuncio'
dataset['Valor_anuncio'] = dataset['Valor_anuncio'].str.replace('.', '')

In [None]:
#Convertendo do tipo 'object' para 'float'
dataset['Valor_anuncio'] = dataset['Valor_anuncio'].astype(float)

In [None]:
dataset.info()

In [None]:
#Histograma do 'Valor_anuncio'
dataset['Valor_anuncio'].plot.hist(bins=30)

In [None]:
#Histograma do 'Valor_anuncio' usando a biblioteca 'seaborn'
#'figsize' para mudar o tamanho da imagem
#'kde = True', para aparecer a linha de curva
#'xlim' para mudar o eixo x
plt.figure(figsize=(8,6))
ax = sns.histplot(data=dataset, x='Valor_anuncio', kde=True)
ax.set_title('Título')
plt.xlim(0, 10000000)

### Desafios

#### Realizar a média da metragem para cada um dos bairros

In [None]:
bairros_d = dataset.groupby('Bairro')
bairros_d['Metragem'].mean()

#### Pegar outras estatísticas dos dados (como média, mediana, mim, max)

In [None]:
dataset.describe()

#### Descobrir quais são os bairros que não tem nome de rua

In [None]:
nulos_d = dataset['Rua'].isnull()
list(dataset[nulos].Bairro.unique())

#### Deixar o gráfico do histograma de valores legível (alterar labels, cores, título, escala)

In [None]:
plt.figure(figsize=(8,6))
ax = sns.set_theme(palette='Set1')
ax = sns.histplot(data=dataset, x='Valor_anuncio', kde=True)
ax.set_title('Frequência dos valores dos imóveis de São Paulo')
ax.set_xlabel('Valor')
ax.set_ylabel('Quantidade')
plt.xlim(0, 10000000)

#### Preço do metro quadrado por bairro e plotar em um gráfico ideal

In [None]:
metragem_d = bairros_d['Metragem'].sum()
valor_anuncio_d = bairros_d['Valor_anuncio'].sum()
metro_quadrado = valor_anuncio_d / metragem_d
metro_quadrado

#### Pesquisar um visualização para analisar os quartis, mediana e outliers

In [None]:
plt.figure(figsize=(8,10))
sns.boxplot(data=dataset, x='Valor_anuncio', )