In [128]:
import pandas as pd
import matplotlib.pyplot as plt

dados = pd.read_csv("/workspaces/Alura-analise-dados-sp/datasets/dados_imoveis.csv")
dados.head()

Unnamed: 0,Rua,Bairro,Cidade,Metragem,Quartos,Banheiros,Vagas,Valor
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,R$ 7.000.000
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,496,4,4,4,R$ 3.700.000
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,R$ 380.000
3,,Jardim Morumbi,São Paulo,310,3,2,4,R$ 685.000
4,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,R$ 540.000


In [132]:
#Tratando valores
# estou alterando a coluna valor, ela possui caracteres que não podem ser feito quaisquer calculos.
dados['Valor'] = dados['Valor'].astype(str).replace('[^\d.]', '', regex=True).str.replace('.', '').astype(float)

# Adicionando nova coluna para termos as classes. - Definindo as etiquetas para cada classe
limites_classe = [0, 500000, 1000000, 1500000, float('inf')]
etiquetas_classe = ['Classe Baixa', 'Classe Média Baixa', 'Classe Média Alta', 'Classe Alta']

# Criando a nova coluna 'Classe'
dados['Classe'] = pd.cut(dados['Valor'], bins=limites_classe, labels=etiquetas_classe)
dados.head()

Unnamed: 0,Rua,Bairro,Cidade,Metragem,Quartos,Banheiros,Vagas,Valor,Classe
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,70000000.0,Classe Alta
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,496,4,4,4,37000000.0,Classe Alta
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,3800000.0,Classe Alta
3,,Jardim Morumbi,São Paulo,310,3,2,4,6850000.0,Classe Alta
4,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,5400000.0,Classe Alta


In [158]:
tabela_descritiva = dados['Classe'].value_counts().reset_index()
#reset_index() a coluna se torna índice e o nosso foco é ser uma coluna regular do DataFrame, pois podemos tratar como uma coluna normal e não uma parte do índice
tabela_descritiva.columns = ['Classe', 'Quantidade']

#Criando a coluna da tabela quantidade de imoveis por classe
total_imoveis = tabela_descritiva['Quantidade'].sum()

# Formatando a coluna 'Porcentagem' com casa decimal e o simbolo %
tabela_descritiva['Porcentagem'] = tabela_descritiva['Quantidade'].apply(lambda x: f'{(x / tabela_descritiva["Quantidade"].sum()) * 100:.2f}%')
"""
pply - aplica função a cada elemento da coluna
No lambda o x representa cada valor individual da coluna quantidade(coluna da tabela e não do dataframe)
 (x / tabela_descritiva["Quantidade"].sum()) * 100 calcula a porcentagem para cada valor "x", dividindo o valor de "x" pelo total da nossa coluna Quantidade e multiplicamos por 100 para termos o percentual.
:.2f estamos limitando a 2 casa decimal - originalment eu iria colocar 1 casa decimal, porem a classe média alta fica em 0,0% tendo 4 imoveis e ficaria um pouco estranho.
 % colocamos o simbolo %
"""

print(tabela_descritiva)

               Classe  Quantidade Porcentagem
0         Classe Alta        9151      91.44%
1        Classe Baixa         811       8.10%
2  Classe Média Baixa          42       0.42%
3   Classe Média Alta           4       0.04%


In [None]:
sum((dados["Bairro"] == "Vila Mariana"))

In [None]:
ten_imoveis_vila = (dados["Bairro"] == "Vila Mariana")
ten_imoveis_vila

In [None]:
imoveis_vila_mariana = dados[ten_imoveis_vila]
imoveis_vila_mariana

In [None]:
imoveis_vila_mariana["Metragem"].mean()

In [149]:
# 1 - Realizar a média da metragem para cada um dos bairros. (Proposto pelo Paulo)
media_por_bairro = dados.groupby('Bairro')['Metragem'].mean()

print(media_por_bairro)

Bairro
Aclimação            253.056818
Alto da Boa Vista    418.875000
Alto da Lapa         294.337209
Alto da Mooca        270.050000
Alto de Pinheiros    433.444988
                        ...    
Vila Água Funda      152.200000
Água Branca          191.000000
Água Fria            165.416667
Água Funda           139.000000
Água Rasa            340.250000
Name: Metragem, Length: 701, dtype: float64


In [None]:
# 2 - Duas formas de selecionar os dados por bairro (consultar os métodos na documentação do Pandas). (Proposto pelo Thiago)
#dados_bairro_a = dados.loc[dados["Bairro"] == "vila_mariana"]
primeiro_metodo_dados_bairro = dados.loc[dados["Bairro"] == "Vila Mariana"]

# Exibir os resultados
print(primeiro_metodo_dados_bairro.head(5))

In [None]:
# 2 - Duas formas de selecionar os dados por bairro (consultar os métodos na documentação do Pandas). (Proposto pelo Thiago)
segundo_metodo_dados_bairro = dados.query("Bairro == 'Vila Mariana'")


# Exibir os resultados
print(segundo_metodo_dados_bairro.head(5))

In [None]:
# 3 - Explorar alguns gráficos na documentação e aplicar nas demais colunas do DF, assim como tentar colocar alguma conclusão. (Proposto pelo Thiago)
from pandas.plotting import radviz


n_imoveis_bairro = dados["Bairro"].value_counts()
ax = n_imoveis_bairro.head(10).plot.barh()
ax.set_xlabel('Quantidade de Imóveis')
ax.set_title('Imóveis Disponíveis por Bairro')




In [None]:
# Removendo valores nulos em 'Área'
dados_filtrados = dados.dropna(subset=['Metragem'])

# Removendo valores extremos para melhor visualização
dados_filtrados = dados_filtrados[dados_filtrados['Metragem'] < 1000]

# Plotando o histograma
dados_filtrados['Metragem'].plot.hist(bins=20, edgecolor='black')
plt.xlabel('Área')
plt.ylabel('Frequência')
plt.title('Distribuição da Área dos Imóveis')
plt.show()


In [None]:
valor_medio_bairro = dados.groupby('Bairro')['Valor'].mean()
valor_medio_bairro.head(5).sort_values(ascending=True).plot.line()



In [None]:
n_imoveis_bairro = dados["Bairro"].value_counts()
n_imoveis_bairro.head(10).plot.bar()