<a href="https://colab.research.google.com/github/daniel-usp/MBA-BIA-USP/blob/main/Pandas%20/Bancos_de_Dados_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula sobre Pandas - Manipulação de Banco de Dados

## Objetivos:
- Entender o que é Pandas e suas principais funcionalidades.
- Aprender a manipular dados usando DataFrames.
- Praticar operações básicas com Pandas usando um dataset de imóveis de São Paulo fornecido pelo Quinto Andar.

## Dataset:
O dataset contém informações sobre imóveis em São Paulo, incluindo características como valor total, preço por metro quadrado, área útil, número de quartos, vagas, valor do condomínio, entre outros atributos.

## Instruções:
1. **Configurar o ambiente no Google Colab**: Certifique-se de que o Pandas está instalado.
2. **Carregar o dataset**: Faça o upload do arquivo `dados_imóveis_SP_Aula.xlsx` no Google Colab.
3. **Executar os exercícios**: Siga os exercícios propostos, utilizando o Pandas para manipular e analisar os dados.


##Configuração Inicial

In [1]:
# Importando as bibliotecas necessárias
import pandas as pd
import requests
from io import BytesIO

# URL do arquivo
file_url = 'https://github.com/daniel-usp/MachineLearning/blob/main/Pandas%20/dados_imoveis_SP_Aula.xlsx?raw=true'

# Carregando o dataset
data = pd.read_excel(file_url)

# Exibindo as primeiras linhas do dataset
data.head()



Unnamed: 0,valor_total,preco_m2,area_util,quartos,vagas,condominio,suites,banheiros,piscina,academia,quadra,bairro,media_idh,media_gini,renda_percapita,estacao_prox,linha_prox,dist_metro
0,189900,5934.38,32,2,1,180,0,1,0,1,0,JOSE BONIFACIO,0.697182,0.410909,559.668182,SÃO MATEUS,PRATA,6822.823684
1,221110,5142.09,43,2,1,250,0,1,0,0,1,JOSE BONIFACIO,0.697182,0.410909,559.668182,CORINTHIANS-ITAQUERA,VERMELHA,4682.709841
2,219990,5116.05,43,1,1,300,0,1,1,0,0,JOSE BONIFACIO,0.697182,0.410909,559.668182,CORINTHIANS-ITAQUERA,VERMELHA,4579.311123
3,219990,5116.05,43,2,1,300,0,1,1,0,0,JOSE BONIFACIO,0.697182,0.410909,559.668182,CORINTHIANS-ITAQUERA,VERMELHA,4579.311123
4,220000,5365.85,41,2,1,300,0,1,1,1,1,JOSE BONIFACIO,0.697182,0.410909,559.668182,CORINTHIANS-ITAQUERA,VERMELHA,3313.918703


##Compreensão dos Dados

In [None]:
# 1. Exibir as primeiras 10 linhas do dataset


# 2. Verificar a estrutura do dataset


# 3. Exibir uma descrição estatística dos dados



## Manipulação de Dados

In [None]:
# 4. Selecionar apenas as colunas 'bairro', 'valor_total' e 'area_util'


# 5. Filtrar os imóveis que possuem 3 quartos ou mais


# 6. Criar uma nova coluna 'valor_m2'



## Análise de Dados

In [None]:
# 7. Calcular a média do valor total dos imóveis


# 8. Calcular a média do valor total dos imóveis por bairro


# 9. Encontrar o imóvel mais caro e o mais barato do dataset



## Visualização

In [None]:
import matplotlib.pyplot as plt

# 10. Criar um gráfico de barras mostrando a quantidade de imóveis por bairro


# 11. Criar um gráfico de dispersão comparando o valor total e a área útil dos imóveis


# 12. Criar um histograma da distribuição dos valores totais dos imóveis



## Operações Avançadas

In [None]:
# Agrupar os dados por bairro e calcular a média das colunas 'valor_total', 'area_util' e 'condominio'
grouped_data = data.groupby('bairro')[['valor_total', 'area_util', 'condominio']].mean()
print(grouped_data)

# 14. Criar uma tabela dinâmica mostrando a média do valor total dos imóveis por número de quartos e bairro
pivot_table = data.pivot_table(values='valor_total', index='bairro', columns='quartos', aggfunc='mean')
print(pivot_table)

# 15. Salvar um novo arquivo Excel contendo apenas os imóveis que possuem piscina e academia
filtered_data = data.query('piscina == 1 and academia == 1')

# Salvar os dados filtrados em um novo arquivo Excel
filtered_data.to_excel('/content/imoveis_piscina_academia.xlsx', index=False)
print('Arquivo salvo com sucesso!')


                    valor_total   area_util   condominio
bairro                                                  
AGUA RASA          6.341897e+05   76.896552   706.310345
ALTO DE PINHEIROS  1.899889e+06  147.842105  1953.368421
ANHANGUERA         9.000000e+05  120.000000  1082.000000
ARICANDUVA         3.917695e+05   63.739130   464.521739
ARTUR ALVIM        2.311549e+05   47.850000   181.250000
...                         ...         ...          ...
VILA MARIANA       1.306209e+06   99.068966   884.931034
VILA MATILDE       4.479060e+05   68.181818   502.666667
VILA MEDEIROS      4.062589e+05   63.944444   528.305556
VILA PRUDENTE      5.722260e+05   68.846154   537.192308
VILA SONIA         6.206386e+05   81.444444   648.166667

[89 rows x 3 columns]
quartos                   1             2             3             4  \
bairro                                                                  
AGUA RASA          390000.0  5.172308e+05  7.518333e+05           NaN   
ALTO DE PINHEIROS

## Manipulação de Dados

In [None]:
# 16. Renomear as colunas 'valor_total' para 'preco_total' e 'area_util' para 'area_m2'


# 17. Selecionar os imóveis que estão a menos de 1 km de uma estação de metrô


# 18. Calcular o valor total médio dos imóveis por linha de metrô mais próxima


# 19. Adicionar uma coluna indicando se o imóvel possui 'quadra' ou não ('True' ou 'False')





In [None]:
# 20. Calcular a média do valor do condomínio por bairro


# 21. Encontrar o bairro com o maior número de imóveis listados


# 22. Calcular a média do valor total dos imóveis para cada combinação de número de quartos e número de vagas



# 23. Encontrar o número de imóveis que possuem piscina em cada bairro
