# Conhecendo a base de dados

## Importando os dados


In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/base-de-dados/aluguel.csv'
pd.read_csv(url) # lendo o arquivo csv, com o separador padrão (vírgula)

In [None]:
pd.read_csv(url, sep = ';') # lendo o arquivo csv, com o separador ';'

In [None]:
dados = pd.read_csv(url, sep = ';')
dados

In [None]:
dados.head() # mostra as 5 primeiras linhas do DataFrame

In [None]:
dados.tail() # mostra as 5 últimas linhas do DataFrame

In [None]:
type(dados) # mostra o tipo do objeto

## Características gerais da base de dados

In [None]:
dados.shape # mostra a quantidade de linhas e colunas do DataFrame

In [None]:
dados.columns # mostra o nome das colunas do DataFrame

In [None]:
dados.info() # mostra informações sobre o DataFrame

In [None]:
dados['Tipo'] # mostra a coluna 'Tipo' do DataFrame

In [None]:
dados[['Quartos', 'Valor']] # selecionando colunas específicas

## Atividade Extra

In [None]:
dados_alunos = pd.read_csv('./Dados/alunos.csv')
dados_alunos

In [None]:
print(dados_alunos.head(7)) # mostra as 7 primeiras linhas do DataFrame
print(dados_alunos.tail(5)) # mostra as 5 últimas linhas do DataFrame

In [None]:
dados_alunos.shape # mostra a quantidade de linhas e colunas do DataFrame

In [None]:
print(dados_alunos.columns) # mostra o nome das colunas do DataFrame
print(dados_alunos.dtypes) # mostra o tipo de cada coluna do DataFrame

In [None]:
dados_alunos.describe() # mostra informações estatísticas do DataFrame

# Análise exploratória de dados

## Qual o valor médio de aluguel por tipo de imóvel?

In [None]:
dados.head() 

In [None]:
dados['Valor'].mean() # mostra a média da coluna 'Valor'

In [None]:
dados.groupby('Tipo').mean(numeric_only=True) # agrupando os dados pela coluna 'Tipo' e mostrando a média de cada coluna

In [None]:
dados.groupby('Tipo')['Valor'].mean() # agrupando os dados pela coluna 'Tipo' e mostrando a média da coluna 'Valor'

In [None]:
dados.groupby('Tipo')[['Valor']].mean().sort_values(by='Valor', ascending=False) # agrupando os dados pela coluna 'Tipo', mostrando a média da coluna 'Valor' e ordenando os valores de forma decrescente

In [None]:
df_preco_tipo = dados.groupby('Tipo')[['Valor']].mean().sort_values(by='Valor', ascending=False)
df_preco_tipo.plot(kind='barh', figsize=(14,10), color='purple'); # plotando um gráfico de barras horizontais

## Removendo os imóveis comerciais

In [None]:
dados.Tipo.unique() # mostra os valores únicos da coluna 'Tipo'

In [None]:
# criando uma lista com os tipos de imóveis comerciais
imoveis_comerciais = ['Conjunto Comercial/Sala', 
                      'Prédio Inteiro', 'Loja/Salão', 
                      'Galpão/Depósito/Armazém', 
                      'Casa Comercial', 'Terreno Padrão',
                      'Loja Shopping/ Ct Comercial',
                      'Box/Garagem', 'Chácara',
                      'Loteamento/Condomínio', 'Sítio',
                      'Pousada/Chalé', 'Hotel', 'Indústria']


In [None]:
dados.query('@imoveis_comerciais in Tipo') # filtrando os dados que contém os tipos de imóveis comerciais
# Importante usar o @ antes da variável

In [None]:
dados.query('@imoveis_comerciais not in Tipo') # filtrando os dados que não contém os tipos de imóveis comerciais

In [None]:
df = dados.query('@imoveis_comerciais not in Tipo')
df.head()

In [None]:
df.Tipo.unique() # mostra os valores únicos da coluna 'Tipo' para o dataframe de imoveis residenciais

In [None]:
df_preco_tipo = df.groupby('Tipo')[['Valor']].mean().sort_values(by='Valor', ascending=False)
df_preco_tipo.plot(kind='barh', figsize=(14,10), color='purple'); # plotando um gráfico de barras horizontais

## Qual o percentual de cada tipo de imóvel na nossa base de dados?

In [None]:
df.Tipo.unique()

In [None]:
df.Tipo.value_counts(normalize=True) # mostra a quantidade de cada tipo de imóvel

In [None]:
df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo') # mostra a quantidade de cada tipo de imóvel em um dataframe

In [None]:
df_percentual_tipo = df['Tipo'].value_counts(normalize=True).to_frame().sort_values('Tipo')

df_percentual_tipo.plot(kind='bar', figsize=(14, 10), color ='green', edgecolor='black',
                        xlabel = 'Tipos', ylabel = 'Percentual');


### **Selecionando apenas os imóveis do tipo apartamento**

In [None]:
df.query('Tipo == "Apartamento"')

In [None]:
df = df.query('Tipo == "Apartamento"')
df.head()

# Tratando e filtrando os dados

## Lidando com dados nulos

In [None]:
df.isnull() # mostra os valores nulos do dataframe

In [None]:
df.isnull().sum() # mostra a quantidade de valores nulos do dataframe

In [None]:
df.fillna(0) # substitui os valores nulos por 0

In [None]:
df = df.fillna(0) # substitui os valores nulos por 0

In [None]:
df.isnull().sum() # Nenhum dado nulo existente

dropna() - Remove os valores nulos

fillna() - Preenche os valores nulos
- Ao preencher os valores nulos, podemos utilizar algumas estratégias:
- Preenche com o valor anterior (ffill)
- Preenche com o valor seguinte (bfill)
- Basta passar o método como parâmetro do fillna(method='ffill')

interpolate() - Preenche os valores nulos com base em uma interpolação



## Removendo registros

In [None]:
df.query('Valor == 0 | Condominio == 0') 

In [None]:
df.query('Valor == 0 | Condominio == 0').index

In [None]:
registros_a_remover = df.query('Valor == 0 | Condominio == 0').index

In [None]:
df.drop(registros_a_remover, axis=0, inplace=True) 
# axis=0 -> linha
# axis=1 -> coluna
# inplace=True -> altera o dataframe original sem precisar atribuir a uma variável

In [None]:
df.query('Valor == 0 | Condominio == 0') # Nenhum dado nulo existente

In [None]:
df.head()

In [None]:
df.Tipo.unique()

In [None]:
df.drop('Tipo', axis=1, inplace=True) # removendo a coluna 'Tipo'

In [None]:
df.head()

## Filtros

### **1. Apartamentos que possuem `1 quarto` e `aluguel menor que 1200`**



In [None]:
df['Quartos'] == 1

In [None]:
selecao = df['Quartos'] == 1
df[selecao] # filtrando os dados que contém 1 quarto

In [None]:
selecao2 = df['Valor'] < 1200
df[selecao2] # filtrando os dados que contém valor menor que 1200


In [None]:
selecao_final = (selecao) & (selecao2)
df[selecao_final].head()

In [None]:
df_1 = df[selecao_final]

### **2. `Apartamentos` que possuem pelo menos `2 quartos`, `aluguel menor que 3000` e `area maior que 70`**

In [None]:
selecao = (df['Quartos'] >= 2) & (df['Valor'] < 3000) & (df['Area'] > 70)


In [None]:
df_2 = df[selecao] # filtrando os dados que contém 2 quartos, valor menor que 3000 e área maior que 70

## Salvando os dados

In [None]:
df.to_csv('./Dados/dados_apartamentos.csv') # salvando o dataframe em um arquivo csv

In [None]:
pd.read_csv('./Dados/dados_apartamentos.csv') # lendo o arquivo csv

In [None]:
df.to_csv('./Dados/dados_apartamentos.csv', index=False) # salvando o dataframe em um arquivo csv sem o índice

In [None]:
pd.read_csv('./Dados/dados_apartamentos.csv') # lendo o arquivo csv

In [None]:
df.to_csv('./Dados/dados_apartamentos.csv', index=False, sep=';') # salvando o dataframe em um arquivo csv sem o índice e com o separador ';'

In [None]:
pd.read_csv('./Dados/dados_apartamentos.csv') # lendo o arquivo csv

In [None]:
pd.read_csv('./Dados/dados_apartamentos.csv', sep=';') # lendo o arquivo csv com o separador ';'

# Manipulando os dados

## Criando colunas numéricas

In [None]:
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/base-de-dados/aluguel.csv'
dados = pd.read_csv(url, sep=';')
dados.head()

In [None]:
dados['Valor_por_mes'] = dados['Valor'] + dados['Condominio'] # criando uma nova coluna com o valor do aluguel + condomínio
dados.head()

In [None]:
dados['Valor_por_ano'] = dados['Valor_por_mes'] * 12 # criando uma nova coluna com o valor do aluguel + condomínio por ano
dados.head()

## Criando colunas categóricas

In [None]:
dados['Descricao'] = dados['Tipo'] + dados['Bairro'] # criando uma nova coluna com a descrição do imóvel
dados.head()

In [None]:
dados['Descricao'] = dados['Tipo'] + ' em ' + dados['Bairro'] # criando uma nova coluna com a descrição do imóvel
dados.head()

In [None]:
dados['Descricao'] = dados['Tipo'] + ' em ' + dados['Bairro'] + ' com ' + \
                                        dados['Quartos'].astype(str) + ' quarto(s) ' + \
                                        ' e ' + dados['Vagas'].astype(str) + ' vaga(s) de garagem.'

In [None]:
dados.head()

In [None]:
dados['Possui_suite'] = dados['Suites'].apply(lambda x: 'Sim' if x > 0 else 'Não') # criando uma coluna binária
dados.head()

In [None]:
dados.to_csv('./Dados/dados_completos.csv', sep=';', index=False) # salvando o dataframe em um arquivo csv sem o índice e com o separador ';'