# Conhecendo a base de dados

## Importando os dados


In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/base-de-dados/aluguel.csv'
pd.read_csv(url, sep=';')

In [None]:
dados = pd.read_csv(url, sep=';')
dados

In [None]:
dados.head(10)

In [None]:
dados.tail()

In [None]:
dados.info()

#### Para saber mais: diferentes formatos de dados

O Pandas fornece diversas funções para importar e exportar dados em diferentes formatos. As principais funções do Pandas para importar dados são as seguintes:

- `read_csv()`: Essa função é usada para ler arquivos CSV (Comma Separated Values), que são arquivos de texto que contêm dados separados por vírgulas. É possível passar diversos parâmetros para personalizar a leitura do csv, como delimitador, cabeçalho, tipo de encoding, entre outros.

- `read_excel()`: Essa função é usada para ler arquivos do Excel (.xls ou .xlsx) e criar um DataFrame a partir dos dados.

- `read_json()`: Essa função é usada para ler arquivos JSON (JavaScript Object Notation), que são arquivos de texto que contêm dados em formato de objeto JavaScript.

- `read_html()`: Essa função é usada para ler tabelas HTML, que são estruturas de dados organizadas em formato de tabela em uma página da web.

- `read_sql()`: Essa função é usada para ler dados de um banco de dados relacional, como o MySQL, PostgreSQL e SQL Server. O Pandas é capaz de importar dados de diferentes formas, permitindo ajustar parâmetros como a consulta, o nome da tabela e o tipo de dados das colunas.

## Características gerais da base de dados

In [None]:
# Explorando linhas e colunas do dataset

dados.shape

In [None]:
dados.columns

In [None]:
dados.info()

In [None]:
dados['Tipo']

In [None]:
dados[['Quartos', 'Valor']]

# Análise exploratória de dados

## Qual o valor médio de aluguel por tipo de imóvel?

In [None]:
dados['Valor'].mean()

In [None]:
dados.groupby('Tipo').mean(numeric_only=True)

In [None]:
dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

In [None]:
df_preco_tipo = dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')
df_preco_tipo.plot(kind='barh', figsize=(14,10), color = 'purple')

#### Para saber mais: entendendo o groupby

O método `groupby`do Pandas permite agrupar e resumir dados de um DataFrame, com base em um ou mais critérios. Esses critérios podem ser variáveis numéricas ou categóricas, como colunas ou índices do DataFrame.

A ideia por trás do `groupby` é dividir os dados em grupos com base nos critérios selecionados e, em seguida, aplicar uma operação a esses grupos. Essa operação pode ser uma função de agregação, como soma, média, contagem, desvio padrão, entre outras, ou mesmo uma operação personalizada definida pela pessoa usuária.

Esse método possui diversos parâmetros, alguns deles são:

- `by`: esse é o parâmetro mais comum e é usado para especificar a coluna ou colunas que queremos agrupar. Como argumento dele, podemos passar o nome de uma coluna ou uma lista de nomes de colunas;

- `axis`: utilizamos esse parâmetro para especificar o eixo ao longo do qual queremos agrupar. O valor padrão dele é 0, o que significa que as linhas serão agrupadas. Se quisermos agrupar as colunas, devemos definir esse parâmetro como 1;

- `sort`: esse parâmetro é um booleano (True ou False) que indica se os grupos devem ser ordenados pelo valor da coluna de agrupamento. O valor padrão é True;

- `dropna`: utilizamos esse parâmetro para controlar se os valores ausentes (NaN) serão excluídos ou não durante o processo de agrupamento. O valor padrão é True.

Vamos analisar um exemplo simples utilizando o groupby. Suponha que temos o seguinte DataFrame:

Código do DataFrame:

In [None]:
import pandas as pd

df = pd.DataFrame({
   'Animal': ['Cachorro', 'Gato', 'Elefante', 'Cachorro', 'Gato', 'Elefante'],
   'Cor': ['Preto', 'Branco', 'Cinza', 'Marrom', 'Preto', 'Marrom'],
   'Quantidade': [2, 3, 1, 4, 2, 2]
})
df

Aqui nós temos um DataFrame com dados referentes a alguns animais. Vamos utilizar o groupby para agrupar os dados pelo tipo de animal e realizarmos a soma da coluna "Quantidade" para conferirmos o total de cada tipo de animal:

In [None]:
df.groupby('Animal').sum(numeric_only=True)

Podemos também usar o método groupby para agrupar os dados por múltiplas colunas. Por exemplo, vamos agrupar pelo tipo do animal e também pela cor e realizar a soma da coluna "Quantidade":

In [None]:
df.groupby(['Animal', 'Cor'])[['Quantidade']].sum()

Assim, podemos observar que o groupby é um método muito útil para situações em que precisamos dividir os dados em grupos para analisar o comportamento desses grupos. Utilizando esse método, nós podemos responder perguntas específicas sobre nossos conjuntos de dados.

Caso queira aprender mais sobre esse método, deixo a sugestão de dois artigos:

- [Pandas GroupBy: Your Guide to Grouping Data in Python](https://realpython.com/pandas-groupby/)
- [Pandas’ groupby explained in detail.](https://medium.com/towards-data-science/pandas-groupby-aggregate-transform-filter-c95ba3444bbb)

## Removendo os imóveis comerciais

In [None]:
dados.Tipo.unique()

In [None]:
imoveis_comerciais = ['Conjunto Comercial/Sala',
                      'Prédio Inteiro', 'Loja/Salão',
                      'Galpão/Depósito/Armazém', 
                      'Casa Comercial', 'Terreno Padrão',
                      'Loja Shopping/ Ct Comercial',
                      'Box/Garagem', 'Chácara', 
                      'Loteamento/Condomínio', 'Sítio', 
                      'Pousada/Chalé', 'Hotel', 'Indústria']

In [None]:
# o metodo query permite que selecionemos as linhas de uma base de dados que atendam a uma condição
# nesse caso estou pedindo para ele selecionar apenas as linhas da nossa base de dado, onde na coluna Tipo existam apenas componentes da nossa lista de imoveis comerciais

dados.query('@imoveis_comerciais in Tipo')

In [None]:
# adicionando o not, eu consigo pegar apenas as linhas que nao sao do tipo imovel comercial, ou seja, que sao residenciais

dados.query('@imoveis_comerciais not in Tipo')

In [None]:
df = dados.query('@imoveis_comerciais not in Tipo')
df.head()

In [None]:
df.Tipo.unique()

In [None]:
df_preco_tipo = df.groupby('Tipo')[['Valor']].mean().sort_values('Valor')
df_preco_tipo.plot(kind='barh', figsize=(14,10), color = 'purple')

## Qual o percentual de cada tipo de imóvel na nossa base de dados?

In [None]:
df.Tipo.unique()

In [None]:
# metodo value_counts() serve para contar quantas vezes um item aparece na base de dados

df.Tipo.value_counts(normalize=True)

In [None]:
# quero transformar essa series em um dataframe

df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo')

In [None]:
df_percentual_tipo = df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo')

df_percentual_tipo.plot(kind='bar', figsize=(14,10), color = 'green', xlabel='Tipos', ylabel='Percentual')

Faz sentido trabalhar com os apartamentos junto com os outros tipo de imoveis, pensando que desse dataset mais de 80% é do tipo Apartamento

### **Selecionando apenas os imóveis do tipo apartamento**

In [None]:
df.query('Tipo == "Apartamento"')

In [None]:
df = df.query('Tipo == "Apartamento"')
df.head()

# Tratando e filtrando os dados

## Lidando com dados nulos

In [None]:
df.isnull()

In [None]:
# Vou utilizar a funcao sum porque os valores false sao interpretados como 0 e true como 1
df.isnull().sum()

In [None]:
# o metodo fillna vai preencher os valores nulos com 0
df.fillna(0)

In [None]:
# o metodo fillna nao salva automaticamente no dataframe, preciso salvar atribuindo uma variavel
df = df.fillna(0)
df

In [None]:
df.isnull().sum()

### Para saber mais: lidando com dados nulos

Tratar dados nulos em uma base de dados é muito importante porque esses dados faltantes podem interferir diretamente na qualidade das análises e nos resultados obtidos. Quando existem dados nulos em um conjunto de dados, podem ocorrer problemas como viés, redução da acurácia e imprecisão nas informações obtidas.

Além disso, algumas análises e modelos estatísticos não são capazes de lidar com a presença de dados faltantes. Por isso, o tratamento dos dados nulos é fundamental para garantir a confiabilidade e a precisão das análises e decisões tomadas a partir desses dados.

Existem diversas formas de tratar dados nulos com o Pandas. Algumas das principais formas são:

- Remover os dados nulos: É possível remover as linhas ou colunas que possuem valores nulos utilizando o método `dropna()` . Esse método remove todas as linhas ou colunas que possuem pelo menos um valor nulo.

- Preencher os dados nulos: Utilizando o `método fillna()`, podemos preencher os valores nulos com um valor específico. Além disso, também é possível utilizar argumentos específicos do `método fillna()` como o method=”ffill” ou method=”bfill” para preencher os valores nulos com o valor anterior ou posterior, respectivamente.

- Interpolar os dados nulos: É possível utilizar o `método interpolate()` para preencher os valores nulos com valores interpolados, ou seja, valores calculados a partir dos valores vizinhos.

É importante escolher a melhor forma de tratar os dados nulos de acordo com a situação específica e o objetivo da análise de dados.

## Removendo registros

In [None]:
df.query('Valor == 0 | Condominio == 0')

In [None]:
# o metodo index permite selecionar apenas as linhas que atendem a uma determinada condicao
df.query('Valor == 0 | Condominio == 0').index

In [None]:
registro_a_remover = df.query('Valor == 0 | Condominio == 0').index

In [None]:
# o metodo drop remove as linhas, se eu especifico axis igual a 0, ele remove as linhas, se eu especifico axis igual a 1 ele remove as colunas
# o inplace serve para alterar o dataframe original
df.drop(registro_a_remover, axis=0, inplace=True)

In [None]:
# o dataframe veio vazio agora, pois as linhas foram removidas de fato do dataframse original
df.query('Valor == 0 | Condominio == 0')

Será que não existe mais nada na nossa base de dados que possa ser removido?

In [None]:
df.head()

In [None]:
# podemos perceber que só estamos falando de informações com o Tipo Apartamento
df.Tipo.unique()

In [None]:
# Portanto, já que sabemos que estamos falando de apenas apartamento, podemos retirar ela do dataset
df.drop('Tipo', axis=1, inplace=True)

In [None]:
df.head()

## Filtros

### **1. Apartamentos que possuem `1 quarto` e `aluguel menor que 1200`**



In [None]:
# vamos comecar selecionando os apartamento que possuem apenas um quarto

df.Quartos == 1

In [None]:
selecao1 = df['Quartos'] == 1
df[selecao1]

In [None]:
# agora vamos realizar a segunda condicao

df['Valor'] < 1200

In [None]:
selecao2 = df['Valor'] < 1200
df[selecao2]

In [None]:
selecao_final = (selecao1) & (selecao2)
df[selecao_final]

In [None]:
df_1 = df[selecao_final]

### **2. `Apartamentos` que possuem pelo menos `2 quartos`, `aluguel menor que 3000` e `area maior que 70`**

In [None]:
selecao = (df['Quartos'] >= 2) & (df['Valor'] < 3000) & (df['Area'] > 70)
df[selecao]

In [None]:
df_2 = df[selecao]

## Salvando os dados

In [None]:
df.to_csv('pandas-dados/dados_apartamentos.csv')

In [None]:
pd.read_csv('pandas-dados/dados_apartamentos.csv')

In [None]:
df.to_csv('pandas-dados/dados_apartamentos.csv', index=False)

In [None]:
pd.read_csv('pandas-dados/dados_apartamentos.csv')

In [None]:
df.to_csv('pandas-dados/dados_apartamentos.csv', sep=';',index=False)

In [None]:
# fazendo a leitura, sem especificar o separador
pd.read_csv('pandas-dados/dados_apartamentos.csv')

In [None]:
pd.read_csv('pandas-dados/dados_apartamentos.csv', sep=';')

In [None]:
df_1.to_csv('pandas-dados/filtro_1.csv', index=False, sep=";")
df_2.to_csv('pandas-dados/filtro_2.csv', index=False, sep=";")

In [None]:
pd.read_csv('pandas-dados/filtro_1.csv', sep=';')

In [None]:
pd.read_csv('pandas-dados/filtro_2.csv', sep=';')

# Manipulando os dados

## Criando colunas numéricas

In [None]:
# vou importar dnv o arquivo, porque agora quero trazer informacoes de todos os tipo de imoveis e nao apenas para apartamento
dados = pd.read_csv(url,sep=';')
dados.head()

In [None]:
dados['Valor_por_Mes'] = dados['Valor'] + dados['Condominio']
dados.head()

In [None]:
dados['Valor_por_Ano'] = dados['Valor_por_Mes']*12 + dados['IPTU']
dados.head()

## Criando colunas categóricas

In [None]:
dados['Descricao'] = dados['Tipo'] + ' em ' +  dados['Bairro']
dados.head()

In [None]:
dados['Descricao'] = dados['Tipo'] + ' em ' +  dados['Bairro'] + ' com ' + dados['Quartos'] + ' quartos(s) ' + ' e ' + dados['Vagas'] + ' vagas(s) de garagem.'

In [None]:
dados['Descricao'] = dados['Tipo'] + ' em ' +  dados['Bairro'] + ' com ' + dados['Quartos'].astype(str) + ' quarto(s) ' + ' e ' + dados['Vagas'].astype(str) + ' vagas(s) de garagem.'
dados.head()

In [None]:
dados['Possui_suite'] = dados['Suites'].apply(lambda x: 'Sim' if x > 0 else 'Não')
dados.head()

In [None]:
dados.to_csv('pandas-dados/dados_completos_dev.csv', index = False, sep=';')