## Pandas 

O que é o pandas? 
Pandas é uma biblioteca da linguagem Python, ela fornece capacidades bastante úteis para análise e exploração de dados, permitindo também de uma forma simplificada a manipulação de dados. 

# Importando a biblioteca pandas
    Antes de começarmos a trabalhar com pandas, é importante importar a biblioteca para utilizarmos em nosso Notebook

In [6]:
import pandas as pd

# Carregando arquivos com Pandas

Para importar arquivos para o notebook, utilizaremos a função: pd.read_csv (Para exportar aquivos em csv, caso seja outro formato, geralmente mudamos apenas o pré-fixo final. Por exemplo: pd.read_excel (Para exportar arquivos em excel)

In [8]:
'''No código abaixo, estamos armazenando a leitura do arquivo em uma variavel chamada df, assim toda vez que quizermos chamar
o arquivo, basta chamar 'df', a função sep = ';' - serve para indicar o separador do arquivo, no nosso caso é o ; '''

df = pd.read_csv('aluguel.csv', sep = ';')

In [9]:
# A função head() por padrão nos permite ver as primeiras 5 linhas do arquivo, oara ver mais ou menos linhas basta
#... colocar entre os parenteses o número de linhas desejadas, por exemplo: head(10) ou head(2).

df.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [10]:
# Verificando o tipo de um df:

type(df)

pandas.core.frame.DataFrame

In [11]:
#Verificando informações sobre o arquivo:
#Com a função info, podemos verificar informações sobre o arquivo, isto é, o tipo das variáveis, se temos números nulos
#... A quantidade de colunas e linhas. 

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


Neste arquivo, possuímos as seguintes variáveis:

* Tipo: É o tipo do imóvel
* Bairro: É o bairro em que o imóvel esta localizado
* Quartos: A quantidade de quartos que o imóvel possui
* Vagas: Quantas vagas disponiveis
* Suítes: Quantos quartos com banheiros
* Area: A área de cada imóvel
* Valor: O valor do imóvel
* Condominio: O valor do condominio, caso tenha.
* IPTU : O valos do IPTU que é um imposto referente a imóveis

In [12]:
# Criando uma variavel que armazena apenas os tipos de dados de cada coluna

tipo_imovel = pd.DataFrame(df.dtypes, columns = ['Tipo de Dados'])

tipo_imovel

Unnamed: 0,Tipo de Dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [13]:
# Dando um título para a primeira coluna: 

tipo_imovel.columns.name = 'Variáveis'

tipo_imovel

Variáveis,Tipo de Dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [14]:
# Com a função shape, podemos verificar a quantidade de linhas e colunas: Armazenando essa informação em uma outra variavel
#... Conseguimos acessá-la de forma fácil e utilizá-la depois.

linhas_colunas = df.shape

In [15]:
#Utilizando em uma frase:

print(f'O df utilizado nesta prática possui {linhas_colunas[0]} linhas e {linhas_colunas[1]} colunas')

O df utilizado nesta prática possui 32960 linhas e 9 colunas


In [16]:
#Armazendo apenas a coluna TIPO do dataframe dentro de uma variável:

tipos_imoveis = df['Tipo']

tipos_imoveis

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [17]:
# Removendo as duplicatas dos arquivos: 

tipos_imoveis = tipos_imoveis.drop_duplicates()

tipos_imoveis

0                          Quitinete
1                               Casa
2            Conjunto Comercial/Sala
3                        Apartamento
7                 Casa de Condomínio
16                    Prédio Inteiro
17                              Flat
29                        Loja/Salão
80           Galpão/Depósito/Armazém
83                    Casa Comercial
117                     Casa de Vila
159                   Terreno Padrão
207                      Box/Garagem
347                             Loft
589      Loja Shopping/ Ct Comercial
2157                         Chácara
3354           Loteamento/Condomínio
4379                           Sítio
4721                   Pousada/Chalé
6983                          Studio
9687                           Hotel
23614                      Indústria
Name: Tipo, dtype: object

In [18]:
#Verificamos que os index estão de forma desordenada para o nosso novo arquivo, vamos refaze-lo: 

tipos_imoveis.index = range(tipos_imoveis.shape[0])

tipos_imoveis

0                       Quitinete
1                            Casa
2         Conjunto Comercial/Sala
3                     Apartamento
4              Casa de Condomínio
5                  Prédio Inteiro
6                            Flat
7                      Loja/Salão
8         Galpão/Depósito/Armazém
9                  Casa Comercial
10                   Casa de Vila
11                 Terreno Padrão
12                    Box/Garagem
13                           Loft
14    Loja Shopping/ Ct Comercial
15                        Chácara
16          Loteamento/Condomínio
17                          Sítio
18                  Pousada/Chalé
19                         Studio
20                          Hotel
21                      Indústria
Name: Tipo, dtype: object

In [19]:
# Se olharmos o tipo do nosso arquivo, poderemos verificar que ele n se trata de um dataframe, mas sim de uma série:

type(tipos_imoveis)

pandas.core.series.Series

In [20]:
#Para transforma-lo em um df podemos fazer:

tipos_imoveis = tipos_imoveis.to_frame()

In [21]:
#Verificamos se foi feito: 

type(tipos_imoveis)

pandas.core.frame.DataFrame

In [22]:
#Como feito antes, vamos adicionar um nome para a coluna dos indexs

tipos_imoveis.columns.name = 'Id'

tipos_imoveis

Id,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


# Filtrando dados


## Imóveis Residenciais: 

In [23]:
df.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000.0,19193.0,3030.0


In [24]:
# Vamos retirar do nosso Data Frame os imóveis que não forem residenciais:

In [25]:
#Criando uma lista apenas com os imóveis sem repetição do nosso banco: 

list(df['Tipo'].drop_duplicates())

['Quitinete',
 'Casa',
 'Conjunto Comercial/Sala',
 'Apartamento',
 'Casa de Condomínio',
 'Prédio Inteiro',
 'Flat',
 'Loja/Salão',
 'Galpão/Depósito/Armazém',
 'Casa Comercial',
 'Casa de Vila',
 'Terreno Padrão',
 'Box/Garagem',
 'Loft',
 'Loja Shopping/ Ct Comercial',
 'Chácara',
 'Loteamento/Condomínio',
 'Sítio',
 'Pousada/Chalé',
 'Studio',
 'Hotel',
 'Indústria']

In [26]:
# Aqui criamos uma lista, apenas com os imóveis que são do tipo residencial:

residencial = ['Quitinete',
 'Casa',
 'Apartamento',
 'Casa de Condomínio',
 'Casa de Vila']

In [27]:
residencial

['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

In [28]:
#Como queremos que em nosso df tenha apenas dados residenciais, os mesmos que adicionamos na variavel residencial, podemos
# .. Fazer uma comparação com os dois, para isso comparamos a coluna Tipo do df com a variável residencial utilizando a
#... função isin : df['Coluna que queremos comparar'].isin(variavel que queremos comparar): 

selecao = df['Tipo'].isin(residencial)

In [29]:
selecao.head(10)

0     True
1     True
2    False
3     True
4     True
5     True
6     True
7     True
8     True
9    False
Name: Tipo, dtype: bool

In [30]:
#Quando fazemos esse tipo de selecao no dataframe, ele vai manter apenas os registros que estão com True:
# Explicando melhor, na nossa variavel seleção, nós armazenamos uma comparação com a coluna Tipo do df certo? 
# Essa comparação veio como um resultado booleano, ou seja: True or False. 
# Quando nós selecionamos no nosso df o que é selecao ele trás só o que True entre as duas. 


dados_residencial = df[selecao]

In [31]:
dados_residencial.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
10,Apartamento,Centro,1,0,0,36,1200.0,,
11,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


In [32]:
# Finalizado essa parte, verificamos que o nosso index está incorreto, isto pq alguns dados foram 'eliminados':

dados_residencial.index = range(dados_residencial.shape[0])

In [33]:
dados_residencial.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0


In [35]:
# Exportando o dataframe em um arquivo csv:

dados_residencial.to_csv('aluguel_residencial.csv', sep = ';', index = False)

In [39]:
df_teste = pd.read_csv('aluguel_residencial.csv', sep = ';')

df_teste.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
9,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0
