# Python Pandas: Tratando e analisando dados
[link do curso](https://cursos.alura.com.br/course/introducao-python-pandas)

## 1 Import

In [2]:
import pandas as pd

## 2 Fonte de dados

In [2]:
dados = pd.read_csv('../dados/aluguel.csv', sep=';')
dados.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,


# Análise

In [89]:
aluguel = pd.read_csv('../dados/aluguel.csv', sep=';')
aluguel.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,


## 1) Os tipos de dados e quantidade de linhas e colunas
### dtypes, DataFrame

In [90]:
aluguel.dtypes

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

In [99]:
tipo_dados = pd.DataFrame(aluguel.dtypes, columns=['Tipos'])
tipo_dados.columns.name = 'Id'
tipo_dados

Id,Tipos
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [101]:
print(f"O Data Frame possui {aluguel.shape[0]} linhas e {aluguel.shape[1]} colunas")

O Data Frame possui 32960 linhas e 9 colunas


## 2) Removendo os valores repetidos e reajustando o índice da Serie 
### drop_duplicates, range, to_frame

In [123]:
tipo_imovel = aluguel['Tipo']

In [124]:
tipo_imovel.drop_duplicates(inplace = True)

In [125]:
tipo_imovel.index = range(tipo_imovel.shape[0])

In [126]:
tipo_imovel = tipo_imovel.to_frame()
tipo_imovel.columns.name = 'Id'

In [127]:
tipo_imovel

Id,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


## 3) Operação com series
### pd.Series
#### a) Somando com um número

In [12]:
data = {'linha' + str(i) : i + 1 for i in range(5)}

In [13]:
s = pd.Series(data=data)

linha0    1
linha1    2
linha2    3
linha3    4
linha4    5
dtype: int64

In [15]:
s1 = s + 2

In [16]:
s1

linha0    3
linha1    4
linha2    5
linha3    6
linha4    7
dtype: int64

#### b) Somando duas series

In [17]:
s2 = s + s1

In [18]:
s2

linha0     4
linha1     6
linha2     8
linha3    10
linha4    12
dtype: int64

Caso o pandas não encontre um valor corespondente a operação não será feita

In [21]:
s3 = pd.Series(data={'linha' + str(i) : i + 1 for i in range(6)})

In [20]:
s3 + s2

linha0     5.0
linha1     8.0
linha2    11.0
linha3    14.0
linha4    17.0
linha5     NaN
dtype: float64

## 4) Imóveis Residenciais 

# Aula

## 2 Importando dados

In [9]:
dados = pd.read_csv('../dados/aluguel.csv', sep=';')
dados.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,


### 2.4 Conhecendo a base de dados

Os tipos de dados

In [10]:
dados.dtypes

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

Criação de Data Frame e renomeação do *name* da coluna

In [14]:
tipo_dados = pd.DataFrame(data=dados.dtypes, columns=['tipo_dados'])
tipo_dados.columns.name='variavel'
tipo_dados

variavel,tipo_dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


Retorna os númeors de linhas e colunas

In [15]:
dados.shape

(32960, 9)

In [17]:
print(f"A base de dados apresenta {dados.shape[0]} linhas e {dados.shape[1]} colunas ou variáveis")

A base de dados apresenta 32960 linhas e 9 colunas ou variáveis


### 2.7 Importando outras fontes

Leitura de dados json

In [20]:
df_json = pd.read_json('../dados/aluguel.json')
df_json.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,


Leitura de dados txt

In [26]:
df_txt = pd.read_table('../dados/aluguel.txt')
df_txt.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,


Leitura de arquivo do excel

In [3]:
df_xlsx = pd.read_excel('../dados/aluguel.xlsx')
df_xlsx.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,


Leitura de página html

In [2]:
df_html = pd.read_html('../dados/dados_html_1.html')
df_html[0]

Unnamed: 0,FAIXA ETÁRIA,UNAFISCO SAÚDE SOFT II,SOFT PARTICIPATIVO,UNIQUE
0,00 A 18,"R$218,99","R$192,60","R$334,48"
1,19 A 23,"R$263,63","R$207,67","R$380,06"
2,24 A 28,"R$322,44","R$224,26","R$464,39"
3,29 A 33,"R$402,05","R$258,63","R$566,68"
4,34 A 38,"R$455,17","R$306,37","R$664,61"
5,39 A 43,"R$489,29","R$417,93","R$742,72"
6,44 A 48,"R$582,65","R$495,24","R$869,47"
7,49 A 53,"R$718,86","R$562,64","R$1.046,29"
8,54 A 58,"R$908,54","R$721,00","R$1.355,74"
9,59 OU MAIS,"R$1.244,50","R$1.151,62","R$2.003,53"


In [2]:
df_html = pd.read_html('https://www.federalreserve.gov/releases/h3/current/default.htm')

len(df_html)

3

In [4]:
df_html[0].head(10)

Unnamed: 0_level_0,Date,Reserve balances required,Reserve balances required,Reserve balances required,Reserve balances maintained 4,Reserve balances maintained 4,Reserve balances maintained 4
Unnamed: 0_level_1,Date,Reserve balance requirements 1,Top of penalty- free band 2,Bottom of penalty- free band 3,Total,Balances maintained to satisfy reserve balance requirements 5,Balances maintained that exceed the top of the penalty- free band 6
0,Month 7,Month 7,Month 7,Month 7,Month 7,Month 7,Month 7
1,Aug. 2019,134639,148114,121167,1520876,147555,1373321
2,Sept. 2019,134707,148188,121227,1439771,147498,1292273
3,Oct. 2019,134998,148509,121489,1481513,148050,1333462
4,Nov. 2019,140705,154787,126625,1529341,154256,1375085
5,Dec. 2019,138984,152893,125076,1630090,152562,1477528
6,Jan. 2020,144816,159309,130326,1645384,158765,1486619
7,Feb. 2020,138370,152218,124524,1656989,151612,1505377
8,Mar. 2020,113139,124461,101817,2045148,124147,1921000
9,Apr. 2020,0,0,0,2953586,0,2953586


## 3 Series e Index

### 3.2 Removendo valores repetidos

In [3]:
tipo_imovel = dados['Tipo']

In [9]:
tipo_imovel

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

Removendo os valores duplicados

In [4]:
tipo_imovel.drop_duplicates(inplace=True)

In [13]:
tipo_imovel

0                          Quitinete
1                               Casa
2            Conjunto Comercial/Sala
3                        Apartamento
7                 Casa de Condomínio
16                    Prédio Inteiro
17                              Flat
29                        Loja/Salão
80           Galpão/Depósito/Armazém
83                    Casa Comercial
117                     Casa de Vila
159                   Terreno Padrão
207                      Box/Garagem
347                             Loft
589      Loja Shopping/ Ct Comercial
2157                         Chácara
3354           Loteamento/Condomínio
4379                           Sítio
4721                   Pousada/Chalé
6983                          Studio
9687                           Hotel
23614                      Indústria
Name: Tipo, dtype: object

### 3.4 Redefinindo o index

In [5]:
tipo_imovel = pd.DataFrame(tipo_imovel)

In [6]:
tipo_imovel

Unnamed: 0,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
7,Casa de Condomínio
16,Prédio Inteiro
17,Flat
29,Loja/Salão
80,Galpão/Depósito/Armazém
83,Casa Comercial


In [7]:
tipo_imovel.index

Int64Index([    0,     1,     2,     3,     7,    16,    17,    29,    80,
               83,   117,   159,   207,   347,   589,  2157,  3354,  4379,
             4721,  6983,  9687, 23614],
           dtype='int64')

In [9]:
tipo_imovel.index = range(tipo_imovel.shape[0])

In [11]:
tipo_imovel.columns.name = 'Id'

In [12]:
tipo_imovel

Id,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


### 3.6 Criando Series

Índice são rotulo do conjunto de dados (Serie, DataFrame)

#### 1) Criando uma Series

In [13]:
data = [1, 2, 3, 4, 5]
s = pd.Series(data)
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

#### 2) Criando uma serie e definindo o índice 

In [16]:
index = ['linha' + str(i) for i in range(5)]
s = pd.Series(data=data, index=index)
s

linha0    1
linha1    2
linha2    3
linha3    4
linha4    5
dtype: int64

#### 3) Criando uma Serie através de um dicionário

In [30]:
data = {'linha' + str(i) : i + 1 for i in range(5)}
data

{'linha0': 1, 'linha1': 2, 'linha2': 3, 'linha3': 4, 'linha4': 5}

In [31]:
s = pd.Series(data)
s

linha0    1
linha1    2
linha2    3
linha3    4
linha4    5
dtype: int64

#### 4) Somando um número com uma Serie

In [32]:
s1 = s + 2
s1

linha0    3
linha1    4
linha2    5
linha3    6
linha4    7
dtype: int64

#### 5) Somando duas serie
Caso o pandas não encontre um valor corespondente a operação não será feita

In [33]:
s2 = s1 + s
s2

linha0     4
linha1     6
linha2     8
linha3    10
linha4    12
dtype: int64

### 3.7 Concatenando dataframes

In [58]:
data = [[1, 2, 3], 
        [4, 5, 6], 
        [7, 8, 9]]

In [40]:
data

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

#### 1) Criando uma Data Frame a parti de uma lista

In [43]:
index = ['Linha' + str(i) for i in range(3)]

In [46]:
columns = ['Coluna' + str(i) for i in range(3)]

In [59]:
df1 = pd.DataFrame(data=data, index=index,columns = columns)

In [48]:
df1

Unnamed: 0,Coluna0,Coluna1,Coluna2
Linha0,1,2,3
Linha1,4,5,6
Linha2,7,8,9


#### 2) Criando um Data Frame a parti de uma dicionário

In [49]:
data = {'Coluna0': {'Linha0': 1, 'Linha1': 4, 'Linha2': 7},
        'Coluna1': {'Linha0': 2, 'Linha1': 5, 'Linha2': 8},
        'Coluna2': {'Linha0': 3, 'Linha1': 6, 'Linha2': 9}}

In [50]:
df2 = pd.DataFrame(data=data)

In [51]:
df2

Unnamed: 0,Coluna0,Coluna1,Coluna2
Linha0,1,2,3
Linha1,4,5,6
Linha2,7,8,9


#### 3) Definindo um Data Frame através de uma lista de dupla

In [52]:
data = [(1, 2, 3), 
        (4, 5, 6), 
        (7, 8, 9)]

In [54]:
df3 = pd.DataFrame(data=data, index=index, columns=columns)

In [55]:
df3

Unnamed: 0,Coluna0,Coluna1,Coluna2
Linha0,1,2,3
Linha1,4,5,6
Linha2,7,8,9


#### 4) Concatenação de Data Frame

In [60]:
df1[df1 > 0] = 'A'

In [61]:
df1

Unnamed: 0,Coluna0,Coluna1,Coluna2
Linha0,A,A,A
Linha1,A,A,A
Linha2,A,A,A


In [62]:
df2[df2 > 0] = 'B'

In [63]:
df2

Unnamed: 0,Coluna0,Coluna1,Coluna2
Linha0,B,B,B
Linha1,B,B,B
Linha2,B,B,B


In [64]:
df3[df3 > 0] = 'B'

In [66]:
df3

Unnamed: 0,Coluna0,Coluna1,Coluna2
Linha0,B,B,B
Linha1,B,B,B
Linha2,B,B,B


##### a) Através dos rótulos das colunas

In [69]:
df4 = pd.concat([df1, df2, df3], axis=0)

In [70]:
df4

Unnamed: 0,Coluna0,Coluna1,Coluna2
Linha0,A,A,A
Linha1,A,A,A
Linha2,A,A,A
Linha0,B,B,B
Linha1,B,B,B
Linha2,B,B,B
Linha0,B,B,B
Linha1,B,B,B
Linha2,B,B,B


Observação: Nos *Data Frame* podemos ter linhas iguais, deste que as colunas sejam diferente

##### b) Através das linhas

In [71]:
df4 = pd.concat([df1, df2, df3], axis=1)

In [72]:
df4

Unnamed: 0,Coluna0,Coluna1,Coluna2,Coluna0.1,Coluna1.1,Coluna2.1,Coluna0.2,Coluna1.2,Coluna2.2
Linha0,A,A,A,B,B,B,B,B,B
Linha1,A,A,A,B,B,B,B,B,B
Linha2,A,A,A,B,B,B,B,B,B


Observação: Nos Data Frame podemos ter colunas iguais, deste que as linhas sejam diferente

## 4 Filtrando dados
### 4.2 Imóveis residenciais
Somente os imóveis único do conjunto de dados e selecionando os imóveis residencias

In [4]:
list(dados['Tipo'].drop_duplicates())

['Quitinete',
 'Casa',
 'Conjunto Comercial/Sala',
 'Apartamento',
 'Casa de Condomínio',
 'Prédio Inteiro',
 'Flat',
 'Loja/Salão',
 'Galpão/Depósito/Armazém',
 'Casa Comercial',
 'Casa de Vila',
 'Terreno Padrão',
 'Box/Garagem',
 'Loft',
 'Loja Shopping/ Ct Comercial',
 'Chácara',
 'Loteamento/Condomínio',
 'Sítio',
 'Pousada/Chalé',
 'Studio',
 'Hotel',
 'Indústria']

In [5]:
residencial = ['Quitinete', 
'Casa',
'Apartamento',
'Casa de Condomínio',
'Casa de Vila']

In [6]:
residencial

['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

Criando uma series boolean onde true significa que é um tipo de imóvel residencial e aplicando no DataFrame.

In [7]:
selecao = dados['Tipo'].isin(residencial)

In [9]:
selecao.head(5)

0     True
1     True
2    False
3     True
4     True
Name: Tipo, dtype: bool

In [11]:
dados_residencial = dados[selecao]

In [12]:
dados_residencial.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,


Redefinindo o índice

In [14]:
dados_residencial.index = range(dados_residencial.shape[0])

In [15]:
dados_residencial.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,


### 4.4 Exportando base de dados

In [16]:
dados_residencial.to_csv('../dados/aluguel_residencial.csv', sep=';', index=False)

In [19]:
pd.read_csv('../dados/aluguel_residencial.csv', sep=';').head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,


### 4.6 Organizando dataframes

In [20]:
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [27]:
df = pd.DataFrame(data, list('321'), list('ZYX'))

In [28]:
df

Unnamed: 0,Z,Y,X
3,1,2,3
2,4,5,6
1,7,8,9


Organizando pelo índice das linhas

In [29]:
df.sort_index(inplace=True)

In [30]:
df

Unnamed: 0,Z,Y,X
1,7,8,9
2,4,5,6
3,1,2,3


Organizando pelo índice das colunas

In [31]:
df.sort_index(inplace=True, axis=1)

In [32]:
df

Unnamed: 0,X,Y,Z
1,9,8,7
2,6,5,4
3,3,2,1


Ordenando o *DataFrame* pelos valores

Ordenando pela coluna X

In [34]:
df.sort_values(by='X', inplace=True)

In [35]:
df

Unnamed: 0,X,Y,Z
3,3,2,1
2,6,5,4
1,9,8,7


Ordenando por mas de uma coluna. Neste caso a coluna X e Y

In [40]:
df.sort_values(by=['X', 'Y'], inplace=True)

In [41]:
df

Unnamed: 0,Z,Y,X
3,1,2,3
2,4,5,6
1,7,8,9


Ordenando pela linha utilizando como base a linha 3

In [38]:
df.sort_values(by='3', axis=1, inplace=True)

In [39]:
df

Unnamed: 0,Z,Y,X
3,1,2,3
2,4,5,6
1,7,8,9


## 5 Frequências de imóveis

In [5]:
dados = pd.read_csv('../dados/aluguel_residencial.csv', sep=';')

In [6]:
dados.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,


### 5.2 Seleções e frequências

#### 1) Selecione somente os imóveis classificados com tipo 'Apartamento'.

In [24]:
df_1 = dados[dados['Tipo'].isin(['Apartamento'])]

In [25]:
df_1.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


#### 2) Selecione os imóveis classificados com tipos 'Casa', 'Casa de Condomínio' e 'Casa de Vila'.

In [26]:
df_2 = dados[dados['Tipo'].isin(['Casa', 'Casa de Condomínio', 'Casa de Vila'])]

In [27]:
df_2.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,


#### 3) Selecione os imóveis com área entre 60 e 100 metros quadrados, incluindo os limites.

In [41]:
df_3 = dados[(dados['Area'] >=60) & (dados['Area'] <=100)]

In [42]:
df_3.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,


#### 4) Selecione os imóveis que tenham pelo menos 4 quartos e aluguel menor que R$ 2.000,00.

In [44]:
df_4 = dados[(dados['Quartos'] >= 4) & (dados['Valor'] < 2000)]

In [45]:
df_4.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
484,Apartamento,Recreio dos Bandeirantes,4,2,2,160,1900.0,830.0,
1003,Apartamento,Taquara,4,1,1,110,1900.0,,


In [46]:
print("Nº de imóveis classificados com tipo 'Apartamento' -> {}".format(df_1.shape[0]))
print("Nº de imóveis classificados com tipos 'Casa', 'Casa de Condomínio' e 'Casa de Vila'-> {}".format(df_2.shape[0]))
print("Nº de imóveis com área entre 60 e 100 metros quadrados, incluindo os limites -> {}".format(df_3.shape[0]))
print("Nº de imóveis que tenham pelo menos 4 quartos e aluguel menor que R$ 2.000,00 -> {}".format(df_4.shape[0]))

Nº de imóveis classificados com tipo 'Apartamento' -> 19532
Nº de imóveis classificados com tipos 'Casa', 'Casa de Condomínio' e 'Casa de Vila'-> 2212
Nº de imóveis com área entre 60 e 100 metros quadrados, incluindo os limites -> 8719
Nº de imóveis que tenham pelo menos 4 quartos e aluguel menor que R$ 2.000,00 -> 41


### 5.7 Formas de seleções

In [3]:
data = [(1, 2, 3, 4),
        (5, 6, 7, 8),
        (8, 10, 11, 12),
        (13, 14, 15, 16)]
df = pd.DataFrame(data, 'l1 l2 l3 l4'.split(), 'c1 c2 c3 c4'.split())

In [4]:
df

Unnamed: 0,c1,c2,c3,c4
l1,1,2,3,4
l2,5,6,7,8
l3,8,10,11,12
l4,13,14,15,16


Selecionar as colunas

In [5]:
df['c1']

l1     1
l2     5
l3     8
l4    13
Name: c1, dtype: int64

Podemos selecionar mais de uma coluna de nosso DataFrame, não precisamos, necessariamente, respeitar a ordem de construção da colunas.

In [6]:
df[['c3','c1']]

Unnamed: 0,c3,c1
l1,3,1
l2,7,5
l3,11,8
l4,15,13


Podemos, ainda, realizar seleções por linha. Passaremos o índex numérico, que são os dafault de uma Series, que variam de 1 até o número de linhas totais do DataFrame. Quando queremos fazer a seleção de todas as linha do DataFrame, escrevemos:

In [7]:
df[:]

Unnamed: 0,c1,c2,c3,c4
l1,1,2,3,4
l2,5,6,7,8
l3,8,10,11,12
l4,13,14,15,16


Se quisermos fazer uma seleção somente das linhas l2e l3, escreveremos:

In [8]:
df[1:3]

Unnamed: 0,c1,c2,c3,c4
l2,5,6,7,8
l3,8,10,11,12


A linha l3 corresponde ao número 2 no índice numérico, contudo, devemos passar o índice final 3 para que 2 seja exibido.

Se escreveremos df:[1:2], teremos apenas a linha l2 sendo exibida, pois o último número do índice não é considerado:

In [10]:
df[1:2]

Unnamed: 0,c1,c2,c3,c4
l2,5,6,7,8


Podemos fazer a seleção dessa maneira também para colunas, basta escrever:

In [11]:
df[1:][['c3', 'c1']]

Unnamed: 0,c3,c1
l2,7,5
l3,11,8
l4,15,13


Aprenderemos a utilizar o *df.loc[]*. Ele permite que realizemos seleções a partir do rótulo das linhas, o que ainda não fizemos até este ponto, em que só trabalhamos com o índice numérico. Selecionaremos a linha l3:

In [12]:
df.loc['l3']

c1     8
c2    10
c3    11
c4    12
Name: l3, dtype: int64

Podemos, ainda, selecionar mais de uma linha:

In [13]:
df.loc[['l3', 'l2']]

Unnamed: 0,c1,c2,c3,c4
l3,8,10,11,12
l2,5,6,7,8


Outra possibilidade é selecionarmos uma linha e uma coluna, como uma notação matricial.

In [14]:
df.loc['l1', 'c2']

2

Outro indexador disponível é o *iloc[]*, que utiliza os índices numéricos. Se quisermos coletar l1, precisaremos escrever 0; para coletar a coluna c1, escreveremos 1

In [15]:
df.iloc[0,1]

2

Esses recursos são interessantes, pois você pode realizar diferentes seleções no DataFrame, de acordo com as necessidades do seu projeto.

In [16]:
df.loc[['l3', 'l1'], ['c4','c1']]

Unnamed: 0,c4,c1
l3,12,8
l1,4,1


Se formos utilizar o *iloc[]* para a construção do mesmo DataFrame, precisaremos utilizar o índice numérico:

In [17]:
df.iloc[[2,0],[3,0]]

Unnamed: 0,c4,c1
l3,12,8
l1,4,1


Dessa forma, finalizamos mais uma aula extra, em que aprendemos alguns recursos para realizar diferentes seleções em nossos DataFrames.

## 6 Tratando de dados faltantes

In [12]:
dados = pd.read_csv('../dados/aluguel_residencial.csv', sep=';')

In [4]:
dados.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,


### 6.2 Tirando valores nulos

isnull

Tal método irá gerar um DataFrame booleano, em que a observação marcada como True caracteriza um dado nulo, isto é, um *missing*

In [5]:
dados.isnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,True
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,True,True
...,...,...,...,...,...,...,...,...,...
22575,False,False,False,False,False,False,False,False,False
22576,False,False,False,False,False,False,False,False,False
22577,False,False,False,False,False,False,False,False,False
22578,False,False,False,False,False,False,False,False,False


notnull

O método *notnull()*, que funciona exatamente da maneira inversa ao *isnull()*: se a informação for nula, será utilizada a notação False

In [6]:
dados.notnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,False,False
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,False
4,True,True,True,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...
22575,True,True,True,True,True,True,True,True,True
22576,True,True,True,True,True,True,True,True,True
22577,True,True,True,True,True,True,True,True,True
22578,True,True,True,True,True,True,True,True,True


Verificando as informações resumida do DataFrame

In [7]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


Os registro do DataFrame que tem o *Valor* nulo

In [8]:
dados[dados['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


dropna

O método *dropna* elimina os registros nulos do DataFrame. O método tem o argumento *subset* onde podemos indicar as colunas que serão levado em consideração para exclusão do registro caso tenha valores nulos.

In [13]:
A = dados.shape[0]
dados.dropna(subset = ['Valor'], inplace=True)
B = dados.shape[0]
A - B

9

### 6.4 Tratamento condicional

Verificação dos registros que tem como o condominio nulo

In [14]:
dados[dados['Condominio'].isnull()].shape[0]

1813

Temos as variáveis `Condomínio` e `IPTU` com alguns problemas. No caso de `Condominio`, os dados nulos nem sempre são incorretos, afinal no caso de uma casa, realmente não há esse tipo de tarifa. Para este caso, devemos considerar a variável Tipo: caso o imóvel seja um `apartamento`, os dados nulos serão excluídos.

In [16]:
selecao = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())

~ na variável selecao, que inverte a Series booleana.

In [17]:
A = dados.shape[0]
dados = dados[~selecao]
B = dados.shape[0]
A - B

745

Vamos verificar quantas assinaturas nulas temos em `Condominio` agora:

In [18]:
dados[dados['Condominio'].isnull()].shape[0]

1068

o resultado será 1068. O que faremos é manter esses dados, mas atribuir o valor 0 a eles. Temos uma função para esta ação `fillna()`, que receberá o valor 0 e inplance = True.

In [None]:
# Não executou
dados.fillna(0, inplace = True)

Outra maneira de resolver a questão, é criar um dicionário que indicará os valores das variáveis. Podemos, inclusive, inserir valores diferentes para ambas as variáveis.

In [23]:
dados = dados.fillna({'Condominio': 0, 'IPTU': 0})

Ao verificarmos novamente a quantidade de nulos existentes em nosso DataFrame, tanto para variável `Condominio` quanto para `IPTU`, o resultado será 0. Podemos verificar com mais clareza escrevendo:

In [24]:
dados.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21826 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        21826 non-null  object 
 1   Bairro      21826 non-null  object 
 2   Quartos     21826 non-null  int64  
 3   Vagas       21826 non-null  int64  
 4   Suites      21826 non-null  int64  
 5   Area        21826 non-null  int64  
 6   Valor       21826 non-null  float64
 7   Condominio  21826 non-null  float64
 8   IPTU        21826 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


Temos, portanto, `21826` registros e nenhum deles é nulo. Para finalizarmos essa etapa, devemos salvar este arquivo, de forma que o DataFrame seja atualizado com as modificações que realizamos.

In [26]:
dados.to_csv('../dados/aluguel_residencial_v2.csv', sep = ';', index = False)

In [None]:
## 7 Novas variáveis

In [None]:
## 8 Estatísticas descritivas

In [None]:
## 9 Removendo Outliers