# Phyton para DataScience - Pandas

#  1 - Introdução ao Phyton 

# 1.1 Introdução 

Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto open source e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares.

Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado

# 1.2 Instalação e ambiente de desenvolvimento 

## Instalação local 

## https://www.python.org/downloads/

## ou

## https://www.anaconda.com/distribution/

## Google Colaboratory


## https://colab.research.google.com/

# 1.3 Trabalhando com dados 

In [160]:
import pandas as pd

# importando a biblioteca pandas para utilizar no notebook 


In [161]:
pd.read_csv('Portifolio/aluguel.csv' , sep = ";")

# comando para abrir o arquivo upado na pasta "portifolio"
# utilização do sep = ";" quando o separador default tiver alterado 

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [162]:
dados = pd.read_csv('Portifolio/aluguel.csv' , sep = ";")

# determinando a nossa variavel dados, vinculando ela ao nosso arquivo "aluguel"


In [163]:
dados.dtypes

# mostra as categorias dos dados processados 

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

In [164]:
type(dados)

# mostra o tipo de variavel 

pandas.core.frame.DataFrame

In [165]:
dados.info()

# mais detalhes sobre a variavel(dataframe)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


# 2. Trabalhando com Tuplas 

# 2.1 Criando Tuplas 

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:

- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)

In [166]:
()

()

In [167]:
1,2,3

(1, 2, 3)

In [168]:
tipo = 'apartamento'
valor = '100000'
(tipo,valor)

('apartamento', '100000')

In [169]:
tipo_moradia = ('apartamento','casa','kitnet','flat')
tipo_moradia

# criando uma variavel para exemplificar tuplas 

('apartamento', 'casa', 'kitnet', 'flat')

In [170]:
type(tipo_moradia)

tuple

# 2.2 Seleção em Tuplas

In [171]:
tipo_moradia

('apartamento', 'casa', 'kitnet', 'flat')

In [172]:
tipo_moradia[0]

'apartamento'

In [173]:
tipo_moradia[-1]

'flat'

In [174]:
tipo_moradia[1:3]

('casa', 'kitnet')

In [175]:
tipo_moradia2 = ('apartamento','kitnet','flat', ('casa','casa de vila','casa de condominio'))
tipo_moradia2

('apartamento',
 'kitnet',
 'flat',
 ('casa', 'casa de vila', 'casa de condominio'))

In [176]:
tipo_moradia2[-1]

('casa', 'casa de vila', 'casa de condominio')

In [177]:
tipo_moradia2[-1][0]

# quando colocados em colchetes lado a lado a seleção ira pegar o item dentro do subgrupo referente a posição pré determinada, no caso -1

'casa'

# 2.3 Iterando em Tupas 

In [178]:
tipo_moradia = ('apartamento','casa','kitnet','flat')
tipo_moradia

('apartamento', 'casa', 'kitnet', 'flat')

In [179]:
for casa in tipo_moradia:
  print(casa)

apartamento
casa
kitnet
flat


## Desempacotamento de Tuplas

In [180]:
moradia_1,moradia_2,moradia_3,moradia_4 = tipo_moradia


In [181]:
moradia_1

'apartamento'

In [182]:
moradia_2

'casa'

In [183]:
moradia_3

'kitnet'

In [184]:
moradia_4

'flat'

In [185]:
_,A,_,B = tipo_moradia

In [186]:
A

'casa'

In [187]:
B

'flat'

In [188]:
_,C,*_ = tipo_moradia

In [189]:
C

'casa'

# Zip ()

https://docs.python.org/3.6/library/functions.html#zip

In [190]:
moradia = ['apartamento','casa','kitnet','flat']
moradia

['apartamento', 'casa', 'kitnet', 'flat']

In [191]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [192]:
list(zip(moradia,valores))

[('apartamento', 88078.64),
 ('casa', 106161.94),
 ('kitnet', 72832.16),
 ('flat', 124549.07)]

In [193]:
for casa in zip(moradia,valores):
    print(casa)

('apartamento', 88078.64)
('casa', 106161.94)
('kitnet', 72832.16)
('flat', 124549.07)


In [194]:
for moradia,valor in zip(moradia,valores):
    print(moradia,valor)

apartamento 88078.64
casa 106161.94
kitnet 72832.16
flat 124549.07


In [195]:
for moradia,valores in zip(moradia,valores):
    if valores > 100000:
        print(valores)

106161.94
124549.07


# 3.Trabalhando com Dicionários 

# 3.1 Criando Dicionários 

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (key) e o segundo como valor (value).

      dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
      

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [196]:
moradia = ['casa' , 'kitnet' , 'apartamento']
moradia


['casa', 'kitnet', 'apartamento']

In [197]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [198]:
moradia.index('apartamento')

2

In [199]:
valores[moradia.index('apartamento')]


72832.16

In [200]:

dados = {'casa': 88078.64 , 'kitnet': 106161.94 , 'apartamento': 72832.16}
dados['kitnet']

106161.94

In [201]:
type(dados)

dict

## Criando Dicionários com Zip()

In [202]:
list (zip(moradia,valores))

[('casa', 88078.64), ('kitnet', 106161.94), ('apartamento', 72832.16)]

In [203]:
dados = dict(zip(moradia,valores))
dados


{'casa': 88078.64, 'kitnet': 106161.94, 'apartamento': 72832.16}

# 3.2 Operações com Dicionários

## dict [key]

Retorna o valor correspondente à chave (key) no dicionário.



In [204]:
dados

{'casa': 88078.64, 'kitnet': 106161.94, 'apartamento': 72832.16}

In [205]:
dados['casa']

88078.64

## 

## key in dict

Retorna True se a chave (key) for encontrada no dicionário.

In [206]:
'apartamento' in dados  

True

In [207]:
'casa de vila' in dados 

False

In [208]:
'casa de vila' not in dados 

True

## len(dict)

Retorna o número de itens do dicionário.

In [209]:
len(dados)


3

## dict[ key ] = value

Inclui um item ao dicionário.



In [210]:
dados['casa de vila']=100000


In [211]:
dados

{'casa': 88078.64,
 'kitnet': 106161.94,
 'apartamento': 72832.16,
 'casa de vila': 100000}

## del dict[ key ]

Remove o item de chave (key) do dicionário.

    

In [212]:
dados

{'casa': 88078.64,
 'kitnet': 106161.94,
 'apartamento': 72832.16,
 'casa de vila': 100000}

In [213]:
del dados['casa de vila']
dados

{'casa': 88078.64, 'kitnet': 106161.94, 'apartamento': 72832.16}

# 3.3 Métodos de dicionários


## dict.update()

atualiza o dicionário

In [214]:
dados

{'casa': 88078.64, 'kitnet': 106161.94, 'apartamento': 72832.16}

In [215]:
dados.update({'casa de vila': 100000})
dados

{'casa': 88078.64,
 'kitnet': 106161.94,
 'apartamento': 72832.16,
 'casa de vila': 100000}

## dict.copy()

cria uma cópia do dicionário 

In [216]:
dados_2 = dados.copy()

In [217]:
dados_2

{'casa': 88078.64,
 'kitnet': 106161.94,
 'apartamento': 72832.16,
 'casa de vila': 100000}

In [218]:
del dados_2['casa']
dados_2

{'kitnet': 106161.94, 'apartamento': 72832.16, 'casa de vila': 100000}

In [219]:
dados

{'casa': 88078.64,
 'kitnet': 106161.94,
 'apartamento': 72832.16,
 'casa de vila': 100000}

## dict.pop(key[, default])

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como default é retornado. Se o valor default não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

In [220]:
dados_2

{'kitnet': 106161.94, 'apartamento': 72832.16, 'casa de vila': 100000}

In [221]:
dados_2.pop('apartamento')

72832.16

In [222]:
dados_2

{'kitnet': 106161.94, 'casa de vila': 100000}

In [223]:
dados_2.pop('apartamento','chave não encontrada')

'chave não encontrada'

## dict.clear

Remove todos os itens do dicionario 

In [224]:
dados_2.clear()

In [225]:
dados_2

{}

# 3.4 Iterando em dicionários 

## dict.keys()

Retorna uma lista contendo as chaves (keys) do dicionário.



In [226]:
dados_2 = dados.copy()

In [227]:
dados_2

{'casa': 88078.64,
 'kitnet': 106161.94,
 'apartamento': 72832.16,
 'casa de vila': 100000}

In [228]:
dados.keys()


dict_keys(['casa', 'kitnet', 'apartamento', 'casa de vila'])

In [229]:
for casa in dados_2.keys():
    print([dados_2[casa]])

[88078.64]
[106161.94]
[72832.16]
[100000]


## dict.values()

Retorna uma lista com todos os valores (values) do dicionário.



In [230]:
dados.values()

dict_values([88078.64, 106161.94, 72832.16, 100000])

## dict.items()

Retorna uma lista contendo uma tupla para cada par chave-valor (key-value) do dicionário.



In [231]:
dados.items()

dict_items([('casa', 88078.64), ('kitnet', 106161.94), ('apartamento', 72832.16), ('casa de vila', 100000)])

In [232]:
for casa in dados_2.items():
  print(casa)
   

('casa', 88078.64)
('kitnet', 106161.94)
('apartamento', 72832.16)
('casa de vila', 100000)


In [233]:
for key,values in dados_2.items():
  print(key,values)

casa 88078.64
kitnet 106161.94
apartamento 72832.16
casa de vila 100000


In [234]:
for key,value in dados_2.items():
  if value>100000:
    print(key,value)

kitnet 106161.94


   # 4.Funções e Pacotes 

Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.



# 4.1 Built-in function


A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [235]:
dados

{'casa': 88078.64,
 'kitnet': 106161.94,
 'apartamento': 72832.16,
 'casa de vila': 100000}

In [236]:
valores = []
for valor in dados.values():
 valores.append(valor)
valores

[88078.64, 106161.94, 72832.16, 100000]

In [237]:
soma = 0 
for valor in dados.values():
    soma += valor 
soma

367072.74

In [238]:
sum(dados.values())

367072.74

In [239]:
sum(dados.values(),1000)

368072.74

In [240]:
help(sum)

Help on built-in function sum in module builtins:

sum(iterable, /, start=0)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



In [241]:
sum?

# 4.2 Definindo funções sem e com parâmetros


## Funçoes sem parâmetros 

## Formato padrão

In [242]:
def texto():
    print('ola meu chapa')

In [243]:
texto()

ola meu chapa


## Funções com parâmetros

## Formato padrão 


def < nome > (< param_1 >, < param_2 >, ..., < param_n >):
    
    < instruções >

In [244]:
def media(valores):
    valores = list(valores)
    media=sum(valores)/len(valores)
    print('a média é%.2f'%media)

In [245]:
media([1,2,3])


a média é2.00


In [246]:
media({1,2,3})

a média é2.00


In [247]:
media((1,2,3))


a média é2.00


# 4.3 Definindo funções que retornam valores


## Funções que retornam um valor

## Formato padrão



def < nome > ( < param_1 > , < param_2 > , ..., < param_n > ):
    
    < instruções >
    
    return < resultado >

In [248]:
def media(valores):
    valores=list(valores)
    media=sum(valores)/len(valores)
    print('A média é %.2f'%media)
    return(media)

In [249]:
resultado = media({1,2,3})


A média é 2.00


In [250]:
resultado 

2.0

In [251]:
import numpy as np 
teste = np.arange(1,11)
teste

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [252]:
resultado = media(teste)

A média é 5.50


In [253]:
resultado

5.5

## Funções que retornam mais de um valor

## Formato padrão


def < nome >(< param_1 >, < param_2 >, ..., < param_n >):
    
    < instruções >
    
    return (< resultado_1 >, < resultado_2 >, ..., < resultado_n >)

In [254]:
def media(valores):
    valores = list(valores)
    tamanho = len(valores)
    
    media = sum(valores)/tamanho
    
    print('a média é %.2f'%media)
    print('o tamanho é %.i'%tamanho)
    return(media,tamanho)

In [255]:
resultado = media(teste)

a média é 5.50
o tamanho é 10


In [256]:
resultado

(5.5, 10)

# 5.Pandas Basico

versão: 0.25.2

Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.

## Estruturas de dados 

## Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de index. A forma básica de criação de uma Series é a seguinte:

    s = pd.Series(dados, index = index)
O argumento dados pode ser um dicionário, uma lista, um array Numpy ou uma constante.

## DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.

    df = pd.DataFrame(dados, index = index, columns = columns)
O argumento dados pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

Documentação: https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados


In [257]:
import pandas as pd 

# serve para iniciar a utilização da biblioteca pandas 

## Criando uma Series a partir de uma lista


In [258]:
moradia

['casa', 'kitnet', 'apartamento']

In [259]:
pd.Series(moradia)

0           casa
1         kitnet
2    apartamento
dtype: object

## Criando um DataFrame a partir de uma lista de dicionários


In [260]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]


In [261]:
dataset = pd.DataFrame(dados)

In [262]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


## Criando um DataFrame a partir de um dicionário


In [263]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [264]:
dataset = pd.DataFrame(dados)


In [265]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


## Criando um DataFrame a partir de uma arquivo externo


In [266]:
data_frame = pd.read_csv('Portifolio/aluguel.csv' , sep = ";")


In [267]:
data_frame.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,


In [268]:
data_frame_2 = data_frame = pd.read_csv('Portifolio/aluguel.csv' , sep = ";" ,index_col = 0)
data_frame_2.head(2)

# index_col = 0, faz com que retire a contagem das colunas 

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
Casa,Jardim Botânico,2,0,1,100,7000.0,,


# 5.2 Seleções com DataFrames

## Selecionando colunas


In [269]:
data_frame.head()

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [270]:
data_frame['Bairro']

Tipo
Quitinete                            Copacabana
Casa                            Jardim Botânico
Conjunto Comercial/Sala         Barra da Tijuca
Apartamento                              Centro
Apartamento                        Higienópolis
                                   ...         
Quitinete                                Centro
Apartamento                         Jacarepaguá
Apartamento                São Francisco Xavier
Apartamento                              Leblon
Conjunto Comercial/Sala                  Centro
Name: Bairro, Length: 32960, dtype: object

In [271]:
type(data_frame['Bairro'])

pandas.core.series.Series

In [272]:
data_frame[['Bairro']]

Unnamed: 0_level_0,Bairro
Tipo,Unnamed: 1_level_1
Quitinete,Copacabana
Casa,Jardim Botânico
Conjunto Comercial/Sala,Barra da Tijuca
Apartamento,Centro
Apartamento,Higienópolis
...,...
Quitinete,Centro
Apartamento,Jacarepaguá
Apartamento,São Francisco Xavier
Apartamento,Leblon


In [273]:
type(data_frame[['Bairro']])

pandas.core.frame.DataFrame

## Selecionando linhas - [ i : j ]

**Observação:** A indexação tem origem no zero e nos fatiamentos (slices) a linha com índice i é incluída e a linha com índice j não é incluída no resultado.



In [274]:
data_frame[0:3]

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0


## Utilizando .loc para seleções

**Observação:** Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.



In [275]:
data_frame.loc['Casa']


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Casa,Campo Grande,4,1,2,400,12000.0,,
Casa,Méier,2,0,0,51,1500.0,50.0,
Casa,São Conrado,4,2,4,730,28000.0,2000.0,12000.0
Casa,Maracanã,8,3,5,259,7000.0,,
...,...,...,...,...,...,...,...,...
Casa,Vila da Penha,2,1,0,80,1500.0,,
Casa,Campo Grande,1,0,0,50,600.0,,
Casa,Recreio dos Bandeirantes,4,2,2,352,6500.0,,
Casa,Bento Ribeiro,2,1,0,60,1400.0,,


In [276]:
data_frame.loc[['Casa','Apartamento']]


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Casa,Campo Grande,4,1,2,400,12000.0,,
Casa,Méier,2,0,0,51,1500.0,50.0,
Casa,São Conrado,4,2,4,730,28000.0,2000.0,12000.0
Casa,Maracanã,8,3,5,259,7000.0,,
...,...,...,...,...,...,...,...,...
Apartamento,Vila Valqueire,2,0,0,52,1000.0,550.0,
Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [277]:
data_frame.loc[['Casa','Apartamento'],['Vagas','Suites']]


Unnamed: 0_level_0,Vagas,Suites
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1
Casa,0,1
Casa,1,2
Casa,0,0
Casa,2,4
Casa,3,5
...,...,...
Apartamento,0,0
Apartamento,0,0
Apartamento,1,2
Apartamento,1,0


In [278]:
data_frame.loc[:,['Vagas','Suites']]


Unnamed: 0_level_0,Vagas,Suites
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1
Quitinete,0,0
Casa,0,1
Conjunto Comercial/Sala,4,0
Apartamento,0,0
Apartamento,0,0
...,...,...
Quitinete,0,0
Apartamento,1,2
Apartamento,1,0
Apartamento,0,0


## Utilizando .iloc para seleções

**Observação:** Seleciona com base nos índices, ou seja, se baseia na posição das informações.




In [279]:
data_frame.iloc[1]


Bairro        Jardim Botânico
Quartos                     2
Vagas                       0
Suites                      1
Area                      100
Valor                  7000.0
Condominio                NaN
IPTU                      NaN
Name: Casa, dtype: object

In [280]:
data_frame.iloc[[1]]


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casa,Jardim Botânico,2,0,1,100,7000.0,,


In [281]:
data_frame.iloc[1:4]


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
Apartamento,Centro,1,0,0,15,800.0,390.0,20.0


In [282]:
data_frame.iloc[1:4,[0,5,2]]


Unnamed: 0_level_0,Bairro,Valor,Vagas
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Casa,Jardim Botânico,7000.0,0
Conjunto Comercial/Sala,Barra da Tijuca,5200.0,4
Apartamento,Centro,800.0,0


In [283]:
data_frame.iloc[[1,23,42],[0,5,2]]


Unnamed: 0_level_0,Bairro,Valor,Vagas
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Casa,Jardim Botânico,7000.0,0
Apartamento,Olaria,1000.0,1
Conjunto Comercial/Sala,Recreio dos Bandeirantes,1500.0,1


# 5.3 Queries com DataFrames


In [284]:
data_frame.head()


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [285]:
data_frame.Bairro=="Copacabana"


Tipo
Quitinete                   True
Casa                       False
Conjunto Comercial/Sala    False
Apartamento                False
Apartamento                False
                           ...  
Quitinete                  False
Apartamento                False
Apartamento                False
Apartamento                False
Conjunto Comercial/Sala    False
Name: Bairro, Length: 32960, dtype: bool

In [286]:
casa_bairro = data_frame.Bairro=='Copacabana'


In [287]:
data_frame[casa_bairro].head()


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0
Quitinete,Copacabana,1,0,0,27,1800.0,501.0,
Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0
Apartamento,Copacabana,3,1,2,378,10000.0,2150.0,700.0


In [288]:
data_frame[ (data_frame.Bairro=='Copacabana') & (data_frame.Bairro==True) ]

# vazio pois (data_frame.Bairro==True) não tem conrrespondência 

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1


## Utilizando o método query


In [289]:
data_frame.query('Bairro == "Copacabana"')


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0
Quitinete,Copacabana,1,0,0,27,1800.0,501.0,
Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0
Apartamento,Copacabana,3,1,2,378,10000.0,2150.0,700.0
...,...,...,...,...,...,...,...,...
Apartamento,Copacabana,1,0,0,60,2400.0,530.0,78.0
Apartamento,Copacabana,2,0,0,67,2450.0,679.0,80.0
Apartamento,Copacabana,2,0,1,70,4100.0,700.0,90.0
Apartamento,Copacabana,1,0,0,50,1950.0,450.0,70.0


In [290]:
data_frame.query('Bairro=="Copacabana" and Bairro==True ')

# Novamente não tem correspondência de true e false

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1


# 5.4 Tratamento de dados

In [299]:
data_frame.info()


<class 'pandas.core.frame.DataFrame'>
Index: 32960 entries, Quitinete to Conjunto Comercial/Sala
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Bairro      32960 non-null  object 
 1   Quartos     32960 non-null  int64  
 2   Vagas       32960 non-null  int64  
 3   Suites      32960 non-null  int64  
 4   Area        32960 non-null  int64  
 5   Valor       32943 non-null  float64
 6   Condominio  28867 non-null  float64
 7   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(1)
memory usage: 3.3+ MB


In [300]:

data_frame.Quartos.isna()


Tipo
Quitinete                  False
Casa                       False
Conjunto Comercial/Sala    False
Apartamento                False
Apartamento                False
                           ...  
Quitinete                  False
Apartamento                False
Apartamento                False
Apartamento                False
Conjunto Comercial/Sala    False
Name: Quartos, Length: 32960, dtype: bool

In [302]:
data_frame[data_frame.Valor.isna()]


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
Apartamento,Leme,2,0,0,75,,878.0,
Casa,Campo Grande,3,4,3,363,,,
Loja/Salão,Barra da Tijuca,0,2,0,80,,,
Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
Apartamento,Copacabana,2,0,0,72,,850.0,
Loja/Salão,Andaraí,0,0,0,326,,,1140.0
Casa,Campo Grande,3,2,1,100,,,
Apartamento,Leme,2,0,1,75,,878.0,
Apartamento,Glória,3,0,1,135,,910.0,228.0


In [304]:
data_frame.fillna(0,inplace=True)
data_frame

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
...,...,...,...,...,...,...,...,...
Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
Apartamento,Leblon,2,0,0,70,3000.0,760.0,0.0


In [307]:
data_frame.query('Suites==True').head()


Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0
Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0
Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0
Flat,Botafogo,3,1,1,80,3800.0,1040.0,0.0
