# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [1]:
!python -V

Python 3.7.10


# 1.3 Trabalhando com dados

>**DataFrame:** é a estrutura de dados que a Pandas disponibiliza para que 
possamos manipular os dados

In [8]:
import pandas as pd

In [9]:
dataset = pd.read_csv('db.csv', sep = ';')

In [10]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [12]:
pd.set_option('display.max_rows', 1000)

In [None]:
dataset

In [None]:
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)
dataset

In [17]:
# Para o curso, vamos deixar na configuração padrão que é 
# exibir as 10 primeiras linhas
pd.set_option('display.max_rows', 10)
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [18]:
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [19]:
# Calcular estatística descritiva
# Selecionando 2 variáveis para calcular:
dataset[['Quilometragem', 'Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [21]:
# O método describe() gera um conjunto de estatísticas descritivas das colunas 
# selecionadas de um DataFrame.
dataset.describe()

Unnamed: 0,Ano,Quilometragem,Valor
count,258.0,197.0,258.0
mean,2007.511628,58278.42132,98960.513101
std,9.725906,35836.733259,29811.932305
min,1990.0,107.0,50742.1
25%,1999.0,27505.0,70743.5125
50%,2008.0,55083.0,97724.38
75%,2018.0,90495.0,124633.3025
max,2019.0,119945.0,149489.92


In [22]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [23]:
()

()

In [24]:
1, 2, 3

(1, 2, 3)

In [25]:
nome = 'Passat'
valor = 153000
(nome, valor)

('Passat', 153000)

In [28]:
nomes_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [27]:
type(nomes_carros)

tuple

# 2.2 Seleções em tuplas

In [29]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [30]:
nomes_carros[0]

'Jetta Variant'

In [31]:
nomes_carros[1]

'Passat'

In [32]:
nomes_carros[-1]

'DS5'

In [33]:
nomes_carros[1:3]

('Passat', 'Crossfox')

In [34]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [35]:
nomes_carros[-1]

('Fusca', 'Gol', 'C4')

In [36]:
nomes_carros[-1][1]

'Gol'

## Exercício - 1

Em nosso primeiro treinamento de Python para Data Science, nós aprendemos como fazer seleções de itens em listas e em arrays Numpy. O procedimento para seleções em tuplas funciona da mesma forma. Considere a seguinte tupla:
```
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)
```
Reproduza os seguintes resultados:

1) False

2) 'Freios ABS'

3) ('Rodas de liga', 'Travas elétricas')


In [None]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

In [None]:
carros[0][3]

False

In [None]:
carros[-1][-1][-1]


'Freios ABS'

In [None]:
carros[0][-1][:2]

('Rodas de liga', 'Travas elétricas')

# 2.3 Iterando em tuplas

In [42]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [44]:
for item in nomes_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacotamento de tuplas

In [45]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [46]:
carro_1, carro_2, carro_3, carro_4 = nomes_carros

In [47]:
carro_1

'Jetta Variant'

In [48]:
carro_2

'Passat'

In [49]:
carro_3

'Crossfox'

In [50]:
carro_4

'DS5'

In [51]:
# Se não quisermos utilizar todos os valores da tupla ou
# valores gerados por uma função
# Com o underscore ignoramos pelo posicionamento, os itens que
# não utilizaremos
_, A, _, B = nomes_carros

In [52]:
A

'Passat'

In [53]:
B

'DS5'

In [54]:
# Quando queremos ignorar diversas variáveis, obviamente não é
# interessante repetir vários underscores
_, C, *_ = nomes_carros

In [55]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [56]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [57]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [59]:
# Criando um iterador com a função zip()
list(zip(carros, valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [60]:
# Agora conseguimos iterar o nome e o valor dos veículos ao
# mesmo tempo
for item in zip(carros, valores):
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [61]:
# Desempacotamento de tuplas dentro do for:
for carro, valor in zip(carros, valores):
  print(carro, valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [62]:
for carro, valor in zip(carros, valores):
  if (valor > 100000):
    print(carro)

Passat
DS5


## Exercício - 2

O procedimento de iteração em tuplas é o mesmo que aprendemos com listas, no treinamento anterior. Utilizamos a tupla como iterador de um laço for simples, ou aninhado, e conseguimos acesso a cada item individualmente.

Para responder esta questão, considere a mesma tupla da atividade anterior:
```
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)
```
Observe que se trata de uma tupla (1º nível) com duas tuplas, que representam um conjunto de dados de dois veículos (2º nível), e que uma destas informações (acessórios) vêm também dentro de uma tupla (3º nível). O que precisamos é iterar na tupla carros e imprimir todos os acessórios que aparecem. O resultado desejado é o seguinte:

>Rodas de liga  
Travas elétricas  
Piloto automático  
Central multimídia  
Teto panorâmico  
Freios ABS  

Construa o código que produz este resultado.

In [63]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

In [64]:
for tupla in carros:
    for item in tupla[-1]:
        print(item)

Rodas de liga
Travas elétricas
Piloto automático
Central multimídia
Teto panorâmico
Freios ABS


## Exercício - 3

Considerando as duas listas abaixo:
```
nomes = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]
```
E utilizando o ferramental apresentado acima, construa o código que possibilita a impressão dos nomes dos veículos com quilometragem abaixo de 20.000 km.

In [66]:
nomes = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]

In [67]:
for nome, km in zip(nomes, kms):
    if(km < 20000):
        print(nome)

Passat
Crossfox
C4


# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são **coleções sequenciais**, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são **coleções de associações entre pares de valores** onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [70]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [71]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [72]:
carros.index('Passat')

1

In [73]:
# Para acessar o valor do Passat dentro da lista de valores:
valores[carros.index('Passat')]

106161.94

In [75]:
# Criando um dicionário:
dados = {'Jetta Variant': 88078.64, 'Passat':  106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [76]:
type(dados)

dict

### Criando dicionários com *zip()*

In [77]:
# Outra forma de criar Dicionários:
list(zip(carros, valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [79]:
dados = dict(zip(carros, valores))
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

# 3.2 Operações com dicionários

In [80]:
dados = {'Jetta Variant': 88078.64, 'Passat':  106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

In [81]:
# Passamos a chave e teremos retornado o valor
dados['Passat']

106161.94

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

In [82]:
'Passat' in dados

True

In [83]:
'Fusca' in dados

False

In [84]:
'Fusca' not in dados

True

## *len(dict)*

Retorna o número de itens do dicionário.

In [85]:
len(dados)

3

## *dict[ key ] = value*

Inclui um item ao dicionário.

In [86]:
dados['DS5'] = 124549.07

In [87]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

In [None]:
# del dados['Passat']

In [None]:
dados

### Exercício - 4
Acessando as informações de um dicionário dentro de outro dicionário.

```
Queremos o seguinte:

1) Testar se a chave acessorios existe no dicionário de informações do carro Crossfox (Resposta: False)

2) Testar se a chave acessorios existe no dicionário de informações do carro Passat (Resposta: True)

3) Obter o valor do carro Crossfox (Resposta: 25000)

4) Acessar o último acessório do carro Passat (Resposta: 'ABS')
```

In [2]:
dados = {
    'Passat': {
        'ano': 2012,
        'km': 50000,
        'valor': 75000,
        'acessorios': ['Airbag', 'ABS']
    }, 
    'Crossfox': {
        'ano': 2015,
        'km': 35000,
        'valor': 25000
    }
}

In [3]:
# 1) 
'acessorios' in dados['Crossfox']

False

In [4]:
# 2)
'acessorios' in dados['Passat']

True

In [5]:
# 3) 
dados['Crossfox']['valor']

25000

In [6]:
# 4) 
dados['Passat']['acessorios'][-1]

'ABS'

# 3.3 Métodos de dicionários

https://docs.python.org/3.6/tutorial/datastructures.html#dictionaries

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

## *dict.update()*

Atualiza o dicionário.

In [8]:
dados = {'Jetta Variant': 88078.64, 'Passat':  106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [None]:
# dados.update({'Passat':  106161.94})

In [10]:
dados.update({'Passat':  106161.95, 'Fusca': 150000})
dados

{'Crossfox': 72832.16,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.copy()*

Cria uma cópia do dicionário.

In [18]:
dadosCopy = dados.copy()

In [19]:
dadosCopy

{'Crossfox': 72832.16,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

In [20]:
del dadosCopy['Fusca']
dadosCopy

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.95}

In [21]:
dados

{'Crossfox': 72832.16,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

In [23]:
dadosCopy

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.95}

In [24]:
dadosCopy.pop('Passat')

106161.95

In [25]:
dadosCopy

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64}

In [26]:
# Como o Passat já foi removido, se eu tentar rodar o mesmo
# comando novamente, vai retornar erro. É preciso tratar este
# erro e é possível incluir uma mensagem de retorno para o caso
# de a chave não ser encontrada.
dadosCopy.pop('Passat', 'Chave não encontrada')

'Chave não encontrada'

In [27]:
dadosCopy

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64}

## *dict.clear()*

Remove todos os itens do dicionário.

In [30]:
dadosCopy.clear()

In [32]:
dadosCopy

{}

### Exercício - 5

REVISANDO  
Considere o dicionário abaixo:
```
dados = {'Jetta': 88000, 'Crossfox': 72000, 'DS5': 124000}
```
O método update() atualiza o dicionário e pode ser utilizado de duas formas:

In [1]:
```
dados.update({'Passat': 85000, 'Fusca': 150000})
```
Out [1]:
```
{'Jetta': 88000, 'Crossfox': 72000, 'DS5': 124000, 'Passat': 85000, 'Fusca': 150000}
```
In [2]:
```
dados.update(Passat = 95000, Fusca = 160000)
```
Out [2]:
```
{'Jetta': 88000, 'Crossfox': 72000, 'DS5': 124000, 'Passat'
```
O método copy() cria uma cópia do dicionário

# 3.4 Iterando em dicionários

In [33]:
dados = {'Crossfox': 72832.16, 'DS5': 124549.07, 'Fusca': 150000, 'Jetta Variant': 88078.64,  'Passat': 106161.95}
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [34]:
dados.keys()

dict_keys(['Crossfox', 'DS5', 'Fusca', 'Jetta Variant', 'Passat'])

In [59]:
for key in dados.keys():
  print([key])

['Crossfox']
['DS5']
['Fusca']
['Jetta Variant']
['Passat']


In [60]:
for key in dados.keys():
  print(dados[key])

72832.16
124549.07
150000
88078.64
106161.95


## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [37]:
dados.values()

dict_values([72832.16, 124549.07, 150000, 88078.64, 106161.95])

In [62]:
for item in dados.values():
  print([item])

[72832.16]
[124549.07]
[150000]
[88078.64]
[106161.95]


## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [55]:
# Parecido com o que foi feito no curso anterior com a função
# zip() 
dados.items()

dict_items([('Crossfox', 72832.16), ('DS5', 124549.07), ('Fusca', 150000), ('Jetta Variant', 88078.64), ('Passat', 106161.95)])

In [63]:
for item in dados.items():
  print([item])

[('Crossfox', 72832.16)]
[('DS5', 124549.07)]
[('Fusca', 150000)]
[('Jetta Variant', 88078.64)]
[('Passat', 106161.95)]


In [65]:
for key, value in dados.items():
  print(key, value)

Crossfox 72832.16
DS5 124549.07
Fusca 150000
Jetta Variant 88078.64
Passat 106161.95


In [66]:
for key, value in dados.items():
  if (value > 100000):
    print(key)

DS5
Fusca
Passat


### Exercício - 6

Utilize o dicionário abaixo para responder esta atividade:
```
dados = {
    'Crossfox': {'valor': 72000, 'ano': 2005}, 
    'DS5': {'valor': 125000, 'ano': 2015}, 
    'Fusca': {'valor': 150000, 'ano': 1976}, 
    'Jetta': {'valor': 88000, 'ano': 2010}, 
    'Passat': {'valor': 106000, 'ano': 1998}
}
```
Apresente o código que imprime somente os nomes dos veículos com ano de fabricação maior ou igual a 2000.


In [67]:
dados = {
    'Crossfox': {'valor': 72000, 'ano': 2005}, 
    'DS5': {'valor': 125000, 'ano': 2015}, 
    'Fusca': {'valor': 150000, 'ano': 1976}, 
    'Jetta': {'valor': 88000, 'ano': 2010}, 
    'Passat': {'valor': 106000, 'ano': 1998}
}

In [72]:
for item in dados.items():
  if (item[1]['ano'] >= 2000):
    print(item[0])

Crossfox
DS5
Jetta


In [73]:
# Se o objetivo fosse buscar os veículos que custam mais de
# 100000
for item in dados.items():
  if (item[1]['valor'] >= 100000):
    print(item[0])

DS5
Fusca
Passat


# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [74]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [75]:
valores = []

for valor in dados.values():
  valores.append(valor)

valores

[88078.64, 106161.94, 72832.16]

In [76]:
soma = 0

for valor in dados.values():
  soma += valor

soma

267072.74

In [77]:
list(dados.values())

[88078.64, 106161.94, 72832.16]

In [78]:
sum(dados.values())

267072.74

O parâmetro start dessa função significa que podemos iniciar a soma já com 
algum valor. Isso pode ser feito simplesmente passando o valor desejado após 
uma vírgula.

In [79]:
sum(dados.values(), 1000000)

1267072.7399999998

In [80]:
help(print)

Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   string inserted between values, default a space.
    end:   string appended after the last value, default a newline.
    flush: whether to forcibly flush the stream.



Outra forma de acessarmos esse conteúdo no Colab é passarmos, depois do nome da função, uma interrogação.
(Abre uma aba de ajuda do próprio Colab)

In [81]:
print?

# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

In [82]:
def media():
  valor = (1 + 2 + 3) / 3
  print(valor)

media()

2.0


### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

In [86]:
def media(number_1, number_2, number_3):
  valor = (number_1 + number_2 + number_3) / 3
  print(valor)

In [87]:
media(1,2,3)

2.0


In [88]:
media(23, 45, 67)

45.0


Outro ponto interessante é que, ao invés de passarmos esses valores sequencias, podemos utilizar uma lista. Criaremos outra função media(), que dessa vez recebe como parâmetro uma lista. Nas instruções, faremos o cálculo da média com o auxílio das built-in functions do Python: usaremos a função sum() para somarmos os itens da lista e dividiremos o resultado por len(lista), ou seja, a quantidade de valores que foram somados. Por fim, imprimiremos o valor. 

In [89]:
def media(lista):
  valor = sum(lista) / len(lista)
  print(valor)

In [90]:
media([1, 2, 3, 4, 5, 6, 7, 8, 9])

5.0


Uma coisa importante é que nossa função está imprimindo um valor, mas no momento não é possível atribuirmos tal valor a uma variável, afinal ele não é retornado. Por exemplo, se atribuirmos a chamada de media() a uma variável resultado, teremos a impressão do nosso valor normalmente.

In [91]:
resultado = media([1, 2, 3, 4, 5, 6, 7, 8, 9])

5.0


In [92]:
resultado

In [93]:
type(resultado)

NoneType

### Exercício - 7  Quilometragem média de um veículo

Uma tarefa importante em um trabalho de cientista de dados é o tratamento do dataset que vamos utilizar. Essa tarefa é dividida em várias etapas e uma delas é a sumarização dos dados, onde obtemos estatísticas descritivas para ajudar nas tomadas de decisão.

Algumas sumarizações precisam de um conjunto de elaborações, que devem ser desenvolvidas pelo próprio pesquisador. Neste ponto, as funções são bastante úteis no trabalho do cientista de dados. Com elas, podemos definir um conjunto de tarefas específicas, que recebem entradas e retornam resultados, e reutilizar esta codificação em outras partes de nosso projeto.

Um exemplo disso em nosso projeto é o cálculo da quilometragem média que um veículo rodou por ano. Não existe uma função pronta para o cálculo desta estatística em Python, e por isso precisamos escrever uma função que obtenha este valor.

Considere o conjunto de informações abaixo para responder o problema:
```
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}
```
A estrutura a seguir é a definição de uma função que obtém e imprime a quilometragem média anual de cada veículo em um dicionário com a estrutura do dicionário dados acima:

In [1]:
```
def km_media(dataset, ano_atual):
    for item in _______________:
        result = _____________ / (ano_atual - ____________)
        print(result)
```
In [2]:
```
km_media(dados, 2019)
```
Out [2]:
```
2500.0
4250.0
3250.0
7000.0
3100.0
```
**Qual o código que completa corretamente as lacunas da nossa função?**

In [95]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [96]:
def km_media(dataset, ano_atual):
    for item in dataset.items():
        result = item[1]['km'] / (ano_atual - item[1]['ano'])
        print(result)

In [97]:
km_media(dados, 2019)

2500.0
4250.0
3250.0
7000.0
3100.0


# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

Começaremos com uma função que retorna um único valor. 

A última que criamos imprimia o valor na tela:
```
def media(lista):
  valor = sum(lista) / len(lista)
  print(valor)
```

Mantendo a estrutura dessa função, ao invés de imprimirmos o valor, vamos retorná-lo com a palavra-chave "return".

In [99]:
def media(lista):
  valor = sum(lista) / len(lista)
  return valor

In [102]:
media([1, 2, 3, 4, 5, 6, 7, 8])

4.5

In [103]:
resultado = media([1, 2, 3, 4, 5, 6, 7, 8])
resultado

4.5

In [104]:
# Agora sim, temos o valor retornado pela função, armazenado na
# variável resultado
resultado

4.5

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

Como dito anteriormente, uma função pode retornar mais de um valor. Em nosso exemplo continuaremos mantendo a mesma estrutura da função media(), mas, ao invés de retornarmos somente o valor, devolveremos também o número de elementos utilizados para esse cálculo - ou seja, o tamanho da lista (len(lista)), ambos contidos em uma tupla.

In [105]:
def media(lista):
  valor = sum(lista) / len(lista)
  return (valor, len(lista))

In [106]:
resultado = media([1, 2, 3, 4, 5, 6, 7, 8])
resultado

(4.5, 8)

Se aumentarmos o número de elementos para 9, os valores (média e tamanho da lista) serão alterados. 

In [107]:
resultado = media([1, 2, 3, 4, 5, 6, 7, 8, 9])
resultado

(5.0, 9)

## Desempacotamento de tuplas com o retorno de funções

Podemos criar, na mesma chamada, as variáveis resultado e n, esta última representando o tamanho da lista.

In [108]:
resultado, n = media([1, 2, 3, 4, 5, 6, 7, 8, 9])
resultado

5.0

In [109]:
n

9

### Exercício - 8 Melhorando a função do exercício anterior

A estrutura a seguir é a definição de uma função que calcula as quilometragens médias anuais de cada veículo e retorna um dicionário com os nomes dos veículos como chaves e as quilometragens médias como valores:

In [1]:
```
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}
```
In [2]:
```
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        _________________________________        
    ________________
```
In [3]:
```
km_media(dados, 2019)
```
Out [3]:
```
{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}
```
Complete corretamente as lacunas da nossa função.


In [111]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [112]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        result.update({ item[0]: media })
    return result

In [113]:
km_media(dados, 2019)

{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}

### Aprimorando ainda mais a função anterior, visando a criação de DataFrames:
 
A nossa função km_media() já retorna valores que podem ser trabalhados em outras partes do nosso projeto. Uma elaboração extra, que também pode ser interessante, principalmente para a criação de DataFrames (próximas aulas), é a atualização do próprio input da função. Podemos fazer com que a nossa função retorne as informações do dicionário dados, incluindo as informações de quilometragem média anual.

A estrutura a seguir é a definição de uma função que calcula as quilometragens médias anuais de cada veículo, atualiza o dicionário de entrada e retorna este dicionário:

In [115]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })
    return result

In [116]:
km_media(dados, 2019)

{'Crossfox': {'ano': 2005, 'km': 35000, 'km_media': 2500.0},
 'DS5': {'ano': 2015, 'km': 17000, 'km_media': 4250.0},
 'Fusca': {'ano': 1979, 'km': 130000, 'km_media': 3250.0},
 'Jetta': {'ano': 2011, 'km': 56000, 'km_media': 7000.0},
 'Passat': {'ano': 1999, 'km': 62000, 'km_media': 3100.0}}

# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index** (São utilizados qunado necessário). A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

In [117]:
import pandas as pd

### Criando uma Series a partir de uma lista

In [118]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [119]:
pd.Series(carros)

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Criando um DataFrame a partir de uma lista de dicionários

In [120]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [121]:
dataset = pd.DataFrame(dados)

In [122]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [123]:
# Modificando a ordem das colunas
# Aqui vamos deixar da mesma forma, mas alterando aqui, ao mesmo
# tempo é alterado no DataFrame 

dataset[['Nome', 'Motor', 'Ano', 'Quilometragem', 'Zero_km', 'Valor']]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de um dicionário

In [124]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [125]:
dataset = pd.DataFrame(dados)

In [126]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de uma arquivo externo

In [127]:
# Na verdade é a forma mais usada de criar DataFrames

dataset = pd.read_csv('db.csv', sep = ';')

# Se eu colocar na função, index_col = 0, vou fazer com que a 
# primeira coluna, no caso, a coluna Nome, passe a ser o index

# dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [128]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


### Exercício - 8 Criando um DataFrame com a função do exercício anterior

Desenvolvemos no exercício 7 uma função que recebia um dicionário com um conjunto de informações sobre veículos, e calculava a quilometragem média anual de cada veículo. Esta função retornava o conteúdo do dicionário de input da função, incluindo as informações sobre a quilometragem média.

Agora mostre a forma correta de se criar um DataFrame com o resultado obtido pela função acima. 
O DataFrame resultante deve ter a seguinte forma:

Out [1]:
```
	km	ano	km_media
Crossfox	35000.0	2005.0	2500.0
DS5	17000.0	2015.0	4250.0
Fusca	130000.0	1979.0	3250.0
Jetta	56000.0	2011.0	7000.0
Passat	62000.0	1999.0	3100.0
```
**Dica:** Para resolver esta questão, será necessário relembrar de um recurso que aprendemos no curso anterior, quando falamos de arrays Numpy. Este recurso também pode ser aplicado a DataFrames do pandas:

    ndarray.T: Retorna o array transposto, isto é, converte linhas em colunas e vice versa.




In [131]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [132]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })

    return result

In [133]:
km_media(dados, 2019)

{'Crossfox': {'ano': 2005, 'km': 35000, 'km_media': 2500.0},
 'DS5': {'ano': 2015, 'km': 17000, 'km_media': 4250.0},
 'Fusca': {'ano': 1979, 'km': 130000, 'km_media': 3250.0},
 'Jetta': {'ano': 2011, 'km': 56000, 'km_media': 7000.0},
 'Passat': {'ano': 1999, 'km': 62000, 'km_media': 3100.0}}

In [135]:
carros = pd.DataFrame(km_media(dados, 2019)).T
carros

Unnamed: 0,km,ano,km_media
Crossfox,35000.0,2005.0,2500.0
DS5,17000.0,2015.0,4250.0
Fusca,130000.0,1979.0,3250.0
Jetta,56000.0,2011.0,7000.0
Passat,62000.0,1999.0,3100.0


# 5.2 Seleções com DataFrames

### Selecionando colunas

In [136]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [137]:
dataset

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [139]:
# Selecionando apenas os 10 primeiros registros do dataset
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [140]:
# Selecionando apenas 1 coluna, no caso a coluna valor
# (Índice que foi atribuído vem junto)
dataset['Valor']

Nome
Jetta Variant             88078.64
Passat                   106161.94
Crossfox                  72832.16
DS5                      124549.07
Aston Martin DB4          92612.10
                           ...    
Phantom 2013              51759.58
Cadillac Ciel concept     51667.06
Classe GLK                68934.03
Aston Martin DB5         122110.90
Macan                     90381.47
Name: Valor, Length: 258, dtype: float64

In [141]:
# Ou seja, na prática um DataFrame é um conjunto de Series
type(dataset['Valor'])

pandas.core.series.Series

In [142]:
# Gerando o DataFrame a partir de uma coluna selecionada
dataset[['Valor']]

Unnamed: 0_level_0,Valor
Nome,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.10
...,...
Phantom 2013,51759.58
Cadillac Ciel concept,51667.06
Classe GLK,68934.03
Aston Martin DB5,122110.90


In [143]:
type(dataset[['Valor']])

pandas.core.frame.DataFrame

### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [145]:
dataset[0:3]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16


### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [146]:
dataset.loc['Passat']

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                                 5712
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                       106162
Name: Passat, dtype: object

In [147]:
# Retorna as duas linhas, mas já no formato de DataFrame
# E com o índice rotulado
dataset.loc[['Passat', 'DS5']]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [148]:
# Selecionando 2 variáveis
# Aqui estamos especificando as informações que queremos das linhas 
# e das colunas
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [149]:
# Selecionando duas colunas, mas sem especificar as linhas
# Queremos todas as linhas
dataset.loc[:, ['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.10
...,...,...
Phantom 2013,Motor V8,51759.58
Cadillac Ciel concept,Motor V8,51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03
Aston Martin DB5,Motor Diesel,122110.90


### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices (numéricos, posicionais), ou seja, se baseia na posição das informações.

In [152]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [150]:
# Se fizermos isto, será selecionada a informação do carro com índice 1
dataset.iloc[1]

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                                 5712
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                       106162
Name: Passat, dtype: object

In [151]:
# Aqui retorna um DataFrame
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94


In [153]:
# Como estamos solicitando mais de uma linha, NÃO precisamos inserir
# 2 colchetes
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [154]:
# Quero retornar só as informações dos carros e na ordem que escolhi
dataset.iloc[1:4, [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


In [155]:
# Selecionando linhas aleatórias, com as mesmas info das colunas anteriormente
# selecionadas
dataset.iloc[[1, 42, 22], [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Optima,Motor 1.8 16v,86641.34,
Lamborghini Obvious,Motor Diesel V6,133529.84,98079.0


### Exercício - 9 Fatiamentos com DataFrames



Considere o código abaixo:

In [156]:
import pandas as pd

dados = {
    'Nome': ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(dados)

Selecione somente as informações de Nome, Ano, Quilometragem e Valor dos carros Passat e Crossfox.

In [157]:
# A ordem que definimos as seleções é indiferente
# dataset[1:3][['Nome', 'Ano', 'Quilometragem', 'Valor']]
dataset[['Nome', 'Ano', 'Quilometragem', 'Valor']][1:3]

Unnamed: 0,Nome,Ano,Quilometragem,Valor
1,Passat,2003,5712.0,106000.0
2,Crossfox,1991,37123.0,72000.0


### Exercício - 10 Utilizando .loc e .iloc para seleções



Utilize o código abaixo para resolver a questão:

In [158]:
import pandas as pd

dados = {
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(dados, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

Note que utilizamos os nomes dos veículos como índice do DataFrame. 

```
Out [1]:
	Motor	Valor
Passat	Motor Diesel	106000.0
DS5	Motor 2.0	89000.0
```
Apresente o código que têm como resultado o seguinte DataFrame.
Primeiro com iloc() e depois com loc():

In [159]:
dataset.iloc[[1, 3], [0, -1]]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


In [160]:
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


# 5.3 Queries com DataFrames

### **Importante**  
Se usarmos o método query poderemos utilizar and e or, bem como & e |
PORÉM
Se usarmos apenas dataset, a construção da matriz booleana devemos usar os caracteres & e |

In [None]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)
dataset

In [163]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [164]:
# Queremos realizar uma query que nos traga todos os registros para determinado 
# tipo de motor, por exemplo o "Motor Diesel".
dataset.Motor  # se o nome da coluna não contiver espaços

Nome
Jetta Variant                  Motor 4.0 Turbo
Passat                            Motor Diesel
Crossfox                       Motor Diesel V8
DS5                            Motor 2.4 Turbo
Aston Martin DB4               Motor 2.4 Turbo
                                 ...          
Phantom 2013                          Motor V8
Cadillac Ciel concept                 Motor V8
Classe GLK               Motor 5.0 V8 Bi-Turbo
Aston Martin DB5                  Motor Diesel
Macan                          Motor Diesel V6
Name: Motor, Length: 258, dtype: object

In [165]:
# Usando o operador de comparação, ele monta pra mim uma Series
# booleana
dataset.Motor == 'Motor Diesel'

Nome
Jetta Variant            False
Passat                    True
Crossfox                 False
DS5                      False
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5          True
Macan                    False
Name: Motor, Length: 258, dtype: bool

In [166]:
select = dataset.Motor == 'Motor Diesel'

In [167]:
type(select)

pandas.core.series.Series

In [168]:
# Query retorna todos que tem motor diesel
dataset[select]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Controle de estabilidade', 'Painel digital',...",125684.65
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91
Fit,Motor Diesel,2013,44329.0,False,"['Freios ABS', 'Câmera de estacionamento', 'Câ...",77836.23
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
A4 Sedan,Motor Diesel,2002,30511.0,False,"['Câmera de estacionamento', '4 X 4', 'Travas ...",96369.04
A4 Avant,Motor Diesel,2014,17357.0,False,"['Teto panorâmico', '4 X 4', 'Bancos de couro'...",138946.88


In [169]:
# Retorna todos que tem motor a diesel e que são 0 km
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


In [172]:
# No código anterior usamos o &, mas poderíamos fazer com o | também:
dataset[(dataset.Motor == 'Motor Diesel') | (dataset.Zero_km == True)]


Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
...,...,...,...,...,...,...
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84
Uno,Motor Diesel V6,2019,,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21
Santa Fe,Motor 3.0 32v,2019,,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33
XC60,Motor 4.0 Turbo,2019,,True,"['Painel digital', 'Piloto automático', 'Centr...",77675.79


In [170]:
# SERIES BOOLEANAS
(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)

Nome
Jetta Variant            False
Passat                   False
Crossfox                 False
DS5                      False
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5         False
Macan                    False
Length: 258, dtype: bool

### Utilizando o método query

In [171]:
# A query abaixo retorna a mesma coisa que o código rodado anteriormente:
# dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)]

dataset.query('Motor == "Motor Diesel" and Zero_km == True')

# Também poderíamos fazer com o or

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


# 5.4 Iterando com DataFrames

!!! Existem formas mais sofisticadas de fazer (com apply, função lambda, por exemplo), mas ficará para os próximos cursos.  
Neste faremos de maneira mais básica.

In [178]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)
dataset

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [179]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


Uma maneira simples de iterarmos sobre esses dados é utilizando a estrutura do for que já conhecemos.
```
for item in dataset:
    print(item)
```
A devolução dessa iteração consistirá nos rótulos das nossas colunas.

    Motor Ano Quilometragem Zero_km Acessórios Valor

Porém, isso não tem muita utilidade para nós.  
O Pandas nos disponibiliza uma ferramenta interessante chamada iterrows(), que nos ajuda a criar um iterador.  
   
No exemplo abaixo, criaremos uma lista a partir desse iterador.

In [180]:
dataset.iterrows()

<generator object DataFrame.iterrows at 0x7fecb4854f50>

In [181]:
# O comando abaixo vai retornar os rótulos e as series com as informações
# da linha
list(dataset.iterrows())

[('Jetta Variant',
  Motor                                              Motor 4.0 Turbo
  Ano                                                           2003
  Quilometragem                                                44410
  Zero_km                                                      False
  Acessórios       ['Rodas de liga', 'Travas elétricas', 'Piloto ...
  Valor                                                      88078.6
  Name: Jetta Variant, dtype: object),
 ('Passat', Motor                                                 Motor Diesel
  Ano                                                           1991
  Quilometragem                                                 5712
  Zero_km                                                      False
  Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
  Valor                                                       106162
  Name: Passat, dtype: object),
 ('Crossfox',
  Motor                                              Motor

In [183]:
for index, row in dataset.iterrows():
  if (2019 - row['Ano'] != 0):
    dataset.loc[index, 'Km_media'] = row['Quilometragem'] / (2019 - row['Ano'])
  else:
    dataset.loc[index, 'Km_media'] = 0

dataset


Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625000
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.000000
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.000000
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10,1981.307692
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58,5501.000000
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06,1070.750000
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03,3096.294118
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90,334.130435


### Para saber mais: Formas de iteração em um DataFrame  

iterrows()  

items()  

itertuples()  

**Dica:** Como se trata de conteúdo não explorado em aula, utilize a documentação do pandas (https://pandas.pydata.org/pandas-docs/stable/) para encontrar informações sobre os novos métodos. 




# 5.5 Tratamento de dados

In [184]:
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [185]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Motor          258 non-null    object 
 1   Ano            258 non-null    int64  
 2   Quilometragem  197 non-null    float64
 3   Zero_km        258 non-null    bool   
 4   Acessórios     258 non-null    object 
 5   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(2)
memory usage: 22.3+ KB


Com a função info() obteremos diversas informações interessantes. Por exemplo, sabemos que existem 258 linhas no conjunto e quantos valores de cada variável não são nulos. Repare que a coluna "Quilometragem" só possui 197 informações não nulas, algo que precisaremos investigar - afinal, um modelo de regressão irá eliminar todos os items com esse tipo de informação, e pode ser que com um tratamento consigamos consertar isso.

O Pandas nos oferece a possibilidade de selecionar informações nulas ou não: a função isna()

In [186]:
# Posso selecionar assim porque o nome da coluna não tem espaços
dataset.Quilometragem.isna()

Nome
Jetta Variant            False
Passat                   False
Crossfox                 False
DS5                       True
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5         False
Macan                    False
Name: Quilometragem, Length: 258, dtype: bool

Conseguimos uma Series booleana, onde quando os valores são NA, são identificados na series como True. Essa pode ser uma ferramenta interessante para verificarmos como estão se comportando os nossos dados, por exemplo criando um seletor. 

In [187]:
dataset[dataset.Quilometragem.isna()]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.40
...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,,True,"['Controle de tração', 'Ar condicionado', 'Cen...",67664.86
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84
Uno,Motor Diesel V6,2019,,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21
Santa Fe,Motor 3.0 32v,2019,,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33


In [188]:
dataset.fillna(0)

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


Entretanto, essa alteração não refletirá no nosso dataset original, já que apenas modificamos a visualização dele. Para mantermos tal alteração, será necessário passarmos mais um parâmetro para a função fillna(), o inplace, que deverá ser definido como True.

In [191]:
dataset.fillna(0, inplace = True)

In [192]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [193]:
# Quero ver agora se todo veículo com a informação da Quilometragem
# igual a True foi resolvido
dataset.query('Zero_km == True')

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
A5,Motor 4.0 Turbo,2019,0.0,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20
J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
Série 1 M,Motor V8,2019,0.0,True,"['Controle de estabilidade', 'Central multimíd...",94564.40
...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,0.0,True,"['Controle de tração', 'Ar condicionado', 'Cen...",67664.86
Benni Mini,Motor V8,2019,0.0,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84
Uno,Motor Diesel V6,2019,0.0,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21
Santa Fe,Motor 3.0 32v,2019,0.0,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33


Agora se fizermos algum modelo, os veículos 0 km não serão eliminados da amostra, já que não estão mais com valores nulos. Antes de continuarmos, importaremos novamente o conjunto db.csv de modo a retornarmos ao seu estado original.

In [194]:
dataset = pd.read_csv('db.csv', sep = ';')

In [195]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


Fizemos isso para demonstrar outra ferramenta do Pandas que nos ajuda a eliminar os valores nulos de um dataframe, chamada dropna(). Chamaremos essa função a partir do nosso dataset e passaremos como parâmetro subset, que recebe a variável na qual queremos queremos buscar os valores nulos que serão eliminados. 

In [196]:
dataset.dropna(subset = ['Quilometragem'])

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


É necessário prestar atenção, pois todos os registros que contêm esse valor serão eliminados completamente (ou seja, toda a linha será removida). Da mesma forma que na função fillna(), podemos usar o parâmetro inplace = True para que a alteração seja permanente.

In [197]:
dataset.dropna(subset = ['Quilometragem'], inplace = True)

In [198]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


>### Recapitulando

>1) isna() - Detecta valores faltantes. Retorna um DataFrame ou uma Series booleana, identificando se o registro é um NA

>2) fillna() - Preenche os registros identificados com NA, utilizando um método específico

>3) dropna() - Remove registros com valores identificados como NA


### Exercício - 11 Realizando consultas em um DataFrame

Utilize o seguinte DataFrame para responder a questão:

In [173]:
import pandas as pd

dados = {
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor Diesel', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(dados, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

Queremos retornar o DataFrame abaixo:
```
Out [1]:
	Motor	Ano	Quilometragem	Zero_km	Valor
Jetta	Motor 4.0 Turbo	2019	0.0	True	88000.0
Passat	Motor Diesel	2003	5712.0	False	106000.0
DS5	Motor Diesel	2019	0.0	True	89000.0
```

Exemplifique alternativas, códigos que retornariam o resultado acima.

**Resposta**  

Possibilidade 1:  
O método query() aceita as duas formas de utilização dos operadores lógicos. No caso do operador lógico OU, temos o or e o caractere |. Para o operador lógico E, temos o and e o caractere &.

In [174]:
dataset.query('Motor == "Motor Diesel" or Zero_km == True')

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0



Possibilidade 2:  
Na construção da matriz booleana que foi utilizada para realizar a consulta, foi usado o operador lógico OU, que no caso do código acima é representado pelo caractere |.

In [175]:
dataset[(dataset.Motor == 'Motor Diesel') | (dataset.Zero_km == True)]

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


Possibilidade 3:  
O método query() aceita as duas formas de utilização dos operadores lógicos. No caso do operador lógico OU, temos o or e o caractere |. Para o operador lógico E, temos o and e o caractere &.

In [176]:
dataset.query('Motor == "Motor Diesel" | Zero_km == True')

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0
