# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [1]:
!python -V

Python 3.8.8


# 1.3 Trabalhando com dados

In [2]:
import pandas as pd
# Para mostrar todas as linhas da planilha:
# pd.set_option('display.max_rows', 1000) # Mostra todas as linhas 
# pd.set_option('display.max_columns', 1000) # Mostra todas as colunas 

In [3]:
dataset = pd.read_csv('db.csv', sep = ';')

In [4]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [5]:
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [6]:
# Estatistica descritiva: gera um conjunto de estatisticas descritivas das duas colunas.
dataset[['Quilometragem', 'Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [7]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [8]:
# Maneiras de criar uma tupla:
()

()

In [9]:
1, 2, 3, 4

(1, 2, 3, 4)

In [10]:
nome = 'HRV'
valor = 153000
(nome, valor)

('HRV', 153000)

In [11]:
nomes_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])

In [12]:
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [13]:
type(nomes_carros)

tuple

# 2.2 Seleções em tuplas

In [14]:
nomes_carros[0]

'Jetta Variant'

In [15]:
nomes_carros[:2]

('Jetta Variant', 'Passat')

In [16]:
nomes_carros[0:2]

('Jetta Variant', 'Passat')

In [17]:
len(nomes_carros)

4

In [18]:
nomes_carros[-1]

'DS5'

In [19]:
#slice:
nomes_carros[1:3]

('Passat', 'Crossfox')

In [20]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [21]:
nomes_carros[-1][1]

'Gol'

In [22]:
nomes_carros[4][1]

'Gol'

In [23]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

In [24]:
carros[0][-1][:2]

('Rodas de liga', 'Travas elétricas')

# 2.3 Iterando em tuplas

In [25]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [26]:
for item in nomes_carros:
    print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacotamento de tuplas

In [27]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [28]:
# Desempacatotamento de tupla:
carro_1, carro_2, carro_3, carro_4 = nomes_carros

In [29]:
carro_1

'Jetta Variant'

In [30]:
carro_2

'Passat'

In [31]:
carro_3

'Crossfox'

In [32]:
carro_4

'DS5'

In [33]:
# pegando da variavel nomes_carros somente dois valores e ignorando o restante com _:
_, A, _, B =  nomes_carros

In [34]:
A

'Passat'

In [35]:
B

'DS5'

In [36]:
# Pegando somente o passat da tupla e ignorando os demais carros: *_ ele ignora o restante de elementos
# na tupla.
_, C, *_ = nomes_carros

In [37]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [38]:
# FUnção zip() itera os valores de cada lista: ex: ('Jetta Variant',88078.64) ou seja ele correlaciona,
# o indice de uma list acom o mesmo indice da outra lista e retorna uma tupla.

In [39]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [40]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [41]:
teste_zip = list(zip(carros, valores))
teste_zip

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [42]:
teste_zip[0][1]

88078.64

In [43]:
teste_zip[1]

('Passat', 106161.94)

In [44]:
for item in zip(carros, valores):
    print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [45]:
# Desempacotamento com for:
for carro, valor in zip(carros, valores):
    print(f'{carro} - {valor}')

Jetta Variant - 88078.64
Passat - 106161.94
Crossfox - 72832.16
DS5 - 124549.07


In [46]:
for carro, valor in zip(carros, valores):
    if valor > 100000:
        print(carro)

Passat
DS5


In [47]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

In [48]:
for tupla in carros:
    print(tupla)

('Jetta Variant', 'Motor 4.0 Turbo', 2003, False, ('Rodas de liga', 'Travas elétricas', 'Piloto automático'))
('Passat', 'Motor Diesel', 1991, True, ('Central multimídia', 'Teto panorâmico', 'Freios ABS'))


In [49]:
for tupla in carros:
    print(tupla[-1])

('Rodas de liga', 'Travas elétricas', 'Piloto automático')
('Central multimídia', 'Teto panorâmico', 'Freios ABS')


In [50]:
for tupla in carros:
    for item in tupla:
        print(item)

Jetta Variant
Motor 4.0 Turbo
2003
False
('Rodas de liga', 'Travas elétricas', 'Piloto automático')
Passat
Motor Diesel
1991
True
('Central multimídia', 'Teto panorâmico', 'Freios ABS')


In [51]:
for tupla in carros:
    for item in tupla[-1]:
        print(item)

Rodas de liga
Travas elétricas
Piloto automático
Central multimídia
Teto panorâmico
Freios ABS


In [52]:
nomes = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
valores = [100000.0, 75000.0]
list(zip(nomes, valores))

kms = [15000, 12000, 32000, 8000, 50000]

In [53]:
list(zip(nomes, valores))

[('Passat', 100000.0), ('Crossfox', 75000.0)]

In [54]:
for nome, km in zip(nomes, kms):
    if(km < 20000):
        print(nome)

Passat
Crossfox
C4


# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [55]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [56]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [57]:
carros.index('Passat')

1

In [58]:
valores[carros.index('Passat')]

106161.94

In [59]:
# Criando um dicionário:
dados = {'Jetta': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Jetta': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [60]:
type(dados)

dict

### Criando dicionários com *zip()*

In [61]:
# Aqui crio um zip() com lista:
list(zip(carros, valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [62]:
# Aqui crio um zip() com dicionário:
dict(zip(carros, valores))

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

# 3.2 Operações com dicionários

In [63]:
dados = {'Jetta': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Jetta': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

In [64]:
dados['Passat']

106161.94

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

In [65]:
'Passat' in dados

True

In [66]:
'Fusca' in dados

False

In [67]:
'Fusca' not in dados

True

## *len(dict)*

Retorna o número de itens do dicionário.

In [68]:
len(dados)

3

## *dict[ key ] = value*

Inclui um item ao dicionário.

In [69]:
dados['DS5'] = 124549.07

In [70]:
dados

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124549.07}

In [71]:
len(dados)

4

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

In [72]:
del dados['DS5']

In [73]:
dados

{'Jetta': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [74]:
# Exercicio:
dados = {
    'Passat': {
        'ano': 2012,
        'km': 50000,
        'valor': 75000,
        'acessorios': ['Airbag', 'ABS']
    }, 
    'Crossfox': {
        'ano': 2015,
        'km': 35000,
        'valor': 25000
    }
}

#### 
1) Testar se a chave acessorios existe no dicionário de informações do carro Crossfox (Resposta: False)

2) Testar se a chave acessorios existe no dicionário de informações do carro Passat (Resposta: True)

3) Obter o valor do carro Crossfox (Resposta: 25000)

4) Acessar o último acessório do carro Passat (Resposta: 'ABS')

In [75]:
# Testar se a chave acessorios existe no dicionário de informações do carro Crossfox (Resposta: False)
'acessorios' in dados['Crossfox']

False

In [76]:
# Testar se a chave acessorios existe no dicionário de informações do carro Passat (Resposta: True)
'acessorios' in dados['Passat']

True

In [77]:
# Obter o valor do carro Crossfox (Resposta: 25000)
dados['Crossfox']['valor']

25000

In [78]:
# Acessar o último acessório do carro Passat (Resposta: 'ABS')
dados['Passat']['acessorios'][-1]

'ABS'

# 3.3 Métodos de dicionários

## *dict.update()*

Atualiza o dicionário.

In [79]:
dados = {'Jetta': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Jetta': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [80]:
# Adicionar novamente o DS5:
dados.update({'DS5': 124549.07})
dados

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124549.07}

In [81]:
# Adicionando mais de um elemento: 
dados.update({'Fusca': 25468.55, 'Gol': 87546.22})
dados

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 25468.55,
 'Gol': 87546.22}

In [82]:
# Alterar o valor de uma chave que ja esteja no dicionário:
dados.update({'Fusca': 25000.00})
dados

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 25000.0,
 'Gol': 87546.22}

## *dict.copy()*

Cria uma cópia do dicionário.

In [83]:
dadosCopy = dados.copy()

In [84]:
dadosCopy

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 25000.0,
 'Gol': 87546.22}

In [85]:
del dadosCopy['DS5']

In [86]:
dadosCopy

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'Fusca': 25000.0,
 'Gol': 87546.22}

In [87]:
dados

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 25000.0,
 'Gol': 87546.22}

In [88]:
len(dadosCopy)

5

In [89]:
len(dados)

6

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

In [90]:
dadosCopy

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'Fusca': 25000.0,
 'Gol': 87546.22}

In [91]:
dadosCopy.pop('Fusca')

25000.0

In [92]:
dadosCopy

{'Jetta': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16, 'Gol': 87546.22}

In [93]:
# Apagando com tratamento de erro, caso não encontre a chave ele retorna uma mensagem tratada:
dadosCopy.pop('Fusca', 'Chave não encontrada')

'Chave não encontrada'

In [94]:
dadosCopy.pop('Crossfox')

72832.16

In [95]:
dadosCopy

{'Jetta': 88078.64, 'Passat': 106161.94, 'Gol': 87546.22}

In [96]:
dadosCopy.pop('Crossfox','Chave não encontrada' )

'Chave não encontrada'

In [97]:
dadosCopy.pop('Gol')

87546.22

In [98]:
dadosCopy.pop('Gol','Chave não encontrada' )

'Chave não encontrada'

## *dict.clear()*

Remove todos os itens do dicionário.

In [99]:
dadosCopy

{'Jetta': 88078.64, 'Passat': 106161.94}

In [100]:
dadosCopy.clear()

In [101]:
dadosCopy

{}

# 3.4 Iterando em dicionários

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [102]:
dados

{'Jetta': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 25000.0,
 'Gol': 87546.22}

In [103]:
dados.keys()

dict_keys(['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca', 'Gol'])

In [104]:
for key in dados.keys():
    print(dados[key])

88078.64
106161.94
72832.16
124549.07
25000.0
87546.22


## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [105]:
dados.values()

dict_values([88078.64, 106161.94, 72832.16, 124549.07, 25000.0, 87546.22])

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [106]:
dados.items()

dict_items([('Jetta', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16), ('DS5', 124549.07), ('Fusca', 25000.0), ('Gol', 87546.22)])

In [107]:
for item in dados.items():
    print(item)

('Jetta', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)
('Fusca', 25000.0)
('Gol', 87546.22)


In [108]:
# Desempacotando:
for key, values in dados.items():
    print(key, values)

Jetta 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07
Fusca 25000.0
Gol 87546.22


In [109]:
for key, values in dados.items():
    if values > 100000:
        print(key)

Passat
DS5


### Exercicio:
 1 - imprime somente os nomes dos veículos com ano de fabricação maior ou igual a 2000.

In [110]:
dados = {
    'Crossfox': {'valor': 72000, 'ano': 2005}, 
    'DS5': {'valor': 125000, 'ano': 2015}, 
    'Fusca': {'valor': 150000, 'ano': 1976}, 
    'Jetta': {'valor': 88000, 'ano': 2010}, 
    'Passat': {'valor': 106000, 'ano': 1998}
}

In [111]:
for item in dados.items():
    if item[1]['ano'] >= 2000:
        print(item[0])

Crossfox
DS5
Jetta


# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [112]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [113]:
# Somar os valores de values: Primeiro criando uma lista vazia, adicionando os valores na lista e depois
# somnado.
lista = []
for valor in dados.values():
    lista.append(valor)
sum(lista)

267072.74

In [114]:
# somando os valores de values: criando uma varizvel e depois fazendo um for onde vai iterar cada valor 
# de values e somar armazenando na variazvel soma
soma = 0

for valor in dados.values():
    soma += valor
soma

267072.74

In [115]:
# Adicionando os valores do dicionario em uma lista e já somando atraves da função sum():
sum(list(dados.values()))

267072.74

In [116]:
# ou somar direto atraves da função soma, onde soma todos os valores das chaves do dicionario.
sum(dados.values())

267072.74

In [117]:
# digitando o nome da função + ? mostra a docstring da função ou seja a descrição da função. é a mesma 
# coisa de digitar help(print)
print?

In [118]:
sum?

# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

In [119]:
def media():
    valor = (1 + 2 + 3) / 3
    print(valor)

In [120]:
media()

2.0


### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

In [121]:
def media(n1, n2, n3, divisao):
    valor = (n1 + n2 + n3) / divisao
    print(valor)

In [122]:
media(1,2,3,3)

2.0


In [123]:
media(10,10,10,3)

10.0


In [124]:
# fazendo a mesma função media() porem de forma mais inteligente:
def media(lista):
    valor = sum(lista) / len(lista)
    print(valor)

In [125]:
media([10,10,10])

10.0


In [126]:
media([10,20,30])

20.0


media([20,30,20,10,40])

### Exercicio:
Uma tarefa importante em um trabalho de cientista de dados é o tratamento do dataset que vamos utilizar. Essa tarefa é dividida em várias etapas e uma delas é a sumarização dos dados, onde obtemos estatísticas descritivas para ajudar nas tomadas de decisão.

Algumas sumarizações precisam de um conjunto de elaborações, que devem ser desenvolvidas pelo próprio pesquisador. Neste ponto, as funções são bastante úteis no trabalho do cientista de dados. Com elas, podemos definir um conjunto de tarefas específicas, que recebem entradas e retornam resultados, e reutilizar esta codificação em outras partes de nosso projeto.

Um exemplo disso em nosso projeto é o cálculo da quilometragem média que um veículo rodou por ano. Não existe uma função pronta para o cálculo desta estatística em Python, e por isso precisamos escrever uma função que obtenha este valor.

Considere o conjunto de informações abaixo para responder o problema:

A estrutura a seguir é a definição de uma função que obtém e imprime a quilometragem média anual de cada veículo em um dicionário com a estrutura do dicionário dados abaixo:

In [127]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [128]:
def km_media(dataset, ano_atual):
    for item in dataset.items():
        result = item[1]['km'] / (ano_atual - item[1]['ano'])
        print(result)

In [129]:
km_media(dados, 2019)

2500.0
4250.0
3250.0
7000.0
3100.0


# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

In [130]:
def media(lista):
    valor = sum(lista) / len(lista)
    return valor

In [131]:
resultado = media([10, 15, 20, 25])

In [132]:
resultado

17.5

In [133]:
type(media)

function

In [134]:
type(valor)

float

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [135]:
def media(lista):
    valor = sum(lista) / len(lista)
    return (valor, len(lista))

In [136]:
media([1,2,3,4,5,6,7,8,9])

(5.0, 9)

In [137]:
# Desempacotamento:
resultado_media, tamanho = media([1,2,3,4,5,6,7,8,9])

In [138]:
resultado_media

5.0

In [139]:
tamanho

9

### Exercicio:
No problema anterior, definimos uma função para obter a quilometragem média anual de cada veículo em um dataset. Precisamos melhorar um pouco a nossa função e obter valores que possam ser reutilizados em outras partes do nosso projeto.

Aprendemos em nosso último vídeo como criar funções que retornam valores, e é isso que precisamos para resolver este problema. A estrutura a seguir é a definição de uma função que calcula as quilometragens médias anuais de cada veículo e retorna um dicionário com os nomes dos veículos como chaves e as quilometragens médias como valores:

In [140]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [141]:
for item in dados.items():
    print(item[1]['km'])

35000
17000
130000
56000
62000


In [142]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        result.update({ item[0]: media })
    return result

In [143]:
km_media(dados, 2019)

{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}

### Exercicio:

- Incluir a km_media no dataset dados:

In [144]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [145]:
def km_media(dataset, ano_atual):
    resultado = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({'km media': media})
        resultado.update({item[0]: item[1]})
    return resultado
        

In [146]:
km_media(dados, 2019)

{'Crossfox': {'km': 35000, 'ano': 2005, 'km media': 2500.0},
 'DS5': {'km': 17000, 'ano': 2015, 'km media': 4250.0},
 'Fusca': {'km': 130000, 'ano': 1979, 'km media': 3250.0},
 'Jetta': {'km': 56000, 'ano': 2011, 'km media': 7000.0},
 'Passat': {'km': 62000, 'ano': 1999, 'km media': 3100.0}}

# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

In [147]:
# Importando a biblioteca pandas
import pandas as pd

### Criando uma Series a partir de uma lista

In [148]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [149]:
# criando uma series:
pd.Series(carros)

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Criando um DataFrame a partir de uma lista de dicionários

In [150]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [151]:
dataset = pd.DataFrame(dados)
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [152]:
# Mudando a ordem das colunas:
dataset[['Nome', 'Ano', 'Quilometragem', 'Motor', 'Zero_km', 'Valor']]

Unnamed: 0,Nome,Ano,Quilometragem,Motor,Zero_km,Valor
0,Jetta Variant,2003,44410.0,Motor 4.0 Turbo,False,88078.64
1,Passat,1991,5712.0,Motor Diesel,False,106161.94
2,Crossfox,1990,37123.0,Motor Diesel V8,False,72832.16


In [153]:
dataset[['Nome', 'Ano', 'Quilometragem', 'Zero_km', 'Valor', 'Motor']]

Unnamed: 0,Nome,Ano,Quilometragem,Zero_km,Valor,Motor
0,Jetta Variant,2003,44410.0,False,88078.64,Motor 4.0 Turbo
1,Passat,1991,5712.0,False,106161.94,Motor Diesel
2,Crossfox,1990,37123.0,False,72832.16,Motor Diesel V8


In [154]:
dataset[['Nome', 'Motor', 'Ano', 'Quilometragem','Zero_km', 'Valor']]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de um dicionário

In [155]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [156]:
dataset = pd.DataFrame(dados)

In [157]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de uma arquivo externo

In [158]:
# Se eu quiser colocar alguma coluna como o indice no lugar dos numeros, acrescento esse argumento: 
# , index_col = 0
dataset = pd.read_csv('db.csv', sep = ';')
pd.set_option('display.max_rows', 1000)

In [159]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49


# 5.2 Seleções com DataFrames

### Selecionando colunas

In [160]:
# método .head() -> mostra os 05 primeiros registro do dataframe
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [161]:
# Selecionando a coluna valor.
dataset['Valor']

0       88078.64
1      106161.94
2       72832.16
3      124549.07
4       92612.10
5       97497.73
6       56445.20
7      112310.44
8      120716.27
9       76566.49
10      71647.59
11      73919.53
12     112732.99
13      53183.38
14     127488.42
15      59910.40
16      61118.59
17      88552.39
18      62696.69
19     101726.30
20     106147.38
21      94564.40
22     133529.84
23     125684.65
24     121596.21
25      71367.10
26      95347.75
27     105432.84
28      57045.27
29     120432.70
30      70707.20
31      69105.18
32      59358.69
33      65955.40
34      60017.03
35     118909.52
36      51606.59
37     123281.87
38      69770.18
39     102609.54
40      67997.19
41     135235.29
42      86641.34
43     136818.39
44     117626.73
45      56208.70
46      84222.65
47      90781.65
48      64701.10
49     126350.49
50     148152.89
51     132298.83
52     137627.63
53      80422.71
54      56373.99
55      70846.03
56     128694.23
57     133329.19
58     131961.

In [162]:
# Ele retorna um serires
type(dataset['Valor'])

pandas.core.series.Series

In [163]:
# Para ele retornar um DataFrame colocamos dois [[]]
dataset[['Nome','Valor']]

Unnamed: 0,Nome,Valor
0,Jetta Variant,88078.64
1,Passat,106161.94
2,Crossfox,72832.16
3,DS5,124549.07
4,Aston Martin DB4,92612.1
5,Palio Weekend,97497.73
6,A5,56445.2
7,Série 3 Cabrio,112310.44
8,Dodge Jorney,120716.27
9,Carens,76566.49


In [164]:
type(dataset[['Nome','Valor']])

pandas.core.frame.DataFrame

### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [165]:
dataset[0:3]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16


### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [166]:
# seleciona pelo indice:
dataset.loc[1]

Nome                                                        Passat
Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                               5712.0
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                    106161.94
Name: 1, dtype: object

In [167]:
# Selecionando por vários indices:
dataset.loc[[1, 2, 5]]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73


In [168]:
# dataset.loc[[linha], [coluna]]
dataset.loc[[1,2,5], ['Nome', 'Motor', 'Valor']]

Unnamed: 0,Nome,Motor,Valor
1,Passat,Motor Diesel,106161.94
2,Crossfox,Motor Diesel V8,72832.16
5,Palio Weekend,Motor 1.8 16v,97497.73


In [169]:
# Todas as linhas:
dataset.loc[:, ['Nome', 'Valor']]

Unnamed: 0,Nome,Valor
0,Jetta Variant,88078.64
1,Passat,106161.94
2,Crossfox,72832.16
3,DS5,124549.07
4,Aston Martin DB4,92612.1
5,Palio Weekend,97497.73
6,A5,56445.2
7,Série 3 Cabrio,112310.44
8,Dodge Jorney,120716.27
9,Carens,76566.49


### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

In [170]:
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [171]:
dataset.iloc[[1]]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94


In [172]:
dataset.iloc[1:4]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [173]:
dataset.iloc[1:4, [0, 2, 6]]

Unnamed: 0,Nome,Ano,Valor
1,Passat,1991,106161.94
2,Crossfox,1990,72832.16
3,DS5,2019,124549.07


In [174]:
dataset.iloc[[1, 42, 22], [0, 1, 2]]

Unnamed: 0,Nome,Motor,Ano
1,Passat,Motor Diesel,1991
42,Optima,Motor 1.8 16v,2019
22,Lamborghini Obvious,Motor Diesel V6,1994


# 5.3 Queries com DataFrames

In [175]:
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [176]:
# dataset que é meu DataFrame ponto Nome da coluna, retorna todas as informações da coluna Motor.
dataset.Motor

0            Motor 4.0 Turbo
1               Motor Diesel
2            Motor Diesel V8
3            Motor 2.4 Turbo
4            Motor 2.4 Turbo
5              Motor 1.8 16v
6            Motor 4.0 Turbo
7               Motor 1.0 8v
8              Motor 3.0 32v
9      Motor 5.0 V8 Bi-Turbo
10           Motor Diesel V6
11           Motor Diesel V8
12                  Motor V6
13                  Motor V6
14     Motor 5.0 V8 Bi-Turbo
15           Motor Diesel V8
16             Motor 3.0 32v
17              Motor 1.0 8v
18              Motor 1.0 8v
19             Motor 3.0 32v
20              Motor 1.0 8v
21                  Motor V8
22           Motor Diesel V6
23              Motor Diesel
24     Motor 5.0 V8 Bi-Turbo
25           Motor Diesel V6
26           Motor 4.0 Turbo
27             Motor 3.0 32v
28             Motor 3.0 32v
29           Motor 4.0 Turbo
30              Motor 1.0 8v
31             Motor 2.0 16v
32              Motor 1.0 8v
33             Motor 2.0 16v
34            

In [177]:
# dataset que é meu DataFrame ponto Nome da coluna, retorna todas as informações da coluna Motor == compara
# e retorna o valor booleano para os motores que são a disesel no caso.
motor_diesel = dataset.Motor == 'Motor Diesel'
motor_diesel

0      False
1       True
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23      True
24     False
25     False
26     False
27     False
28     False
29     False
30     False
31     False
32     False
33     False
34     False
35     False
36     False
37     False
38     False
39     False
40     False
41     False
42     False
43     False
44     False
45     False
46     False
47     False
48     False
49     False
50     False
51     False
52     False
53     False
54     False
55     False
56     False
57     False
58     False
59     False
60      True
61     False
62      True
63     False
64     False
65     False
66     False
67     False
68     False
69      True
70     False
71     False
72     False
73     False
74      True
75     False
76     False

In [178]:
# passando essa consulta motor_disel = dataset.Motor == 'Motor Diesel' para o dataset que vai retornar
# somente as informações dos carros com motor a diesel:
dataset[motor_diesel]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
23,Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Controle de estabilidade', 'Painel digital',...",125684.65
60,Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
62,New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
69,Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91
74,Fit,Motor Diesel,2013,44329.0,False,"['Freios ABS', 'Câmera de estacionamento', 'Câ...",77836.23
78,Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
86,Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
89,A4 Sedan,Motor Diesel,2002,30511.0,False,"['Câmera de estacionamento', '4 X 4', 'Travas ...",96369.04
111,A4 Avant,Motor Diesel,2014,17357.0,False,"['Teto panorâmico', '4 X 4', 'Bancos de couro'...",138946.88


In [179]:
# Saber quantos carros tem com o motor a diesel.
len(dataset[motor_diesel])

26

In [180]:
# Pegando os carros zero km:
zerokm = dataset.Zero_km == True
zerokm

0      False
1      False
2      False
3       True
4      False
5      False
6       True
7      False
8      False
9      False
10     False
11     False
12     False
13      True
14     False
15     False
16     False
17      True
18     False
19     False
20     False
21      True
22     False
23     False
24      True
25      True
26     False
27      True
28     False
29     False
30     False
31     False
32     False
33     False
34     False
35     False
36      True
37      True
38     False
39      True
40     False
41     False
42      True
43     False
44      True
45     False
46     False
47     False
48      True
49     False
50     False
51     False
52     False
53     False
54     False
55     False
56     False
57      True
58      True
59      True
60      True
61      True
62     False
63     False
64     False
65     False
66      True
67     False
68      True
69     False
70     False
71     False
72     False
73     False
74     False
75     False
76     False

In [181]:
# Pegando os carros que são Diesel e zero km:
dataset[(motor_diesel) & (zerokm == True)]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
60,Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
78,Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
124,Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
189,Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
237,Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


In [182]:
len(dataset[(motor_diesel) & (zerokm == True)])

5

### Utilizando o método query

In [183]:
# Mesma coisa do anterior, so que agora usando o método query():
dataset.query('Motor == "Motor Diesel" and Zero_km == True')

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
60,Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
78,Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
124,Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
189,Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
237,Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


# 5.4 Iterando com DataFrames

In [184]:
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [185]:
# Não tem muito sentido pois vai mostrar somente os rotulos(nomes das colunas):
for item in dataset:
    print(item)

Nome
Motor
Ano
Quilometragem
Zero_km
Acessórios
Valor


In [186]:
# Método iterrows() ele itera com cada linha(indice) e retorna uma Series com varias tuplas com as 
# informações de cada linha do dataset. Se colocarmos como list visualizamos melhor. 
list(dataset.iterrows())

[(0,
  Nome                                                 Jetta Variant
  Motor                                              Motor 4.0 Turbo
  Ano                                                           2003
  Quilometragem                                              44410.0
  Zero_km                                                      False
  Acessórios       ['Rodas de liga', 'Travas elétricas', 'Piloto ...
  Valor                                                     88078.64
  Name: 0, dtype: object),
 (1,
  Nome                                                        Passat
  Motor                                                 Motor Diesel
  Ano                                                           1991
  Quilometragem                                               5712.0
  Zero_km                                                      False
  Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
  Valor                                                    106161.

In [187]:
for index, row in dataset.iterrows():
    if 2019 - row['Ano'] != 0:
        dataset.loc[index, 'Km_media'] = row['Quilometragem'] / (2019 - row['Ano'])
    else:
         dataset.loc[index, 'Km_media'] = 0
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73,1532.571429
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44,7759.9
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27,11021.888889
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49,4747.25


# 5.5 Tratamento de dados

In [188]:
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692


In [189]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
 7   Km_media       258 non-null    float64
dtypes: bool(1), float64(3), int64(1), object(3)
memory usage: 14.5+ KB


In [190]:
# Método .isna() retorna True os registros que são NaN
dataset.Quilometragem.isna()

0      False
1      False
2      False
3       True
4      False
5      False
6       True
7      False
8      False
9      False
10     False
11     False
12     False
13      True
14     False
15     False
16     False
17      True
18     False
19     False
20     False
21      True
22     False
23     False
24      True
25      True
26     False
27      True
28     False
29     False
30     False
31     False
32     False
33     False
34     False
35     False
36      True
37      True
38     False
39      True
40     False
41     False
42      True
43     False
44      True
45     False
46     False
47     False
48      True
49     False
50     False
51     False
52     False
53     False
54     False
55     False
56     False
57      True
58      True
59      True
60      True
61      True
62     False
63     False
64     False
65     False
66      True
67     False
68      True
69     False
70     False
71     False
72     False
73     False
74     False
75     False
76     False

In [191]:
# Aqui estou retornando os registros que são NaN porém no DataFrame
dataset[dataset.Quilometragem.isna()]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
13,J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,0.0
17,A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
21,Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.4,0.0
24,Lamborghini Murciélago,Motor 5.0 V8 Bi-Turbo,2019,,True,"['Freios ABS', 'Câmbio automático', 'Ar condic...",121596.21,0.0
25,Up!,Motor Diesel V6,2019,,True,"['Sensor de estacionamento', 'Vidros elétricos...",71367.1,0.0
27,Sandero Stepway,Motor 3.0 32v,2019,,True,"['Freios ABS', 'Ar condicionado', 'Teto panorâ...",105432.84,0.0
36,Pajero TR4,Motor 2.4 Turbo,2019,,True,"['Controle de tração', 'Bancos de couro', 'Câm...",51606.59,0.0
37,Polo Sedan,Motor V6,2019,,True,"['Sensor de chuva', 'Sensor crepuscular', 'Ar ...",123281.87,0.0


In [192]:
# Sabendo a quantidade de registros NaN
len(dataset[dataset.Quilometragem.isna()])

61

In [193]:
# Método .fillna() muda o valor de NaN para o que eu passar no parametro:
dataset.fillna(0)

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
3,DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73,1532.571429
6,A5,Motor 4.0 Turbo,2019,0.0,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44,7759.9
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27,11021.888889
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49,4747.25


In [194]:
# dataset.fillna(0, inplace = True) - inplace Salva no DataFrame a alteração
dataset.fillna(0, inplace = True)

In [195]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
3,DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73,1532.571429
6,A5,Motor 4.0 Turbo,2019,0.0,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44,7759.9
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27,11021.888889
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49,4747.25


In [196]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  258 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
 7   Km_media       258 non-null    float64
dtypes: bool(1), float64(3), int64(1), object(3)
memory usage: 14.5+ KB


In [197]:
# Consultando a coluna Zero_Km:
dataset.query("Zero_km == True")

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
3,DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
6,A5,Motor 4.0 Turbo,2019,0.0,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
13,J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,0.0
17,A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
21,Série 1 M,Motor V8,2019,0.0,True,"['Controle de estabilidade', 'Central multimíd...",94564.4,0.0
24,Lamborghini Murciélago,Motor 5.0 V8 Bi-Turbo,2019,0.0,True,"['Freios ABS', 'Câmbio automático', 'Ar condic...",121596.21,0.0
25,Up!,Motor Diesel V6,2019,0.0,True,"['Sensor de estacionamento', 'Vidros elétricos...",71367.1,0.0
27,Sandero Stepway,Motor 3.0 32v,2019,0.0,True,"['Freios ABS', 'Ar condicionado', 'Teto panorâ...",105432.84,0.0
36,Pajero TR4,Motor 2.4 Turbo,2019,0.0,True,"['Controle de tração', 'Bancos de couro', 'Câm...",51606.59,0.0
37,Polo Sedan,Motor V6,2019,0.0,True,"['Sensor de chuva', 'Sensor crepuscular', 'Ar ...",123281.87,0.0


In [198]:
dataset = pd.read_csv('db.csv', sep=';')

In [199]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49


In [200]:
dataset.dropna(subset= ['Quilometragem'], inplace = True)

In [201]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49
10,Ford Edge,Motor Diesel V6,2002,12859.0,False,"['Sensor crepuscular', 'Rodas de liga', 'Teto ...",71647.59
11,Courier,Motor Diesel V8,2007,8052.0,False,"['Central multimídia', '4 X 4', 'Piloto automá...",73919.53


In [202]:
len(dataset)

197

In [203]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 197 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           197 non-null    object 
 1   Motor          197 non-null    object 
 2   Ano            197 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        197 non-null    bool   
 5   Acessórios     197 non-null    object 
 6   Valor          197 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 11.0+ KB
