# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [None]:
!python -V

Python 3.7.12


# 1.3 Trabalhando com dados

In [None]:
# comando de import do pacote pandas
import pandas as pd
# comando opcional para aumentar o limite de linhas e colunas exibidas de um dataset
#pd.set_option('display.max_rows', 10)
#pd.set_option('display.max_columns', 1000)

In [None]:
# comando de import de arquivo csv para o ambiente
dataset = pd.read_csv('db.csv', sep = ';')

In [None]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [None]:
# comando de verificação dos tipos de dados
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [None]:
#comando para visualizar um conjunto de estatísticas de alguns campos selecionados do dataset
dataset[['Quilometragem', 'Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [None]:
# comando para visualizar algumas informações básicas de um dataset
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências (similares as listas) imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [None]:
()

()

In [None]:
1,2,3

(1, 2, 3)

In [None]:
nome = 'Passat'
valor = 153000
(nome,valor)

('Passat', 153000)

In [None]:
nome_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nome_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
type(nome_carros)

tuple

# 2.2 Seleções em tuplas

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
# comando para acessar um item específico dentro de uma tupla
nomes_carros[0]

'Jetta Variant'

In [None]:
nomes_carros[1]

'Passat'

In [None]:
# comando para acessar o último item em uma tupla
nomes_carros[-1]

'DS5'

In [None]:
# comando para filtrar itens em uma dupla determinando um intervalo de início e fim
nomes_carros[1:3]

('Passat', 'Crossfox')

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [None]:
# uma tupla dentro de uma tupla pode ser acessada por inteira pois a mesma é considerada como um item dentro da tupla
nomes_carros[-1]

('Fusca', 'Gol', 'C4')

In [None]:
# para acessar um item de tupla dentro de uma outra tupla, basta adicionar o comando de posição do item desejado após o comando de acesso a tupla
nomes_carros[-1][1]

'Gol'

# 2.3 Iterando em tuplas

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
# comando para varrer e printar todos os itens de uma tupla
for item in nomes_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacotamento de tuplas

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [None]:
# listando nomes e igualando a uma tupla é possível atribuir os valores sequências de uma tupla a variávis simultaneamente  
carro_1, carro_2, carro_3, carro_4 = nomes_carros

In [None]:
carro_1

'Jetta Variant'

In [None]:
carro_2

'Passat'

In [None]:
carro_3

'Crossfox'

In [None]:
carro_4

'DS5'

In [None]:
# utilizando o underscore é possível ignorar campos da tupla para criar variáveis apenas com alguns itens da tupla
_, A, _, B = nomes_carros

In [None]:
A

'Passat'

In [None]:
B

'DS5'

In [None]:
# quando a tupla for muito grande e existe a necessidade de aplicar a variável a apenas um item da lista é possível utilizaro *_ para ignorar os demais itens da tupla
_, C, *_ = nomes_carros

In [None]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [None]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [None]:
# o comando zip é um iterador que utilizado junto com um comando de agregação pode criar uma lista com conjunto de dados separados em tuplas ou listas, basicamente ele criar uma associação entre os dados
list(zip(carros, valores))
# como no exemplo o comando pegou cada elemento dos conjuntos de dados e criou tuplas agrupadas em uma lista

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [None]:
# comando para printar o empacotamento dos dados feito pelo iterador zip
for item in zip(carros, valores):
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [None]:
# ao se utilizar o zip os valores empacorados podem ser mostrados/printados individualmente (fora da tupla) mas ainda conectados uns aos outros
for carro, valor in zip(carros, valores):
  print(carro, valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [None]:
# utilizando o desempacotamento do zip com o for é possível criar filtro entre as informações que foram combinadas pelo zip utilizando o comando if
for carro, valor in zip(carros, valores):
  if(valor > 100000):
    print(carro)

Passat
DS5


# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [None]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [None]:
# comando .index ser para buscar o índice de um elemento dentro de uma lista
carros.index('Passat')

1

In [None]:
# utilizando o comando .index é possível buscara informação relacionado a um elemento em outra lista
valores[carros.index('Passat')]

106161.94

In [None]:
# com o comando abaixo é possível agrupar os dados relacionando os elementos através de chaves, em uma estrutura chamada dicionário (dict)
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [None]:
type(dados)

dict

### Criando dicionários com *zip()*

In [None]:
list(zip(carros, valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [None]:
# outra forma de criar um dataset relacional agrupando dados em um dicionário (dict) é utilizando o iterador zip que agrupa os elementos em tuplas
dados = dict(zip(carros, valores))
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

# 3.2 Operações com dicionários

In [None]:
# com o comando abaixo é possível agrupar os dados relacionando os elementos através de chaves, em uma estrutura chamada dicionário (dict)
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

In [None]:
# comando para buscar o valor relacional de um elemento através de sua chave
dados['Passat']

106161.94

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

In [None]:
# comando para verificar se uma chave está ou não contida em um dicionário
'Passat' in dados

True

In [None]:
'Fusca' in dados

False

In [None]:
'Fusca' not in dados

True

## *len(dict)*

Retorna o número de itens do dicionário.

In [None]:
# retorna quantos pares de valores estão contidos em um dicionário
len(dados)

3

## *dict[ key ] = value*

Inclui um item ao dicionário.

In [None]:
# comando para adicionar um item a um dicionário
dados['DS5'] = 124549.07

In [None]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

In [None]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

In [None]:
# comando para remover um item de um dicionário
del dados['Passat']
dados

{'Crossfox': 72832.16, 'DS5': 124549.07, 'Jetta Variant': 88078.64}

## Atividade Extra

In [None]:
dados = {
    'Passat': {
        'ano': 2012,
        'km': 50000,
        'valor': 75000,
        'acessorios': ['Airbag', 'ABS']
    }, 
    'Crossfox': {
        'ano': 2015,
        'km': 35000,
        'valor': 25000
    }
}

In [None]:
# 1) Testar se a chave acessorios existe no dicionário de informações do carro Crossfox (Resposta: False)
'acessorios' in dados['Crossfox']

False

In [None]:
# 2) Testar se a chave acessorios existe no dicionário de informações do carro Passat (Resposta: True)
'acessorios' in dados['Passat']

True

In [None]:
# 3) Obter o valor do carro Crossfox (Resposta: 25000)
dados['Crossfox']['valor']

25000

In [None]:
# 4) Acessar o último acessório do carro Passat (Resposta: 'ABS')
dados['Passat']['acessorios'][-1]

'ABS'

In [None]:
# respostas
'acessorios' in dados['Crossfox']
'acessorios' in dados['Passat']
dados['Crossfox']['valor']
dados['Passat']['acessorios'][-1]

'ABS'

# 3.3 Métodos de dicionários

## *dict.update()*

Atualiza o dicionário.

In [None]:
dados

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000},
 'Passat': {'acessorios': ['Airbag', 'ABS'],
  'ano': 2012,
  'km': 50000,
  'valor': 75000}}

In [None]:
# comando para fazer a atualização de um dicionário incluindo um novo item
dados.update({'Passat': 106161.94})
dados

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000}, 'Passat': 106161.94}

In [None]:
# o comando .update pode ser utilizado tanto para adicionar novos itens como para alterar o valor de algum item como feito com o valor do carro Passat
dados.update({'Passat': 106161.95, 'Fusca': 150000})
dados

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000},
 'Fusca': 150000,
 'Passat': 106161.95}

## *dict.copy()*

Cria uma cópia do dicionário.

In [None]:
# com o comando .copy() uma nova cópia independente do dicionário será criada, podendo ter alterações que não serão refletidas na origem
dadosCopy = dados.copy()

In [None]:
dadosCopy

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000},
 'Fusca': 150000,
 'Passat': 106161.95}

In [None]:
del dadosCopy['Fusca']
dadosCopy

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000}, 'Passat': 106161.95}

In [None]:
dados

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000},
 'Fusca': 150000,
 'Passat': 106161.95}

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

In [None]:
dadosCopy

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000}, 'Passat': 106161.95}

In [None]:
# utilizando o comando .pop e designando um item a ser eleminado, o console responde o valor que foi removido do dicionário
dadosCopy.pop('Passat')

106161.95

In [None]:
dadosCopy

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000}}

In [None]:
# dadosCopy.pop('Passat') ao tentar utilizar o comando novamente de exclusão de um item já removido no console aparecerá uma mensagem de erro

In [None]:
# para evitar a mensagem de erro após a vírgula no comando .pop é possível escrever uma mensagem de erro sinalizando que o elemento não foi entrado para eviar a mensagem de erro
dadosCopy.pop('Passat', 'Chave não encontrada')

'Chave não encontrada'

In [None]:
dadosCopy.pop('DS5', 'Chave não encontrada')

'Chave não encontrada'

In [None]:
dadosCopy

{'Crossfox': {'ano': 2015, 'km': 35000, 'valor': 25000}}

## *dict.clear()*

Remove todos os itens do dicionário.

In [None]:
# o comando .clear limpa por completo os dados contidos em um dicionário
dadosCopy.clear()

In [None]:
dadosCopy

{}

# 3.4 Iterando em dicionários

In [None]:
dados = {'Crossfox': 72832.16, 'DS5': 124549.07, 'Fusca': 150000, 'Jetta Variant': 88078.64, 'Passat': 106161.95}
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [None]:
dados.keys()

dict_keys(['Crossfox', 'DS5', 'Fusca', 'Jetta Variant', 'Passat'])

In [None]:
# com o comando .keys é possível ter o retorno uma lista todas as chaves contidas em um dicionário. Essa lista pode ser utilizada com for para demostrar os itens chave ou valores relacionados
for key in dados.keys():
  print(dados[key])

72832.16
124549.07
150000
88078.64
106161.95


## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [None]:
# como comando .keys o comando .values retorna todas os valores contidos em um dicionário
dados.values()

dict_values([72832.16, 124549.07, 150000, 88078.64, 106161.95])

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [None]:
# o comando .items transforma um dicionário em uma lista com os valores relacionados agrupados em tuplas
dados.items()

dict_items([('Crossfox', 72832.16), ('DS5', 124549.07), ('Fusca', 150000), ('Jetta Variant', 88078.64), ('Passat', 106161.95)])

In [None]:
for item in dados.items():
  print(item)

('Crossfox', 72832.16)
('DS5', 124549.07)
('Fusca', 150000)
('Jetta Variant', 88078.64)
('Passat', 106161.95)


In [None]:
# o comando items pode ser utilizado junto ao comando for para fazer o desempacotamento de tuplas
for key, value in dados.items():
  print(key, value)

Crossfox 72832.16
DS5 124549.07
Fusca 150000
Jetta Variant 88078.64
Passat 106161.95


In [None]:
# com o desempacotamento dos dados é possível utilizar comandos como o if para filtragem de dados
for key, value in dados.items():
  if(value > 100000):
    print(key)

DS5
Fusca
Passat


# Teste

In [None]:
dataset = {
    'Crossfox': {'valor': 72000, 'ano': 2005}, 
    'DS5': {'valor': 125000, 'ano': 2015}, 
    'Fusca': {'valor': 150000, 'ano': 1976}, 
    'Jetta': {'valor': 88000, 'ano': 2010}, 
    'Passat': {'valor': 106000, 'ano': 1998}
}

In [None]:
for item in dataset.items():
  if(item[1]['ano'] >= 2000):
    print(item[0])

Crossfox
DS5
Jetta


# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [None]:
# linhas para agrupar os valores de um dicionário em uma lista chamada valores
valores = []
for valor in dados.values():
  valores.append(valor)
valores

[88078.64, 106161.94, 72832.16]

In [None]:
# linhas para somar todos os valores de um dicionário em uma variável chamada soma
soma = 0
for valor in dados.values():
  soma += valor
soma

267072.74

In [None]:
# utilizando o comando list foi possível reproduzir o efeito da linha 83 com apenas uma linha de código
list(dados.values())

[88078.64, 106161.94, 72832.16]

In [None]:
# com a built-in function sum foi possível reproduzir o efeito do código 84 em uma única linha de código
sum(dados.values())

267072.74

In [None]:
# após a vírgula é possível configurar um parâmetro adicional ao comando sum que é um valor que irá ser adicionado inicialmente a soma
sum(dados.values(), 1000000)

1267072.7399999998

In [None]:
# o comando help demonstra um grupo de informações de apoio para o entendimento a uma built-in function
help(print)

Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   string inserted between values, default a space.
    end:   string appended after the last value, default a newline.
    flush: whether to forcibly flush the stream.



In [None]:
# similar ao help o comando exibe informações de ajuda sobre alguma built-in function
print?

# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

In [None]:
# o comando def serve para criar uma função no python. No exemplo abaixo temos uma função de média criada porém com parâmetros fixos
def media():
  valor = (1 + 2 + 3) / 3
  print(valor)

In [None]:
# para printar o resultado de uma função no console, basta inserir o nome da função seguido de ()
media()

2.0


### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

In [None]:
# função criada para gerar a média de 3 números, porém que precisaram de parâmetros a serem especificados na hora de chamar a função
def media(number_1, number_2, number_3):
  valor = (number_1 + number_2 + number_3) / 3
  print(valor)

In [None]:
# ao chamar uma função que tenha parâmetros é necessário informalos sequencialmente dentro das ()
media(1, 2, 3)

2.0


In [None]:
# com a função criada é possível utilizar a mesma com qualquer valores definidos em seus parâmetros
media(23, 45, 67)

45.0


In [None]:
# uma função pode ser criada utilizando built-in functions como list, sum, len, etc. Abaixo o exemplo de uma função de média cálculada sobre elementos de uma lista
def media(lista):
  valor = sum(lista) / len(lista)
  print(valor)

In [None]:
# função média criada sendo executada com uma lista de dados
media([1, 2, 3, 4, 5, 6, 7, 8, 9])

5.0


In [None]:
resultado = media([1, 2, 3, 4, 5, 6, 7, 8, 9])

5.0


In [None]:
resultado

In [None]:
# no exemplo da função criada acima, como a função apenas print o resultado, não é possível atribuir seu resultado a uma variável como exemplificado
type(resultado)

NoneType

# Teste

In [None]:
data = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [None]:
def km_media(dataset, ano_atual):
    for item in dataset.items():
        result = item[1]['km'] / (ano_atual - item[1]['ano'])
        print(result)

In [None]:
km_media(data, 2019)

2500.0
4250.0
3250.0
7000.0
3100.0


# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

In [None]:
# com o comando return no final da descrição da função é possível atribuir o resultado de uma função a uma variável
def media(lista):
  valor = sum(lista) / len(lista)
  return valor

In [None]:
media([1, 2, 3, 4, 5, 6, 7, 8])

4.5

In [None]:
resultado = media([1, 2, 3, 4, 5, 6, 7, 8])

In [None]:
resultado

4.5

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [None]:
# no comando return é possível adicionar mais valores para serem o resultado de uma função, geralmente usualmente tuplas de resultado
def media(lista):
  valor = sum(lista) / len(lista)
  return (valor, len(lista))

In [None]:
media([1, 2, 3, 4, 5, 6, 7, 8, 9])

(5.0, 9)

In [None]:
# os resultados podem ser adicionados a variáveis sequêncialmente, seperando assim os valores das tuplas
resultado, n = media([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
resultado

5.0

In [None]:
n

9

## Teste

In [None]:
dst = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [None]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        result.update ({ item[0]: media})       
    return result

In [None]:
km_media(dst, 2019)

{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}

In [None]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({'km_media':media})
        result.update({item[0]:item[1]})
    return result

In [None]:
km_media(dst, 2019)

{'Crossfox': {'ano': 2005, 'km': 35000, 'km_media': 2500.0},
 'DS5': {'ano': 2015, 'km': 17000, 'km_media': 4250.0},
 'Fusca': {'ano': 1979, 'km': 130000, 'km_media': 3250.0},
 'Jetta': {'ano': 2011, 'km': 56000, 'km_media': 7000.0},
 'Passat': {'ano': 1999, 'km': 62000, 'km_media': 3100.0}}

# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

In [None]:
# comando de importação do pandas no colab
import pandas as pd

### Criando uma Series a partir de uma lista

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [None]:
# comando para criar uma Series no pandas
pd.Series(carros)

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Criando um DataFrame a partir de uma lista de dicionários

In [None]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [None]:
dataset = pd.DataFrame(dados)

In [None]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [None]:
# chamando o DataFrame criado e especificando entre colchetes
dataset[['Ano', 'Nome', 'Motor', 'Quilometragem', 'Zero_km', 'Valor']]

Unnamed: 0,Ano,Nome,Motor,Quilometragem,Zero_km,Valor
0,2003,Jetta Variant,Motor 4.0 Turbo,44410.0,False,88078.64
1,1991,Passat,Motor Diesel,5712.0,False,106161.94
2,1990,Crossfox,Motor Diesel V8,37123.0,False,72832.16


### Criando um DataFrame a partir de um dicionário

In [None]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [None]:
# o comando DataFrame pode ser utilizado da mesma forma com dicionários
dataset = pd.DataFrame(dados)

In [None]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de uma arquivo externo

In [None]:
# com o comando .read_csv é possível carregar de um arquivo extorno um DataFrame. O comando adicional index_col pode ser utilizado para tornar a primeira coluna do DataFrame a index de toda tabela
dataset = pd.read_csv('db.csv', sep = ';', index_col = 0)

In [None]:
dataset

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


## Teste

In [None]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [None]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })

    return result

In [None]:
km_media(dados, 2019)

{'Crossfox': {'ano': 2005, 'km': 35000, 'km_media': 2500.0},
 'DS5': {'ano': 2015, 'km': 17000, 'km_media': 4250.0},
 'Fusca': {'ano': 1979, 'km': 130000, 'km_media': 3250.0},
 'Jetta': {'ano': 2011, 'km': 56000, 'km_media': 7000.0},
 'Passat': {'ano': 1999, 'km': 62000, 'km_media': 3100.0}}

In [None]:
carros = pd.DataFrame(km_media(dados, 2019)).T

In [None]:
carros

Unnamed: 0,km,ano,km_media
Crossfox,35000.0,2005.0,2500.0
DS5,17000.0,2015.0,4250.0
Fusca,130000.0,1979.0,3250.0
Jetta,56000.0,2011.0,7000.0
Passat,62000.0,1999.0,3100.0


# 5.2 Seleções com DataFrames

In [None]:
# com o comando .head podemos visualizar as 5 primeiras linhas de um dataset criado
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


### Selecionando colunas

In [None]:
# colocando o nome da coluna dentro de um colchetes é possível filtrar apenas uma coluna de um DataFrame. O idex do DF sempre será exibido junto a coluna filtrada
dataset['Valor']

Nome
Jetta Variant             88078.64
Passat                   106161.94
Crossfox                  72832.16
DS5                      124549.07
Aston Martin DB4          92612.10
                           ...    
Phantom 2013              51759.58
Cadillac Ciel concept     51667.06
Classe GLK                68934.03
Aston Martin DB5         122110.90
Macan                     90381.47
Name: Valor, Length: 258, dtype: float64

In [None]:
# ao selecionar uma coluna de um DF o tipo é indicado como um Series, ou seja um DF é um conjunto de Series
type(dataset['Valor'])

pandas.core.series.Series

In [None]:
# selecionando a coluna de um DF com colchetes duplos, se obtem um objeto do tipo DF
dataset[['Valor']]

Unnamed: 0_level_0,Valor
Nome,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.10
...,...
Phantom 2013,51759.58
Cadillac Ciel concept,51667.06
Classe GLK,68934.03
Aston Martin DB5,122110.90


In [None]:
type(dataset[['Valor']])

pandas.core.frame.DataFrame

### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [None]:
# seleção de linhas segue o mesmo formato de seleção de itens em arrays, listas e dicionários
dataset[0:3]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16


### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [None]:
# com o comando .loc temos de retorno uma Series com as informações do item filtrado
dataset.loc['Passat']

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                               5712.0
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                    106161.94
Name: Passat, dtype: object

In [None]:
# para seleção de mais itens pode-se utilizar o colchetes duplo transformando o retorno series em DF
dataset.loc[['Passat', 'DS5']]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [None]:
# com o comando de colchetes duplos podemos separar por vírgulas fazendo filtro de linhas e colunas dentro do DF
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [None]:
# adicionando : é possível selecionar todas as linhas ou colunas dentro de um filtro
dataset.loc[:, ['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.10
...,...,...
Phantom 2013,Motor V8,51759.58
Cadillac Ciel concept,Motor V8,51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03
Aston Martin DB5,Motor Diesel,122110.90


### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

In [None]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [None]:
# com o comando .iloc o filtro do DF é feito pelo índice inicial das linhas 
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94


In [None]:
# com a seleção multipla de linhas não se faz necessário o uso do colchetes duplos, e especificando o range a ser filtrado o DF é atualizado
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [None]:
# com o camando abaixo é possível filtrar linhas e colunas, inclusive definindo o posicionamento das colunas filtradas
dataset.iloc[1:4, [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


In [None]:
# com colchetes tanto para linhas e colunas é possível especificar o formato total do DF a ser exibido
dataset.iloc[[1, 42, 22], [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Optima,Motor 1.8 16v,86641.34,
Lamborghini Obvious,Motor Diesel V6,133529.84,98079.0


In [None]:
# com o : podemos trazer todas as informações de linhas ou colunas dentro do DF
dataset.iloc[:, [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64,44410.0
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,
Aston Martin DB4,Motor 2.4 Turbo,92612.10,25757.0
...,...,...,...
Phantom 2013,Motor V8,51759.58,27505.0
Cadillac Ciel concept,Motor V8,51667.06,29981.0
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03,52637.0
Aston Martin DB5,Motor Diesel,122110.90,7685.0


## Test - Filtros

In [None]:
dados = {
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(dados, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [None]:
dataset.head()

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
DS5,Motor 2.0,2019,0.0,True,89000.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [None]:
dataset.iloc[[1, 3], [0, -1]]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


# 5.3 Queries com DataFrames

In [None]:
dataset.head()

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
DS5,Motor 2.0,2019,0.0,True,89000.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [None]:
# quanto o rótulo da coluna for simples e sem espações, utilizado o variável do DF .nomedacoluna é possível gerar uma series com as informações da coluna
dataset.Motor

Jetta       Motor 4.0 Turbo
Passat         Motor Diesel
Crossfox    Motor Diesel V8
DS5               Motor 2.0
Fusca             Motor 1.6
Name: Motor, dtype: object

In [None]:
# utilizando o parâmetro de comparação == é possível gerar uma series que avalia se a condição é true/false que pode ser utilizada como filtro
dataset.Motor == 'Motor Diesel'

Jetta       False
Passat       True
Crossfox    False
DS5         False
Fusca       False
Name: Motor, dtype: bool

In [None]:
select = dataset.Motor == 'Motor Diesel'

In [None]:
type(select)

pandas.core.series.Series

In [None]:
# atribuindo o resultado da comparação == a uma variável e aplicando ela para filtragem no DF é possível gerar um DF com a filtragem dos dados true da comparação
dataset[select]

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Passat,Motor Diesel,2003,5712.0,False,106000.0


In [None]:
# utilizando chaves e o & (que representa a condição AND na filtragem) é possível fazer uma filtragem no DF de mais condições. O simbolo & poderia ser substituido por | (que significa OR)
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)]

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor


In [None]:
(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)

Jetta       False
Passat      False
Crossfox    False
DS5         False
Fusca       False
dtype: bool

### Utilizando o método query

In [None]:
# utilizando o comando .query é possível filtrar dados no DF de forma similar ao método de comparação, escrevendo todo código de filtragem entre aspas simples. A condição and pode ser alterada para or
dataset.query('Motor == "Motor Diesel" and Zero_km == True')

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor


# 5.4 Iterando com DataFrames

In [None]:
dataset.head()

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
DS5,Motor 2.0,2019,0.0,True,89000.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [None]:
for item in dataset:
  print(item)

Motor
Ano
Quilometragem
Zero_km
Valor


In [None]:
# utilizando o comando list com .iterrows criamos uma visão do DF com uma lista com os item em tuplas e series
list(dataset.iterrows())

[('Jetta', Motor            Motor 4.0 Turbo
  Ano                         2019
  Quilometragem                0.0
  Zero_km                     True
  Valor                    88000.0
  Name: Jetta, dtype: object), ('Passat', Motor            Motor Diesel
  Ano                      2003
  Quilometragem          5712.0
  Zero_km                 False
  Valor                106000.0
  Name: Passat, dtype: object), ('Crossfox', Motor            Motor Diesel V8
  Ano                         1991
  Quilometragem            37123.0
  Zero_km                    False
  Valor                    72000.0
  Name: Crossfox, dtype: object), ('DS5', Motor            Motor 2.0
  Ano                   2019
  Quilometragem          0.0
  Zero_km               True
  Valor              89000.0
  Name: DS5, dtype: object), ('Fusca', Motor            Motor 1.6
  Ano                   1990
  Quilometragem     120000.0
  Zero_km              False
  Valor              32000.0
  Name: Fusca, dtype: object)]

In [None]:
# combinando for | list | .iterrows pode-se fazer iterações no DF como inclusão ou modificação de itens
for index, row in dataset.iterrows():
  if(2019 - row['Ano'] != 0):
    dataset.loc[index, 'Km_media'] = row['Quilometragem'] / (2019 - row['Ano'])
  else:
    dataset.loc[index, 'Km_media'] = 0

dataset

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor,Km_media
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0,0.0
Passat,Motor Diesel,2003,5712.0,False,106000.0,357.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0,1325.821429
DS5,Motor 2.0,2019,0.0,True,89000.0,0.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0,4137.931034


# 5.5 Tratamento de dados

In [None]:
dataset.head()

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor,Km_media
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0,0.0
Passat,Motor Diesel,2003,5712.0,False,106000.0,357.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0,1325.821429
DS5,Motor 2.0,2019,0.0,True,89000.0,0.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0,4137.931034


In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Jetta to Fusca
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Motor          5 non-null      object 
 1   Ano            5 non-null      int64  
 2   Quilometragem  5 non-null      float64
 3   Zero_km        5 non-null      bool   
 4   Valor          5 non-null      float64
 5   Km_media       5 non-null      float64
dtypes: bool(1), float64(3), int64(1), object(1)
memory usage: 417.0+ bytes


In [None]:
# o comando .isna cria uma series bool indicando True informações nulas no DF. Esse comando pode ser utilizado para filtrar dados com erros no DF
dataset.Quilometragem.isna()

Jetta       False
Passat      False
Crossfox    False
DS5         False
Fusca       False
Name: Quilometragem, dtype: bool

In [None]:
# aplicando o .isna no filtro do DF temos a visão onde apenas os dados apresentam resultados NAN
dataset[dataset.Quilometragem.isna()]

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor,Km_media


In [None]:
# com o comando .fillna pode-se transformar todo 0 contido no DF em algum valor específico
dataset.fillna(0, inplace = True)

In [None]:
dataset

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor,Km_media
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0,0.0
Passat,Motor Diesel,2003,5712.0,False,106000.0,357.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0,1325.821429
DS5,Motor 2.0,2019,0.0,True,89000.0,0.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0,4137.931034


In [None]:
dataset.query("Zero_km == True")

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor,Km_media
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0,0.0
DS5,Motor 2.0,2019,0.0,True,89000.0,0.0


In [None]:
dataset = pd.read_csv('db.csv', sep = ';')

In [None]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [None]:
# utilizando o comando .dropna e especificando a coluna do DF podemos remover os registros do DF por completo caso seja necessário
dataset.dropna(subset = ['Quilometragem'], inplace = True)

In [None]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90
