# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [None]:
!python -V

Python 3.6.9


# 1.3 Trabalhando com dados

In [1]:
import pandas as pd

In [2]:
dataset = pd.read_csv('db.csv', sep=';')
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [None]:
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [None]:
dataset[['Quilometragem', 'Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [None]:
['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

# 2.2 Seleções em tuplas

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

# 2.3 Iterando em tuplas

In [None]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

### Desempacotamento de tuplas

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [None]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [None]:
# ZIP: cria duplas pelo índice dos arrays (a[0], b[0]), (a[1], b([1]))
list(zip(carros, valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [None]:
#de-constroi a tupla na iteração.
for carro, valor in zip(carros, valores):
  print(carro, valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [None]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [None]:
dicionario = {'Jetta Variant':88078.64, 'Passat':106161.94,'Crossfox':72832.16 }
dicionario

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [None]:
type(dicionario)

dict

### Criando dicionários com *zip()*

In [None]:
dados = dict(zip(carros, valores))
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

# 3.2 Operações com dicionários

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

## *len(dict)*

Retorna o número de itens do dicionário.

## *dict[ key ] = value*

Inclui um item ao dicionário.

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

# 3.3 Métodos de dicionários

## *dict.update()*

Atualiza o dicionário (atualizar e incluir informações).

## *dict.copy()*

Cria uma cópia do dicionário (deep copy).

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

## *dict.clear()*

Remove todos os itens do dicionário.

# 3.4 Iterando em dicionários

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [None]:
dicionario = {"A": 1, "B": 2, "C": 3}

In [None]:
dicionario.keys()

dict_keys(['A', 'B', 'C'])

In [None]:
[print(x) for x in dicionario.keys()]

A
B
C


[None, None, None]

## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [None]:
dicionario.values()

dict_values([1, 2, 3])

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [None]:
# retorna uma lista de tuplas
dicionario.items()

dict_items([('A', 1), ('B', 2), ('C', 3)])

In [None]:
dados = {
    'Crossfox': {'valor': 72000, 'ano': 2005}, 
    'DS5': {'valor': 125000, 'ano': 2015}, 
    'Fusca': {'valor': 150000, 'ano': 1976}, 
    'Jetta': {'valor': 88000, 'ano': 2010}, 
    'Passat': {'valor': 106000, 'ano': 1998}
}

In [None]:
for item in dados.items():
    if(item[1]['ano'] >= 2000):
        print(item[0])

Crossfox
DS5
Jetta


# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [None]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [None]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [None]:
dados.items()

dict_items([('Crossfox', {'km': 35000, 'ano': 2005}), ('DS5', {'km': 17000, 'ano': 2015}), ('Fusca', {'km': 130000, 'ano': 1979}), ('Jetta', {'km': 56000, 'ano': 2011}), ('Passat', {'km': 62000, 'ano': 1999})])

In [None]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        result.update({item[0]: media})
    return result

In [None]:
print(km_media(dados, 2020))

{'Crossfox': 2333.3333333333335, 'DS5': 3400.0, 'Fusca': 3170.731707317073, 'Jetta': 6222.222222222223, 'Passat': 2952.3809523809523}


In [None]:
def segundo_km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })
    return result
print(segundo_km_media(dados, 2020))

{'Crossfox': {'km': 35000, 'ano': 2005, 'km_media': 2333.3333333333335}, 'DS5': {'km': 17000, 'ano': 2015, 'km_media': 3400.0}, 'Fusca': {'km': 130000, 'ano': 1979, 'km_media': 3170.731707317073}, 'Jetta': {'km': 56000, 'ano': 2011, 'km_media': 6222.222222222223}, 'Passat': {'km': 62000, 'ano': 1999, 'km_media': 2952.3809523809523}}


# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

In [None]:
import pandas as pd

### Criando uma Series a partir de uma lista

In [3]:
carros = ["Ká", "Siena", "Palio"]

In [5]:
pd.Series(carros)

0       Ká
1    Siena
2    Palio
dtype: object

### Criando um DataFrame a partir de uma lista de dicionários

In [7]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [9]:
dataset = pd.DataFrame(dados)
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [13]:
#altera a ordem das colunas se alterar o dataset, mas retorna outro com a ordenação
dataset[["Nome", "Motor", "Quilometragem", "Ano", "Valor", "Zero_km"]]

Unnamed: 0,Nome,Motor,Quilometragem,Ano,Valor,Zero_km
0,Jetta Variant,Motor 4.0 Turbo,44410.0,2003,88078.64,False
1,Passat,Motor Diesel,5712.0,1991,106161.94,False
2,Crossfox,Motor Diesel V8,37123.0,1990,72832.16,False


### Criando um DataFrame a partir de um dicionário

In [14]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [15]:
dataset = pd.DataFrame(dados)

In [16]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de uma arquivo externo

In [None]:
dataset = pd.read_csv('db.csv', sep=";")

### Exercício DataFrames

In [19]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })

    return result

dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

kmMedia = km_media(dados, 2020)

In [25]:
# .T => Transpose - Transforma linhas em colunas
carros = pd.DataFrame(kmMedia).T
carros

Unnamed: 0,km,ano,km_media
Crossfox,35000.0,2005.0,2333.333333
DS5,17000.0,2015.0,3400.0
Fusca,130000.0,1979.0,3170.731707
Jetta,56000.0,2011.0,6222.222222
Passat,62000.0,1999.0,2952.380952


# 5.2 Seleções com DataFrames

### Selecionando colunas

In [26]:
dataset = pd.read_csv('db.csv', sep=";")

In [27]:
# Primeiros 5 registros
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [28]:
dataset["Valor"]

0       88078.64
1      106161.94
2       72832.16
3      124549.07
4       92612.10
         ...    
253     51759.58
254     51667.06
255     68934.03
256    122110.90
257     90381.47
Name: Valor, Length: 258, dtype: float64

In [30]:
# DataFrame retorna um conjunto de Series
type(dataset["Valor"])

pandas.core.series.Series

In [31]:
# porém se a seleção for da forma abaixo, retorna um DataFrame
type(dataset[["Valor"]])

pandas.core.frame.DataFrame

### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

A seleção é idêntica às listas.

### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [35]:
#busca informações da linha, como uma Series, a partir do índice definido para o dataset
# loc -> Localizar
dataset.loc[1]

Nome                                                        Passat
Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                                 5712
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                       106162
Name: 1, dtype: object

### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

Exatamente como o loc, porém ao invés de utilizar o índice definido, sempre utiliza o índice numérico.

### Exercício 1

In [37]:
dados = {
    'Nome': ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

exDataset = pd.DataFrame(dados)
exDataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
1,Passat,Motor Diesel,2003,5712.0,False,106000.0
2,Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
3,DS5,Motor 2.0,2019,0.0,True,89000.0
4,Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [39]:
dataset[['Nome', 'Ano', 'Quilometragem', 'Valor']][1:3]

Unnamed: 0,Nome,Ano,Quilometragem,Valor
1,Passat,1991,5712.0,106161.94
2,Crossfox,1990,37123.0,72832.16


### Exercício 2

In [44]:
dados = {
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

sDataset = pd.DataFrame(dados, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])
sDataset

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
DS5,Motor 2.0,2019,0.0,True,89000.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [53]:
sDataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


# 5.3 Queries com DataFrames

In [54]:
dataset.Motor

0            Motor 4.0 Turbo
1               Motor Diesel
2            Motor Diesel V8
3            Motor 2.4 Turbo
4            Motor 2.4 Turbo
               ...          
253                 Motor V8
254                 Motor V8
255    Motor 5.0 V8 Bi-Turbo
256             Motor Diesel
257          Motor Diesel V6
Name: Motor, Length: 258, dtype: object

In [57]:
select = dataset.Motor == "Motor Diesel"

In [58]:
dataset[select]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
23,Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Controle de estabilidade', 'Painel digital',...",125684.65
60,Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
62,New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
69,Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91
74,Fit,Motor Diesel,2013,44329.0,False,"['Freios ABS', 'Câmera de estacionamento', 'Câ...",77836.23
78,Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
86,Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
89,A4 Sedan,Motor Diesel,2002,30511.0,False,"['Câmera de estacionamento', '4 X 4', 'Travas ...",96369.04
111,A4 Avant,Motor Diesel,2014,17357.0,False,"['Teto panorâmico', '4 X 4', 'Bancos de couro'...",138946.88


In [63]:
dataset[(dataset.Motor == "Motor Diesel") & (dataset.Ano > 2000) | (dataset.Ano == 1991)]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
23,Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Controle de estabilidade', 'Painel digital',...",125684.65
29,V40,Motor 4.0 Turbo,1991,94381.0,False,"['Câmera de estacionamento', 'Sensor de estaci...",120432.7
33,Ford F100,Motor 2.0 16v,1991,33808.0,False,"['Controle de tração', 'Sensor crepuscular', '...",65955.4
60,Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
62,New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
69,Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91
74,Fit,Motor Diesel,2013,44329.0,False,"['Freios ABS', 'Câmera de estacionamento', 'Câ...",77836.23
78,Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
86,Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6


### Utilizando o método query

In [68]:
# Escreve a query em código python, mas isso não permitiria script injection, por exemplo?
dataset.query('Motor == "Motor Diesel" and Ano > 2000')

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
60,Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
62,New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
69,Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91
74,Fit,Motor Diesel,2013,44329.0,False,"['Freios ABS', 'Câmera de estacionamento', 'Câ...",77836.23
78,Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
86,Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
89,A4 Sedan,Motor Diesel,2002,30511.0,False,"['Câmera de estacionamento', '4 X 4', 'Travas ...",96369.04
111,A4 Avant,Motor Diesel,2014,17357.0,False,"['Teto panorâmico', '4 X 4', 'Bancos de couro'...",138946.88
119,Silver Shadow,Motor Diesel,2015,99052.0,False,"['4 X 4', 'Central multimídia', 'Ar condiciona...",143568.22
124,Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27


### Exercício

In [69]:
dados = {
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor Diesel', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dataset = pd.DataFrame(dados, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [70]:
dataset

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
DS5,Motor Diesel,2019,0.0,True,89000.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [71]:
dataset.query('Motor == "Motor Diesel" or Zero_km == True')

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


In [72]:
dataset[(dataset.Motor == 'Motor Diesel') | (dataset.Zero_km == True)]

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


In [74]:
# as duas maneiras (&/and |/or) funcionam no query
dataset.query('Motor == "Motor Diesel" | Zero_km == True')

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


# 5.4 Iterando com DataFrames

In [76]:
dataset = pd.read_csv('db.csv', sep=';')

In [79]:
#tupla(indice, series com dados)
list(dataset.iterrows())

[(0, Nome                                                 Jetta Variant
  Motor                                              Motor 4.0 Turbo
  Ano                                                           2003
  Quilometragem                                                44410
  Zero_km                                                      False
  Acessórios       ['Rodas de liga', 'Travas elétricas', 'Piloto ...
  Valor                                                      88078.6
  Name: 0, dtype: object),
 (1, Nome                                                        Passat
  Motor                                                 Motor Diesel
  Ano                                                           1991
  Quilometragem                                                 5712
  Zero_km                                                      False
  Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
  Valor                                                       106162
 

In [81]:
for index, row in dataset.iterrows():
  print(index, row)

0 Nome                                                 Jetta Variant
Motor                                              Motor 4.0 Turbo
Ano                                                           2003
Quilometragem                                                44410
Zero_km                                                      False
Acessórios       ['Rodas de liga', 'Travas elétricas', 'Piloto ...
Valor                                                      88078.6
Name: 0, dtype: object
1 Nome                                                        Passat
Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                                 5712
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                       106162
Name: 1, dtype: object
2 Nome      

In [88]:
for indice, linha in dataset.iterrows():
  if(2019 - row['Ano'] > 0):
    dataset.loc[indice, 'Km_media'] = row['Quilometragem'] / (2019 - row["Ano"])
  else:
    dataset.loc[indice, 'Km_media'] = 0

dataset


Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,1858.814815
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,1858.814815
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1858.814815
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,1858.814815
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10,1858.814815
...,...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58,1858.814815
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06,1858.814815
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03,1858.814815
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90,1858.814815


# 5.5 Tratamento de dados

In [89]:
#seleção de nulos
dataset.Quilometragem.isna()

0      False
1      False
2      False
3       True
4      False
       ...  
253    False
254    False
255    False
256    False
257    False
Name: Quilometragem, Length: 258, dtype: bool

In [90]:
dataset[dataset.Quilometragem.isna()]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,1858.814815
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20,1858.814815
13,J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,1858.814815
17,A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,1858.814815
21,Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.40,1858.814815
...,...,...,...,...,...,...,...,...
238,Lamborghini Reventón,Motor 4.0 Turbo,2019,,True,"['Controle de tração', 'Ar condicionado', 'Cen...",67664.86,1858.814815
242,Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84,1858.814815
243,Uno,Motor Diesel V6,2019,,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21,1858.814815
245,Santa Fe,Motor 3.0 32v,2019,,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33,1858.814815


In [91]:
dataset.fillna(0, inplace=True)

In [92]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,1858.814815
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,1858.814815
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1858.814815
3,DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,1858.814815
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10,1858.814815
...,...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58,1858.814815
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06,1858.814815
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03,1858.814815
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90,1858.814815


In [93]:
dataset.query('Zero_km == True')

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
3,DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,1858.814815
6,A5,Motor 4.0 Turbo,2019,0.0,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20,1858.814815
13,J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,1858.814815
17,A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,1858.814815
21,Série 1 M,Motor V8,2019,0.0,True,"['Controle de estabilidade', 'Central multimíd...",94564.40,1858.814815
...,...,...,...,...,...,...,...,...
238,Lamborghini Reventón,Motor 4.0 Turbo,2019,0.0,True,"['Controle de tração', 'Ar condicionado', 'Cen...",67664.86,1858.814815
242,Benni Mini,Motor V8,2019,0.0,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84,1858.814815
243,Uno,Motor Diesel V6,2019,0.0,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21,1858.814815
245,Santa Fe,Motor 3.0 32v,2019,0.0,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33,1858.814815


In [94]:
dataset = pd.read_csv('db.csv', sep=";")

In [96]:
dataset.dropna(subset=["Quilometragem"], inplace=True)

In [97]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90
