<a href="https://colab.research.google.com/github/ClarisseAlvarenga/data_science_alura_cursos/blob/master/Python_para_Data_Science_Pandas_Alura.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [1]:
!python -V

Python 3.6.9


# 1.3 Trabalhando com dados

In [2]:
import pandas as pd
#para setar o número de linhas visíveis no dataset
pd.set_option('display.max_rows', 1000)
#para setar o número de colunas visíveis no dataset
pd.set_option('display.max_columns', 1000)

In [3]:
dataset = pd.read_csv('db.csv', sep=';')

In [4]:
dataset.head(10)

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49


In [5]:
#atributo para verificar os tipos de variáveis
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [6]:
#visualizando estatísticas descritivas das colunas escolhidas
dataset[['Quilometragem', 'Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [7]:
#conferindo dados no dataset (quantidade de nulos, tipos de variável, nome das colunas)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [8]:
#uma tupla é representada pelos parênteses
()

()

In [9]:
#criando tuplas
1,2,3

(1, 2, 3)

In [10]:
# A tupla aceita vários tipos de variáveis
nome = 'Passat'
valor = 153000
(nome,valor)

('Passat', 153000)

In [11]:
#criando uma tupla a partir de uma lista
nomes_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [12]:
type(nomes_carros)

tuple

# 2.2 Seleções em tuplas

In [13]:
#a seleção é semelhante à da lista
nomes_carros[0]

'Jetta Variant'

In [14]:
nomes_carros[-1]

'DS5'

In [15]:
#por slices. como na lista, o índice final não aparece na seleção
nomes_carros[1:3]

('Passat', 'Crossfox')

In [16]:
#buscando dentro de uma tupla encapsulada
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [17]:
nomes_carros[-1]

('Fusca', 'Gol', 'C4')

In [18]:
nomes_carros[-1][1]

'Gol'

**Exercício**

In [19]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

In [20]:
carros[0][3]

False

In [21]:
carros[-1][-1][-1]

'Freios ABS'

In [22]:
carros[0][-1][:2]

('Rodas de liga', 'Travas elétricas')

# 2.3 Iterando em tuplas

In [23]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [24]:
for item in nomes_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacotamento de tuplas

In [25]:
#atribuindo cada item da tupla em variáveis diferentes
carro_1, carro_2, carro_3, carro_4 = nomes_carros

In [26]:
carro_1

'Jetta Variant'

In [27]:
carro_2

'Passat'

In [28]:
carro_3

'Crossfox'

In [29]:
carro_4

'DS5'

In [30]:
#quando não precisamos de todos os valores (usando o underscore)
_, A, _, B = nomes_carros

In [31]:
_

'Crossfox'

In [32]:
A

'Passat'

In [33]:
B

'DS5'

In [34]:
#quando só queremos um dos valores da tupla (o *_ ignora todos os demais itens da tupla)
_,C,*_ = nomes_carros

In [35]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [36]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [37]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [38]:
#esta função é um iterador de tuplas
zip(carros, valores)

<zip at 0x7f255862df08>

In [39]:
#vendo o resultado do zip
list(zip(carros,valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [40]:
#iterando com zip
for item in zip(carros,valores):
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.94)
('Crossfox', 72832.16)
('DS5', 124549.07)


In [41]:
#iterando com zip e usando o desempacotamento de tuplas
for carro, valor in zip(carros,valores):
  print(carro, valor)


Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [42]:
for carro, valor in zip(carros,valores):
  if(valor > 100000):
      print(carro)

Passat
DS5


**Exercícios**

O procedimento de iteração em tuplas é o mesmo que aprendemos com listas, no treinamento anterior. Utilizamos a tupla como iterador de um laço for simples, ou aninhado, e conseguimos acesso a cada item individualmente.

Para responder esta questão, considere a mesma tupla da atividade anterior:

In [43]:
carros = (
    (
        'Jetta Variant',
        'Motor 4.0 Turbo',
        2003,
        False,
        ('Rodas de liga', 'Travas elétricas', 'Piloto automático')
    ),
    (
        'Passat',
        'Motor Diesel',
        1991,
        True,
        ('Central multimídia', 'Teto panorâmico', 'Freios ABS')
    )
)

Observe que se trata de uma tupla (1º nível) com duas tuplas, que representam um conjunto de dados de dois veículos (2º nível), e que uma destas informações (acessórios) vêm também dentro de uma tupla (3º nível). O que precisamos é iterar na tupla carros e imprimir todos os acessórios que aparecem. O resultado desejado é o seguinte:

Rodas de liga

Travas elétricas

Piloto automático

Central multimídia

Teto panorâmico

Freios ABS

In [44]:
for tupla in carros:
    for item in tupla[-1]:
        print(item)

Rodas de liga
Travas elétricas
Piloto automático
Central multimídia
Teto panorâmico
Freios ABS


**Exercício 2**
Considerando as duas listas abaixo E utilizando o ferramental apresentado acima, marque a alternativa com o código que possibilita a impressão dos nomes dos veículos com quilometragem abaixo de 20.000 km.



In [45]:
nomes = ['Passat', 'Crossfox', 'DS5', 'C4', 'Jetta']
kms = [15000, 12000, 32000, 8000, 50000]


In [46]:
for nome, km in zip(nomes, kms):
    if(km < 20000):
        print(nome)

Passat
Crossfox
C4


# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [47]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [48]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [49]:
#buscando o índice em uma lista usando o valor
carros.index('Passat')

1

In [50]:
#buscando na lista de valores o valor com o mesmo índice do Passat em carros
valores[carros.index('Passat')]

106161.94

In [51]:
#dicionários são coleções não ordenadas
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [52]:
type(dados)

dict

### Criando dicionários com *zip()*

In [53]:
list(zip(carros,valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [54]:
#criando um dicionário a partir de duas listas, usando a função zip
dados = dict(zip(carros,valores))
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

# 3.2 Operações com dicionários

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

In [55]:
dados['Jetta Variant']

88078.64

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

In [56]:
'Passat' in dados

True

In [57]:
'Fusca' in dados

False

In [58]:
'Fusca' not in dados

True

## *len(dict)*

Retorna o número de itens do dicionário.

In [59]:
#retorna os pares de chave/valor
len(dados)

3

## *dict[ key ] = value*

Inclui um item ao dicionário.

In [60]:
dados['DS5'] = 124549.07

In [61]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

In [62]:
del dados['Passat']

In [63]:
dados

{'Crossfox': 72832.16, 'DS5': 124549.07, 'Jetta Variant': 88078.64}

**Exercício**

In [64]:
dados = {
    'Passat': {
        'ano': 2012,
        'km': 50000,
        'valor': 75000,
        'acessorios': ['Airbag', 'ABS']
    }, 
    'Crossfox': {
        'ano': 2015,
        'km': 35000,
        'valor': 25000
    }
}

Note que dados tem dois itens, onde a chave (key) é o nome do veículo e o valor (value) é um dicionário com informações sobre este veículo (ano, quilometragem, valor e acessórios). Nossa tarefa nesta atividade é aprender como acessar as informações de um dicionário dentro de outro dicionário.

Queremos o seguinte:

1) Testar se a chave acessorios existe no dicionário de informações do carro Crossfox (Resposta: False)

2) Testar se a chave acessorios existe no dicionário de informações do carro Passat (Resposta: True)

3) Obter o valor do carro Crossfox (Resposta: 25000)

4) Acessar o último acessório do carro Passat (Resposta: 'ABS')

Assinale a alternativa que mostra os códigos corretos para retornar e acessar as informações acima (Dica: utilize um notebook para verificar os códigos desta atividade):

In [65]:
'acessorios' in dados['Crossfox']

False

In [66]:
'acessorios' in dados['Passat']

True

In [67]:
dados['Crossfox']['valor']

25000

In [68]:
dados['Passat']['acessorios'][-1]

'ABS'

# 3.3 Métodos de dicionários

## *dict.update()*

Atualiza o dicionário.

In [69]:
#gerando os dados novamente pq mudei completamente o dados anteriormente
dados = dict(zip(carros,valores))
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [70]:
dados.update({'DS5': 124549.07})
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

In [71]:
#podemos usar o método para atualizar um valor existente bem como incluir novos valores
dados.update({'Passat':106161.95, 'Fusca':150000})
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.copy()*

Cria uma cópia do dicionário.

In [72]:
dados_copy = dados.copy()

In [73]:
dados_copy

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

In [74]:
del dados_copy['Fusca']

In [75]:
dados_copy

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

In [76]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

In [77]:
dados_copy

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

In [78]:
dados_copy.pop('Passat')

106161.95

In [79]:
dados_copy

{'Crossfox': 72832.16, 'DS5': 124549.07, 'Jetta Variant': 88078.64}

In [80]:
#dados_copy.pop('Passat')

In [81]:
#podemos colocar uma mensagem de erro caso não localize o item no dicionário
dados_copy.pop('Passat', 'Chave não encontrada')

'Chave não encontrada'

In [82]:
dados_copy

{'Crossfox': 72832.16, 'DS5': 124549.07, 'Jetta Variant': 88078.64}

## *dict.clear()*

Remove todos os itens do dicionário.

In [83]:
dados_copy.clear()

In [84]:
dados_copy

{}

# 3.4 Iterando em dicionários

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [85]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

In [86]:
dados.keys()

dict_keys(['Jetta Variant', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [87]:
#usando o método keys como um iterados
for key in dados.keys():
  print(dados[key])

88078.64
106161.95
72832.16
124549.07
150000


## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [88]:
dados.values()

dict_values([88078.64, 106161.95, 72832.16, 124549.07, 150000])

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [89]:
dados.items()

dict_items([('Jetta Variant', 88078.64), ('Passat', 106161.95), ('Crossfox', 72832.16), ('DS5', 124549.07), ('Fusca', 150000)])

In [90]:
for item in dados.items():
  print(item)

('Jetta Variant', 88078.64)
('Passat', 106161.95)
('Crossfox', 72832.16)
('DS5', 124549.07)
('Fusca', 150000)


In [91]:
for key,value in dados.items():
  print(key,value)

Jetta Variant 88078.64
Passat 106161.95
Crossfox 72832.16
DS5 124549.07
Fusca 150000


In [92]:
#usando com desempacotamento de tuplas
for key,value in dados.items():
  if(value >100000):
    print(key)

Passat
DS5
Fusca


**Exercício**

In [93]:
dados = {
    'Crossfox': {'valor': 72000, 'ano': 2005}, 
    'DS5': {'valor': 125000, 'ano': 2015}, 
    'Fusca': {'valor': 150000, 'ano': 1976}, 
    'Jetta': {'valor': 88000, 'ano': 2010}, 
    'Passat': {'valor': 106000, 'ano': 1998}
}

Selecione a alternativa que apresenta o código que imprime somente os nomes dos veículos com ano de fabricação maior ou igual a 2000.

In [94]:
for item in dados.items():
    if(item[1]['ano'] >= 2000):
        print(item[0])

Crossfox
DS5
Jetta


# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [95]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [96]:
valores = []
for valor in dados.values():
  valores.append(valor)
valores

[88078.64, 106161.94, 72832.16]

In [97]:
soma = 0
for valor in dados.values():
  soma += valor
soma

267072.74

In [98]:
list(dados.values())

[88078.64, 106161.94, 72832.16]

In [99]:
sum(dados.values())

267072.74

In [100]:
#usando a função de ajuda
help(print)

Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   string inserted between values, default a space.
    end:   string appended after the last value, default a newline.
    flush: whether to forcibly flush the stream.



In [101]:
#outro jeito de acessar a função de ajuda
print?

# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

In [102]:
def media():
  valor = (1 + 2 + 3)/3
  print(valor)

In [103]:
media()

2.0


### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

In [104]:
def media(number_1, number_2, number_3):
  valor = (number_1 + number_2+ number_3)/3
  print(valor)

In [105]:
media(10,20,30)

20.0


In [106]:
def media(lista):
  valor = sum(lista)/len(lista)
  print(valor)

In [107]:
resultado = media([1,2,3,4,5,6,7,8,9])

5.0


In [108]:
#como a função não retorna o valor, chamar esta variável não gera output
resultado

# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

In [109]:
def media(lista):
  valor = sum(lista)/len(lista)
  return valor

In [110]:
media([1,2,3,4,5,6,7,8])

4.5

In [111]:
resultado = media([1,2,3,4,5,6,7,8])

In [112]:
#como usamos o return, a função agora retorna um resultado
resultado

4.5

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [113]:
def media(lista):
  valor = sum(lista)/len(lista)
  return (valor, len(lista))

In [114]:
media([1,2,3,4,5,6,7,8])

(4.5, 8)

In [115]:
#podemos atribuir a variáveis
resultado, n = media([1,2,3,4,5,6,7,8,9])

In [116]:
resultado

5.0

In [117]:
n

9

**Exercício**

In [118]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

 A estrutura a seguir é a definição de uma função que calcula as quilometragens médias anuais de cada veículo e retorna um dicionário com os nomes dos veículos como chaves e as quilometragens médias como valores:

In [119]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        result.update({ item[0]: media })
    return result

In [120]:
km_media(dados,2019)

{'Crossfox': 2500.0,
 'DS5': 4250.0,
 'Fusca': 3250.0,
 'Jetta': 7000.0,
 'Passat': 3100.0}

In [121]:
#mudando a função para constar o valor da km_media em uma outra chave do dicionario

def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })
    return result

In [122]:
km_media(dados,2019)

{'Crossfox': {'ano': 2005, 'km': 35000, 'km_media': 2500.0},
 'DS5': {'ano': 2015, 'km': 17000, 'km_media': 4250.0},
 'Fusca': {'ano': 1979, 'km': 130000, 'km_media': 3250.0},
 'Jetta': {'ano': 2011, 'km': 56000, 'km_media': 7000.0},
 'Passat': {'ano': 1999, 'km': 62000, 'km_media': 3100.0}}

# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

In [123]:
#importando a biblioteca
import pandas as pd

### Criando uma Series a partir de uma lista

In [124]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [125]:
s = pd.Series(carros)
s

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Criando um DataFrame a partir de uma lista de dicionários

In [126]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [127]:
#quando criamos um dataframe a partir de um dicionário, as chaves viram os rótulos das colunas
dataset = pd.DataFrame(dados)
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [128]:
#mudando a ordem das colunas
dataset[['Nome', 'Ano', 'Zero_km', 'Quilometragem', 'Motor', 'Valor']]

Unnamed: 0,Nome,Ano,Zero_km,Quilometragem,Motor,Valor
0,Jetta Variant,2003,False,44410.0,Motor 4.0 Turbo,88078.64
1,Passat,1991,False,5712.0,Motor Diesel,106161.94
2,Crossfox,1990,False,37123.0,Motor Diesel V8,72832.16


### Criando um DataFrame a partir de um dicionário

In [129]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [130]:
#criando o dataset a partir de outra forma de dicionário
dataset = pd.DataFrame(dados)

In [131]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de uma arquivo externo

In [158]:
#criando o DF usando o arquivo do curso, assumindo o índice como a primeira coluna do arquivo
dataset = pd.read_csv('db.csv', sep=';', index_col=0)
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


**Exercício**

In [159]:
dados = {
    'Crossfox': {'km': 35000, 'ano': 2005}, 
    'DS5': {'km': 17000, 'ano': 2015}, 
    'Fusca': {'km': 130000, 'ano': 1979}, 
    'Jetta': {'km': 56000, 'ano': 2011}, 
    'Passat': {'km': 62000, 'ano': 1999}
}

In [160]:
def km_media(dataset, ano_atual):
    result = {}
    for item in dataset.items():
        media = item[1]['km'] / (ano_atual - item[1]['ano'])
        item[1].update({ 'km_media': media })
        result.update({ item[0]: item[1] })

    return result

In [161]:
#A propriedade T é uma forma de acessar o método transpose() do DataFrame.
carros = pd.DataFrame(km_media(dados, 2019)).T
carros

Unnamed: 0,km,ano,km_media
Crossfox,35000.0,2005.0,2500.0
DS5,17000.0,2015.0,4250.0
Fusca,130000.0,1979.0,3250.0
Jetta,56000.0,2011.0,7000.0
Passat,62000.0,1999.0,3100.0


# 5.2 Seleções com DataFrames

### Selecionando colunas

In [162]:
dataset['Valor'].head()

Nome
Jetta Variant        88078.64
Passat              106161.94
Crossfox             72832.16
DS5                 124549.07
Aston Martin DB4     92612.10
Name: Valor, dtype: float64

In [163]:
#um dataframe é um conjunto de Series
type(dataset['Valor'])

pandas.core.series.Series

In [164]:
#transformando uma series num dataframe, acrescentamos o segundo colchete
dataset[['Valor']].head()

Unnamed: 0_level_0,Valor
Nome,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.1


In [165]:
type(dataset[['Valor']].head())

pandas.core.frame.DataFrame

### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [166]:
dataset[0:4]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [167]:
dataset.loc['Passat']

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                                 5712
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                       106162
Name: Passat, dtype: object

In [168]:
#retornando mais de uma informação - precisamos da estrutura de Dataframe
dataset.loc[['Passat', 'DS5']]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [169]:
#selecionando por linhas e colunas (usamos os rótulos para isso)
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']] #primeiro linha, depois coluna

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [170]:
#vendo todas as linhas
dataset.loc[:,['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.1
Palio Weekend,Motor 1.8 16v,97497.73
A5,Motor 4.0 Turbo,56445.2
Série 3 Cabrio,Motor 1.0 8v,112310.44
Dodge Jorney,Motor 3.0 32v,120716.27
Carens,Motor 5.0 V8 Bi-Turbo,76566.49


### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

In [171]:
dataset.iloc[1]

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                                 5712
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                       106162
Name: Passat, dtype: object

In [172]:
#retornando como Dataframe
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94


In [173]:
#funciona como seleção em listas, o último índice não é mostrado no output
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [174]:
#definindo algumas colunas (não precisa ser na ordem correta) para mostrar as linhas
dataset.iloc[1:4, [0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


**Exercício**

In [175]:
dados = {
    'Nome': ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dados = pd.DataFrame(dados)

Assinale a alternativa que contenha o código que seleciona somente as informações de Nome, Ano, Quilometragem e Valor dos carros Passat e Crossfox.

In [176]:
dados.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
1,Passat,Motor Diesel,2003,5712.0,False,106000.0
2,Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
3,DS5,Motor 2.0,2019,0.0,True,89000.0
4,Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [177]:
dados.loc[[1,2], ['Nome', 'Ano', 'Quilometragem', 'Valor']]

Unnamed: 0,Nome,Ano,Quilometragem,Valor
1,Passat,2003,5712.0,106000.0
2,Crossfox,1991,37123.0,72000.0


In [180]:
dados[['Nome', 'Ano', 'Quilometragem', 'Valor']][1:3]

Unnamed: 0,Nome,Ano,Quilometragem,Valor
1,Passat,2003,5712.0,106000.0
2,Crossfox,1991,37123.0,72000.0


**Exercício**
Note que utilizamos os nomes dos veículos como índice do DataFrame. Selecione as alternativas corretas que têm como resultado o seguinte DataFrame:

Out [1]:

||Motor|	Valor|
|---|---|---|
|Passat|	Motor Diesel|	106000.0|
|DS5|	Motor 2.0	|89000.0|


In [181]:
dados = {
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dados = pd.DataFrame(dados, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [182]:
dados.head()

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
Crossfox,Motor Diesel V8,1991,37123.0,False,72000.0
DS5,Motor 2.0,2019,0.0,True,89000.0
Fusca,Motor 1.6,1990,120000.0,False,32000.0


In [183]:
#com o .loc passamos os rótulos
dados.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


In [185]:
#com o iloc usamos os índices
dados.iloc[[1, 3], [0, -1]]

Unnamed: 0,Motor,Valor
Passat,Motor Diesel,106000.0
DS5,Motor 2.0,89000.0


# 5.3 Queries com DataFrames

In [186]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [190]:
#consulta que traga todos os registros com um tipo específico de Motor - retorna uma series booleana
select = dataset.Motor == 'Motor Diesel'

In [191]:
type(select)

pandas.core.series.Series

In [193]:
#usando a condição numa variável
dataset[select]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Controle de estabilidade', 'Painel digital',...",125684.65
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91
Fit,Motor Diesel,2013,44329.0,False,"['Freios ABS', 'Câmera de estacionamento', 'Câ...",77836.23
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
A4 Sedan,Motor Diesel,2002,30511.0,False,"['Câmera de estacionamento', '4 X 4', 'Travas ...",96369.04
A4 Avant,Motor Diesel,2014,17357.0,False,"['Teto panorâmico', '4 X 4', 'Bancos de couro'...",138946.88


In [194]:
#o & comercial funciona como o and. Podemos fazer várias queries da mesma maneira. As queries retornam series booleanas
#o | indicaria o or
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


### Utilizando o método query

O método query() aceita as duas formas de utilização dos operadores lógicos. No caso do operador lógico OU, temos o or e o caractere |. Para o operador lógico E, temos o and e o caractere &.

In [196]:
dataset.query('Motor == "Motor Diesel" and Zero_km == True')

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


**Exercício**

Queremos retornar o DataFrame abaixo:

Out [1]:

||Motor	|Ano|	Quilometragem|	Zero_km|	Valor|
|---|---|---|---|---|---|
|Jetta|	Motor 4.0 Turbo|	2019|	0.0|	True|	88000.0|
|Passat|	Motor Diesel|	2003|	5712.0|	False|	106000.0|
|DS5|	Motor Diesel|	2019|	0.0	|True|	89000.0|


In [197]:
dados = {
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor Diesel', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Zero_km': [True, False, False, True, False],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0]
}

dados = pd.DataFrame(dados, index = ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'])

In [198]:
dados.query('Motor == "Motor 4.0 Turbo" or Motor == "Motor Diesel"')

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


In [200]:
dados.query('Motor == "Motor Diesel" or Zero_km == True')

Unnamed: 0,Motor,Ano,Quilometragem,Zero_km,Valor
Jetta,Motor 4.0 Turbo,2019,0.0,True,88000.0
Passat,Motor Diesel,2003,5712.0,False,106000.0
DS5,Motor Diesel,2019,0.0,True,89000.0


# 5.4 Iterando com DataFrames

In [201]:
for item in dataset:
  print(item)

Motor
Ano
Quilometragem
Zero_km
Acessórios
Valor


In [204]:
#método iterrows (itera linhas)
#funciona como um zip
#usando o método para incluir uma coluna com a quilometragem média
for index, row in dataset.iterrows():
  if(2019 - row['Ano'] != 0):
    dataset.loc[index, 'Km_media'] = row['Quilometragem']/ (2019 - row['Ano']) #criando a coluna durante o FOR
  else:
    dataset.loc[index, 'Km_media'] = 0
dataset.head()


Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692


###  Há também os métodos **items ()** que Itera pelas colunas do DataFrame, utilizando uma tupla, onde o primeiro item é o nome da coluna e o segundo é uma Series, com todo o conteúdo da coluna e o método **itertuples()** que itera pelas linhas do DataFrame, utilizando um tipo de tupla nomeada com o conteúdo de cada linha do DataFrame. 


# 5.5 Tratamento de dados

In [205]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692


In [206]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Motor          258 non-null    object 
 1   Ano            258 non-null    int64  
 2   Quilometragem  197 non-null    float64
 3   Zero_km        258 non-null    bool   
 4   Acessórios     258 non-null    object 
 5   Valor          258 non-null    float64
 6   Km_media       258 non-null    float64
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 24.4+ KB


In [208]:
#selecionar informações nulas
dataset[dataset.Quilometragem.isna()]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,0.0
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.4,0.0
Lamborghini Murciélago,Motor 5.0 V8 Bi-Turbo,2019,,True,"['Freios ABS', 'Câmbio automático', 'Ar condic...",121596.21,0.0
Up!,Motor Diesel V6,2019,,True,"['Sensor de estacionamento', 'Vidros elétricos...",71367.1,0.0
Sandero Stepway,Motor 3.0 32v,2019,,True,"['Freios ABS', 'Ar condicionado', 'Teto panorâ...",105432.84,0.0
Pajero TR4,Motor 2.4 Turbo,2019,,True,"['Controle de tração', 'Bancos de couro', 'Câm...",51606.59,0.0
Polo Sedan,Motor V6,2019,,True,"['Sensor de chuva', 'Sensor crepuscular', 'Ar ...",123281.87,0.0


In [209]:
#substituindo nulos
dataset.fillna(0, inplace=True)

In [211]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692


In [212]:
dataset.query('Zero_km == True')

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
A5,Motor 4.0 Turbo,2019,0.0,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,0.0
A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
Série 1 M,Motor V8,2019,0.0,True,"['Controle de estabilidade', 'Central multimíd...",94564.4,0.0
Lamborghini Murciélago,Motor 5.0 V8 Bi-Turbo,2019,0.0,True,"['Freios ABS', 'Câmbio automático', 'Ar condic...",121596.21,0.0
Up!,Motor Diesel V6,2019,0.0,True,"['Sensor de estacionamento', 'Vidros elétricos...",71367.1,0.0
Sandero Stepway,Motor 3.0 32v,2019,0.0,True,"['Freios ABS', 'Ar condicionado', 'Teto panorâ...",105432.84,0.0
Pajero TR4,Motor 2.4 Turbo,2019,0.0,True,"['Controle de tração', 'Bancos de couro', 'Câm...",51606.59,0.0
Polo Sedan,Motor V6,2019,0.0,True,"['Sensor de chuva', 'Sensor crepuscular', 'Ar ...",123281.87,0.0


In [214]:
#refazendo o dataset
dataset = pd.read_csv('db.csv', sep=';')

In [216]:
#caso eu quisesse excluir os registros faltantes
dataset.dropna(subset = ['Quilometragem'], inplace=True)

In [217]:
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
