# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [181]:
!python -V

Python 3.7.13


# 1.3 Trabalhando com dados

In [182]:
import pandas as pd
# fazendo mostrar todas as linhas e colunas do dataset
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)

In [183]:
dataset = pd.read_csv('db.csv', sep=';')

In [184]:
dataset.head(10)

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49


In [185]:
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [186]:
# estatística descritivas
dataset[['Quilometragem', 'Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [187]:
# informações sobre o dataset, como linhas, tipo de dados, colunas etc.
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [188]:
()

()

In [189]:
1, 2, 3

(1, 2, 3)

In [190]:
nome = 'Passat'
valor = 153000
(nome, valor)

('Passat', 153000)

In [191]:
nomes_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [192]:
type(nomes_carros)

tuple

# 2.2 Seleções em tuplas

In [193]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [194]:
nomes_carros[0]

'Jetta Variant'

In [195]:
nomes_carros[1]

'Passat'

In [196]:
nomes_carros[-1]

'DS5'

In [197]:
nomes_carros[1:3]

('Passat', 'Crossfox')

In [198]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [199]:
nomes_carros[-1][1]

'Gol'

# 2.3 Iterando em tuplas

In [200]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [201]:
for item in nomes_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacotamento de tuplas

In [202]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [203]:
carro_1, carro_2, carro_3, carro_4 = nomes_carros

In [204]:
carro_1

'Jetta Variant'

In [205]:
carro_2

'Passat'

In [206]:
carro_3

'Crossfox'

In [207]:
carro_4

'DS5'

In [208]:
# quando eu quero um elemento especifico e ignorar o restante
_, A, _, C = nomes_carros

In [209]:
A

'Passat'

In [210]:
C

'DS5'

In [211]:
# somente um valor, caso sua tupla tem dezenas de elementos, você colocar o *_
# assim ignora todo o restante
_, C, *_ = nomes_carros

In [212]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [213]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [214]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [215]:
# zip fez um interador com as tuplas
# ele pega cada elemento de cada tupla e junta em uma única tupla separada
list(zip(carros, valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [216]:
for carro, valor in zip(carros, valores):
  print(carro, valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [217]:
for carro, valor in zip(carros, valores):
  if(valor > 100000):
    print(carro)

Passat
DS5


# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [218]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [219]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [220]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [221]:
type(dados)

dict

### Criando dicionários com *zip()*

In [222]:
list(zip(carros, valores))

[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]

In [223]:
dados = dict(zip(carros, valores))
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

# 3.2 Operações com dicionários

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

In [224]:
dados['Passat']

106161.94

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

In [225]:
'Passat' in dados

True

In [226]:
'Fusca' in dados

False

In [227]:
'Fusca' not in dados

True

## *len(dict)*

Retorna o número de itens do dicionário.

In [228]:
len(dados)

3

## *dict[ key ] = value*

Inclui um item ao dicionário.

In [229]:
dados['DS5'] = 124549.07

In [230]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

In [231]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

In [232]:
del dados['Passat']
dados

{'Crossfox': 72832.16, 'DS5': 124549.07, 'Jetta Variant': 88078.64}

# 3.3 Métodos de dicionários

## *dict.update()*

Atualiza o dicionário.

In [233]:
dados

{'Crossfox': 72832.16, 'DS5': 124549.07, 'Jetta Variant': 88078.64}

In [234]:
dados.update({'Passat': 106161.94})
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.94}

In [235]:
# eu consigo alterar e adicionar ao mesmo tempo
dados.update({'Passat': 106161.95, 'Fusca' : 150000})
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.copy()*

Cria uma cópia do dicionário.

In [236]:
dadoCopy = dados.copy()

In [237]:
dadoCopy

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

In [238]:
del dadoCopy['Fusca']

In [239]:
dadoCopy

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

In [240]:
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

In [241]:
dadoCopy

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

In [242]:
dadoCopy.pop('Passat')

106161.95

In [243]:
dadoCopy

{'Crossfox': 72832.16, 'DS5': 124549.07, 'Jetta Variant': 88078.64}

In [245]:
# metodo para tratar o erro, caso não encontre
dadoCopy.pop('Passat', 'Chave não encontrada')

'Chave não encontrada'

## *dict.clear()*

Remove todos os itens do dicionário.

In [246]:
dadoCopy.clear()

In [247]:
dadoCopy

{}

# 3.4 Iterando em dicionários

In [248]:
dados = {'Crossfox': 72832.16, 'DS5': 124549.07,  'Fusca': 150000,  'Jetta Variant': 88078.64,  'Passat': 106161.95}
dados

{'Crossfox': 72832.16,
 'DS5': 124549.07,
 'Fusca': 150000,
 'Jetta Variant': 88078.64,
 'Passat': 106161.95}

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [249]:
dados.keys()

dict_keys(['Crossfox', 'DS5', 'Fusca', 'Jetta Variant', 'Passat'])

In [250]:
# pegando os valores de cada chave
for key in dados.keys():
  print(dados[key])

72832.16
124549.07
150000
88078.64
106161.95


## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [251]:
dados.values()

dict_values([72832.16, 124549.07, 150000, 88078.64, 106161.95])

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [252]:
# ele fez uma tupla que para cada chave : valor, virá uma tupla
dados.items()

dict_items([('Crossfox', 72832.16), ('DS5', 124549.07), ('Fusca', 150000), ('Jetta Variant', 88078.64), ('Passat', 106161.95)])

In [253]:
for item in dados.items():
  print(item)

('Crossfox', 72832.16)
('DS5', 124549.07)
('Fusca', 150000)
('Jetta Variant', 88078.64)
('Passat', 106161.95)


In [254]:
for key, value in dados.items():
  print(key, value)

Crossfox 72832.16
DS5 124549.07
Fusca 150000
Jetta Variant 88078.64
Passat 106161.95


In [255]:
for key, value in dados.items():
  if(value > 100000):
    print(key)

DS5
Fusca
Passat


# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [256]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Crossfox': 72832.16, 'Jetta Variant': 88078.64, 'Passat': 106161.94}

In [257]:
valores = []
for valor in dados.values():
  valores.append(valor)
valores

[88078.64, 106161.94, 72832.16]

In [258]:
soma = 0
for valor in dados.values():
  soma += valor
soma

267072.74

In [259]:
# buit-in list
list(dados.values())

[88078.64, 106161.94, 72832.16]

In [260]:
# buit-in sum
sum(dados.values())

267072.74

In [261]:
# ajuda
help()


Welcome to Python 3.7's help utility!

If this is your first time using Python, you should definitely check out
the tutorial on the Internet at https://docs.python.org/3.7/tutorial/.

Enter the name of any module, keyword, or topic to get help on writing
Python programs and using Python modules.  To quit this help utility and
return to the interpreter, just type "quit".

To get a list of available modules, keywords, symbols, or topics, type
"modules", "keywords", "symbols", or "topics".  Each module also comes
with a one-line summary of what it does; to list the modules whose name
or summary contain a given string such as "spam", type "modules spam".

help> 

You are now leaving help and returning to the Python interpreter.
If you want to ask for help on a particular object directly from the
interpreter, you can type "help(object)".  Executing "help('string')"
has the same effect as typing a particular string at the help> prompt.


# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

In [262]:
def media():
  valor = (1 + 2 + 3) / 3
  print(valor)

In [263]:
media()

2.0


### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

In [264]:
def media(number_1, number_2, number_3):
  valor = (number_1 + number_2 +number_3) / 3
  print(valor)

In [265]:
media(1,2,3)

2.0


In [266]:
media(23,45,67)

45.0


In [267]:
def media(lista):
  valor = sum(lista) / len(lista)
  print(valor)

In [268]:
resultado = media([1, 2, 3, 4, 5, 6, 7, 8, 9])

5.0


In [269]:
resultado

In [270]:
type(resultado)

NoneType

# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

In [271]:
def media(lista):
  valor = sum(lista) / len(lista)
  return valor

In [272]:
media([1,2,3,4,5,6,7,8,9])

5.0

In [273]:
resultado = media([1,2,3,4,5,6,7,8,9])

In [274]:
resultado

5.0

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [275]:
def media(lista):
  valor = sum(lista) / len(lista)
  return (valor, len(lista))

In [276]:
media([1,2,3,4,5,6,7,8,9])

(5.0, 9)

In [277]:
resultado, n = media([1,2,3,4,5,6,7,8,9])

In [278]:
resultado

5.0

In [279]:
n

9

# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

In [280]:
import pandas as pd

### Criando uma Series a partir de uma lista

In [281]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [282]:
pd.Series(carros)

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Criando um DataFrame a partir de uma lista de dicionários

In [283]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [284]:
dataset = pd.DataFrame(dados)

In [285]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [286]:
# modificando a ordem das colunas
dataset[['Nome', 'Motor', 'Ano', 'Quilometragem', 'Zero_km', 'Valor']]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de um dicionário

In [287]:
# outro jeito de criar um dataframe
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [288]:
dataset = pd.DataFrame(dados)

In [289]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de uma arquivo externo

In [290]:
# a coluna com o index 0, vai virar o index do df
dataset = pd.read_csv('db.csv', sep = ';', index_col=0)

In [291]:
dataset.head(10)

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49


# 5.2 Seleções com DataFrames

### Selecionando colunas

In [292]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [293]:
# selecionando a coluna valor
dataset['Valor'].head(10)

Nome
Jetta Variant        88078.64
Passat              106161.94
Crossfox             72832.16
DS5                 124549.07
Aston Martin DB4     92612.10
Palio Weekend        97497.73
A5                   56445.20
Série 3 Cabrio      112310.44
Dodge Jorney        120716.27
Carens               76566.49
Name: Valor, dtype: float64

In [294]:
type(dataset['Valor'])

pandas.core.series.Series

In [295]:
# fazendo uma series virar um data frame
dataset[['Valor']].head(10)

Unnamed: 0_level_0,Valor
Nome,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.1
Palio Weekend,97497.73
A5,56445.2
Série 3 Cabrio,112310.44
Dodge Jorney,120716.27
Carens,76566.49


### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [296]:
dataset[0:4]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [297]:
# o loc retornou uma series com as informações da linha
dataset.loc['Passat']

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                               5712.0
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                    106161.94
Name: Passat, dtype: object

In [298]:
# agora, pegando mais de um valor e transformando em df
dataset.loc[['Passat', 'DS5']]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [299]:
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [300]:
# pegando todas as linhas e 2 colunas
dataset.loc[:, ['Motor', 'Valor']].head(10)

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.1
Palio Weekend,Motor 1.8 16v,97497.73
A5,Motor 4.0 Turbo,56445.2
Série 3 Cabrio,Motor 1.0 8v,112310.44
Dodge Jorney,Motor 3.0 32v,120716.27
Carens,Motor 5.0 V8 Bi-Turbo,76566.49


### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices, ou seja, se baseia na posição das informações.

In [301]:
# o iloc usa o número do index
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94


In [302]:
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [303]:
# posso selecionar colunas em qualquer ordem que eu quiser, basta passar o index delas
dataset.iloc[1:4, [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


In [304]:
# posso pegar linhas aleatórias tambem
dataset.iloc[[1, 42, 22], [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Optima,Motor 1.8 16v,86641.34,
Lamborghini Obvious,Motor Diesel V6,133529.84,98079.0


In [305]:
dataset.iloc[:, [0, 5, 2]].head(10)

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64,44410.0
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,
Aston Martin DB4,Motor 2.4 Turbo,92612.1,25757.0
Palio Weekend,Motor 1.8 16v,97497.73,10728.0
A5,Motor 4.0 Turbo,56445.2,
Série 3 Cabrio,Motor 1.0 8v,112310.44,77599.0
Dodge Jorney,Motor 3.0 32v,120716.27,99197.0
Carens,Motor 5.0 V8 Bi-Turbo,76566.49,37978.0


# 5.3 Queries com DataFrames

In [306]:
dataset.Motor.head(10)

Nome
Jetta Variant             Motor 4.0 Turbo
Passat                       Motor Diesel
Crossfox                  Motor Diesel V8
DS5                       Motor 2.4 Turbo
Aston Martin DB4          Motor 2.4 Turbo
Palio Weekend               Motor 1.8 16v
A5                        Motor 4.0 Turbo
Série 3 Cabrio               Motor 1.0 8v
Dodge Jorney                Motor 3.0 32v
Carens              Motor 5.0 V8 Bi-Turbo
Name: Motor, dtype: object

In [307]:
select = dataset.Motor == 'Motor Diesel'

In [308]:
type(select)

pandas.core.series.Series

In [309]:
# um dataframe que todo mundo tem motor a diesel
dataset[select].head(10)

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Controle de estabilidade', 'Painel digital',...",125684.65
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91
Fit,Motor Diesel,2013,44329.0,False,"['Freios ABS', 'Câmera de estacionamento', 'Câ...",77836.23
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Symbol,Motor Diesel,2016,117714.0,False,"['4 X 4', 'Piloto automático', 'Sensor crepusc...",133030.6
A4 Sedan,Motor Diesel,2002,30511.0,False,"['Câmera de estacionamento', '4 X 4', 'Travas ...",96369.04
A4 Avant,Motor Diesel,2014,17357.0,False,"['Teto panorâmico', '4 X 4', 'Bancos de couro'...",138946.88


In [310]:
# todos os carros que tem motor a diesel e zero km
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


### Utilizando o método query

In [311]:
dataset.query('Motor == "Motor Diesel" and Zero_km == True')

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


# 5.4 Iterando com DataFrames

In [312]:
for item in dataset:
  print(item)

Motor
Ano
Quilometragem
Zero_km
Acessórios
Valor


In [313]:
# ele cria um lista contendo tuplas
list(dataset.iterrows())

[('Jetta Variant',
  Motor                                              Motor 4.0 Turbo
  Ano                                                           2003
  Quilometragem                                              44410.0
  Zero_km                                                      False
  Acessórios       ['Rodas de liga', 'Travas elétricas', 'Piloto ...
  Valor                                                     88078.64
  Name: Jetta Variant, dtype: object),
 ('Passat', Motor                                                 Motor Diesel
  Ano                                                           1991
  Quilometragem                                               5712.0
  Zero_km                                                      False
  Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
  Valor                                                    106161.94
  Name: Passat, dtype: object),
 ('Crossfox',
  Motor                                              Motor

# 5.5 Tratamento de dados

In [314]:
dataset.head(5)

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [315]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Motor          258 non-null    object 
 1   Ano            258 non-null    int64  
 2   Quilometragem  197 non-null    float64
 3   Zero_km        258 non-null    bool   
 4   Acessórios     258 non-null    object 
 5   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(2)
memory usage: 20.4+ KB


In [316]:
# essa função retorna como True os valores nulos
dataset.Quilometragem.isna()

Nome
Jetta Variant                             False
Passat                                    False
Crossfox                                  False
DS5                                        True
Aston Martin DB4                          False
Palio Weekend                             False
A5                                         True
Série 3 Cabrio                            False
Dodge Jorney                              False
Carens                                    False
Ford Edge                                 False
Courier                                   False
S-18                                      False
J5                                         True
F-Type Coupé                              False
RAM                                       False
Série 1                                   False
A3                                         True
XC90                                      False
RS 3 Sportback                            False
Pajero Sport                       

In [317]:
# como a Quilometragem ta zerada e isso faz um valor null, alguns modelos de 
# regressão linear podem descartar esses registros, mas esses registros tem
# informações importantes fora a quilometragem, então vamos aprender a 
# tratar esse tipo de problema
dataset[dataset.Quilometragem.isna()].head(10)

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.4
Lamborghini Murciélago,Motor 5.0 V8 Bi-Turbo,2019,,True,"['Freios ABS', 'Câmbio automático', 'Ar condic...",121596.21
Up!,Motor Diesel V6,2019,,True,"['Sensor de estacionamento', 'Vidros elétricos...",71367.1
Sandero Stepway,Motor 3.0 32v,2019,,True,"['Freios ABS', 'Ar condicionado', 'Teto panorâ...",105432.84
Pajero TR4,Motor 2.4 Turbo,2019,,True,"['Controle de tração', 'Bancos de couro', 'Câm...",51606.59
Polo Sedan,Motor V6,2019,,True,"['Sensor de chuva', 'Sensor crepuscular', 'Ar ...",123281.87


In [318]:
# assim transformamos os valores null em 0
dataset.fillna(0, inplace = True)

In [319]:
dataset.query("Zero_km == True")

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
A5,Motor 4.0 Turbo,2019,0.0,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
Série 1 M,Motor V8,2019,0.0,True,"['Controle de estabilidade', 'Central multimíd...",94564.4
Lamborghini Murciélago,Motor 5.0 V8 Bi-Turbo,2019,0.0,True,"['Freios ABS', 'Câmbio automático', 'Ar condic...",121596.21
Up!,Motor Diesel V6,2019,0.0,True,"['Sensor de estacionamento', 'Vidros elétricos...",71367.1
Sandero Stepway,Motor 3.0 32v,2019,0.0,True,"['Freios ABS', 'Ar condicionado', 'Teto panorâ...",105432.84
Pajero TR4,Motor 2.4 Turbo,2019,0.0,True,"['Controle de tração', 'Bancos de couro', 'Câm...",51606.59
Polo Sedan,Motor V6,2019,0.0,True,"['Sensor de chuva', 'Sensor crepuscular', 'Ar ...",123281.87


In [321]:
dataset = pd.read_csv('db.csv', sep=';')

In [322]:
dataset.head(10)

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49


In [323]:
# excluindo os registros que tenha NA
dataset.dropna(subset = ['Quilometragem'], inplace = True)

In [325]:
dataset.head(10)

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44
8,Dodge Jorney,Motor 3.0 32v,2010,99197.0,False,"['Vidros elétricos', 'Piloto automático', 'Tet...",120716.27
9,Carens,Motor 5.0 V8 Bi-Turbo,2011,37978.0,False,"['Ar condicionado', 'Painel digital', 'Central...",76566.49
10,Ford Edge,Motor Diesel V6,2002,12859.0,False,"['Sensor crepuscular', 'Rodas de liga', 'Teto ...",71647.59
11,Courier,Motor Diesel V8,2007,8052.0,False,"['Central multimídia', '4 X 4', 'Piloto automá...",73919.53
