# <font color=green> PYTHON PARA DATA SCIENCE - PANDAS
---

# <font color=green> 1. INTRODUÇÃO AO PYTHON
---

# 1.1 Introdução

> Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto *open source* e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares. 
>
> Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado.

# 1.2 Instalação e ambiente de desenvolvimento

### Instalação Local

### https://www.python.org/downloads/
### ou
### https://www.anaconda.com/distribution/

### Google Colaboratory

### https://colab.research.google.com

### Verificando versão

In [589]:
!python -V

Python 3.7.14


# 1.3 Trabalhando com dados

In [590]:
#importa o pandas e limita o numero de linhas vistas para 10
import pandas as pd
pd.set_option('display.max_rows', 10)

In [591]:
#le o arquivo csv no meu github
dataset = pd.read_csv('https://raw.githubusercontent.com/xxGabrielNeryxx/ProjetosDataScience/main/Python_Pandas/Data/db.csv', sep=';')

In [592]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


In [593]:
#tipos de cada coluna do dataframe
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [594]:
#para selecionar mais de uma coluna: dataset[['coluna1','coluna2']]
#describe retorna estatisticas de das colunas
dataset[['Quilometragem','Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [595]:
#retorna informaçoes do dataset
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


# <font color=green> 2. TRABALHANDO COM TUPLAS
---

# 2.1 Criando tuplas

Tuplas são sequências imutáveis que são utilizadas para armazenar coleções de itens, geralmente heterogêneos. Podem ser construídas de várias formas:
```
- Utilizando um par de parênteses: ( )
- Utilizando uma vírgula à direita: x,
- Utilizando um par de parênteses com itens separados por vírgulas: ( x, y, z )
- Utilizando: tuple() ou tuple(iterador)
```

In [596]:
 ()

()

In [597]:
1,2,3

(1, 2, 3)

In [598]:
#tuplas e listas armazenam tipos variados 
nome = 'Passat'
valor = 153000
(nome, valor)

('Passat', 153000)

In [599]:
nome_carros = tuple(['Jetta Variant', 'Passat', 'Crossfox', 'DS5'])
nome_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [600]:
type(nome_carros)

tuple

# 2.2 Seleções em tuplas

In [601]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [602]:
nomes_carros[0]

'Jetta Variant'

In [603]:
nomes_carros[1]

'Passat'

In [604]:
nomes_carros[-1]

'DS5'

In [605]:
nomes_carros[1:3]

('Passat', 'Crossfox')

In [606]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5', ('Fusca', 'Gol', 'C4'))

In [607]:
nomes_carros[-1]

('Fusca', 'Gol', 'C4')

In [608]:
nomes_carros[-1][1]

'Gol'

# 2.3 Iterando em tuplas

In [609]:
nomes_carros = ('Jetta Variant', 'Passat', 'Crossfox', 'DS5')
nomes_carros

('Jetta Variant', 'Passat', 'Crossfox', 'DS5')

In [610]:
for item in nomes_carros:
  print(item)

Jetta Variant
Passat
Crossfox
DS5


### Desempacotamento de tuplas

In [611]:
#desempacotar uma tupla é atribuir cada valor a uma variavel especifica
#se eu nao atribuir todos os valores da tupla a uma variavel da erro
carro_1, carro_2, carro_3, carro_4 = nomes_carros

In [612]:
carro_1

'Jetta Variant'

In [613]:
carro_2

'Passat'

In [614]:
carro_3

'Crossfox'

In [615]:
carro_4

'DS5'

In [616]:
#usar underscore para ignorar valores
_,A,_,B = nomes_carros

In [617]:
A

'Passat'

In [618]:
B

'DS5'

In [619]:
#o *- ignora todos os elementos depois
_,C,*_ = nomes_carros

In [620]:
C

'Passat'

## *zip()*

https://docs.python.org/3.6/library/functions.html#zip

In [621]:
carros = ['Jetta Variant', 'Passat', 'Crossfox', 'DS5']
carros

['Jetta Variant', 'Passat', 'Crossfox', 'DS5']

In [622]:
valores = [88078.64, 106161.94, 72832.16, 124549.07]
valores

[88078.64, 106161.94, 72832.16, 124549.07]

In [623]:
#pega o i-ezimo elemento de cada iterador e coloca em uma tupla
zip(carros, valores)

<zip at 0x7f5f86c855a0>

In [624]:
list(zip(carros, valores))

[('Jetta Variant', 88078.64),
 ('Passat', 106161.94),
 ('Crossfox', 72832.16),
 ('DS5', 124549.07)]

In [625]:
#MUITO UTIL
for carro, valor in list(zip(carros, valores)):
    print(carro, valor)

Jetta Variant 88078.64
Passat 106161.94
Crossfox 72832.16
DS5 124549.07


In [626]:
for carro, valor in list(zip(carros, valores)):
    if valor > 100000:
      print(carro)

Passat
DS5


# <font color=green> 3. TRABALHANDO COM DICIONÁRIOS
---

# 3.1 Criando dicionários

Listas são coleções sequenciais, isto é, os itens destas sequências estão ordenados e utilizam índices (números inteiros) para acessar os valores.

Os dicionários são coleções um pouco diferentes. São estruturas de dados que representam um tipo de mapeamento. Mapeamentos são coleções de associações entre pares de valores onde o primeiro elemento do par é conhecido como chave (*key*) e o segundo como valor (*value*).

```
dicionario = {key_1: value_1, key_2: value_2, ..., key_n: value_n}
```

https://docs.python.org/3.6/library/stdtypes.html#typesmapping

In [627]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [628]:
valores = [88078.64, 106161.94, 72832.16]
valores

[88078.64, 106161.94, 72832.16]

In [629]:
#Posso pesquisar a posiçao de um elemento em uma lista com index
carros.index('Passat')

1

In [630]:
#jeito mais complexo que um dicionario
valores[carros.index('Passat')]

106161.94

In [631]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [632]:
type(dados)

dict

### Criando dicionários com *zip()*

In [633]:
#posso criar dicionarios a partir de listas com zip
print(zip(carros, valores))
print(list(zip(carros, valores)))

<zip object at 0x7f5f86c67a00>
[('Jetta Variant', 88078.64), ('Passat', 106161.94), ('Crossfox', 72832.16)]


In [634]:
dict(zip(carros, valores))

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

# 3.2 Operações com dicionários

## *dict[ key ]*

Retorna o valor correspondente à chave (*key*) no dicionário.

In [635]:
dados['Passat'] 

106161.94

## *key in dict*

Retorna **True** se a chave (*key*) for encontrada no dicionário.

In [636]:
'Passat' in dados

True

In [637]:
'Fusca' not in dados

True

In [638]:
'Fusca' in dados

False

## *len(dict)*

Retorna o número de itens do dicionário.

In [639]:
len(dados)

3

## *dict[ key ] = value*

Inclui um item ao dicionário.

In [640]:
#DS5 nao esta no dicionario, logo e incluido
dados['DS5'] =  12345.6

In [641]:
dados

{'Jetta Variant': 88078.64,
 'Passat': 106161.94,
 'Crossfox': 72832.16,
 'DS5': 12345.6}

## *del dict[ key ]*

Remove o item de chave (*key*) do dicionário.

In [642]:
del dados['Passat']


In [643]:
dados

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 12345.6}

# 3.3 Métodos de dicionários

## *dict.update()*

Atualiza o dicionário.

In [644]:
#adiciona um valor ao dicionario ou altera um valor
dados.update({'Passat':123456.1})
dados

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 12345.6,
 'Passat': 123456.1}

In [645]:
dados.update({'Passat':123456.1, 'Fusca':10})
dados

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 12345.6,
 'Passat': 123456.1,
 'Fusca': 10}

## *dict.copy()*

Cria uma cópia do dicionário.

In [646]:
#Se eu mudadr dadosCopy tambem mudo dados pois ambos apontam para o mesmo espaço
#na memoria
dadosCopy = dados.copy()

In [647]:
dadosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 12345.6,
 'Passat': 123456.1,
 'Fusca': 10}

In [648]:
del dadosCopy['Fusca']
dadosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 12345.6,
 'Passat': 123456.1}

In [649]:
dados

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 12345.6,
 'Passat': 123456.1,
 'Fusca': 10}

## *dict.pop(key[, default ])*

Se a chave for encontrada no dicionário, o item é removido e seu valor é retornado. Caso contrário, o valor especificado como *default* é retornado. Se o valor *default* não for fornecido e a chave não for encontrada no dicionário um erro será gerado.

In [650]:
dadosCopy

{'Jetta Variant': 88078.64,
 'Crossfox': 72832.16,
 'DS5': 12345.6,
 'Passat': 123456.1}

In [651]:
dadosCopy.pop('Passat')

123456.1

In [652]:
dadosCopy

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16, 'DS5': 12345.6}

In [653]:
#Caso nao encontre a chave a ser removida posso tratar o erro
#dadosCopy.pop('Passat') gera erro pois Passat foi removida

In [654]:
dadosCopy.pop('Passat', 'Chave nao encontrada')

'Chave nao encontrada'

In [655]:
dadosCopy.pop('DS5', 'Chave nao encontrada')

12345.6

In [656]:
dadosCopy

{'Jetta Variant': 88078.64, 'Crossfox': 72832.16}

In [657]:
dadosCopy.pop('DS5', 'Chave nao encontrada')

'Chave nao encontrada'

## *dict.clear()*

Remove todos os itens do dicionário.

In [658]:
dadosCopy.clear()

In [659]:
dadosCopy

{}

# 3.4 Iterando em dicionários

## *dict.keys()*

Retorna uma lista contendo as chaves (*keys*) do dicionário.

In [660]:
dados.keys()

dict_keys(['Jetta Variant', 'Crossfox', 'DS5', 'Passat', 'Fusca'])

In [661]:
for key in dados.keys():
  print(dados[key])

88078.64
72832.16
12345.6
123456.1
10


## *dict.values()*

Retorna uma lista com todos os valores (*values*) do dicionário.

In [662]:
dados.values()

dict_values([88078.64, 72832.16, 12345.6, 123456.1, 10])

## *dict.items()*

Retorna uma lista contendo uma tupla para cada par chave-valor (*key-value*) do dicionário.

In [663]:
dados.items()

dict_items([('Jetta Variant', 88078.64), ('Crossfox', 72832.16), ('DS5', 12345.6), ('Passat', 123456.1), ('Fusca', 10)])

In [664]:
for item in dados.items():
  print(item)

('Jetta Variant', 88078.64)
('Crossfox', 72832.16)
('DS5', 12345.6)
('Passat', 123456.1)
('Fusca', 10)


In [665]:
for key,item in dados.items():
  print(key, item)

Jetta Variant 88078.64
Crossfox 72832.16
DS5 12345.6
Passat 123456.1
Fusca 10


In [666]:
for key,item in dados.items():
  if item >100000:
    print(key)

Passat


# <font color=green> 4. FUNÇÕES E PACOTES
---
    
Funções são unidades de código reutilizáveis que realizam uma tarefa específica, podem receber alguma entrada e também podem retornar alguma resultado.

# 4.1 Built-in function

A linguagem Python possui várias funções integradas que estão sempre acessíveis. Algumas já utilizamos em nosso treinamento: type(), print(), zip(), len(), set() etc.

https://docs.python.org/3.6/library/functions.html

In [667]:
dados = {'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}
dados

{'Jetta Variant': 88078.64, 'Passat': 106161.94, 'Crossfox': 72832.16}

In [668]:
valores = []
for valor in dados.values():
  valores.append(valor)
valores

[88078.64, 106161.94, 72832.16]

In [669]:
soma = 0
for valor in dados.values():
  soma+=valor
soma 

267072.74

In [670]:
list(dados.values())

[88078.64, 106161.94, 72832.16]

In [671]:
sum(list(dados.values()),1000000)

1267072.7399999998

In [672]:
help(sum)

Help on built-in function sum in module builtins:

sum(iterable, start=0, /)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



# 4.2 Definindo funções sem e com parâmetros

### Funções sem parâmetros

#### Formato padrão

```
def <nome>():
    <instruções>
```

In [673]:
def media():
  valor = (1+2+3)/3
  print(valor)

In [674]:
media()

2.0


### Funções com parâmetros

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
```

In [675]:
def media(n1, n2, n3):
  valor = (n1+n2+n3)/3
  print(valor)

In [676]:
media(1,2,3)

2.0


In [677]:
media(12,23,35)

23.333333333333332


In [678]:
def media(lista):
  valor = sum(lista)/len(lista)
  print(valor)

In [679]:
resultado = media([2,3,4,5,6,7,8,9])

5.5


In [680]:
resultado

In [681]:
type(resultado)

NoneType

# 4.3 Definindo funções que retornam valores

### Funções que retornam um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return <resultado>
```

In [682]:
def media(lista):
  valor = sum(lista)/len(lista)
  return valor

In [683]:
resultado = media([4,5,6,7,8])

In [684]:
resultado

6.0

### Funções que retornam mais de um valor

#### Formato padrão

```
def <nome>(<param_1>, <param_2>, ..., <param_n>):
    <instruções>
    return (<resultado_1>, <resultado_2>, ..., <resultado_n>)
```

In [685]:
def media(lista):
  valor = sum(lista)/len(lista)
  return (valor, len(lista))

In [686]:
resultado, n = media([3,6,54,12,8])

In [687]:
resultado

16.6

In [688]:
n

5

# <font color=green> 5. PANDAS BÁSICO
---

**versão: 0.25.2**
  
Pandas é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado por cientistas de dados.


## Estruturas de Dados

### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de **index**. A forma básica de criação de uma Series é a seguinte:


```
    s = pd.Series(dados, index = index)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.


```
    df = pd.DataFrame(dados, index = index, columns = columns)
```

O argumento *dados* pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

**Documentação:** https://pandas.pydata.org/pandas-docs/version/0.25/

# 5.1 Estruturas de dados

In [689]:
import pandas as pd

### Criando uma Series a partir de uma lista

In [690]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [691]:
#o pandas assume que estring sao do tipo object 
pd.Series(carros)

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Criando um DataFrame a partir de uma lista de dicionários

In [692]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [693]:
dataset = pd.DataFrame(dados)

In [694]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


In [695]:
dataset[['Ano','Valor']]

Unnamed: 0,Ano,Valor
0,2003,88078.64
1,1991,106161.94
2,1990,72832.16


### Criando um DataFrame a partir de um dicionário

In [696]:
#cada key representa uma coluna SEMPRE
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [697]:
dataset = pd.DataFrame(dados)


In [698]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de uma arquivo externo

In [699]:
#O parametro index col seleciona o indice padrao do meu dataframe
dataset = pd.read_csv('https://raw.githubusercontent.com/xxGabrielNeryxx/ProjetosDataScience/main/Python_Pandas/Data/db.csv', sep=';', index_col=0)

In [700]:
dataset

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


# 5.2 Seleções com DataFrames

### Selecionando colunas

In [701]:
dataset['Valor']

Nome
Jetta Variant             88078.64
Passat                   106161.94
Crossfox                  72832.16
DS5                      124549.07
Aston Martin DB4          92612.10
                           ...    
Phantom 2013              51759.58
Cadillac Ciel concept     51667.06
Classe GLK                68934.03
Aston Martin DB5         122110.90
Macan                     90381.47
Name: Valor, Length: 258, dtype: float64

In [702]:
type(dataset['Valor'])

pandas.core.series.Series

In [703]:
#como transformar uma Series e mum DF? usar 2 colchetes
#Como se eu tivesse selecionando mais de uma coluna
dataset[['Valor']]

Unnamed: 0_level_0,Valor
Nome,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.10
...,...
Phantom 2013,51759.58
Cadillac Ciel concept,51667.06
Classe GLK,68934.03
Aston Martin DB5,122110.90


In [704]:
type(dataset[['Valor']])

pandas.core.frame.DataFrame

### Selecionando linhas - [ i : j ] 

<font color=red>**Observação:**</font> A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [705]:
dataset[0:4] #seleciono da linha 0 a linha 3 

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


### Utilizando .loc para seleções

<font color=red>**Observação:**</font> Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

In [706]:
#retorna uma series com o valor da linha especificado por mim
dataset.loc['Passat'] #seleciona as linhas com o rotulo(index) escolhido

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                               5712.0
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                    106161.94
Name: Passat, dtype: object

In [707]:
#retorna um DF das linhas cujo valor de 'Nome' é 'Passat' e 'DS5'
dataset.loc[['Passat', 'DS5']]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [708]:
#Assim como no numpy: array[a,b], a = informaçoes da linha e b = informaçoes da coluna
dataset.loc[['Passat', 'DS5'] , ['Motor','Valor']] #antes da virgula estao infos da linha e depois da virgula infos da coluna

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [709]:
#o codigo acima tambem pode ser feito dessa forma
(dataset.loc[['Passat', 'DS5']])[['Motor','Valor']]

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [710]:
#seleciona todas as linha e as colunas Motor e Valor
dataset.loc[: ,['Motor', 'Valor']]

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.10
...,...,...
Phantom 2013,Motor V8,51759.58
Cadillac Ciel concept,Motor V8,51667.06
Classe GLK,Motor 5.0 V8 Bi-Turbo,68934.03
Aston Martin DB5,Motor Diesel,122110.90


### Utilizando .iloc para seleções

<font color=red>**Observação:**</font> Seleciona com base nos índices numericos, ou seja, se baseia na posição das informações.

In [711]:
dataset.head(5)

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [712]:
#retorna uma series da informaçoes da 1a linha
dataset.iloc[1]

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                               5712.0
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                    106161.94
Name: Passat, dtype: object

In [713]:
#retorna um dataFrame da informaçoes da 1a linha
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94


In [714]:
#pega da linha 1 a linha 3
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [715]:
#antes da virgula ha a posiçao das linhas que quero selecionar
#depois da virgula ha a posição das colunas que quero selecionar
dataset.iloc[1:4, [0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


In [716]:
dataset.iloc[[1,42,22], [0,5,2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Optima,Motor 1.8 16v,86641.34,
Lamborghini Obvious,Motor Diesel V6,133529.84,98079.0


# 5.3 Queries com DataFrames

In [717]:
#tra uma series com o indice do DF e com os valores da coluna selecionada
dataset.Motor

Nome
Jetta Variant                  Motor 4.0 Turbo
Passat                            Motor Diesel
Crossfox                       Motor Diesel V8
DS5                            Motor 2.4 Turbo
Aston Martin DB4               Motor 2.4 Turbo
                                 ...          
Phantom 2013                          Motor V8
Cadillac Ciel concept                 Motor V8
Classe GLK               Motor 5.0 V8 Bi-Turbo
Aston Martin DB5                  Motor Diesel
Macan                          Motor Diesel V6
Name: Motor, Length: 258, dtype: object

In [718]:
#Retorna uma seies booleana com True para 'Motor Diesel'
select =  dataset.Motor == 'Motor Diesel'

In [719]:
#retorna um DF somente com carros de motor a diesel
dataset[select].head(5)

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Controle de estabilidade', 'Painel digital',...",125684.65
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91


In [720]:
#Series booleana com True no Nome para Motor = 'Motor Diesel' e Zero_km = True
(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)

Nome
Jetta Variant            False
Passat                   False
Crossfox                 False
DS5                      False
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5         False
Macan                    False
Length: 258, dtype: bool

In [721]:
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


### Utilizando o método query

In [722]:
#Cuidado: usar aspas duplas com o metodo query pois a string dentro dele deve ter aspas simples
#Cuidado: usar and e or no metodo query 
dataset.query("Motor == 'Motor Diesel' and Zero_km == True")

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


# 5.4 Iterando com DataFrames

In [723]:
#item assume os rotulos das colunas
for item in dataset:
  print(item)

Motor
Ano
Quilometragem
Zero_km
Acessórios
Valor


In [724]:
dataset.iterrows()[0]

<generator object DataFrame.iterrows at 0x7f5f86bdf9d0>

In [725]:
#retorna uma lista de tuplas, na qual cada tupla contem o indice da linha e uma series com infos dessa linha
#('Jeta Variant', series_com_infos_de_Jeta_Variant)
#consigo fazer for e iterar facilmente

list(dataset.iterrows())

[('Jetta Variant',
  Motor                                              Motor 4.0 Turbo
  Ano                                                           2003
  Quilometragem                                              44410.0
  Zero_km                                                      False
  Acessórios       ['Rodas de liga', 'Travas elétricas', 'Piloto ...
  Valor                                                     88078.64
  Name: Jetta Variant, dtype: object),
 ('Passat', Motor                                                 Motor Diesel
  Ano                                                           1991
  Quilometragem                                               5712.0
  Zero_km                                                      False
  Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
  Valor                                                    106161.94
  Name: Passat, dtype: object),
 ('Crossfox',
  Motor                                              Motor

In [726]:
for index, row in dataset.iterrows():
  if 2019 - row['Ano'] != 0: #tratamento de erros para divisão por 0
    dataset.loc[index , 'Km_media'] = row['Quilometragem']/ (2019 - row['Ano']) #crio a coluna Km_media com loc 
  else:
    dataset.loc[index, 'Km_media'] = 0


In [727]:
#Data set com as kilometagens medias
dataset

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625000
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.000000
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.000000
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10,1981.307692
...,...,...,...,...,...,...,...
Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58,5501.000000
Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06,1070.750000
Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03,3096.294118
Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90,334.130435


#iteritems() e iterrows()

In [728]:
#iteritems() itera pelas colunas, gerando uma lista de tuplas, nas quais o primeiro elemento é o nome da coluna e o segundo elemento é uma series com o conteudo
#da coluna
print(dataset.iteritems())
print('\n')
list(dataset.iteritems())

<generator object DataFrame.iteritems at 0x7f5f86baec50>




[('Motor', Nome
  Jetta Variant                  Motor 4.0 Turbo
  Passat                            Motor Diesel
  Crossfox                       Motor Diesel V8
  DS5                            Motor 2.4 Turbo
  Aston Martin DB4               Motor 2.4 Turbo
                                   ...          
  Phantom 2013                          Motor V8
  Cadillac Ciel concept                 Motor V8
  Classe GLK               Motor 5.0 V8 Bi-Turbo
  Aston Martin DB5                  Motor Diesel
  Macan                          Motor Diesel V6
  Name: Motor, Length: 258, dtype: object), ('Ano', Nome
  Jetta Variant            2003
  Passat                   1991
  Crossfox                 1990
  DS5                      2019
  Aston Martin DB4         2006
                           ... 
  Phantom 2013             2014
  Cadillac Ciel concept    1991
  Classe GLK               2002
  Aston Martin DB5         1996
  Macan                    1992
  Name: Ano, Length: 258, dtype: int

In [729]:
#itertuples() retorna tuplas com todas as informaçoes de uma linha
print(dataset.itertuples())
print('\n')
list(dataset.itertuples())[0]

<map object at 0x7f5f86ba67d0>




Pandas(Index='Jetta Variant', Motor='Motor 4.0 Turbo', Ano=2003, Quilometragem=44410.0, Zero_km=False, Acessórios="['Rodas de liga', 'Travas elétricas', 'Piloto automático', 'Bancos de couro', 'Ar condicionado', 'Sensor de estacionamento', 'Sensor crepuscular', 'Sensor de chuva']", Valor=88078.64, Km_media=2775.625)

# 5.5 Tratamento de dados

In [730]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692


In [731]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Motor          258 non-null    object 
 1   Ano            258 non-null    int64  
 2   Quilometragem  197 non-null    float64
 3   Zero_km        258 non-null    bool   
 4   Acessórios     258 non-null    object 
 5   Valor          258 non-null    float64
 6   Km_media       258 non-null    float64
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 22.5+ KB


In [732]:
#isna() retorna uma series boolena com True para as linhas com
#'Quilometragem' nula
dataset.Quilometragem.isna()

Nome
Jetta Variant            False
Passat                   False
Crossfox                 False
DS5                       True
Aston Martin DB4         False
                         ...  
Phantom 2013             False
Cadillac Ciel concept    False
Classe GLK               False
Aston Martin DB5         False
Macan                    False
Name: Quilometragem, Length: 258, dtype: bool

In [733]:
#dataset com todos os valores de quilometragem nula
dataset[dataset.Quilometragem.isna()]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,Km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.20,0.0
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,0.0
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.40,0.0
...,...,...,...,...,...,...,...
Lamborghini Reventón,Motor 4.0 Turbo,2019,,True,"['Controle de tração', 'Ar condicionado', 'Cen...",67664.86,0.0
Benni Mini,Motor V8,2019,,True,"['Sensor crepuscular', 'Câmbio automático', 'C...",126247.84,0.0
Uno,Motor Diesel V6,2019,,True,"['Central multimídia', 'Sensor crepuscular', '...",128852.21,0.0
Santa Fe,Motor 3.0 32v,2019,,True,"['Travas elétricas', 'Ar condicionado', '4 X 4...",129415.33,0.0


In [734]:
#como substituir todos os valores NaN por algo ? usando o metodo 
#fillna(valor_quero_substituir, inplace= True)
dataset.fillna(0, inplace=True)

In [735]:
#Não ha mais elementos NaN no dataSet
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Motor          258 non-null    object 
 1   Ano            258 non-null    int64  
 2   Quilometragem  258 non-null    float64
 3   Zero_km        258 non-null    bool   
 4   Acessórios     258 non-null    object 
 5   Valor          258 non-null    float64
 6   Km_media       258 non-null    float64
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 22.5+ KB


In [736]:
dataset = pd.read_csv('https://raw.githubusercontent.com/xxGabrielNeryxx/ProjetosDataScience/main/Python_Pandas/Data/db.csv', sep=';')
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [737]:
#Posso eliminar/ Deletar as linhas com Nan com dropna()
dataset.dropna(subset=['Quilometragem'], inplace=True)

In [738]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 197 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           197 non-null    object 
 1   Motor          197 non-null    object 
 2   Ano            197 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        197 non-null    bool   
 5   Acessórios     197 non-null    object 
 6   Valor          197 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 11.0+ KB


In [739]:
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
