# Introdução ao Python - Capítulo 7 - Pandas
<br>

[**Pandas**](https://pandas.pydata.org/) é uma ferramenta de manipulação de dados de alto nível, construída com base no pacote **NumPy**. O pacote Pandas possui estruturas de dados bastante interessantes (_Seires_ e *DataFrames*) para manipulação de dados e por isso é muito utilizado por cientistas de dados.

---
<br>

### Índice<a id='indice'></a>
1 - [Estruturas de dados](#1)<br>
2 - [Seleções com DataFrames](#2)<br>
3 - [Queries com DataFrames](#3)<br>
4 - [Iterando com DataFrames](#4)<br>
5 - [Tratamento de dados](#5)<br>
<br>

In [1]:
!python --version

Python 3.7.3


## 1. Estruturas de dados<a id='1'></a>
### 1.1. Series
Series são _arrays_ unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de _**index**_. A forma básica de criação de uma Series é a seguinte:
```
s = pd.Series(dados, index = index)
```
O argumento _dados_ pode ser um dicionário, uma lista, um _array_ NumPy ou uma constante.

#### 1.1.1. Criando uma Series a partir de uma lista

In [2]:
import pandas as pd

In [3]:
carros = ['Gol 1.0', 'Palio 1.4', 'Fiesta 1.6']
print(type(carros), carros)

<class 'list'> ['Gol 1.0', 'Palio 1.4', 'Fiesta 1.6']


In [4]:
s = pd.Series(carros)
print('{}\n{}'.format(type(s), s))

<class 'pandas.core.series.Series'>
0       Gol 1.0
1     Palio 1.4
2    Fiesta 1.6
dtype: object


### 1.2. DataFrames
DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linhas e colunas. Como Series, os DataFrames são capzes de armazenar qualquer tipo de dados.
```
df = pd.DataFrame(dados, index = index, columns = columns)
```
O argumento _dados_ pode ser um dicionário, uma lista, um _array_ NumPy, uma Series ou outro DataFrame.

#### 1.2.1. Criando um DataFrame a partir de uma lista de dicionários

In [5]:
dados = [
    {'Nome': 'Gol', 'Motor': '1.0 Turbo', 'Ano': 1993, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Palio', 'Motor': 'Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Fiesta', 'Motor': 'Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]
print('{}\n{}'.format(type(dados), dados))

<class 'list'>
[{'Nome': 'Gol', 'Motor': '1.0 Turbo', 'Ano': 1993, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64}, {'Nome': 'Palio', 'Motor': 'Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94}, {'Nome': 'Fiesta', 'Motor': 'Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}]


In [6]:
df = pd.DataFrame(dados)
print('{}\n{}'.format(type(df), df))

<class 'pandas.core.frame.DataFrame'>
    Ano      Motor    Nome  Quilometragem      Valor  Zero_km
0  1993  1.0 Turbo     Gol        44410.0   88078.64    False
1  1991     Diesel   Palio         5712.0  106161.94    False
2  1990  Diesel V8  Fiesta        37123.0   72832.16    False


In [7]:
# é possível alterar a ordem em que as colunas são apresentadas
df[['Ano', 'Nome', 'Motor', 'Zero_km', 'Quilometragem', 'Valor']]

Unnamed: 0,Ano,Nome,Motor,Zero_km,Quilometragem,Valor
0,1993,Gol,1.0 Turbo,False,44410.0,88078.64
1,1991,Palio,Diesel,False,5712.0,106161.94
2,1990,Fiesta,Diesel V8,False,37123.0,72832.16


#### 1.2.2. Criando um DataFrame a partir de um dicionário

In [8]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}
print('{}\n{}'.format(type(dados), dados))

<class 'dict'>
{'Nome': ['Jetta Variant', 'Passat', 'Crossfox'], 'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'], 'Ano': [2003, 1991, 1990], 'Quilometragem': [44410.0, 5712.0, 37123.0], 'Zero_km': [False, False, False], 'Valor': [88078.64, 106161.94, 72832.16]}


In [9]:
df = pd.DataFrame(dados)
print('{}\n{}'.format(type(df), df))

<class 'pandas.core.frame.DataFrame'>
            Nome            Motor   Ano  Quilometragem  Zero_km      Valor
0  Jetta Variant  Motor 4.0 Turbo  2003        44410.0    False   88078.64
1         Passat     Motor Diesel  1991         5712.0    False  106161.94
2       Crossfox  Motor Diesel V8  1990        37123.0    False   72832.16


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

#### 1.2.3. Criando um DataFrame a partir de um arquivo externo

In [10]:
dataset = pd.read_csv('data/db.csv', sep=';')

In [11]:
dataset.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [12]:
dataset.dtypes

Nome              object
Motor             object
Ano                int64
Quilometragem    float64
Zero_km             bool
Acessórios        object
Valor            float64
dtype: object

In [13]:
dataset[['Quilometragem', 'Valor']].describe()

Unnamed: 0,Quilometragem,Valor
count,197.0,258.0
mean,58278.42132,98960.513101
std,35836.733259,29811.932305
min,107.0,50742.1
25%,27505.0,70743.5125
50%,55083.0,97724.38
75%,90495.0,124633.3025
max,119945.0,149489.92


In [14]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
Nome             258 non-null object
Motor            258 non-null object
Ano              258 non-null int64
Quilometragem    197 non-null float64
Zero_km          258 non-null bool
Acessórios       258 non-null object
Valor            258 non-null float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.4+ KB


##### 1.2.3.1. Definindo umas das colunas como índice do DataFrame
Passando o índice de uma coluna no parâmetro `index_col`, podemos alterar o índice do DataFrame:

In [15]:
dataset = pd.read_csv('data/db.csv', sep=';', index_col = 0)

In [16]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

## 2. Seleções com DataFrames<a id='2'></a>
### 2.1. Selecioando colunas
Para selecionar uma coluna podemos usar o seguinte comando:
```
df['column']
```
que irá retornar uma Series, mostrando que um DataFrame nada mais é que um conjunto de Series.

In [17]:
type(dataset['Valor'])

pandas.core.series.Series

In [18]:
dataset['Valor'].head()

Nome
Jetta Variant        88078.64
Passat              106161.94
Crossfox             72832.16
DS5                 124549.07
Aston Martin DB4     92612.10
Name: Valor, dtype: float64

Se quisermos obter um DataFrame como retorno devemos usar um par de "colchetes" a mais, como abaixo:
```
df[['column']]
```

In [19]:
type(dataset[['Valor']])

pandas.core.frame.DataFrame

In [20]:
dataset[['Valor']].head()

Unnamed: 0_level_0,Valor
Nome,Unnamed: 1_level_1
Jetta Variant,88078.64
Passat,106161.94
Crossfox,72832.16
DS5,124549.07
Aston Martin DB4,92612.1


In [21]:
# para selecionar mais de uma coluna, basta separá-las por vírgula
dataset[['Valor', 'Ano']].head()

Unnamed: 0_level_0,Valor,Ano
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,88078.64,2003
Passat,106161.94,1991
Crossfox,72832.16,1990
DS5,124549.07,2019
Aston Martin DB4,92612.1,2006


### 2.2.  Selecionando linhas
A seleção de linhas é similar a de colunas, com a diferença que ao invés de passarmos o nome da coluna agora passamos os índices final e inicial do recorte que queremos fazer, da mesma forma que com outros contentores (listas por exemplo):
```
df[i:j]
```
Lembrando que:
- a indexação tem início no zero, o índice $i$ é **inclusivo** e o índice $j$ **é exclusivo**, ou seja, o recorte vai da linha de indíce $i$ até a linha de indíce $j$-1;
- se quisermos iniciar o recorte no indíce $0$ podemos omiti-lo.

In [22]:
dataset[:3]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16


### 2.3.  Utilizando `.loc[]` para seleções

Este método seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.
```
df.loc[[linhas], [colunas]]
```

Se queremos selecionar uma linha, basta passar o rótulo (índice não numérico) dentro dos colchetes:

In [23]:
# selecionado a coluna 'Passat'
dataset.loc['Passat']

Motor                                                 Motor Diesel
Ano                                                           1991
Quilometragem                                                 5712
Zero_km                                                      False
Acessórios       ['Central multimídia', 'Teto panorâmico', 'Fre...
Valor                                                       106162
Name: Passat, dtype: object

In [24]:
# selecionado as colunas 'Passat' e 'DS5'
dataset.loc[['Passat', 'DS5']]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [25]:
# selecionado as colunas 'Passat' e 'DS5', e as colunas 'Motor' e 'Valor'
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]
# dataset.loc[['Passat', 'DS5']]['Motor']

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Passat,Motor Diesel,106161.94
DS5,Motor 2.4 Turbo,124549.07


In [26]:
#selecionando todas as linhas
dataset.loc[:, ['Motor', 'Valor']].head()

Unnamed: 0_level_0,Motor,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64
Passat,Motor Diesel,106161.94
Crossfox,Motor Diesel V8,72832.16
DS5,Motor 2.4 Turbo,124549.07
Aston Martin DB4,Motor 2.4 Turbo,92612.1


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

### 2.4.  Utilizando `.iloc[]` para seleções
Funciona de forma muito similar ao `.loc[]`, selecionando com base nos índices. Ou seja, se baseia na posição das informações. E a lógica de seleção dos indíces inicial e final é a mesma.

In [27]:
# seleciona apenas a linha de indice '1'
dataset.iloc[[1]]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94


In [28]:
# seleciona as linhas do indíce '1' ao '3'
dataset.iloc[1:4]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07


In [29]:
# seleciona as linhas do indíce '1' ao '3', e apresenta apenas as colunas de indíce '0', '5' e '2', nesta ordem
dataset.iloc[1:4, [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,


In [30]:
# seleciona as linhas de indíce '1', '42' e '25', as colunas de indíce '0', '5' e '2', e apresenta os dados na ordem passada
dataset.iloc[[1, 42, 25], [0, 5, 2]]

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Passat,Motor Diesel,106161.94,5712.0
Optima,Motor 1.8 16v,86641.34,
Up!,Motor Diesel V6,71367.1,


In [31]:
# seleciona todas as linhas e algumas colunas
dataset.iloc[:, [0, 5, 2]].head()

Unnamed: 0_level_0,Motor,Valor,Quilometragem
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jetta Variant,Motor 4.0 Turbo,88078.64,44410.0
Passat,Motor Diesel,106161.94,5712.0
Crossfox,Motor Diesel V8,72832.16,37123.0
DS5,Motor 2.4 Turbo,124549.07,
Aston Martin DB4,Motor 2.4 Turbo,92612.1,25757.0


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

## 3. Queries com DataFrames<a id='3'></a>
Vamos considerar que queremos obter todos os carros com uma certa motorização.

Antes disso vamos ver outra forma de selecionar apenas um coluna. Além do comando visto acima, usando colchetes, podemos selecionar a coluna como um "atributo" do DataFrame desde que seu rótulo não possua espaços (" ").
```
df.column
```

In [32]:
dataset.Motor.head()

Nome
Jetta Variant       Motor 4.0 Turbo
Passat                 Motor Diesel
Crossfox            Motor Diesel V8
DS5                 Motor 2.4 Turbo
Aston Martin DB4    Motor 2.4 Turbo
Name: Motor, dtype: object

Vamos supor que o motor de interesse é o "Motor Diesel". Podemor tentar comparar a Series do bloco acima com esse motor e ver o resultado:

In [33]:
(dataset.Motor == 'Motor Diesel').head()

Nome
Jetta Variant       False
Passat               True
Crossfox            False
DS5                 False
Aston Martin DB4    False
Name: Motor, dtype: bool

In [34]:
(dataset.Motor == 'Motor Diesel').shape

(258,)

Vemos pelos blocos acima que o retorno dessa comparação é uma Series booleana com a mesma quantidade de linhas que o dataset, ou seja, o índice das linhas que possuem o motor usado na comparação recebem `True`. Então para selecionar apenas os carros com 'Motor Diesel', basta passar essa comparação como parâmetro da seleção de um DataFrame. Dessa forma, apenas os registros `True` serão retornados, ou seja, aqueles com 'Motor Diesel'.

Para isso, vamos atribuir essa comparação a uma variável e passá-la como parâmetro para a seleção:

In [35]:
select = dataset.Motor == 'Motor Diesel'
type(select)

pandas.core.series.Series

In [36]:
# podemos descobrir quantos registros (carros) possuem este tipo de motor
motor_diesel = dataset[select]
motor_diesel.shape

(26, 6)

In [37]:
motor_diesel.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
Effa Hafei Picape Baú,Motor Diesel,1991,102959.0,False,"['Controle de estabilidade', 'Painel digital',...",125684.65
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
New Fiesta Hatch,Motor Diesel,2017,118895.0,False,"['Sensor de estacionamento', 'Travas elétricas...",66007.16
Kangoo Express,Motor Diesel,2007,29132.0,False,"['Bancos de couro', 'Câmbio automático', 'Pilo...",146716.91


Se quisermos fazer uma consulta combinada, basta colocar cada condição dentro de parênteses `( )` e separá-las pelos operadores lógicos `&` e `|`:
```
df[(condição1) & (condição2) & (condição3) ...]
```

In [38]:
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Zero_km == True)]

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


### 3.1. Utilizando o método `query()`
Esta é uma forma mais "elegante" de realizar seleções, aqui todas as comparações ficam dentro de aspas simples (`'`) e são separadas pelos operadores lógicos `and` e `or`.

In [39]:
dataset.query('Motor == "Motor Diesel" and Zero_km == True')

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sorento,Motor Diesel,2019,,True,"['Sensor de chuva', 'Câmera de estacionamento'...",81399.35
Cielo Hatch,Motor Diesel,2019,,True,"['Painel digital', 'Central multimídia', 'Câme...",145197.7
Camry,Motor Diesel,2019,,True,"['Travas elétricas', 'Rodas de liga', 'Sensor ...",138597.27
Aston Martin Virage,Motor Diesel,2019,,True,"['Travas elétricas', 'Controle de tração', 'Câ...",97290.18
Série 7 Sedã,Motor Diesel,2019,,True,"['Vidros elétricos', 'Travas elétricas', 'Roda...",67539.79


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

## 4. Iterando com DataFrames<a id='4'></a>

Neste primeiro momento, vamos conhecer algumas maneiras mais rudimentares e não tão eficientes para iterar sobre datasets.

Primeiro vamos ver o que acontece quando simplesmente tentamos iterar os itens de um DataFrame através do `for`:

In [40]:
for item in dataset:
    print(item)

Motor
Ano
Quilometragem
Zero_km
Acessórios
Valor


Ele apenas percore os rótulos das colunas.

### 4.1. método `iterrows()`
Este método retorna um iterador. Vamos converter este iterador para uma lista e investigá-lo:

In [41]:
type(dataset.iterrows())

generator

In [42]:
lista = list(dataset.iterrows())
print('{}\n\nTamanho da lista: {}'.format(type(lista), len(lista)))

<class 'list'>

Tamanho da lista: 258


In [43]:
lista[0]

('Jetta Variant',
 Motor                                              Motor 4.0 Turbo
 Ano                                                           2003
 Quilometragem                                                44410
 Zero_km                                                      False
 Acessórios       ['Rodas de liga', 'Travas elétricas', 'Piloto ...
 Valor                                                      88078.6
 Name: Jetta Variant, dtype: object)

In [44]:
type(lista[0])

tuple

In [45]:
lista[0][0]

'Jetta Variant'

In [46]:
lista[0][1]

Motor                                              Motor 4.0 Turbo
Ano                                                           2003
Quilometragem                                                44410
Zero_km                                                      False
Acessórios       ['Rodas de liga', 'Travas elétricas', 'Piloto ...
Valor                                                      88078.6
Name: Jetta Variant, dtype: object

Até aqui pudemos ver que o iterador resultante é um conjunto de tuplas, no caso como convertemos para uma lista, agora temos uma lista de tuplas.

Essas tuplas são compostas por dois elementos, o índice (nome do carro) e toda a informação do carro. Assim então, podemos usar um `for` para desempacotar estas tuplas.

Vamos calcular a quilometragem média (até o ano de 2019) e colocar essa informação em uma nova coluna:

In [47]:
for index, row in dataset.iterrows():
    if ( 2019 - row['Ano'] != 0 ):
        dataset.loc[index, 'km_media'] = row['Quilometragem'] / ( 2019 - row['Ano'] )
    else:
        dataset.loc[index, 'km_media'] = 0

In [48]:
dataset.head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,2775.625
Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,204.0
Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,1280.103448
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,1981.307692


### 4.2. outros métodos: `items()` e `itertuples()`
Também existem outras formas de se iterar sobre um DataFrame que valem ser citadas, como:
- `items()`: Itera pelas colunas do DataFrame, utilizando uma tupla, onde o primeiro item é o nome da coluna e o segundo é uma Series com todo o conteúdo da coluna. Mais informações [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.items.html);
- `itertuples()`: Este método itera pelas linhas do DataFrame, utilizando um tipo de tupla nomeada com o conteúdo de cada linha do DataFrame. Mais informações [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.itertuples.html).

<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

## 5. Tratamento de dados<a id='5'></a>
### 5.1. Investigando o _dataset_ com `info()`
Vamos passar agora pelo que é, em geral, a primeira etapa de qualquer processo de análise de dados, a limpeza e o tratamento dos dados. Para iniciar esta estapa devemos verificar "como está" o nosso dataset, e, uma forma simples e rápida de fazer é através do método `info()`. Com isso podemos descobrir os tipos de dados em cada coluna e se existem linhas sem valores.

In [49]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 258 entries, Jetta Variant to Macan
Data columns (total 7 columns):
Motor            258 non-null object
Ano              258 non-null int64
Quilometragem    197 non-null float64
Zero_km          258 non-null bool
Acessórios       258 non-null object
Valor            258 non-null float64
km_media         258 non-null float64
dtypes: bool(1), float64(3), int64(1), object(2)
memory usage: 24.4+ KB


Pelo _output_ acima vemos que 61 linhas não possuem valor na coluna 'Quilometragem'. É importante tratar esses registros pois se formos usar um modelo de regressão, por exemplo, essas linhas serão descartadas e não contabilizadas.

O Pandas oferece a possibilidade de selecionar linhas quando alguma coluna tiver valor nulo, faremos isso usando o método `isna()`, que retorna uma Series booleana com valor True para todas a linhas que tiverem valor nulo. Seu uso é feito da seguinte forma:
```
df.column_nama.isna() # quando o nome da coluna NÃO TIVER espaços, retorna uma Series

df.['column name'].isna() # quando o nome da coluna TIVER espaços, retorna uma Series

df.[['column name']].isna() # para retornar uma DataFrame
```

In [50]:
dataset.Quilometragem.isna().head()

Nome
Jetta Variant       False
Passat              False
Crossfox            False
DS5                  True
Aston Martin DB4    False
Name: Quilometragem, dtype: bool

Para selecionar os registros do dataset com valores nulo na coluna 'Quilometragem' basta passar essa condição para a seleção:

In [51]:
dataset[dataset.Quilometragem.isna()].head()

Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,0.0
A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.4,0.0


In [52]:
dataset[dataset.Quilometragem.isna()].shape

(61, 7)

Observamos que de fato são 61 linhas que possuem o valor da 'Quilometragem' nulo.

### 5.2. Preenchendo valores com `fillna()`
Outro ponto que pode ser "observado" com uma inspeção visual (ta-dum-tsss), é que o registros com quilometragem nula são todos zero km e fabricados em 2019. Podemos verificar isso com uma seleção combinada:

In [53]:
dataset[(dataset.Quilometragem.isna()) & (dataset['Zero_km'] == True) & (dataset.Ano == 2019)].shape

(61, 7)

Como os datasets retornados possuem a mesma dimensão, podemos assumir que isso é uma regra. Portanto, faz sentido substituir o valor nulo por um número zero, digamos. Isso pode ser feito através do método `fillna()`:
```
df.fillna(valor[,inplace=False, ...])
```
Este método pode ser aplicado no dataset todo ou em apenas uma coluna. Se o parâmetro `inplace` não for especificado, será retornado um dataset com a modificação, mas o dataset "original" não será modificado, para isso devemos passar esse parâmetro como True. 

In [54]:
dataset.Quilometragem.fillna(0).head(7)

Nome
Jetta Variant       44410.0
Passat               5712.0
Crossfox            37123.0
DS5                     0.0
Aston Martin DB4    25757.0
Palio Weekend       10728.0
A5                      0.0
Name: Quilometragem, dtype: float64

In [55]:
dataset.fillna(0, inplace=True)

In [56]:
print(dataset.query('Zero_km == True').shape)
dataset.query('Zero_km == True').head()

(61, 7)


Unnamed: 0_level_0,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,km_media
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DS5,Motor 2.4 Turbo,2019,0.0,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,0.0
A5,Motor 4.0 Turbo,2019,0.0,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2,0.0
J5,Motor V6,2019,0.0,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38,0.0
A3,Motor 1.0 8v,2019,0.0,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39,0.0
Série 1 M,Motor V8,2019,0.0,True,"['Controle de estabilidade', 'Central multimíd...",94564.4,0.0


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>

### 5.3. Eliminando registros com `dropna()`
Agora vamos considerar o cenário em que é melhor eliminar as linhas com valores nulos. Isso pode ser feito com o método `dropna()`:
```
df.dropna([,subset=None, inplace=False, ...])
```
se as linhas forem "dropadas" devido a valores nulos em apenas algumas colunas, o parâmetro `subset` deve receber uma lista com os rótulos das colunas que devem ser avaliadas.

Mas primeiro vamos reimportar os dados do arquivo:

In [57]:
dataset = pd.read_csv('data/db.csv', sep=';')

In [58]:
print(dataset.shape)
dataset.head()

(258, 7)


Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [59]:
print(dataset[dataset.Quilometragem.isna()].shape)
dataset[dataset.Quilometragem.isna()].head()

(61, 7)


Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
13,J5,Motor V6,2019,,True,"['Sensor crepuscular', 'Painel digital', 'Roda...",53183.38
17,A3,Motor 1.0 8v,2019,,True,"['4 X 4', 'Piloto automático', 'Central multim...",88552.39
21,Série 1 M,Motor V8,2019,,True,"['Controle de estabilidade', 'Central multimíd...",94564.4


Acima temos o dataset original (com 258 linhas) e um DataFrame com todos as linhas que possuem valor nulo na coluna 'Quilometragem'.

Vamos usar o método `dropna()` considerando apenas a coluna 'Quilometragem':

In [60]:
dataset.dropna(subset = ['Quilometragem'], inplace=True)

In [61]:
print(dataset.shape)
dataset.head()

(197, 7)


Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73


In [62]:
print(dataset[dataset.Quilometragem.isna()].shape)
dataset[dataset.Quilometragem.isna()]

(0, 7)


Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor


<p style="text-align: right"> <a href="#indice">voltar ao topo </p>