# **Mestrado em Informática**
# **Pós-Graduação em Data Science and Digital Transformation**

## *(Ambientes de) Programação para Ciência de Dados*

# Mónica Vieira Martins
---

## Lidar com valores ausentes e "Not a Number"

Em muitos datasets, existem campos que não estão preenchidos, ou campos numéricos que não estão preenchidos com valores numéricos. 

A forma como se lida com essas situações é de primordial importância

In [1]:
import numpy as np
import pandas as pd


### ...em Python e Numpy

#### `None`
De uma forma geral, em Python, o valor inexistente é assinalado com o `None`

In [None]:
vals1 = np.array([1,None, 3, 4])
vals1

In [None]:
vals1[1]

In [None]:
type(vals1[1])

A existência de valores `None` impede que as funções de agregação sejam executadas sem erros, como se verifica nos exemplo seguinte: 

In [None]:
vals1.sum()

#### `Not a Number`

A outra representação de valores omissos é "Not a Number", `NaN`. 

Este é um valor especial de vírgula flutuante, reconhecido por todos os sistemas que utilizam a representação standard de valores de vírgula flutuante da IEEE. 

In [None]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

In [None]:
#tem representação visível
vals2[1]

In [None]:
#é representado como um float
type(vals2[1])

In [None]:
#não gera erros quando são usados  métodos de agregação
vals2.sum()

In [None]:
vals2.max()

### ... em Pandas

Em Pandas, tanto os valores `np.nan` como os valores `None` são representados como `NaN` (vírgula flutuante)

In [24]:
s1=pd.Series([1, np.nan, 2, None])
s1

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [25]:
print(type(s1[1]))
print(type(s1[3]))

<class 'numpy.float64'>
<class 'numpy.float64'>


### Funções em Pandas para lidar com *NaN*

* `isnull()` ou `isna()` -  Gera uma máscara boolenana para indicar os valores omissos
* `notnull()` - O oposto de `isnull()` 
* `dropna()` - Devolve uma versão filtrada dos dados, sem os valores omissos
* `fillna()` - Devolve uma cópia dos dados em que os valores omissos são preenchidos com o valor definido


#### ...em Séries

##### `isnull()` ou `isna()`

In [26]:
s1

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [5]:
s1.isna()

0    False
1     True
2    False
3     True
dtype: bool

In [None]:
https://pae.ipportalegre.pt/s1.isnull()

0    False
1    False
2    False
3    False
dtype: bool

##### `notnull()`

In [7]:
s1.notnull()

0     True
1    False
2     True
3    False
dtype: bool

##### `dropna()`

Uma opção para lidar com valores omissos é simplesmente retirá-los dos dados. 

Para isso pode usar-se o método `dropna()`, que devolve uma cópia sem os elementos *NaN*

In [8]:
s1.dropna()

0    1.0
2    2.0
dtype: float64

In [9]:
#o original manteve-se inalterado
s1

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

In [27]:
#A utilização de `inplace=True` força que a alteração 
#seja feita no próprio objeto
s2=s1.copy()
s2.dropna(inplace=True)
s2

0    1.0
2    2.0
dtype: float64

##### `fillna()`

Outra opção para lidar com os valores omissos é preenchê-los com um dados valor.

Para isso pode usar-se o método `fillna(n)`, que devolve uma cópia em que os elementos `NaN` foram subituídos pelo valor  `n`

In [28]:
s1.fillna(9)


0    1.0
1    9.0
2    2.0
3    9.0
dtype: float64

In [33]:
#o original manteve-se inalterado
s1

0    1.0
1    0.0
2    2.0
3    0.0
dtype: float64

In [34]:
s1.fillna(0, inplace=True)
s1

0    1.0
1    0.0
2    2.0
3    0.0
dtype: float64

#### ... em DataFrames

Com DataFrames, existem as mesmas possibilidade de detetar valores omissos ou NaN:
* `isnull()`
* `isna()` 
* `notnull()`

As funções para preencher os valores omissos 
* `dropna()` 
* `fillna()`

permitem, todavia,  um leque mais brangente de possibilidades

In [35]:
dados =  pd.DataFrame([[1, np.nan, 2],
                        [2, 3, 5],
                        [np.nan, 4, 6],
                        [ np.nan,  np.nan,   np.nan]])
dados

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0
3,,,


#### `isnull()` ou `isna()` e  `notnull()`

In [36]:
dados.isna()

Unnamed: 0,0,1,2
0,False,True,False
1,False,False,False
2,True,False,False
3,True,True,True


In [37]:
#calcula a soma dos valores omissos em cada coluna
#axis=0 (valor por omissão) porque o cálculo é feito ao longo das linhas
dados.isna().sum()

0    2
1    2
2    1
dtype: int64

In [16]:
#Calcula a soma dos valores omissos em cada linha
#axis = 1 porque o cálculo é feito ao longo das colunas
dados.isna().sum(axis=1)

0    1
1    0
2    1
3    3
dtype: int64

#### `dropna()`

In [18]:
dados

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0
3,,,


In [19]:
#por omissão, dropna() apaga todas as linhas que contêm algum NaN
dados.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5.0


In [20]:
#também opr omissão, o objeto fica inalterado.
dados

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0
3,,,


In [21]:
# para apagar ao longo do eixo das colunas, pode-se usar axis=1
dados.dropna(axis=1)

0
1
2
3


##### `how`

O parâmetro `how` permite definir como apagam as linhas/colunas:
* `any` - valor por omissão. Apaga todas as linhas/colunas onde exista um valor `NaN`
* `all` - só apaga colunas/linhas onde todos os valores sejam `NaN`

In [41]:
dados.dropna(axis=0, how='all')

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0


In [42]:
dados.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0
3,,,


In [43]:
dados.dropna(axis=0, how='all', inplace=True)
dados

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0


#### `fillna()`

Quando usado com objetos DataFrame, o método `fillna(value)` subsitui os valores omissos por `value`, que pode assumir um valor fixo ou ser calculado ( inputação ou interpolação) a partir dos valores válidos presentes no DataFrame

In [44]:
#preencher com um valor fixo
dados.fillna(0)

Unnamed: 0,0,1,2
0,1.0,0.0,2.0
1,2.0,3.0,5.0
2,0.0,4.0,6.0


In [45]:
dados

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0


In [46]:
#imputar os valores com o valor médio da coluna 
dados.fillna(dados.mean())

Unnamed: 0,0,1,2
0,1.0,3.5,2.0
1,2.0,3.0,5.0
2,1.5,4.0,6.0


##### `method` - `ffill` e  e `bfill`

O parâmetro `method` permite definir dois outros tipos de imputação: 
* `ffill` - *forward fill* ou propagação -  propaga o valor anterior na linha/coluna
* `bfill` - *back-fill* ou retropropagação -  propaga o valor seguinte na linha/coluna

In [47]:
dados

Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,,4.0,6.0


In [48]:
#ffill ao longo da coluna. 
#Elementos NaN na 1ª linha ficam inalterados
dados.fillna(method='ffill')

  dados.fillna(method='ffill')


Unnamed: 0,0,1,2
0,1.0,,2.0
1,2.0,3.0,5.0
2,2.0,4.0,6.0


In [49]:
#bfill ao longo da coluna
#Elementos NaN na última linha ficam inalterados
dados.fillna(method='bfill')

  dados.fillna(method='bfill')


Unnamed: 0,0,1,2
0,1.0,3.0,2.0
1,2.0,3.0,5.0
2,,4.0,6.0


In [50]:
#ffill ao longo da linha 
#Elementos NaN na 1ª coluna ficam inalterados

dados.fillna(method='ffill', axis=1)

  dados.fillna(method='ffill', axis=1)


Unnamed: 0,0,1,2
0,1.0,1.0,2.0
1,2.0,3.0,5.0
2,,4.0,6.0


In [51]:
#bfill ao longo da linha 
#Elementos NaN na ultima coluna ficam inalterados

dados.fillna(method='bfill', axis=1)

  dados.fillna(method='bfill', axis=1)


Unnamed: 0,0,1,2
0,1.0,2.0,2.0
1,2.0,3.0,5.0
2,4.0,4.0,6.0
