# Neste notebook vou apresentação alguns problemas na existência dos dados faltantes no conjunto de dados, como detectar e substituir eles

In [16]:
import pandas as pd
import numpy as np

### Importando dados de exemplo:

In [5]:
pacientes=pd.read_csv("../dados/pacientes.csv", sep=";")
pacientes

Unnamed: 0,ID,Idade
0,1,12
1,2,17
2,3,.
3,4,15
4,5,.


### Verificando as informações dos dados a seguir percebemos que a Idade está considerada como o tipo object quando na verdade é um inteiro. Isso tudo porque o valor faltante está como "." e não como valor nulo, que é o padrão do pandas

In [6]:
pacientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      5 non-null      int64 
 1   Idade   5 non-null      object
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


In [9]:
pacientes["Idade"]

0    12
1    17
2     .
3    15
4     .
Name: Idade, dtype: object

### Uma forma de evitar isso é usando o parâmetro na_values para setar o valor dos dados como valor faltante

In [13]:
pacientes=pd.read_csv("../dados/pacientes.csv", sep=";", na_values=".")
pacientes

Unnamed: 0,ID,Idade
0,1,12.0
1,2,17.0
2,3,
3,4,15.0
4,5,
5,6,0.0
6,7,0.0
7,8,18.0
8,9,22.0


#### Dessa forma, os valores faltantes são carregados adequadamente. Agora, a variável idade está com o tipo certo!

In [12]:
pacientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      5 non-null      int64  
 1   Idade   3 non-null      float64
dtypes: float64(1), int64(1)
memory usage: 208.0 bytes


### Outro ponto é que alguns valores da variáveis Idade são 0, o que é nada provável então vou substituir esses valores por valores faltantes.

In [15]:
# Localizando as observações com valores iguais a 0
pacientes[pacientes["Idade"]==0]["Idade"]

5    0.0
6    0.0
Name: Idade, dtype: float64

In [19]:
pacientes.loc[pacientes["Idade"]==0, "Idade"]=np.nan
pacientes

Unnamed: 0,ID,Idade
0,1,12.0
1,2,17.0
2,3,
3,4,15.0
4,5,
5,6,
6,7,
7,8,18.0
8,9,22.0


### Métodos para verificar os dados faltantes