# Tratando Valores Faltantes em uma Base de Dados com Python
Neste notebook exploraremos a abordagem para lidar com valores nulos em
conjuntos de dados. Este processo é fundamental para assegurar a integridade da base de dados, garantindo que os dados a serem analisados estejam em condições ideais. A limpeza dos valores vazios é uma prática essencial em qualquer projeto, contribuindo para a confiabilidade e qualidade das análises realizadas.

In [1]:
# Instalação das bibliotecas que serão utilizadas
!pip install pandas
!pip install numpy



In [2]:
# Importação das bibliotecas
import pandas as pd
import numpy as np

### Importando a Base de Dados

Ao empregar a abreviação "df", fazemos referência a um DataFrame, uma estrutura de dados tabular bidimensional amplamente adotada em bibliotecas de análise de dados, como o Pandas em Python. Simplificando, um DataFrame é, essencialmente, uma tabela que organiza dados de forma sistemática em linhas e colunas.

In [24]:
 # Carreando nossos dados
df = pd.read_csv("clima_india.csv")
df.replace(0.0, np.nan, inplace=True)

display(df)

#Visualizando a quantidades de dados NaN
df.isna().sum()

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
0,2013-01-01,10.000000,84.500000,,1015.666667
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
...,...,...,...,...,...
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762
1460,2016-12-31,15.052632,87.000000,7.325000,1016.100000


date             0
meantemp         0
humidity         0
wind_speed      26
meanpressure     0
dtype: int64

"NaN" significa "Not a Number" (Não é um Número) e é frequentemente utilizado para representar valores ausentes ou indefinidos em uma base de dados.

### Tratamento de valores vazios

Existem várias abordagens para tratar valores vazios (ou ausentes) em conjuntos de dados. A escolha da técnica dependerá do contexto do problema e da natureza dos dados. Existem duas grandes formas de tratamento, você pode excluir o valor ou preencher o campo com alguma outra coisa.


### Removendo valores vazios


Eliminar valores vazios não se restringe apenas ao campo "NaN" em si. Na verdade, é necessário optar pela exclusão de toda a linha ou coluna na qual esse valor ausente está localizado.

**axis=0** indica a remoção ao longo das linhas, o que implica na exclusão de observações inteiras que contenham valores nulos.

**axis=1** orienta a operação ao longo das colunas, resultando na eliminação completa de variáveis que possuam pelo menos um valor ausente.


In [7]:
df

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
0,2013-01-01,10.000000,84.500000,,1015.666667
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
...,...,...,...,...,...
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762
1460,2016-12-31,15.052632,87.000000,7.325000,1016.100000


In [8]:
# 0 -> exclui linhas, 1 -> exclui colunas
df = df.dropna(how="any", axis=0)

In [9]:
df

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
5,2013-01-06,7.000000,82.800000,1.480000,1018.000000
...,...,...,...,...,...
1456,2016-12-27,16.850000,67.550000,8.335000,1017.200000
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762



### Preenchendo com um valor fixo

Você pode preencher com um valor fixo, como um número ativamente, uma opção seria preencher com a média dos valores da coluna.
> Média


In [11]:
df

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
0,2013-01-01,10.000000,84.500000,,1015.666667
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
...,...,...,...,...,...
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762
1460,2016-12-31,15.052632,87.000000,7.325000,1016.100000


In [13]:
df['wind_speed'].fillna(df['wind_speed'].mean(), inplace=True)

In [14]:
df

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
0,2013-01-01,10.000000,84.500000,6.925369,1015.666667
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
...,...,...,...,...,...
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762
1460,2016-12-31,15.052632,87.000000,7.325000,1016.100000


> Mediana

Outra opção seria preencher com a mediana dos valores da coluna.

In [30]:
df

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
0,2013-01-01,10.000000,84.500000,,1015.666667
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
...,...,...,...,...,...
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762
1460,2016-12-31,15.052632,87.000000,7.325000,1016.100000


In [32]:
df.fillna(df.median(numeric_only=True))

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
0,2013-01-01,10.000000,84.500000,6.264583,1015.666667
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
...,...,...,...,...,...
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762
1460,2016-12-31,15.052632,87.000000,7.325000,1016.100000


### Preenchimento com Valor Seguinte e Anterior

Ambos os métodos de preenchimento são particularmente úteis quando você tem dados ordenados e quer manter a coerência temporal ou sequencial na substituição de valores nulos.

**Você pode usar o método fillna com os argumentos method='ffill' para preenchimento para frente e method='bfill' para preenchimento para trás.**

In [17]:
df

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
0,2013-01-01,10.000000,84.500000,,1015.666667
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
...,...,...,...,...,...
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762
1460,2016-12-31,15.052632,87.000000,7.325000,1016.100000


In [18]:
# Preenchimento por retrocesso
df.fillna(method='bfill', inplace=True)

In [19]:
df

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
0,2013-01-01,10.000000,84.500000,2.980000,1015.666667
1,2013-01-02,7.400000,92.000000,2.980000,1017.800000
2,2013-01-03,7.166667,87.000000,4.633333,1018.666667
3,2013-01-04,8.666667,71.333333,1.233333,1017.166667
4,2013-01-05,6.000000,86.833333,3.700000,1016.500000
...,...,...,...,...,...
1457,2016-12-28,17.217391,68.043478,3.547826,1015.565217
1458,2016-12-29,15.238095,87.857143,6.000000,1016.904762
1459,2016-12-30,14.095238,89.666667,6.266667,1017.904762
1460,2016-12-31,15.052632,87.000000,7.325000,1016.100000


### Interpolação Linear

A interpolação é uma técnica utilizada para estimar valores desconhecidos ou ausentes com base nos valores conhecidos ao redor. Ela é especialmente útil quando se lida com séries temporais ou dados em que existe uma relação sequencial ou ordenada.

In [None]:
# intervalo no df
dados = df.iloc[285:293].append(df.iloc[294:298])

In [26]:
dados

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
285,2013-10-13,27.166667,84.333333,0.616667,1007.666667
286,2013-10-14,27.714286,74.857143,5.557143,1007.0
287,2013-10-15,25.857143,76.428571,3.7,1009.142857
288,2013-10-16,26.428571,75.0,,1009.0
289,2013-10-17,26.857143,76.714286,1.057143,1010.428571
290,2013-10-18,26.333333,73.166667,,1010.5
291,2013-10-19,24.571429,69.571429,2.114286,1011.571429
292,2013-10-20,24.333333,67.833333,1.55,1010.666667
294,2013-10-22,27.8,53.6,,1011.0
295,2013-10-23,25.0,67.5,1.1625,1013.625


In [28]:
# Interpolação linear
interpolation = dados.interpolate(method='linear')

In [29]:
interpolation

Unnamed: 0,date,meantemp,humidity,wind_speed,meanpressure
285,2013-10-13,27.166667,84.333333,0.616667,1007.666667
286,2013-10-14,27.714286,74.857143,5.557143,1007.0
287,2013-10-15,25.857143,76.428571,3.7,1009.142857
288,2013-10-16,26.428571,75.0,2.378571,1009.0
289,2013-10-17,26.857143,76.714286,1.057143,1010.428571
290,2013-10-18,26.333333,73.166667,1.585714,1010.5
291,2013-10-19,24.571429,69.571429,2.114286,1011.571429
292,2013-10-20,24.333333,67.833333,1.55,1010.666667
294,2013-10-22,27.8,53.6,1.35625,1011.0
295,2013-10-23,25.0,67.5,1.1625,1013.625


Existem vários métodos de interpolação disponíveis, e a escolha do método adequado dependerá da natureza dos seus dados e das suposições sobre o comportamento entre os pontos conhecidos.

Pandas DataFrame interpolate() Method
: https://www.w3schools.com/python/pandas/ref_df_interpolate.asp

### Considerações Finais

Neste notebook, exploramos algumas estratégias para lidar com valores nulos, essenciais para garantir a integridade e confiabilidade dos dados. A escolha entre as estratégias apresentadas neste notebook deve ser orientada pelo entendimento profundo do domínio do problema e pela análise cuidadosa das características dos dados. A adequação de cada método pode variar dependendo do contexto, do tipo de variáveis e da estrutura temporal dos dados.
