# Tratando Valores Vazios em uma Base de Dados com Python

Neste notebook exploraremos a abordagem para lidar com valores nulos em
conjuntos de dados. Este processo é fundamental para assegurar a integridade da base de dados, garantindo que os dados a serem analisados estejam em condições ideais. A limpeza dos valores vazios é uma prática essencial em qualquer projeto, contribuindo para a confiabilidade e qualidade das análises realizadas.

In [1]:
# Instalação das bibliotecas que serão utilizadas
!pip install pandas
!pip install numpy



In [2]:
# Importação das bibliotecas
import pandas as pd
import numpy as np

### Importando a Base de Dados

Link para o conjunto de dados utilizados:

https://drive.google.com/file/d/1ngbahIZahCmoWZdp-bZSrNi6YdszeeW9/view?usp=drive_link

Ao empregar a abreviação "df", fazemos referência a um DataFrame, uma estrutura de dados tabular bidimensional amplamente adotada em bibliotecas de análise de dados, como o Pandas em Python. Simplificando, um DataFrame é, essencialmente, uma tabela que organiza dados de forma sistemática em linhas e colunas.

In [12]:
# Carreando nossos dados
df = pd.read_csv("clientes.csv")
display(df)
df["TotalGasto"] = pd.to_numeric(df["TotalGasto"], errors="coerce")


#Visualizando a quantidades de dados NaN
print(df.isna().sum())

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,,Mensal,CartaoCredito,3973.2
2,9286-DOJGF,Nao,,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.5
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.5
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.3
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


IDCliente            0
Dependentes          1
MesesComoCliente     2
TipoContrato         0
FormaPagamento       0
TotalGasto          10
dtype: int64


"NaN" significa "Not a Number" (Não é um Número) e é frequentemente utilizado para representar valores ausentes ou indefinidos em uma base de dados.

### Tratamento de valores vazios

Existem várias abordagens para tratar valores vazios (ou ausentes) em conjuntos de dados. A escolha da técnica dependerá do contexto do problema e da natureza dos dados. Existem duas grandes formas de tratamento, você pode excluir o valor ou preencher o campo com alguma outra coisa.


### Removendo valores vazios


Eliminar valores vazios não se restringe apenas ao campo "NaN" em si. Na verdade, é necessário optar pela exclusão de toda a linha ou coluna na qual esse valor ausente está localizado.

**axis=0** indica a remoção ao longo das linhas, o que implica na exclusão de observações inteiras que contenham valores nulos.

**axis=1** orienta a operação ao longo das colunas, resultando na eliminação completa de variáveis que possuam pelo menos um valor ausente.


In [7]:
# 0 -> exclui linhas, 1 -> exclui colunas
df = df.dropna(how="any", axis=0)
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.50
5,4312-GVYNH,Nao,70.0,2 anos,DebitoAutomatico,3370.20
6,2495-KZNFB,Nao,33.0,Mensal,BoletoEletronico,2989.60
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15



### Preenchendo com um valor fixo

Você pode preencher com um valor fixo, como um número ativamente, uma opção seria preencher com a média dos valores da coluna.


In [9]:
media = df["MesesComoCliente"].mean()
df["MesesComoCliente"] = df["MesesComoCliente"].fillna(media)
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.000000,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,32.465909,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,32.465909,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.000000,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.000000,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.000000,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.000000,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.000000,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.000000,Mensal,BoletoEletronico,1200.15


### Preenchimento por Avanço e por Retrocesso

Ambos os métodos de preenchimento são particularmente úteis quando você tem dados ordenados e quer manter a coerência temporal ou sequencial na substituição de valores nulos.

**ffill e bfill**

In [11]:
df["MesesComoCliente"] = df["MesesComoCliente"].fillna(method="bfill")
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,4.0,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,4.0,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


### Interpolando

A interpolação é uma técnica utilizada para estimar valores desconhecidos ou ausentes com base nos valores conhecidos ao redor. Ela é especialmente útil quando se lida com séries temporais ou dados em que existe uma relação sequencial ou ordenada.

In [13]:
df["MesesComoCliente"] = df["MesesComoCliente"].interpolate()
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.000000,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,49.333333,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,26.666667,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.000000,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.000000,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.000000,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.000000,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.000000,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.000000,Mensal,BoletoEletronico,1200.15


Existem vários métodos de interpolação disponíveis, e a escolha do método adequado dependerá da natureza dos seus dados e das suposições sobre o comportamento entre os pontos conhecidos.

Documentação Pandas Interpolate:
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html


### Considerações Finais

Neste notebook, exploramos algumas estratégias para lidar com valores nulos, essenciais para garantir a integridade e confiabilidade dos dados. A escolha entre as estratégias apresentadas neste notebook deve ser orientada pelo entendimento profundo do domínio do problema e pela análise cuidadosa das características dos dados. A adequação de cada método pode variar dependendo do contexto, do tipo de variáveis e da estrutura temporal dos dados.
