### Identificando valores vazios

In [14]:
import pandas as pd # importa a biblioteca pandas para manipulação de dados
import numpy as np # importa a biblioteca numpy para operações numéricas

df = pd.read_csv("clientes.csv") # lê o arquivo CSV e armazena em um DataFrame
display(df) # exibe o DataFrame

df["TotalGasto"] = pd.to_numeric(df["TotalGasto"], errors="coerce") # converte a coluna "TotalGasto" para numérico, se algum valor der errado substituir erros por NaN(valores ausentes)

# info
print(df.info()) # exibe informações sobre o DataFrame, incluindo tipos de dados e contagem de valores não nulos

# df.isna().any() ou .sum()
print(df.isna().sum()) # exibe a contagem de valores ausentes (NaN) em cada coluna

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,,Mensal,CartaoCredito,3973.2
2,9286-DOJGF,Nao,,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.5
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.5
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.3
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5986 entries, 0 to 5985
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   IDCliente         5986 non-null   object 
 1   Dependentes       5985 non-null   object 
 2   MesesComoCliente  5984 non-null   float64
 3   TipoContrato      5986 non-null   object 
 4   FormaPagamento    5986 non-null   object 
 5   TotalGasto        5976 non-null   float64
dtypes: float64(2), object(4)
memory usage: 280.7+ KB
None
IDCliente            0
Dependentes          1
MesesComoCliente     2
TipoContrato         0
FormaPagamento       0
TotalGasto          10
dtype: int64


### Valores vazios não identificados como vazio

In [9]:
''' identificar na hora de importar'''
# valores_vazios = ["?", "-"] # lista de valores que devem ser tratados como ausentes
# df = pd.read_csv("clientes.csv", na_values=valores_vazios) # lê o arquivo CSV, tratando "?" e "-" como NaN (valores ausentes)
# display(df) # exibe o DataFrame atualizado

# identificar com replace
df = df.replace({"?": np.nan, "-": np.nan}) #dicionario do python substitui "?" e "-" por NaN (valores ausentes)
display(df) # exibe o DataFrame atualizado

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


### Removendo valores vazios

In [None]:
# 0 -> exclui linhas, 1 -> exclui colunas
df = df.dropna(how="any", axis=0) # remove linhas com qualquer valor ausente
display(df) # exibe o DataFrame atualizado

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.50
5,4312-GVYNH,Nao,70.0,2 anos,DebitoAutomatico,3370.20
6,2495-KZNFB,Nao,33.0,Mensal,BoletoEletronico,2989.60
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


### Tratando valores vazios

In [10]:
'''Excluir linhas ou colunas com valores ausentes '''

# df = df.dropna(how="all", axis=1) # remove colunas onde todos os valores são ausentes

'''
all -> exclui as linhas onde todos os valores são ausentes
any -> exclui as linhas onde qualquer valor é ausente
'''

# df = df.dropna(how="all", axis=0) # remove linhas onde todos os valores são ausentes

# display(df) # exibe o DataFrame atualizado

'\nall -> exclui as linhas onde todos os valores são ausentes\nany -> exclui as linhas onde qualquer valor é ausente\n'

##### - Preenchendo com valor fixo

In [11]:
media = df["MesesComoCliente"].mean() # calcula a média da coluna "MesesComoCliente", ignorando valores ausentes
df["MesesComoCliente"] = df["MesesComoCliente"].fillna(media) # preenche valores ausentes na coluna "MesesComoCliente" com a média calculada
display(df) # exibe o DataFrame atualizado

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.000000,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,32.465909,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,32.465909,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.000000,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.000000,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.000000,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.000000,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.000000,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.000000,Mensal,BoletoEletronico,1200.15


##### - Preenchendo com anterior ou seguinte

In [None]:
df["MesesComoCliente"] = df["MesesComoCliente"].fillna(method="bfill") 
# bfill -> preenche valores ausentes com o valor seguinte
# ffill -> preenche valores ausentes com o valor anterior

display(df) # exibe o DataFrame atualizado

  df["MesesComoCliente"] = df["MesesComoCliente"].fillna(method="bfill") # preenche valores ausentes com o próximo valor válido


Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.000000,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,32.465909,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,32.465909,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.000000,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.000000,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.000000,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.000000,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.000000,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.000000,Mensal,BoletoEletronico,1200.15


##### - Interpolando

In [15]:
df["MesesComoCliente"] = df["MesesComoCliente"].interpolate() 
# preenche valores ausentes por interpolação linear, que é a média dos valores anterior e posterior

display(df) # exibe o DataFrame atualizado

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.000000,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,49.333333,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,26.666667,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.000000,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.000000,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.000000,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.000000,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.000000,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.000000,Mensal,BoletoEletronico,1200.15
