### Identificando valores vazios

In [21]:
import pandas as pd
import numpy as np

df = pd.read_csv("clientes.csv")
display(df)
# info

df["TotalGasto"] = pd.to_numeric(df["TotalGasto"], errors="coerce")

df.info()

# df.isna().any() ou .sum()
df.isna().sum()


Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,,Mensal,CartaoCredito,3973.2
2,9286-DOJGF,Nao,,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.5
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.5
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.3
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5986 entries, 0 to 5985
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   IDCliente         5986 non-null   object 
 1   Dependentes       5985 non-null   object 
 2   MesesComoCliente  5984 non-null   float64
 3   TipoContrato      5986 non-null   object 
 4   FormaPagamento    5986 non-null   object 
 5   TotalGasto        5976 non-null   float64
dtypes: float64(2), object(4)
memory usage: 280.7+ KB


IDCliente            0
Dependentes          1
MesesComoCliente     2
TipoContrato         0
FormaPagamento       0
TotalGasto          10
dtype: int64

### Valores vazios não identificados como vazio

In [11]:
# identificar na hora de importar
# valores_vazios = ["?", "-"]
# df = pd.read_csv("clientes.csv", na_values=valores_vazios)

# identificar com replace
df = df.replace({ "?": np.nan, "-": np.nan })
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


### Removendo valores vazios

In [12]:
# 0 -> exclui linhas, 1 -> exclui colunas
df = df.dropna(how="any", axis=0)
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.50
5,4312-GVYNH,Nao,70.0,2 anos,DebitoAutomatico,3370.20
6,2495-KZNFB,Nao,33.0,Mensal,BoletoEletronico,2989.60
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


### Tratando valores vazios

##### - Preenchendo com valor fixo

In [14]:
media = df["MesesComoCliente"].mean()
df["MesesComoCliente"] = df["MesesComoCliente"].fillna(media)
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.000000,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,32.465909,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,32.465909,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.000000,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.000000,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.000000,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.000000,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.000000,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.000000,Mensal,BoletoEletronico,1200.15


##### - Preenchendo com anterior ou seguinte

In [19]:
df["MesesComoCliente"] = df["MesesComoCliente"].fillna(method="ffill")
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.0,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,4.0,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,4.0,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.0,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.0,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.0,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.0,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.0,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.0,Mensal,BoletoEletronico,1200.15


##### - Interpolando

In [22]:
df["MesesComoCliente"] = df["MesesComoCliente"].interpolate(meth)
display(df)

Unnamed: 0,IDCliente,Dependentes,MesesComoCliente,TipoContrato,FormaPagamento,TotalGasto
0,7010-BRBUU,Sim,72.000000,2 anos,CartaoCredito,1734.65
1,9688-YGXVR,Nao,49.333333,Mensal,CartaoCredito,3973.20
2,9286-DOJGF,Nao,26.666667,Mensal,DebitoAutomatico,2869.85
3,6994-KERXL,Nao,4.000000,Mensal,BoletoEletronico,238.50
4,2181-UAESM,Nao,2.000000,Mensal,BoletoEletronico,119.50
...,...,...,...,...,...,...
5981,0684-AOSIH,Nao,1.000000,Mensal,BoletoEletronico,95.00
5982,5982-PSMKW,Sim,23.000000,2 anos,CartaoCredito,2198.30
5983,8044-BGWPI,Sim,12.000000,Mensal,BoletoEletronico,306.05
5984,7450-NWRTR,Nao,12.000000,Mensal,BoletoEletronico,1200.15
