In [1]:
import pandas as pd
import seaborn as srn
import statistics as sts

In [2]:
# importar dados
ds = pd.read_csv("Churn.csv", sep=";")

#Visualizar
ds.head() # mostra as cinco primeiras linhas

Unnamed: 0,X0,X1,X2,X3,X4,X4.1,X6,X7,X8,X9,X10,X11
0,1,619,RS,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,SC,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,RS,Feminino,42,8,1596608,3,1,0,11393157.0,1
3,4,699,RS,Feminino,39,1,0,2,0,0,9382663.0,0
4,5,850,SC,Feminino,43,2,12551082,1,1,1,790841.0,0


In [3]:
ds.columns = ["Id","Score","Estado","Genero","Idade","Patrimonio","Saldo","Produtos","TemCartCredito",
                    "Ativo","Salario","Saiu"]
ds.head() # conjnuto de dados que visa identificar se o cliente sairá do banco ou não

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
0,1,619,RS,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,SC,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,RS,Feminino,42,8,1596608,3,1,0,11393157.0,1
3,4,699,RS,Feminino,39,1,0,2,0,0,9382663.0,0
4,5,850,SC,Feminino,43,2,12551082,1,1,1,790841.0,0


In [4]:
# Verificando a existência de valores NAN (INEXISTENTES) não preenchidos
# Valores NAN são diferentes valores zeros
ds.isnull().sum()

Id                0
Score             0
Estado            0
Genero            8
Idade             0
Patrimonio        0
Saldo             0
Produtos          0
TemCartCredito    0
Ativo             0
Salario           7
Saiu              0
dtype: int64

In [6]:
ds['Salario'].describe()

count    9.920000e+02
mean     3.528762e+07
std      5.305800e+08
min      9.677000e+03
25%      3.029011e+06
50%      8.703250e+06
75%      1.405213e+07
max      1.193469e+10
Name: Salario, dtype: float64

In [8]:
# Calcular a mediana
mediana = sts.median(ds['Salario'])
mediana

70518.0

In [11]:
# O valor da mediana vai substituir os valores NA, dessa forma não há alteração na mediana original
# fillna vai substituir o valor NA pelo valor na mediana

ds['Salario'] = ds['Salario'].fillna(mediana)


In [12]:
# Verificar se ainda existe valores NA na coluna Salario
# Os valores NA em Salario foram corrigidos

ds.isnull().sum()

Id                0
Score             0
Estado            0
Genero            8
Idade             0
Patrimonio        0
Saldo             0
Produtos          0
TemCartCredito    0
Ativo             0
Salario           0
Saiu              0
dtype: int64

In [13]:
# Foi identificado 8 valores NA na coluna Genero
# Além disso, existe uma falta de padronizaçõa no nomeclatura dos generos (F, Fem, Feminino, M, Masculino)

ds['Genero'].isnull().sum()


8

In [18]:
# Valores NA e falta de padronização

agrupado = ds.groupby(['Genero']).size()
agrupado

Genero
F              2
Fem            1
Feminino     461
M              6
Masculino    521
dtype: int64

In [19]:
# Os NAs serão preenchido pelos valores masculinos (moda - valor com mais frequência)

ds['Genero'] = ds['Genero'].fillna('Masculino')


In [20]:
ds['Genero'].isnull().sum()


0

In [23]:
# Padronizar substituindo 'M' por "masculino'
# ds.loc[linhas, colunas]
# Comando: “Em todas as linhas onde a coluna Genero é igual a 'M', substitua esse valor por 'Masculino'.”

ds.loc[ds['Genero'] == 'M', 'Genero'] = 'Masculino'
ds.loc[ds['Genero'].isin(['Fem', 'F']), 'Genero'] = 'Feminino'

In [27]:
# Verificando a padronização
# Nomeclatura padronizada

agrupado = ds.groupby(['Genero']).size()
agrupado



Genero
Feminino     464
Masculino    535
dtype: int64

In [28]:
# Na coluna idade foi identifcado dados fora do domínio
# Possui idade negativa e de 140 anos

ds['Idade'].describe()

count    999.000000
mean      38.902903
std       11.401912
min      -20.000000
25%       32.000000
50%       37.000000
75%       44.000000
max      140.000000
Name: Idade, dtype: float64

In [29]:
# Identifcar idades que estão fora do padrão estabelecido 
# Nesse caso idades menores do que 0 e maiores que 120

ds.loc[(ds['Idade'] < 0) | (ds['Idade'] > 120)]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
867,869,636,RS,Feminino,-10,1,17083346,1,1,0,11051028.0,1
984,986,773,RS,Masculino,-20,1,12453278,2,0,1,1172357.0,0
990,992,655,RS,Masculino,140,5,93147,2,1,0,6621413.0,0


In [33]:
# Foram identificados 3 valores fora do padrão estabelecido
# Será calculado a mediana para substituir esses valores
# A mediana é melhor do que a média, pois é menos suscetível a outlines (Valores fora do padrão)

mediana = sts.median(ds['Idade'])
mediana

37

In [34]:
ds.loc[(ds['Idade'] < 0) | (ds['Idade'] > 102), 'Idade'] = mediana

In [35]:
ds.loc[(ds['Idade'] < 0) | (ds['Idade'] > 120)]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu


In [36]:
# Verifica os registros duplicados
# Keep = False marca como False todos os duplicados

ds[ds.duplicated(['Id'], keep = False)]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
80,81,665,RS,Feminino,34,1,9664554,2,0,0,17141366.0,0
81,81,665,RS,Feminino,34,1,9664554,2,0,0,17141366.0,0


In [37]:
# Outra forma de verificar, porém mostrando somente a coluna Id

ds.loc[ds['Id'].duplicated(keep=False), 'Id'].unique()


array([81], dtype=int64)

In [44]:
# Retirando os valores duplicados depois do primeiro.

ds = ds.drop_duplicates(subset = 'Id', keep = 'first')


In [45]:
# Verificando se ainda há valores duplicados

ds[ds.duplicated(['Id'], keep = False)]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu


In [47]:
# Verificando estados fora do domínio

agrupado = ds.groupby(['Estado']).size()
agrupado

Estado
PR    257
RP      1
RS    477
SC    258
SP      4
TD      1
dtype: int64

In [48]:
# Corrigindo com substituição desses estados por RS (moda)

ds.loc[ds['Estado'].isin(['RP', 'SP', 'TD']), 'Estado'] = 'RS'
agrupado = ds.groupby(['Estado']).size()
agrupado

Estado
PR    257
RS    483
SC    258
dtype: int64

In [50]:
# Identificando outliers em salário. Será considerado 2 vezes o desvios padrões
# salários muito acima da média

desv = sts.stdev(ds['Salario'])
desv

528988918.4679201

In [52]:
# identificar se existe algum registro com valor igual a 2 vezes o desvio padrão

ds.loc[ds['Salario'] >= 2 * desv ]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
7,8,376,PR,Feminino,29,4,11504674,4,1,0,11934690000.0,1
116,118,668,PR,Feminino,37,6,1678644,1,1,0,11563830000.0,0
170,172,484,RS,Feminino,29,4,13011439,1,1,0,1640179000.0,0
230,232,673,RS,Masculino,72,1,0,2,0,1,1119812000.0,0


In [53]:
# Atualizar os registros fora do padrão para o valor da mediana

mediana = sts.median(ds['Salario'])
mediana

8637195.5

In [54]:
ds.loc[ds['Salario'] >= 2 * desv, 'Salario'] = mediana

# verificando as substituições
ds.loc[ds['Salario'] >= 2 * desv ]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu


In [56]:
ds.head()

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
0,1,619,RS,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,SC,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,RS,Feminino,42,8,1596608,3,1,0,11393157.0,1
3,4,699,RS,Feminino,39,1,0,2,0,0,9382663.0,0
4,5,850,SC,Feminino,43,2,12551082,1,1,1,790841.0,0


In [57]:
# Um registro a menos devido a retirada do registro duplicado

ds.shape

(998, 12)