### Análise Exploratória e Tratamento dos Dados

In [3]:
# Importando a biblioteca pandas
import pandas as pd

In [4]:
# Visualizando a base de treino
base = pd.read_csv('Churn.csv', sep = (';'))
base.head(3)

Unnamed: 0,X0,X1,X2,X3,X4,X4.1,X6,X7,X8,X9,X10,X11
0,1,619,RS,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,SC,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,RS,Feminino,42,8,1596608,3,1,0,11393157.0,1


In [5]:
# Dando nome às colunas
base.columns = ["Id","Score","Estado","Genero","Idade","Patrimonio","Saldo","Produtos","TemCartCredito",
                    "Ativo","Salario","Saiu"]


In [6]:
# Verificando os nomes das colunas
base.head(3)

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
0,1,619,RS,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,SC,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,RS,Feminino,42,8,1596608,3,1,0,11393157.0,1


In [7]:
# Verificando as informações da base
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Id              999 non-null    int64  
 1   Score           999 non-null    int64  
 2   Estado          999 non-null    object 
 3   Genero          991 non-null    object 
 4   Idade           999 non-null    int64  
 5   Patrimonio      999 non-null    int64  
 6   Saldo           999 non-null    int64  
 7   Produtos        999 non-null    int64  
 8   TemCartCredito  999 non-null    int64  
 9   Ativo           999 non-null    int64  
 10  Salario         992 non-null    float64
 11  Saiu            999 non-null    int64  
dtypes: float64(1), int64(9), object(2)
memory usage: 93.8+ KB


In [8]:
# Verificando o tipo dos dados
base.dtypes.value_counts()

int64      9
object     2
float64    1
Name: count, dtype: int64

In [9]:
# E os valores nulos
base.isnull().sum().sort_values(ascending=False).head(5)

Genero     8
Salario    7
Id         0
Score      0
Estado     0
dtype: int64

In [10]:
# Verificando dados duplicados, buscamos pelo ID
base[base.duplicated(['Id'],keep=False)]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
80,81,665,RS,Feminino,34,1,9664554,2,0,0,17141366.0,0
81,81,665,RS,Feminino,34,1,9664554,2,0,0,17141366.0,0


In [11]:
#Excluimso pelo ID
base.drop_duplicates(subset="Id", keep='first',inplace=True)
#Buscamos duplicados 
base[base.duplicated(['Id'],keep=False)]

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu


In [12]:
#Substituindo valores nulos da coluna 'Gênero'
base['Genero'].describe()

count           990
unique            5
top       Masculino
freq            521
Name: Genero, dtype: object

In [13]:
# Como masculino é a moda, substituiremos valores nulos por 'Masculino'
base.loc[base.Genero.isnull(),'Genero'] = 'Masculino'

In [14]:
#Verificando novamente
base['Genero'].isnull().sum()

0

In [15]:
#Percebemos que na coluna Genero existem 5 valores únicos. Contudo, era para terem apenas 2 (Masculino e Feminino), trataremos esses dados depois.
base['Genero'].unique()

array(['Feminino', 'Masculino', 'M', 'F', 'Fem'], dtype=object)

In [16]:
#Substituindo valores nulos da coluna 'Gênero'
base['Salario'].describe()

count    9.910000e+02
mean     3.530593e+07
std      5.308476e+08
min      9.677000e+03
25%      3.020010e+06
50%      8.695742e+06
75%      1.404604e+07
max      1.193469e+10
Name: Salario, dtype: float64

In [17]:
# Descobrindo a mediana para poder substituir posteriormente
import statistics  as sts
mediana = sts.median(base['Salario'])

In [18]:
# Sabendo a mediana, substituiremos valores nulos pela
base.loc[base.Salario.isnull(),'Salario'] = mediana

In [19]:
#Verificando novamente
base['Salario'].isnull().sum()

0

In [20]:
# Tendo tratado os valores Nulos, vamos tratar os valores fora do domínio de todas as colunas 'object'

In [21]:
#Verificando quais colunas são do tipo 'object'
base.columns[base.dtypes == 'object']

Index(['Estado', 'Genero'], dtype='object')

In [22]:
# Tratando coluna Gênero
base['Genero'].unique()

array(['Feminino', 'Masculino', 'M', 'F', 'Fem'], dtype=object)

In [23]:
#Substituindo os valores 'M' por 'Masculino', 'F' e 'Fem' por 'Feminino'
base.loc[base['Genero'] ==  'M', 'Genero'] = 'Masculino'
base.loc[base['Genero'] ==  'F', 'Genero'] = 'Feminino'
base.loc[base['Genero'] ==  'Fem', 'Genero'] = 'Feminino'

In [24]:
#Verificando agora
base['Genero'].unique()

array(['Feminino', 'Masculino'], dtype=object)

In [25]:
#Fazendo o mesmo para a coluna 'Estado' (Essa é uma análise apenas dos estados da região Sul do Brasil)
base['Estado'].unique()

array(['RS', 'SC', 'PR', 'RP', 'SP', 'TD'], dtype=object)

In [26]:
#Verificando a moda
base['Estado'].describe()

count     998
unique      6
top        RS
freq      477
Name: Estado, dtype: object

In [27]:
#Substituindo valores fora do domínio pela moda ('RS')
base.loc[base['Estado'].isin(['RP','SP','TD']), 'Estado'] = 'RS'      

In [28]:
#Verificando agora
base['Estado'].unique()

array(['RS', 'SC', 'PR'], dtype=object)

In [29]:
#Já que tratamos todos os valores nulos e os valores fora do domínio das colunas 'object', faltam ser tratadas os valores fora do domínio das colunas 'int64'

In [30]:
#Verificando quais colunas são do tipo 'int64'
base.columns[base.dtypes == 'int64']

Index(['Id', 'Score', 'Idade', 'Patrimonio', 'Saldo', 'Produtos',
       'TemCartCredito', 'Ativo', 'Saiu'],
      dtype='object')

In [31]:
#Coluna 'Base'
base['Idade'].describe()

count    998.000000
mean      38.907816
std       11.406570
min      -20.000000
25%       32.000000
50%       37.000000
75%       44.000000
max      140.000000
Name: Idade, dtype: float64

In [32]:
#Tratando os valores (substituiremos os valores fora do domínio pela mediana)
mediana = sts.median(base['Idade'])
base.loc[(base['Idade'] <  0 )  | ( base['Idade'] >  120), 'Idade'] = mediana

In [33]:
#Verificando
base['Idade'].describe()

count    998.000000
mean      38.908818
std       10.676642
min        0.000000
25%       32.000000
50%       37.000000
75%       44.000000
max       82.000000
Name: Idade, dtype: float64

In [34]:
#Agora fazendo o mesmo para o restante das colunas, de maneira mais rápida

In [35]:
#Coluna Patrimônio
base['Patrimonio'].describe()

count    998.000000
mean       5.073146
std        2.926320
min        0.000000
25%        2.000000
50%        5.000000
75%        8.000000
max       10.000000
Name: Patrimonio, dtype: float64

In [36]:
# Tudo parece certo

In [37]:
#Coluna Saldo
base['Saldo'].describe()

count    9.980000e+02
mean     7.162423e+06
std      6.314508e+06
min      0.000000e+00
25%      0.000000e+00
50%      8.926348e+06
75%      1.258767e+07
max      2.117743e+07
Name: Saldo, dtype: float64

In [38]:
# Tudo parece certo

In [39]:
#Coluna Produtos
base['Produtos'].describe()

count    998.000000
mean       1.526052
std        0.574293
min        1.000000
25%        1.000000
50%        1.000000
75%        2.000000
max        4.000000
Name: Produtos, dtype: float64

In [40]:
# Tudo parece certo

In [41]:
#Coluna TemCartCredito
base['TemCartCredito'].describe()

count    998.000000
mean       0.703407
std        0.456985
min        0.000000
25%        0.000000
50%        1.000000
75%        1.000000
max        1.000000
Name: TemCartCredito, dtype: float64

In [42]:
# Tudo parece certo

In [43]:
#Coluna Ativo
base['Ativo'].describe()

count    998.00000
mean       0.51002
std        0.50015
min        0.00000
25%        0.00000
50%        1.00000
75%        1.00000
max        1.00000
Name: Ativo, dtype: float64

In [44]:
# Tudo parece certo

In [45]:
#Coluna Saiu
base['Saiu'].describe()

count    998.000000
mean       0.203407
std        0.402734
min        0.000000
25%        0.000000
50%        0.000000
75%        0.000000
max        1.000000
Name: Saiu, dtype: float64

In [46]:
# Tudo parece certo

In [47]:
#Por último só ajustaremos a coluna salário. Definiremos outliers em salário dados com mais de 2 desvios padrão.
import statistics  as sts
desv = sts.stdev(base['Salario'])

In [48]:
#Checamos se algum atende critério
base.loc[base['Salario'] >=  2 * desv ] 

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
7,8,376,PR,Feminino,29,4,11504674,4,1,0,11934690000.0,1
116,118,668,PR,Feminino,37,6,1678644,1,1,0,11563830000.0,0
170,172,484,RS,Feminino,29,4,13011439,1,1,0,1640179000.0,0
230,232,673,RS,Masculino,72,1,0,2,0,1,1119812000.0,0


In [49]:
#Substituiremos esses valores pela mediana
mediana = sts.median(base['Salario'])
base.loc[base['Salario'] >=  2 * desv, 'Salario'] = mediana

In [50]:
# Verificando novamente
base.loc[base['Salario'] >=  2 * desv ] 

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu


In [51]:
#Vizualizando os dados
base.head(3)

Unnamed: 0,Id,Score,Estado,Genero,Idade,Patrimonio,Saldo,Produtos,TemCartCredito,Ativo,Salario,Saiu
0,1,619,RS,Feminino,42,2,0,1,1,1,10134888.0,1
1,2,608,SC,Feminino,41,1,8380786,1,0,1,11254258.0,0
2,3,502,RS,Feminino,42,8,1596608,3,1,0,11393157.0,1


### Agora com a exploração e tratamento de dados feitos, partiremos para as próximas etapas..