# Limpando os dados da base

* Vamos realizar a limpeza de um dataset relacionado a uma base de clientes de um banco com o resultado do pagamento ou não de um empréstimo

In [1]:
import pandas as pd

In [2]:
base = pd.read_excel('ChavesClientes.xlsx', sheet_name='base')

In [3]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento
0,1,32FC,Ccinza,Basic-Alpha,1
1,2,25MV,AAmarelo,Black,1
2,3,27MV,B-Amarelo,Basic-Beta,1
3,4,26FD,BAmarelo,Black,0
4,5,26FD,C-Amarelo,Black,0


* Verificando a cardinalidade dos dados

* Cardinalidade: quantos valores diferentes existem no dataset

In [4]:
base.groupby(['Pagamento', 'ChaveSituacao'])['Pagamento'].count()

Pagamento  ChaveSituacao
0          26FD             2
           28FC             2
           28MD             1
           30FC             1
           31MD             1
1          25FD             1
           25FV             1
           25MV             1
           26MC             2
           27MC             1
           27MD             2
           27MV             1
           28FS             1
           29MV             1
           31MV             1
           32FC             1
Name: Pagamento, dtype: int64

## Análises do banco de dados

* ChaveSituacao:
    - Idade do cliente (a idade mínima para ser cliente é 18 anos)
    - Gênero do cliente:
        - M: Masculino
        - F: Feminino
    - Estado cívil do cliente:
        - S: Solteiro
        - C: Casado
        - D: Divorciado
        - V: Viúvo
    
* ClassRisco:
    - Classificação do cliente (A, B, C) e indicador (+, - ou vazio)
    - Cor do cliente de acordo com um modelo de *churn* interno da empresa

* CatCliente:
    - Categoria do cartão: qual o tipo de cartão do cliente
        - Basic
        - Black
        - Platinum
    - Categoria VIP (caso exista)
        - Alpha
        - Beta

* Podemos começar analisando a ChaveSituacao, já que ela possui 3 informações dentro de uma mesma coluna

In [5]:
texto = '32FC'

In [6]:
texto[-1] # Pega o último caractere da string

texto[2:] # Pega do índice 2 até o final da string (sem incluir o índice 2)

texto[: 2] # Pega do início da string até o índice 2 (sem incluir o índice 2)

texto[2:3] # Pega do índice 2 até o índice 3 (sem incluir o índice 3)

'F'

In [7]:
# Aqui, pegamos os dois priemeiros valores da string em ChaveSituacao e criamos a coluna Idade
# Importante notar que, como a base é agora um dicionário, precisamos usar aspas simples para definir o nome da nova coluna

base['Idade'] = base['ChaveSituacao'].str[: 2]

In [8]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade
0,1,32FC,Ccinza,Basic-Alpha,1,32
1,2,25MV,AAmarelo,Black,1,25
2,3,27MV,B-Amarelo,Basic-Beta,1,27
3,4,26FD,BAmarelo,Black,0,26
4,5,26FD,C-Amarelo,Black,0,26


In [9]:
# Aqui, pegamos o valor entre o índice 2 e o 3 (o 3 não entra) da string em ChaveSituacao e criamos a coluna Genero
base['Genero'] = base['ChaveSituacao'].str[2:3]

In [10]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero
0,1,32FC,Ccinza,Basic-Alpha,1,32,F
1,2,25MV,AAmarelo,Black,1,25,M
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M
3,4,26FD,BAmarelo,Black,0,26,F
4,5,26FD,C-Amarelo,Black,0,26,F


In [11]:
# Aqui, pegamos o último valor da string em ChaveSituacao e criamos a coluna EstadoCivil
base['EstadoCivil'] = base['ChaveSituacao'].str[-1]

In [12]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C
1,2,25MV,AAmarelo,Black,1,25,M,V
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V
3,4,26FD,BAmarelo,Black,0,26,F,D
4,5,26FD,C-Amarelo,Black,0,26,F,D


* Podemos notar que, depois dessa análise, a cardinalidade diminui para algumas classificações

In [13]:
base.groupby(['Pagamento', 'EstadoCivil'])['Pagamento'].count()

Pagamento  EstadoCivil
0          C              3
           D              4
1          C              4
           D              3
           S              1
           V              5
Name: Pagamento, dtype: int64

* Como separar a CatCliente?

In [14]:
texto = 'Basic-Alpha'

In [15]:
texto.split('-')

['Basic', 'Alpha']

In [16]:
base['Categoria'] = base['CatCliente'].split('-')

AttributeError: 'Series' object has no attribute 'split'

In [17]:
base['Categoria'] = base['CatCliente'].str.split('-')

In [18]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C,"[Basic, Alpha]"
1,2,25MV,AAmarelo,Black,1,25,M,V,[Black]
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V,"[Basic, Beta]"
3,4,26FD,BAmarelo,Black,0,26,F,D,[Black]
4,5,26FD,C-Amarelo,Black,0,26,F,D,[Black]


In [19]:
base['Categoria'] = base['CatCliente'].str.split('-').str[0]
base['CategoriaVIP'] = base['CatCliente'].str.split('-').str[1]

In [20]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria,CategoriaVIP
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C,Basic,Alpha
1,2,25MV,AAmarelo,Black,1,25,M,V,Black,
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V,Basic,Beta
3,4,26FD,BAmarelo,Black,0,26,F,D,Black,
4,5,26FD,C-Amarelo,Black,0,26,F,D,Black,


* Como separar ClassRisco?
    - utilizar o Regex

In [21]:
import re

In [22]:
re.findall('Marino', 'meu nome é Marino')

['Marino']

* Regex:
    - ^: começa com
    - $: termina com
    - *: o último caractere repetido 0 ou mais vezes
    - +: o último caractere repetido 1 ou mais vezes
    - ?: o último caractere repetido 0 ou 1 vez
    - [A-Z]: qualuqer valor em maiúsculo

In [23]:
re.findall('Mar*ino', 'meu nome é Marrrrrrrrrrrrrino')

['Marrrrrrrrrrrrrino']

In [24]:
re.findall('^meu', 'meu nome é Marino')

['meu']

In [25]:
re.findall('Mar+', 'meu nome é Marino')

['Mar']

In [26]:
re.findall('[A-Z]+\w{2}', 'meu nome é Marino')

['Mar']

In [27]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria,CategoriaVIP
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C,Basic,Alpha
1,2,25MV,AAmarelo,Black,1,25,M,V,Black,
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V,Basic,Beta
3,4,26FD,BAmarelo,Black,0,26,F,D,Black,
4,5,26FD,C-Amarelo,Black,0,26,F,D,Black,


* Como a coluna ClassRisco não tem um formato bem definido, o Regex é um bom candidato para utilizarmos

In [28]:
re.findall('^[A-Z].?', 'B-Amarelo')

['B-']

In [29]:
re.findall('^[A-Z].?', 'AAmarelo')

['AA']

In [30]:
re.findall('^[A-Z][^A-Za-z]?', 'AAmarelo')

['A']

In [31]:
re.findall('^[A-Z][^A-Za-z]?', 'Ccinza')

['C']

In [32]:
base['Risco'] = base.ClassRisco.apply(lambda x: re.findall('^[A-Z][^A-Za-z]?', x)[0])

In [33]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria,CategoriaVIP,Risco
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C,Basic,Alpha,C
1,2,25MV,AAmarelo,Black,1,25,M,V,Black,,A
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V,Basic,Beta,B-
3,4,26FD,BAmarelo,Black,0,26,F,D,Black,,B
4,5,26FD,C-Amarelo,Black,0,26,F,D,Black,,C-


In [34]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID             20 non-null     int64 
 1   ChaveSituacao  20 non-null     object
 2   ClassRisco     20 non-null     object
 3   CatCliente     20 non-null     object
 4   Pagamento      20 non-null     int64 
 5   Idade          20 non-null     object
 6   Genero         20 non-null     object
 7   EstadoCivil    20 non-null     object
 8   Categoria      20 non-null     object
 9   CategoriaVIP   8 non-null      object
 10  Risco          20 non-null     object
dtypes: int64(2), object(9)
memory usage: 1.8+ KB


* A coluna idade está sendo tratada como objeto, deveria ser um número

In [35]:
base['Idade'] = pd.to_numeric(base['Idade'])

In [36]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID             20 non-null     int64 
 1   ChaveSituacao  20 non-null     object
 2   ClassRisco     20 non-null     object
 3   CatCliente     20 non-null     object
 4   Pagamento      20 non-null     int64 
 5   Idade          20 non-null     int64 
 6   Genero         20 non-null     object
 7   EstadoCivil    20 non-null     object
 8   Categoria      20 non-null     object
 9   CategoriaVIP   8 non-null      object
 10  Risco          20 non-null     object
dtypes: int64(3), object(8)
memory usage: 1.8+ KB


* A CategoriaVIP criada possui 8 valores vazios

In [37]:
base.loc[base.CategoriaVIP.isnull(), 'CategoriaVIP'] = 'Comum'

In [38]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID             20 non-null     int64 
 1   ChaveSituacao  20 non-null     object
 2   ClassRisco     20 non-null     object
 3   CatCliente     20 non-null     object
 4   Pagamento      20 non-null     int64 
 5   Idade          20 non-null     int64 
 6   Genero         20 non-null     object
 7   EstadoCivil    20 non-null     object
 8   Categoria      20 non-null     object
 9   CategoriaVIP   20 non-null     object
 10  Risco          20 non-null     object
dtypes: int64(3), object(8)
memory usage: 1.8+ KB


In [39]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria,CategoriaVIP,Risco
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C,Basic,Alpha,C
1,2,25MV,AAmarelo,Black,1,25,M,V,Black,Comum,A
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V,Basic,Beta,B-
3,4,26FD,BAmarelo,Black,0,26,F,D,Black,Comum,B
4,5,26FD,C-Amarelo,Black,0,26,F,D,Black,Comum,C-


In [40]:
base.groupby(['Pagamento', 'Categoria'])['Pagamento'].count()

Pagamento  Categoria
0          Basic        3
           Black        3
           Platinum     1
1          Basic        3
           Black        4
           Platinum     6
Name: Pagamento, dtype: int64

In [41]:
base.groupby(['Pagamento', 'CategoriaVIP'])['Pagamento'].count()

Pagamento  CategoriaVIP
0          Alpha           1
           Beta            2
           Comum           4
1          Alpha           3
           Beta            2
           Comum           8
Name: Pagamento, dtype: int64