In [8]:
# Importando o pandas
import pandas as pd

In [9]:
# Importando a base de dados
base = pd.read_excel('ChavesClientes.xlsx',sheet_name='base')

In [10]:
# Visualizando a base de dados atual
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento
0,1,32FC,Ccinza,Basic-Alpha,1
1,2,25MV,AAmarelo,Black,1
2,3,27MV,B-Amarelo,Basic-Beta,1
3,4,26FD,BAmarelo,Black,0
4,5,26FD,C-Amarelo,Black,0


In [11]:
base.groupby(["Pagamento", "ChaveSituacao"])["Pagamento"].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Pagamento
Pagamento,ChaveSituacao,Unnamed: 2_level_1
0,26FD,2
0,28FC,2
0,28MD,1
0,30FC,1
0,31MD,1
1,25FD,1
1,25FV,1
1,25MV,1
1,26MC,2
1,27MC,1


Ao analisar essa base, percebemos que existe uma alta cardinalidade e por isso precisamos tratar esses dados

- ChaveSituacao: formado por:
    - Idade do cliente (a idade mínima para ser cliente é 18 anos)
    - Gênero do cliente:
        - M: Masculino
        - F: Feminino
    - Estado civil do cliente:
        - S: solteiro
        - C: casado
        - D: divorciado
        - V: viúvo
- ClassRisco: formado por:
    - Classificação do cliente como (A,B,C) e indicador (+,- ou vazio)
    - Cor do cliente de acordo com um modelo de churn interno da empresa
- CatCliente: formado por:
    - Categoria do cartão: qual o tipo de cartão do cliente:
        - Basic
        - Black
        - Platinum
    - Categoria VIP: categoria do cliente VIP (caso exista)
        - Alpha
        - Beta

In [12]:
# Transformando a colunas ChaveSituacao em -> Idade, Genero e EstadoCivil
base['Idade'] = base.ChaveSituacao.str[:2]
base['Genero'] = base.ChaveSituacao.str[2:3]
base['EstadoCivil'] = base.ChaveSituacao.str[-1]

In [13]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C
1,2,25MV,AAmarelo,Black,1,25,M,V
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V
3,4,26FD,BAmarelo,Black,0,26,F,D
4,5,26FD,C-Amarelo,Black,0,26,F,D


In [14]:
# Transformando a colunas CatCliente em -> Categoria e CatVIP
base['Categoria'] = base.CatCliente.str.split('-').str.get(0)
base['CatVIP'] = base.CatCliente.str.split('-').str.get(1)

In [15]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria,CatVIP
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C,Basic,Alpha
1,2,25MV,AAmarelo,Black,1,25,M,V,Black,
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V,Basic,Beta
3,4,26FD,BAmarelo,Black,0,26,F,D,Black,
4,5,26FD,C-Amarelo,Black,0,26,F,D,Black,


In [34]:
# Importanto o regEx para utilizar o re.findall()
import re

In [17]:
# Transformando a coluna ClassRisco em -> Risco
base['Risco'] = base.ClassRisco.apply(lambda x: re.findall('^[A-Z][^A-Za-z]?', x)[0])

In [18]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria,CatVIP,Risco
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C,Basic,Alpha,C
1,2,25MV,AAmarelo,Black,1,25,M,V,Black,,A
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V,Basic,Beta,B-
3,4,26FD,BAmarelo,Black,0,26,F,D,Black,,B
4,5,26FD,C-Amarelo,Black,0,26,F,D,Black,,C-


In [19]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID             20 non-null     int64 
 1   ChaveSituacao  20 non-null     object
 2   ClassRisco     20 non-null     object
 3   CatCliente     20 non-null     object
 4   Pagamento      20 non-null     int64 
 5   Idade          20 non-null     object
 6   Genero         20 non-null     object
 7   EstadoCivil    20 non-null     object
 8   Categoria      20 non-null     object
 9   CatVIP         8 non-null      object
 10  Risco          20 non-null     object
dtypes: int64(2), object(9)
memory usage: 1.8+ KB


In [20]:
# Transformando a coluna Idade em numérica
base['Idade'] = pd.to_numeric(base['Idade'])

In [21]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID             20 non-null     int64 
 1   ChaveSituacao  20 non-null     object
 2   ClassRisco     20 non-null     object
 3   CatCliente     20 non-null     object
 4   Pagamento      20 non-null     int64 
 5   Idade          20 non-null     int64 
 6   Genero         20 non-null     object
 7   EstadoCivil    20 non-null     object
 8   Categoria      20 non-null     object
 9   CatVIP         8 non-null      object
 10  Risco          20 non-null     object
dtypes: int64(3), object(8)
memory usage: 1.8+ KB


In [22]:
# Verificando os valores nulos na coluna CatVIP
base.loc[base.CatVIP.isnull()]

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria,CatVIP,Risco
1,2,25MV,AAmarelo,Black,1,25,M,V,Black,,A
3,4,26FD,BAmarelo,Black,0,26,F,D,Black,,B
4,5,26FD,C-Amarelo,Black,0,26,F,D,Black,,C-
7,8,31MD,C-Cinza,Basic,0,31,M,D,Basic,,C-
8,9,28FS,A-Cinza,Black,1,28,F,S,Black,,A-
9,10,31MV,C+Amarelo,Platinum,1,31,M,V,Platinum,,C+
10,11,29MV,AAmarelo,Basic,1,29,M,V,Basic,,A
12,13,28FC,Bverde,Basic,0,28,F,C,Basic,,B
13,14,26MC,A-Verde,Platinum,1,26,M,C,Platinum,,A-
15,16,27MC,B-Roxo,Platinum,1,27,M,C,Platinum,,B-


In [23]:
# Transformando os valores nulos da coluna CatVIP em Comum
base.loc[base.CatVIP.isnull(),"CatVIP"]="Comum"

In [24]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID             20 non-null     int64 
 1   ChaveSituacao  20 non-null     object
 2   ClassRisco     20 non-null     object
 3   CatCliente     20 non-null     object
 4   Pagamento      20 non-null     int64 
 5   Idade          20 non-null     int64 
 6   Genero         20 non-null     object
 7   EstadoCivil    20 non-null     object
 8   Categoria      20 non-null     object
 9   CatVIP         20 non-null     object
 10  Risco          20 non-null     object
dtypes: int64(3), object(8)
memory usage: 1.8+ KB


In [25]:
base.head()

Unnamed: 0,ID,ChaveSituacao,ClassRisco,CatCliente,Pagamento,Idade,Genero,EstadoCivil,Categoria,CatVIP,Risco
0,1,32FC,Ccinza,Basic-Alpha,1,32,F,C,Basic,Alpha,C
1,2,25MV,AAmarelo,Black,1,25,M,V,Black,Comum,A
2,3,27MV,B-Amarelo,Basic-Beta,1,27,M,V,Basic,Beta,B-
3,4,26FD,BAmarelo,Black,0,26,F,D,Black,Comum,B
4,5,26FD,C-Amarelo,Black,0,26,F,D,Black,Comum,C-


In [26]:
base.groupby(["Pagamento", "Categoria"])["Pagamento"].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Pagamento
Pagamento,Categoria,Unnamed: 2_level_1
0,Basic,3
0,Black,3
0,Platinum,1
1,Basic,3
1,Black,4
1,Platinum,6


In [27]:
base.groupby(["Pagamento", "CatVIP"])["Pagamento"].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Pagamento
Pagamento,CatVIP,Unnamed: 2_level_1
0,Alpha,1
0,Beta,2
0,Comum,4
1,Alpha,3
1,Beta,2
1,Comum,8


In [28]:
base.groupby(["Pagamento", "Risco"])["Pagamento"].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Pagamento
Pagamento,Risco,Unnamed: 2_level_1
0,B,2
0,C-,5
1,A,3
1,A-,4
1,B-,2
1,C,3
1,C+,1


In [33]:
#Extraindo a base tratada
base.to_excel('ChavesClientesTratada.xlsx', index=False)