# Portabilidade e carteirização de clientes

In [1]:
# bibliotecas úteis
import pandas as pd
import numpy as np

In [2]:
carteira = pd.read_csv('./carteira_massivo.csv', ';', low_memory=False)

In [3]:
# 3.343.013 linhas e 8 colunas
carteira.shape

(3343013, 8)

In [4]:
list(carteira.columns)

['COD_GRUPO',
 'GRUPO_ECONOMICO',
 'COD_CLI',
 'TIPO_DOCUMENTO',
 'DOCUMENTO',
 'CLIENTE',
 'SEGMENTO_CLIENTE',
 'SEGMENTO_VALOR']

In [5]:
# Cria dataframe auxiliar para visualizar parte dos dados

# seleciona somente registros com CNPJ
# df = carteira[carteira['TIPO_DOCUMENTO'] == 'CNPJ'].copy()
# seleciona somente os columas que serão utilizadas
# carteira_auxiliar = df[['COD_GRUPO', 'GRUPO_ECONOMICO', 'COD_CLI', 'DOCUMENTO', 'SEGMENTO_VALOR']]
carteira_auxiliar = carteira[['GRUPO_ECONOMICO', 'DOCUMENTO', 'SEGMENTO_VALOR']].copy()

carteira_auxiliar.shape

(3343013, 3)

In [6]:
# preenche os registros sem segmentação com NA, para entrar na contagem abaixo
carteira_auxiliar = carteira_auxiliar.fillna('NA')

# Mostra a quantidade de segmentações disponiveis
list(carteira_auxiliar.drop_duplicates(subset='SEGMENTO_VALOR', keep='first')['SEGMENTO_VALOR'])

['Vip 1', 'Vip 2', 'Vip 3', 'NA', 'Vip 4', 'Vip 5', 'Vip 6']

In [7]:
# quantidade de clientes por segmentação
carteira_auxiliar.groupby(['SEGMENTO_VALOR']).count()


# carteira_auxiliar[carteira_auxiliar['DOCUMENTO'] == '41327000101']
# carteira[carteira['DOCUMENTO'] == '41327000101']
# carteira_auxiliar.shape

Unnamed: 0_level_0,GRUPO_ECONOMICO,DOCUMENTO
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1
,27635,27635
Vip 1,3011848,3011848
Vip 2,210500,210500
Vip 3,88044,88044
Vip 4,4302,4302
Vip 5,377,377
Vip 6,307,307


# COTAÇÕES

In [8]:
# cotações março de 2019
# garante que o campo documento seja string
marco2019 = pd.read_excel('./EVOL_COTAÇOES_TOP_29.03.2019.xlsx', sheet_name=0, \
                          converters={'CPF/CNPJ': str}
                         )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]

# df = pd.read_excel('Book1.xlsx',sheetname='Sheet1',header=0,converters={'names':str,'ages':str})

    
# cotações abril de 2019
abril2019 = pd.read_excel('./EVOL_COTAÇOES_TOP_26.04.2019.xlsx', sheet_name=0) \
                            [['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]
    
# cotações maio de 2019
maio2019 = pd.read_excel('./EVOL_COTAÇOES_TOP_31.05.2019.xlsx', sheet_name=0) \
                            [['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]
    
# cotações junho de 2019
junho2019 = pd.read_excel('./EVOL_COTAÇOES_TOP_ 28.06.2019.xlsx', sheet_name=0) \
                            [['COD_CLI', 'Cliente', 'CPF/CNPJ']]
    
# cotações julho de 2019
julho2019 = pd.read_excel('./EVOL_COTAÇOES_TOP_31.07.2019.xlsx', sheet_name=0) \
                            [['COD_CLI', 'Cliente', 'CPF/CNPJ']]


In [9]:
# padronizando as colunas de CPF/CNPJ para DOCUMENTO

marco2019 = marco2019.rename(columns={"CPF/CNPJ": "DOCUMENTO"})
abril2019 = abril2019.rename(columns={"CPF/CNPJ": "DOCUMENTO"})
maio2019 = maio2019.rename(columns={"CPF/CNPJ": "DOCUMENTO"})

junho2019 = junho2019.rename(columns={"CPF/CNPJ": "DOCUMENTO", "COD_CLI": "COD_GRUPO", "Cliente": "GRUPO_ECONOMICO"})
julho2019 = julho2019.rename(columns={"CPF/CNPJ": "DOCUMENTO", "COD_CLI": "COD_GRUPO", "Cliente": "GRUPO_ECONOMICO"})
    


In [10]:
# remove os COD_CRUPO duplicados
# sort_values('Age', ascending=False)
# df = df.drop_duplicates(subset='COD_GRUPO', keep='first')
# print(df)
# marco2019.shape


marco2019.shape

(4922, 3)

# COTAÇÕES 2019

In [36]:
# faz o join entre as carteiras e os meses
carteiraMarco2019 = pd.merge(marco2019, carteira_auxiliar, how='left', on='DOCUMENTO')
carteiraAbril2019 = pd.merge(abril2019, carteira_auxiliar, how='left', on='DOCUMENTO')
carteiraMaio2019 = pd.merge(maio2019, carteira_auxiliar, how='left', on='DOCUMENTO')
carteiraJunho2019 = pd.merge(junho2019, carteira_auxiliar, how='left', on='DOCUMENTO')
carteiraJulho2019 = pd.merge(julho2019, carteira_auxiliar, how='left', on='DOCUMENTO')

# carteiraMarco2019.drop_duplicates(subset='SEGMENTO_VALOR', keep='first')

In [37]:
# preenche os registros sem segmentação com NA, para entrar na contagem abaixo
carteiraMarco2019 = carteiraMarco2019.fillna('NA')
carteiraAbril2019 = carteiraAbril2019.fillna('NA')
carteiraMaio2019 = carteiraMaio2019.fillna('NA')
carteiraJunho2019 = carteiraJunho2019.fillna('NA')
carteiraJulho2019 = carteiraJulho2019.fillna('NA')

(5155, 5)

## Remoção dos clientes duplicados

In [38]:
carteiraMarco2019 = carteiraMarco2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraAbril2019 = carteiraAbril2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraMaio2019 = carteiraMaio2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraJunho = carteiraJunho2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraJulho = carteiraJulho2019.drop_duplicates(subset='DOCUMENTO', keep='first')


(2221, 5)

## SEGMENTAÇÃO DE CLIENTES MAIO 2019

In [28]:
# quantidade de clientes por segmentação em Maio 2019
carteiraMarco2019.groupby(['SEGMENTO_VALOR']).count()

Unnamed: 0_level_0,COD_GRUPO,GRUPO_ECONOMICO_x,DOCUMENTO,GRUPO_ECONOMICO_y
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,2043,2043,2043,2043
Vip 1,16,16,16,16


## SEGMENTAÇÃO DE CLIENTES ABRIL 2019

In [39]:
carteiraAbril2019.groupby(['SEGMENTO_VALOR']).count()

Unnamed: 0_level_0,COD_GRUPO,GRUPO_ECONOMICO_x,DOCUMENTO,GRUPO_ECONOMICO_y
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,2221,2221,2221,2221


## SEGMENTAÇÃO DE CLIENTES MAIO 2019

In [41]:
carteiraMaio2019.groupby(['SEGMENTO_VALOR']).count()

Unnamed: 0_level_0,COD_GRUPO,GRUPO_ECONOMICO_x,DOCUMENTO,GRUPO_ECONOMICO_y
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,2489,2489,2489,2489


## SEGMENTAÇÃO DE CLIENTES JUNHO 2019


In [43]:
carteiraJunho2019.groupby(['SEGMENTO_VALOR']).count()

Unnamed: 0_level_0,COD_GRUPO,GRUPO_ECONOMICO_x,DOCUMENTO,GRUPO_ECONOMICO_y
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,7233,7233,7233,7233


## SEGMENTAÇÃO DE CLIENTES JULHO 2019


In [44]:
carteiraJulho2019.groupby(['SEGMENTO_VALOR']).count()

Unnamed: 0_level_0,COD_GRUPO,GRUPO_ECONOMICO_x,DOCUMENTO,GRUPO_ECONOMICO_y
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,5864,5864,5864,5864


In [None]:
# carteiraMarco2019.shape


# carteiraMaio2019.drop_duplicates(subset='SEGMENTO_VALOR', keep='first')



# list(carteiraMaio2019.drop_duplicates(subset='SEGMENTO_VALOR', keep='first')['SEGMENTO_VALOR'])


# df[df['Fruit'].str.contains("1")]
# carteiraMaio2019[carteiraMaio2019['SEGMENTO_VALOR'].str.contains("Vip 4", na=False)]
