# Portabilidade e carteirização de clientes

In [1]:
# bibliotecas úteis
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt


## Carteira Massivo

In [2]:
carteira = pd.read_csv('./carteira_massivo.csv', ';', low_memory=False)

In [3]:
print('Carteira possui', carteira.shape[0], 'registros')

Carteira possui 3343013 registros


In [4]:
# Colunas disponíveis na carteira
list(carteira.columns)

['COD_GRUPO',
 'GRUPO_ECONOMICO',
 'COD_CLI',
 'TIPO_DOCUMENTO',
 'DOCUMENTO',
 'CLIENTE',
 'SEGMENTO_CLIENTE',
 'SEGMENTO_VALOR']

In [5]:
# Cria dataframe auxiliar para visualizar parte dos dados
carteira_auxiliar = carteira[['DOCUMENTO', 'SEGMENTO_VALOR']].copy()

print('Carteira possui', carteira_auxiliar.shape[0], 'registros')

Carteira possui 3343013 registros


In [6]:
# preenche os registros sem segmentação com NA, para entrar na contagem abaixo
carteira_auxiliar = carteira_auxiliar.fillna('NA')

# Mostra a quantidade de segmentações disponiveis
list(carteira_auxiliar.drop_duplicates(subset='SEGMENTO_VALOR', keep='first')['SEGMENTO_VALOR'])

['Vip 1', 'Vip 2', 'Vip 3', 'NA', 'Vip 4', 'Vip 5', 'Vip 6']

In [7]:
# quantidade de clientes por segmentação
carteira_auxiliar.groupby(['SEGMENTO_VALOR']).count()


Unnamed: 0_level_0,DOCUMENTO
SEGMENTO_VALOR,Unnamed: 1_level_1
,27635
Vip 1,3011848
Vip 2,210500
Vip 3,88044
Vip 4,4302
Vip 5,377
Vip 6,307


## Carteira sem massivo

In [8]:
carteiraTOP = pd.read_csv('./Carteira_sem_Massivo.csv', ';', low_memory=False)

In [9]:
print('Carteira sem massivo possui', carteiraTOP.shape[0], 'registros')

Carteira sem massivo possui 155906 registros


In [10]:
list(carteiraTOP.columns)

['COD_GRUPO',
 'GRUPO_ECONOMICO',
 'COD_CLI',
 'TIPO_DOCUMENTO',
 'DOCUMENTO',
 'CLIENTE',
 'SEGMENTO_CLIENTE',
 'SEGMENTO_VALOR']

In [11]:
carteiraTOP_auxiliar = carteiraTOP[['DOCUMENTO', 'SEGMENTO_VALOR']].copy()


In [12]:
# preenche os registros sem segmentação com NA, para entrar na contagem abaixo
carteiraTOP_auxiliar = carteiraTOP_auxiliar.fillna('NA')

# Mostra a quantidade de segmentações disponiveis
list(carteiraTOP_auxiliar.drop_duplicates(subset='SEGMENTO_VALOR', keep='first')['SEGMENTO_VALOR'])

['Vip 6',
 'Vip 4',
 'Vip 3',
 'Vip 5',
 'NA',
 'Vip 7',
 'Vip 1',
 'Vip 2',
 'Governo',
 'B',
 'C']

In [13]:
# quantidade de clientes por segmentação
carteiraTOP_auxiliar.groupby(['SEGMENTO_VALOR']).count()

Unnamed: 0_level_0,DOCUMENTO
SEGMENTO_VALOR,Unnamed: 1_level_1
B,6
C,13
Governo,1
,5274
Vip 1,603
Vip 2,823
Vip 3,55914
Vip 4,40607
Vip 5,13865
Vip 6,18771


In [14]:
# REMOVE OS ZEROS A ESQUERDA DO DOCUMENTO (CNPJ)
carteiraTOP_auxiliar['DOCUMENTO'] = carteiraTOP_auxiliar['DOCUMENTO'].str.replace(r'^[0]{1,}', '', 1)

## SUPERCARTEIRA

In [15]:
print("Carteira TOP sem massivo:", carteiraTOP_auxiliar.shape)
print("Carteira com massivo:    ", carteira_auxiliar.shape)
print("TOTAL:", carteiraTOP_auxiliar.shape[0] + carteira_auxiliar.shape[0])

Carteira TOP sem massivo: (155906, 2)
Carteira com massivo:     (3343013, 2)
TOTAL: 3498919


In [16]:
# Funde as duas carteiras
superCarteira = carteira_auxiliar.append(carteiraTOP_auxiliar)
superCarteira.shape

(3498919, 2)

In [17]:
# remoção de duplicados
superCarteira = superCarteira.drop_duplicates(subset='DOCUMENTO', keep='first')


In [18]:
# superCarteira[superCarteira['DOCUMENTO'] == 'COLOQUE O CNPJ AQUI']

## COTAÇÕES

In [19]:
# cotações outubro de 2018
outubro2018 = pd.read_excel('./2018/EVOL_COTAÇOES_TOP_31.10.2018.xlsx', sheet_name=0, \
                          converters={'CPF/CNPJ': str} \
                         )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]


# cotações novembro de 2018
novembro2018 = pd.read_excel('./2018/EVOL_COTAÇOES_TOP_30.11.2018.xlsx', sheet_name=0, \
                          converters={'CPF/CNPJ': str} \
                         )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]


# cotações dezembro de 2018
dezembro2018 = pd.read_excel('./2018/EVOL_COTAÇOES_TOP_17.12.2018.xlsx', sheet_name=0, \
                          converters={'CPF/CNPJ': str} \
                         )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]


In [20]:
# cotações janeiro de 2019
janeiro2019 = pd.read_excel('./2019/EVOL_COTAÇOES_TOP_29.01.2019.xlsx', sheet_name=0, \
                          converters={'CPF/CNPJ': str} \
                         )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]


# cotações fevereiro de 2019
fevereiro2019 = pd.read_excel('./2019/EVOL_COTAÇOES_TOP_28.02.2019.xlsx', sheet_name=0, \
                          converters={'CPF/CNPJ': str} \
                         )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]

# cotações março de 2019
marco2019 = pd.read_excel('./2019/EVOL_COTAÇOES_TOP_29.03.2019.xlsx', sheet_name=0, \
                          converters={'CPF/CNPJ': str} \
                         )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]

    
# cotações abril de 2019
abril2019 = pd.read_excel('./2019/EVOL_COTAÇOES_TOP_26.04.2019.xlsx', sheet_name=0, \
                            converters={'CPF/CNPJ': str} \
                         )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]
    
# cotações maio de 2019
maio2019 = pd.read_excel('./2019/EVOL_COTAÇOES_TOP_31.05.2019.xlsx', sheet_name=0, \
                            converters={'CPF/CNPJ': str} \
                        )[['COD_GRUPO', 'GRUPO_ECONOMICO', 'CPF/CNPJ']]
    
# cotações junho de 2019
junho2019 = pd.read_excel('./2019/EVOL_COTAÇOES_TOP_ 28.06.2019.xlsx', sheet_name=0, \
                            converters={'CPF/CNPJ': str} \
                         )[['COD_CLI', 'Cliente', 'CPF/CNPJ']]
    
# cotações julho de 2019
julho2019 = pd.read_excel('./2019/EVOL_COTAÇOES_TOP_31.07.2019.xlsx', sheet_name=0, \
                            converters={'CPF/CNPJ': str} \
                         )[['COD_CLI', 'Cliente', 'CPF/CNPJ']]

    

In [21]:
# padronizando as colunas de CPF/CNPJ para DOCUMENTO

# 2018
outubro2018 = outubro2018.rename(columns={"CPF/CNPJ": "DOCUMENTO"})
novembro2018 = novembro2018.rename(columns={"CPF/CNPJ": "DOCUMENTO"})
dezembro2018 = dezembro2018.rename(columns={"CPF/CNPJ": "DOCUMENTO"})

# 2019
janeiro2019 = janeiro2019.rename(columns={"CPF/CNPJ": "DOCUMENTO"})
fevereiro2019 = fevereiro2019.rename(columns={"CPF/CNPJ": "DOCUMENTO"})
marco2019 = marco2019.rename(columns={"CPF/CNPJ": "DOCUMENTO"})
abril2019 = abril2019.rename(columns={"CPF/CNPJ": "DOCUMENTO"})
maio2019 = maio2019.rename(columns={"CPF/CNPJ": "DOCUMENTO"})

junho2019 = junho2019.rename(columns={"CPF/CNPJ": "DOCUMENTO", "COD_CLI": "COD_GRUPO", "Cliente": "GRUPO_ECONOMICO"})
julho2019 = julho2019.rename(columns={"CPF/CNPJ": "DOCUMENTO", "COD_CLI": "COD_GRUPO", "Cliente": "GRUPO_ECONOMICO"})
    


# COTAÇÕES 2018/2019

In [22]:
# faz o join entre as carteiras e os meses

# 2018
carteiraOutubro2018 = pd.merge(outubro2018, superCarteira, how='left', on='DOCUMENTO')
carteiraNovembro2018 = pd.merge(novembro2018, superCarteira, how='left', on='DOCUMENTO')
carteiraDezembro2018 = pd.merge(dezembro2018, superCarteira, how='left', on='DOCUMENTO')

# 2019
carteiraJaneiro2019 = pd.merge(janeiro2019, superCarteira, how='left', on='DOCUMENTO')
carteiraFevereiro2019 = pd.merge(fevereiro2019, superCarteira, how='left', on='DOCUMENTO')
carteiraMarco2019 = pd.merge(marco2019, superCarteira, how='left', on='DOCUMENTO')
carteiraAbril2019 = pd.merge(abril2019, superCarteira, how='left', on='DOCUMENTO')
carteiraMaio2019 = pd.merge(maio2019, superCarteira, how='left', on='DOCUMENTO')
carteiraJunho2019 = pd.merge(junho2019, superCarteira, how='left', on='DOCUMENTO')
carteiraJulho2019 = pd.merge(julho2019, superCarteira, how='left', on='DOCUMENTO')


In [23]:
# preenche os registros sem segmentação com NA, para entrar na contagem abaixo

# 2018
carteiraOutubro2018 = carteiraOutubro2018.fillna('NA')
carteiraNovembro2018 = carteiraNovembro2018.fillna('NA')
carteiraDezembro2018 = carteiraDezembro2018.fillna('NA')

# 2019
carteiraJaneiro2019 = carteiraJaneiro2019.fillna('NA')
carteiraFevereiro2019 = carteiraFevereiro2019.fillna('NA')
carteiraMarco2019 = carteiraMarco2019.fillna('NA')
carteiraAbril2019 = carteiraAbril2019.fillna('NA')
carteiraMaio2019 = carteiraMaio2019.fillna('NA')
carteiraJunho2019 = carteiraJunho2019.fillna('NA')
carteiraJulho2019 = carteiraJulho2019.fillna('NA')

carteiraDezembro2018.shape

(14601, 4)

In [24]:
# carteira_auxiliar[carteira_auxiliar['DOCUMENTO'] == 'COLOQUE O CNPJ AQUI']

## Remoção dos clientes duplicados

In [25]:
# 2018
carteiraOutubro2018 = carteiraOutubro2018.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraNovembro2018 = carteiraNovembro2018.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraDezembro2018 = carteiraDezembro2018.drop_duplicates(subset='DOCUMENTO', keep='first')


# 2019
carteiraJaneiro2019 = carteiraJaneiro2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraFevereiro2019 = carteiraFevereiro2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraMarco2019 = carteiraMarco2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraAbril2019 = carteiraAbril2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraMaio2019 = carteiraMaio2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraJunho2019 = carteiraJunho2019.drop_duplicates(subset='DOCUMENTO', keep='first')
carteiraJulho2019 = carteiraJulho2019.drop_duplicates(subset='DOCUMENTO', keep='first')

carteiraDezembro2018.shape

(4277, 4)

In [26]:
# carteiraJunho2019[carteiraJunho2019['SEGMENTO_VALOR'] == 'NA']

# SEGMENTAÇÃO 2018

In [27]:
# quantidade de clientes por segmentação em outubro 2018
segOut2018 = carteiraOutubro2018[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count() #.plot(kind='bar')
# segOut2018.plot(kind='bar', title='Outubro 2018')
segOut2018 = segOut2018.rename(columns={"DOCUMENTO": "OUT2018"})
segOut2018
# data = data[['DOCUMENTO']]
# data = (100. * data / data.sum()).round(2).plot(kind='bar', title='Outubro 2018')

Unnamed: 0_level_0,OUT2018
SEGMENTO_VALOR,Unnamed: 1_level_1
,7
Vip 1,35
Vip 2,7
Vip 3,1867
Vip 4,1988
Vip 5,315
Vip 6,475
Vip 7,72


In [28]:
# quantidade de clientes por segmentação em novembro 2018
segNov2018 = carteiraNovembro2018[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segNov2018 = segNov2018.rename(columns={"DOCUMENTO": "NOV2018"})
segNov2018

Unnamed: 0_level_0,NOV2018
SEGMENTO_VALOR,Unnamed: 1_level_1
,3
Vip 1,32
Vip 2,6
Vip 3,1730
Vip 4,1864
Vip 5,293
Vip 6,421
Vip 7,67


In [29]:
# quantidade de clientes por segmentação em dezembro 2018
segDez2018 = carteiraDezembro2018[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segDez2018 = segDez2018.rename(columns={"DOCUMENTO": "DEZ2018"})
segDez2018

Unnamed: 0_level_0,DEZ2018
SEGMENTO_VALOR,Unnamed: 1_level_1
,5
Vip 1,28
Vip 2,6
Vip 3,1662
Vip 4,1832
Vip 5,273
Vip 6,413
Vip 7,58


## Consolidado 2018

In [30]:
seg2018 = pd.concat([segOut2018, segNov2018, segDez2018], axis=1).reindex(segOut2018.index).fillna(0)
# seg2018 = (100. * seg2018 / seg2018.sum()).round(2)
seg2018

Unnamed: 0_level_0,OUT2018,NOV2018,DEZ2018
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
,7,3,5
Vip 1,35,32,28
Vip 2,7,6,6
Vip 3,1867,1730,1662
Vip 4,1988,1864,1832
Vip 5,315,293,273
Vip 6,475,421,413
Vip 7,72,67,58


# SEGMENTAÇÃO 2019

## SEGMENTAÇÃO DE CLIENTES JANEIRO 2019

In [31]:
# quantidade de clientes por segmentação em Janeiro 2019
segJan2019 = carteiraJaneiro2019[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segJan2019 = segJan2019.rename(columns={"DOCUMENTO": "JAN2019"})
segJan2019

Unnamed: 0_level_0,JAN2019
SEGMENTO_VALOR,Unnamed: 1_level_1
,6
Vip 1,34
Vip 2,6
Vip 3,1721
Vip 4,1860
Vip 5,282
Vip 6,416
Vip 7,53


## SEGMENTAÇÃO DE CLIENTES FEVEREIRO 2019

In [32]:
# quantidade de clientes por segmentação em Fevereiro 2019
segFev2019 = carteiraFevereiro2019[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segFev2019 = segFev2019.rename(columns={"DOCUMENTO": "FEV2019"})
segFev2019

Unnamed: 0_level_0,FEV2019
SEGMENTO_VALOR,Unnamed: 1_level_1
Vip 1,33
Vip 2,8
Vip 3,2008
Vip 4,1962
Vip 5,201
Vip 6,392
Vip 7,30


## SEGMENTAÇÃO DE CLIENTES MARÇO 2019

In [33]:
# quantidade de clientes por segmentação em Março 2019
segMar2019 = carteiraMarco2019[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segMar2019 = segMar2019.rename(columns={"DOCUMENTO": "MAR2018"})
segMar2019

Unnamed: 0_level_0,MAR2018
SEGMENTO_VALOR,Unnamed: 1_level_1
Vip 1,16
Vip 2,3
Vip 3,856
Vip 4,914
Vip 5,97
Vip 6,149
Vip 7,24


## SEGMENTAÇÃO DE CLIENTES ABRIL 2019

In [34]:
segAbr2019 = carteiraAbril2019[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segAbr2019 = segAbr2019.rename(columns={"DOCUMENTO": "ABR2019"})
segAbr2019

Unnamed: 0_level_0,ABR2019
SEGMENTO_VALOR,Unnamed: 1_level_1
Vip 1,15
Vip 2,2
Vip 3,880
Vip 4,1022
Vip 5,104
Vip 6,164
Vip 7,34


## SEGMENTAÇÃO DE CLIENTES MAIO 2019

In [35]:
segMai2019 = carteiraMaio2019[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segMai2019 = segMai2019.rename(columns={"DOCUMENTO": "MAI2019"})
segMai2019

Unnamed: 0_level_0,MAI2019
SEGMENTO_VALOR,Unnamed: 1_level_1
,8
Vip 1,19
Vip 2,5
Vip 3,1038
Vip 4,1085
Vip 5,126
Vip 6,178
Vip 7,30


## SEGMENTAÇÃO DE CLIENTES JUNHO 2019


In [36]:
segJun2019 = carteiraJunho2019[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segJun2019 = segJun2019.rename(columns={"DOCUMENTO": "JUN2019"})
segJun2019

Unnamed: 0_level_0,JUN2019
SEGMENTO_VALOR,Unnamed: 1_level_1
,76
Vip 1,24
Vip 2,30
Vip 3,964
Vip 4,912
Vip 5,123
Vip 6,181
Vip 7,42


## SEGMENTAÇÃO DE CLIENTES JULHO 2019


In [37]:
segJul2019 = carteiraJulho2019[['SEGMENTO_VALOR', 'DOCUMENTO']].groupby(['SEGMENTO_VALOR']).count()
segJul2019 = segJul2019.rename(columns={"DOCUMENTO": "JUL2019"})
segJul2019

Unnamed: 0_level_0,JUL2019
SEGMENTO_VALOR,Unnamed: 1_level_1
,34
Vip 1,8
Vip 2,12
Vip 3,852
Vip 4,860
Vip 5,113
Vip 6,186
Vip 7,28


## Consolidado 2019

In [38]:
seg2019 = pd.concat([segJan2019, \
                     segFev2019, \
                     segMar2019, \
                     segAbr2019, \
                     segMai2019, \
                     segJun2019, \
                     segJul2019 \
                    ], axis=1).reindex(segJan2019.index).fillna(0)

# seg2019 = (100. * seg2019 / seg2019.sum()).round(2)
seg2019

Unnamed: 0_level_0,JAN2019,FEV2019,MAR2018,ABR2019,MAI2019,JUN2019,JUL2019
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
,6,0.0,0.0,0.0,8,76,34
Vip 1,34,33.0,16.0,15.0,19,24,8
Vip 2,6,8.0,3.0,2.0,5,30,12
Vip 3,1721,2008.0,856.0,880.0,1038,964,852
Vip 4,1860,1962.0,914.0,1022.0,1085,912,860
Vip 5,282,201.0,97.0,104.0,126,123,113
Vip 6,416,392.0,149.0,164.0,178,181,186
Vip 7,53,30.0,24.0,34.0,30,42,28


# GERANDO OS RESULTADOS

In [39]:
seg2018 = (seg2018 / seg2018.sum())
seg2018

Unnamed: 0_level_0,OUT2018,NOV2018,DEZ2018
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
,0.001469,0.000679,0.001169
Vip 1,0.007344,0.007246,0.006547
Vip 2,0.001469,0.001359,0.001403
Vip 3,0.391733,0.391757,0.38859
Vip 4,0.417121,0.422101,0.428338
Vip 5,0.066093,0.06635,0.06383
Vip 6,0.099664,0.095335,0.096563
Vip 7,0.015107,0.015172,0.013561


In [40]:
seg2019 = (seg2019 / seg2019.sum())
seg2019

Unnamed: 0_level_0,JAN2019,FEV2019,MAR2018,ABR2019,MAI2019,JUN2019,JUL2019
SEGMENTO_VALOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
,0.00137,0.0,0.0,0.0,0.003214,0.032313,0.016245
Vip 1,0.007766,0.007121,0.007771,0.006754,0.007634,0.010204,0.003822
Vip 2,0.00137,0.001726,0.001457,0.0009,0.002009,0.012755,0.005733
Vip 3,0.393102,0.433319,0.415736,0.396218,0.417035,0.409864,0.407071
Vip 4,0.424852,0.423392,0.443905,0.460153,0.435918,0.387755,0.410893
Vip 5,0.064413,0.043375,0.04711,0.046826,0.050623,0.052296,0.053989
Vip 6,0.095021,0.084592,0.072365,0.073841,0.071515,0.076956,0.088868
Vip 7,0.012106,0.006474,0.011656,0.015308,0.012053,0.017857,0.013378


In [41]:
with pd.ExcelWriter('resultPortabilidade.xlsx') as writer:
    seg2018.to_excel(writer, sheet_name='2018')
    seg2019.to_excel(writer, sheet_name='2019')
    

# Empresas não encontradas

## 2018

In [42]:
naOut2018 = carteiraOutubro2018[carteiraOutubro2018['SEGMENTO_VALOR'] == 'NA']
# naOut2018

In [43]:
naNov2018 = carteiraNovembro2018[carteiraNovembro2018['SEGMENTO_VALOR'] == 'NA']
# naNov2018

In [44]:
naDez2018 = carteiraDezembro2018[carteiraDezembro2018['SEGMENTO_VALOR'] == 'NA']
# naDez2018

In [45]:
df2018 = [naOut2018, naNov2018, naDez2018]

In [46]:
na2018 = pd.concat(df2018, axis=0, join='outer', ignore_index=False, keys=None,
                          levels=None, names=None, verify_integrity=False, copy=True)

In [47]:
na2018 = na2018.drop_duplicates(subset='DOCUMENTO', keep='first')
print('Em 2018 foram ', na2018.shape[0], ' empresas não encontradas')

Em 2018 foram  10  empresas não encontradas


## 2019

In [48]:
naJan2019 = carteiraJaneiro2019[carteiraJaneiro2019['SEGMENTO_VALOR'] == 'NA']
# naJan2019

In [49]:
naMai2019 = carteiraMaio2019[carteiraMaio2019['SEGMENTO_VALOR'] == 'NA']
# naMai2019

In [50]:
naJun2019 = carteiraJunho2019[carteiraJunho2019['SEGMENTO_VALOR'] == 'NA']
# naJun2019

In [51]:
naJul2019 = carteiraJulho2019[carteiraJulho2019['SEGMENTO_VALOR'] == 'NA']
# naJul2019

In [52]:
df2019 = [naJan2019, naMai2019, naJun2019, naJul2019]

In [53]:
na2019 = pd.concat(df2019, axis=0, join='outer', ignore_index=False, keys=None,
                          levels=None, names=None, verify_integrity=False, copy=True)

In [54]:
na2019 = na2019.drop_duplicates(subset='DOCUMENTO', keep='first')
print('Em 2019 foram ', na2019.shape[0], ' empresas não encontradas')

Em 2019 foram  109  empresas não encontradas


## Consolidado não encontradas

In [55]:
dfGeral = [pd.concat(df2018), pd.concat(df2019)]


In [56]:
naGeral = pd.concat(dfGeral, axis=0, join='outer', ignore_index=False, keys=None,
                          levels=None, names=None, verify_integrity=False, copy=True)
# naGeral

In [57]:
naGeral = naGeral.drop_duplicates(subset='DOCUMENTO', keep='first')
print('Geral de ', naGeral.shape[0], ' empresas não encontradas')

Geral de  114  empresas não encontradas


In [58]:
with pd.ExcelWriter('semSegmentacao.xlsx') as writer:
    naGeral.to_excel(writer, sheet_name='clientes')

    