# Imports

In [1]:
import pandas as pd
import datetime
import numpy as np
from sklearn.preprocessing import LabelEncoder

# Parte 2 - Cuidando das categóricas

In [2]:
# Definindo uma função para trocar para um tipo de variável que usa menos memória
def reduz_memoria(df):

    # Criando duas listas para armazenar as colunas que selecionaremos
    colunas_int = []
    colunas_float = []

    # Laço para iterar em todas as colunas com dados do tipo "int64" e "float64"
    for coluna, tipo in enumerate(df.dtypes):

        # Selecionando as colunas com dados do tipo "int64"
        if tipo == 'int64':

            # Amazenando os nomes das colunas do tipo "int64"
            colunas_int.append(df.dtypes.index[coluna])

            # Realizando a troca para "int16"
            df[colunas_int] = df[colunas_int].astype(np.int16)
        
        # Selecionando as colunas com dados do tipo "int64"
        elif tipo == 'float64':

            # Amazenando os nomes das colunas do tipo "float64"
            colunas_float.append(df.dtypes.index[coluna])

            # Realizando a troca para "float32"
            df[colunas_float] = df[colunas_float].astype('float32')
    
    # Retornando um DataFrame com "int16" e "float32"
    return df

In [3]:
# Carregando a nova base de dados
market = pd.read_csv('market_parte_2.csv')
portifolio1 = pd.read_csv('portfolio1_parte_2.csv')
portifolio2 = pd.read_csv('portfolio2_parte_2.csv')
portifolio3 = pd.read_csv('portfolio3_parte_2.csv')


market = reduz_memoria(market)
portifolio1 = reduz_memoria(portifolio1)

# Transformando a variável 'dt_situacao' para o formato datetime
#portifolio1['dt_situacao'] = portifolio1['dt_situacao'].apply(lambda x: datetime.date(day=int(x.split('-')[2]),
#                                                                                      month=int(x.split('-')[1]),
#                                                                                      year=int(x.split('-')[0])))

index_e_data_portifolio1 = portifolio1[['id', 'dt_situacao']]
index_e_data_market = market[['id', 'dt_situacao']]

portifolio1.drop(index_e_data_portifolio1, axis=1, inplace=True)
market.drop(index_e_data_market, axis=1, inplace=True)

# Selecionando as variáveis categóricas
categoricas_portifolio1 = [coluna for coluna in portifolio1.dtypes[portifolio1.dtypes == 'object'].index if coluna != ['id', 'dt_situacao']]
categoricas_market = [coluna for coluna in market.dtypes[market.dtypes == 'object'].index if coluna != ['id', 'dt_situacao']]

In [4]:
portifolio1.columns.to_list()

['fl_matriz',
 'de_natureza_juridica',
 'sg_uf',
 'natureza_juridica_macro',
 'de_ramo',
 'setor',
 'idade_empresa_anos',
 'idade_emp_cat',
 'fl_me',
 'fl_sa',
 'fl_mei',
 'fl_email',
 'fl_telefone',
 'fl_rm',
 'nm_divisao',
 'nm_segmento',
 'fl_antt',
 'fl_veiculo',
 'fl_optante_simples',
 'vl_total_veiculos_pesados_grupo',
 'vl_total_veiculos_leves_grupo',
 'fl_optante_simei',
 'sg_uf_matriz',
 'de_saude_tributaria',
 'de_saude_rescencia',
 'nu_meses_rescencia',
 'de_nivel_atividade',
 'empsetorcensitariofaixarendapopulacao',
 'nm_meso_regiao',
 'nm_micro_regiao',
 'fl_passivel_iss',
 'qt_socios',
 'qt_socios_pf',
 'qt_socios_pj',
 'idade_media_socios',
 'idade_maxima_socios',
 'idade_minima_socios',
 'qt_socios_st_regular',
 'de_faixa_faturamento_estimado',
 'de_faixa_faturamento_estimado_grupo',
 'vl_faturamento_estimado_aux',
 'vl_faturamento_estimado_grupo_aux',
 'qt_filiais']

In [5]:
['id',
            'fl_matriz',
            'de_natureza_juridica',
            'sg_uf',
            'setor',
            'idade_emp_cat',
            'fl_email',
            'fl_telefone',
            'fl_rm',
            'nm_divisao',
            'nm_segmento',
            'fl_veiculo',
            'fl_optante_simples',
            'fl_optante_simei',
            'de_saude_tributaria',
            'de_nivel_atividade',
            'empsetorcensitariofaixarendapopulacao',
            'nm_meso_regiao',
            'nm_micro_regiao',
            'fl_passivel_iss',
            'qt_socios',
            'idade_media_socios',
            'de_faixa_faturamento_estimado',
            'de_faixa_faturamento_estimado_grupo',
            'qt_filiais']


['id',
 'fl_matriz',
 'de_natureza_juridica',
 'sg_uf',
 'setor',
 'idade_emp_cat',
 'fl_email',
 'fl_telefone',
 'fl_rm',
 'nm_divisao',
 'nm_segmento',
 'fl_veiculo',
 'fl_optante_simples',
 'fl_optante_simei',
 'de_saude_tributaria',
 'de_nivel_atividade',
 'empsetorcensitariofaixarendapopulacao',
 'nm_meso_regiao',
 'nm_micro_regiao',
 'fl_passivel_iss',
 'qt_socios',
 'idade_media_socios',
 'de_faixa_faturamento_estimado',
 'de_faixa_faturamento_estimado_grupo',
 'qt_filiais']

In [6]:
# Selecionando features por maior correlação


In [7]:
# Selecionando as variáveis categóricas COM ordenação
cat_COM_ordem = ['idade_emp_cat', 
                 'de_saude_rescencia', 
                 'de_nivel_atividade', 
                 'de_faixa_faturamento_estimado', 
                 'de_faixa_faturamento_estimado_grupo']

# Criando uma lista que armazena as variáveis categóricas SEM ordenação mais importantes
cat_SEM_ordem = ['de_natureza_juridica',
                 'sg_uf',
                 'de_ramo',
                 'setor', 
                 'nm_divisao', 
                 'nm_segmento',
                 'de_saude_tributaria']

cat_SEM_ordem = []

# Laço que itera em todas as variáveis categóricas
for coluna in categoricas_portifolio1:

    # Separando as variáveis categóricas SEM ordenação
    if coluna not in cat_COM_ordem:

        # Armaxenando as variáveis categóricas SEM ordenação em sua respectiva lista
        cat_SEM_ordem.append(coluna)

In [8]:
pd.set_option('display.max_columns', market.shape[1] + 1)
portifolio1.head(3)
for coluna in cat_SEM_ordem:
    print(len(cat_SEM_ordem))
    print(f'\n\n\n{coluna}===\n\n{market[coluna].unique()}\n\n\n')

14



de_natureza_juridica===

['SOCIEDADE EMPRESARIA LIMITADA' 'EMPRESARIO INDIVIDUAL' 'COOPERATIVA'
 'ASSOCIACAO PRIVADA' 'ENTIDADE SINDICAL' 'CONSORCIO DE SOCIEDADES'
 'SOCIEDADE DE ECONOMIA MISTA' 'CONDOMINIO EDILICIO'
 'ORGAO PUBLICO DO PODER EXECUTIVO FEDERAL' 'MUNICIPIO'
 'ORGAO DE DIRECAO LOCAL DE PARTIDO POLITICO' 'SOCIEDADE ANONIMA ABERTA'
 'EMPRESA INDIVIDUAL DE RESPONSABILIDADE LIMITADA DE NATUREZA EMPRESARIA'
 'CANDIDATO A CARGO POLITICO ELETIVO' 'EMPRESA INDIVIDUAL IMOBILIARIA'
 'ORGAO PUBLICO DO PODER EXECUTIVO ESTADUAL OU DO DISTRITO FEDERAL'
 'SOCIEDADE SIMPLES LIMITADA' 'FUNDACAO PRIVADA'
 'ORGAO PUBLICO DO PODER EXECUTIVO MUNICIPAL' 'SOCIEDADE ANONIMA FECHADA'
 'ORGANIZACAO RELIGIOSA' 'SOCIEDADE UNIPESSOAL DE ADVOCACIA'
 'SOCIEDADE SIMPLES PURA' 'AUTARQUIA FEDERAL'
 'ORGAO PUBLICO DO PODER JUDICIARIO ESTADUAL' 'EMPRESA PUBLICA'
 'SOCIEDADE EMPRESARIA EM NOME COLETIVO' 'AUTARQUIA MUNICIPAL'
 'FUNDO PUBLICO' 'AUTARQUIA ESTADUAL OU DO DISTRITO FEDERAL'
 'FUNDACAO PUBLIC

In [9]:
# Criando alguns dicionários para transformar as variáveis categóricas COM 
#   ordenação em variáveis numéricas

dicionarios = {'idade_emp_cat': {'<= 1': 0,
                                 '1 a 5': 1,
                                 '5 a 10': 2, 
                                 '10 a 15': 3, 
                                 '15 a 20': 4, 
                                 '> 20': 5
                                 }, 
               
               'de_saude_rescencia': {'SEM INFORMACAO': 0, 
                                      'ATE 3 MESES': 1, 
                                      'ATE 6 MESES': 2, 
                                      'ATE 1 ANO': 3, 
                                      'ACIMA DE 1 ANO': 4
                                      }, 
               
               'de_nivel_atividade': {'MUITO BAIXA': 0, 
                                      'BAIXA': 1, 
                                      'MEDIA': 2, 
                                      'ALTA': 3
                                      }, 
               
               'de_faixa_faturamento_estimado': {'SEM INFORMACAO': 0, 
                                                 'ATE R$ 81.000,00': 1, 
                                                 'DE R$ 81.000,01 A R$ 360.000,00': 2, 
                                                 'DE R$ 360.000,01 A R$ 1.500.000,00': 3, 
                                                 'DE R$ 1.500.000,01 A R$ 4.800.000,00': 4, 
                                                 'DE R$ 4.800.000,01 A R$ 10.000.000,00': 5, 
                                                 'DE R$ 10.000.000,01 A R$ 30.000.000,00': 6, 
                                                 'DE R$ 30.000.000,01 A R$ 100.000.000,00': 7, 
                                                 'DE R$ 100.000.000,01 A R$ 300.000.000,00': 8, 
                                                 'DE R$ 300.000.000,01 A R$ 500.000.000,00': 9, 
                                                 'DE R$ 500.000.000,01 A 1 BILHAO DE REAIS': 10, 
                                                 'ACIMA DE 1 BILHAO DE REAIS': 11
                                                 }, 
               
               'de_faixa_faturamento_estimado_grupo': {'ATE R$ 81.000,00': 1, 
                                                       'DE R$ 81.000,01 A R$ 360.000,00': 2, 
                                                       'DE R$ 360.000,01 A R$ 1.500.000,00': 3, 
                                                       'DE R$ 1.500.000,01 A R$ 4.800.000,00': 4, 
                                                       'DE R$ 4.800.000,01 A R$ 10.000.000,00': 5, 
                                                       'DE R$ 10.000.000,01 A R$ 30.000.000,00': 6, 
                                                       'DE R$ 30.000.000,01 A R$ 100.000.000,00': 7, 
                                                       'DE R$ 300.000.000,01 A R$ 500.000.000,00': 8, 
                                                       'DE R$ 100.000.000,01 A R$ 300.000.000,00': 9, 
                                                       'DE R$ 500.000.000,01 A 1 BILHAO DE REAIS': 10, 
                                                       'ACIMA DE 1 BILHAO DE REAIS': 11
                                                       }
}

In [10]:
portifolio1.de_nivel_atividade

0      BAIXA
1      MEDIA
2      MEDIA
3       ALTA
4       ALTA
       ...  
550    MEDIA
551    BAIXA
552    MEDIA
553    BAIXA
554    MEDIA
Name: de_nivel_atividade, Length: 555, dtype: object

In [11]:
# Tratando as categóricas ordinais
for coluna in cat_COM_ordem:
    portifolio1[coluna] = portifolio1[coluna].map(dicionarios[coluna])
print(f'portifolio1 ==> {portifolio1.shape}')

# Tratando as categóricas ordinais
for coluna in cat_COM_ordem:
    market[coluna] = market[coluna].map(dicionarios[coluna])
print(f'market ==> {market.shape}')

portifolio1 ==> (555, 43)
market ==> (462298, 47)


In [12]:
portifolio1.de_nivel_atividade

0      1.0
1      2.0
2      2.0
3      3.0
4      3.0
      ... 
550    2.0
551    1.0
552    2.0
553    1.0
554    2.0
Name: de_nivel_atividade, Length: 555, dtype: float64

In [13]:
# Instanciando uma classe LabelEncoder
LE = LabelEncoder()

# Aplicando o LabelEncoder nas colunas categóricas sem ordenação
portifolio1[cat_SEM_ordem] = portifolio1[cat_SEM_ordem].apply(lambda x: LE.fit_transform(x.astype(str)))
market[cat_SEM_ordem] = market[cat_SEM_ordem].apply(lambda x: LE.fit_transform(x.astype(str)))
market.head(10)

Unnamed: 0,fl_matriz,de_natureza_juridica,sg_uf,natureza_juridica_macro,de_ramo,setor,idade_empresa_anos,idade_emp_cat,fl_me,fl_sa,fl_mei,fl_ltda,fl_st_especial,fl_email,fl_telefone,fl_rm,nm_divisao,nm_segmento,fl_spa,fl_antt,fl_veiculo,fl_optante_simples,vl_total_veiculos_pesados_grupo,vl_total_veiculos_leves_grupo,fl_optante_simei,sg_uf_matriz,de_saude_tributaria,de_saude_rescencia,nu_meses_rescencia,de_nivel_atividade,fl_simples_irregular,empsetorcensitariofaixarendapopulacao,nm_meso_regiao,nm_micro_regiao,fl_passivel_iss,qt_socios,qt_socios_pf,qt_socios_pj,idade_media_socios,idade_maxima_socios,idade_minima_socios,qt_socios_st_regular,de_faixa_faturamento_estimado,de_faixa_faturamento_estimado_grupo,vl_faturamento_estimado_aux,vl_faturamento_estimado_grupo_aux,qt_filiais
0,1,60,4,2,11,2,14.457534,3,0,0,0,0,0,1,1,1,32,10,False,False,False,1,0.0,0.0,0,19,4,4.0,23.0,3.0,False,,6,48,True,2.0,2.0,0.0,44.0,47.0,41.0,2.0,4.0,4.0,3132172.75,3132172.75,0
1,1,17,3,5,21,4,1.463014,1,0,0,1,0,0,1,1,1,3,3,False,False,False,2,0.0,0.0,2,16,2,3.0,9.0,1.0,False,468.929993,4,69,True,1.0,1.0,0.0,27.0,27.0,27.0,1.0,2.0,2.0,210000.0,210000.0,0
2,1,17,1,5,32,4,7.093151,2,0,0,1,0,0,0,1,1,86,20,False,False,False,1,0.0,0.0,1,2,0,4.0,26.0,2.0,False,713.5,2,43,True,1.0,1.0,0.0,32.0,32.0,32.0,,1.0,1.0,50000.0,50000.0,0
3,1,17,1,5,25,4,6.512329,2,0,0,0,0,0,1,1,1,74,17,False,False,False,1,0.0,0.0,0,2,0,4.0,26.0,2.0,False,475.730011,2,43,True,1.0,1.0,0.0,36.0,36.0,36.0,1.0,2.0,2.0,210000.0,210000.0,0
4,1,17,4,5,27,4,3.2,1,0,0,0,0,0,1,1,1,77,8,False,False,False,1,0.0,0.0,0,19,4,4.0,27.0,3.0,False,2874.040039,6,48,True,1.0,1.0,0.0,,,,,2.0,2.0,210000.0,210000.0,0
5,1,60,4,2,18,3,38.079453,5,0,0,0,0,0,0,0,0,55,13,False,False,False,0,0.0,0.0,0,19,3,4.0,48.0,3.0,False,,11,50,False,,,,,,,,2.0,2.0,210000.0,210000.0,0
6,1,17,2,5,32,4,7.276712,2,0,0,1,0,0,1,0,1,86,20,False,False,False,1,0.0,0.0,1,9,0,4.0,23.0,2.0,False,,8,0,True,1.0,1.0,0.0,63.0,63.0,63.0,1.0,1.0,1.0,50000.0,50000.0,0
7,1,17,4,5,20,4,0.052055,0,0,0,1,0,0,1,1,1,1,5,False,False,False,2,0.0,0.0,2,19,6,,,3.0,False,,6,48,True,1.0,1.0,0.0,40.0,40.0,40.0,1.0,,,,,0
8,1,12,1,2,2,3,12.263014,3,0,0,0,0,0,0,1,0,56,13,False,False,False,1,0.0,0.0,0,2,1,4.0,24.0,3.0,False,247.880005,2,49,True,2.0,2.0,0.0,36.0,36.0,36.0,1.0,2.0,2.0,210000.0,210000.0,0
9,0,17,4,5,5,1,17.942465,4,0,0,0,0,0,0,0,0,30,9,False,False,False,0,0.0,0.0,0,19,5,4.0,54.0,2.0,False,1042.849976,11,47,False,1.0,1.0,0.0,52.0,52.0,52.0,,2.0,3.0,210000.0,840000.0,3


In [14]:
print(f'portifolio1 ==> {portifolio1.shape}')
print(f'market ==> {market.shape}')

portifolio1 ==> (555, 43)
market ==> (462298, 47)


In [15]:
#sem_cat_market = pd.DataFrame()
#sem_cat_portifolio1 = pd.DataFrame()

#for coluna in cat_SEM_ordem:
#    sem_cat_market = pd.concat([sem_cat_market, pd.get_dummies(market[coluna], dummy_na=True)]
#    sem_cat_portifolio1 = pd.concat([sem_cat_portifolio1, pd.get_dummies(portifolio1[coluna], dummy_na=True)]

In [16]:
#portifolio1 = portifolio1.join(sem_cat_portifolio1, how='outer')
#portifolio1.drop(cat_SEM_ordem, axis=1, inplace=True)
#print(f'portifolio1 ==> {portifolio1.shape}')

#market = market.join(sem_cat_market, how='outer')
#market.drop(cat_SEM_ordem, axis=1, inplace=True)
#print(f'market ==> {market.shape}')

In [17]:
portifolio1.isna().sum()[portifolio1.isna().sum() > 0]

de_saude_rescencia                        11
nu_meses_rescencia                        47
de_nivel_atividade                         4
empsetorcensitariofaixarendapopulacao    150
qt_socios                                147
qt_socios_pf                             147
qt_socios_pj                             147
idade_media_socios                       193
idade_maxima_socios                      193
idade_minima_socios                      193
qt_socios_st_regular                     195
de_faixa_faturamento_estimado             25
de_faixa_faturamento_estimado_grupo       25
vl_faturamento_estimado_aux               25
vl_faturamento_estimado_grupo_aux         25
dtype: int64

In [18]:
market.isna().sum()[market.isna().sum() > 0]

fl_spa                                     1927
fl_antt                                    1927
fl_veiculo                                 1927
vl_total_veiculos_pesados_grupo            1927
vl_total_veiculos_leves_grupo              1927
de_saude_rescencia                        14851
nu_meses_rescencia                        45276
de_nivel_atividade                        11168
fl_simples_irregular                       1927
empsetorcensitariofaixarendapopulacao    143829
fl_passivel_iss                            1927
qt_socios                                115091
qt_socios_pf                             115091
qt_socios_pj                             115091
idade_media_socios                       151602
idade_maxima_socios                      151602
idade_minima_socios                      151602
qt_socios_st_regular                     154917
de_faixa_faturamento_estimado             27513
de_faixa_faturamento_estimado_grupo       27513
vl_faturamento_estimado_aux             

In [19]:
for coluna in portifolio1.columns:
    
    media = portifolio1[coluna].mean()
    portifolio1[coluna].fillna(media, inplace=True)
    
for coluna in market.columns:
    
    media = market[coluna].mean()
    market[coluna].fillna(media, inplace=True)

In [20]:
portifolio1.isna().sum()[portifolio1.isna().sum() > 0]

Series([], dtype: int64)

In [21]:
market.isna().sum()[market.isna().sum() > 0]

Series([], dtype: int64)

In [22]:
portifolio1 = pd.concat([index_e_data_portifolio1, portifolio1], axis=1)
market = pd.concat([index_e_data_market, market], axis=1)

In [23]:
portifolio1.iloc[:, :-1].to_csv('portfolio1_parte_3.csv', index=False)
market.iloc[:, :-1].to_csv('market_parte_3.csv', index=False)