<B>TCC PUC MINAS - MAIO/2022</B><BR>
ANÁLISE DE PARCELAMENTO DE DÉBITOS INSCRITOS EM DÍVIDA ATIVA DA UNIÃO ATRAVÉS DE MACHINE LEARNING<BR>
FELIPE MARTINS<BR>

07 - CONVERTENDO TIPO DE DADOS PARA DADOS QUANTITATIVOS
    
Tempo aproximado de processamento: 5 minutos

# 1. Prepraro inicial

In [1]:
import pandas as pd
from sklearn.model_selection import StratifiedShuffleSplit

In [2]:
%%time
# IMPORTANDO O DATASET
df = pd.read_csv("06_dataset_final_com_dados_categoricos.csv")

Wall time: 24.9 s


In [3]:
df = df.drop(columns=['Unnamed: 0'])

In [4]:
df.head()

Unnamed: 0,TIPO_PESSOA,TIPO_SITUACAO_INSCRICAO,SITUACAO_INSCRICAO,RECEITA_PRINCIPAL,INDICADOR_AJUIZADO,HA_OUTROS_DEBITOS,INSC_>1_ANO,VALOR_CONSOLIDADO,VALOR_FAIXA,SIT_CADAST,CNAE_PRINC,NAT_JURID,PORTE,ATIV_>10_ANOS,PARCELADO
0,PJ,Em cobrança,ATIVA EM COBRANCA,SIMPLES NACIONAL,NAO,S,S,55464.4,6.0,4.0,47.0,2062.0,3.0,S,N
1,PJ,Em cobrança,ATIVA AJUIZADA,Multa - CLT,SIM,S,S,55446.4,6.0,4.0,46.0,2062.0,5.0,S,N
2,PF,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,OUTROS,NAO,S,N,3182.7,2.0,,,,,,S
3,PJ,Em cobrança,ATIVA AJUIZADA,COFINS,SIM,S,S,3457828.22,9.0,8.0,26.0,2054.0,5.0,S,N
4,PJ,Em cobrança,ATIVA EM COBRANCA,Multa Isolada,NAO,N,S,1521.3,2.0,4.0,41.0,2062.0,1.0,S,N


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14992922 entries, 0 to 14992921
Data columns (total 15 columns):
 #   Column                   Dtype  
---  ------                   -----  
 0   TIPO_PESSOA              object 
 1   TIPO_SITUACAO_INSCRICAO  object 
 2   SITUACAO_INSCRICAO       object 
 3   RECEITA_PRINCIPAL        object 
 4   INDICADOR_AJUIZADO       object 
 5   HA_OUTROS_DEBITOS        object 
 6   INSC_>1_ANO              object 
 7   VALOR_CONSOLIDADO        float64
 8   VALOR_FAIXA              float64
 9   SIT_CADAST               float64
 10  CNAE_PRINC               float64
 11  NAT_JURID                float64
 12  PORTE                    float64
 13  ATIV_>10_ANOS            object 
 14  PARCELADO                object 
dtypes: float64(6), object(9)
memory usage: 1.7+ GB


### Reduzindo a quantidade de linhas do dataset (redução de numerosidade / amostragem estratificada)

In [6]:
# Contando a quantidade de classes no dataset original
df['PARCELADO'].value_counts()

N    11540162
S     3452760
Name: PARCELADO, dtype: int64

In [7]:
3452760 / len(df)  # proporção da classe minoritária. Após o split conferir se será mantida.

0.23029266743333954

In [8]:
%%time
# Dividindo o dataset
split = StratifiedShuffleSplit(test_size=0.05)
for x, y in split.split(df, df['PARCELADO']):
    df1 = df.iloc[x]  # 95% dos dados
    df2 = df.iloc[y]  # 5% dos dados. Utilizar essa.

Wall time: 4min 15s


In [9]:
# Resultado da divisão
print("dataset original: ",df.shape)
print("dataset 95%: ",df1.shape)
print("dataset 5% - nossa amostra: ",df2.shape)

dataset original:  (14992922, 15)
dataset 95%:  (14243275, 15)
dataset 5% - nossa amostra:  (749647, 15)


In [10]:
# Contando a quantidade de classes no dataset reduzido
df2['PARCELADO'].value_counts()

N    577009
S    172638
Name: PARCELADO, dtype: int64

In [11]:
172638 / len(df2)  # confirmação de que proporção da classe minoritária foi mantida.

0.23029239095200807

In [12]:
df2

Unnamed: 0,TIPO_PESSOA,TIPO_SITUACAO_INSCRICAO,SITUACAO_INSCRICAO,RECEITA_PRINCIPAL,INDICADOR_AJUIZADO,HA_OUTROS_DEBITOS,INSC_>1_ANO,VALOR_CONSOLIDADO,VALOR_FAIXA,SIT_CADAST,CNAE_PRINC,NAT_JURID,PORTE,ATIV_>10_ANOS,PARCELADO
1419707,PJ,Em cobrança,ATIVA EM COBRANCA,IRPJ,NAO,S,S,982303.77,8.0,4.0,71.0,2062.0,1.0,S,N
7240218,PJ,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,COFINS,NAO,S,S,1310.36,2.0,2.0,86.0,2135.0,1.0,S,S
8072359,PJ,Em cobrança,ATIVA AJUIZADA,COFINS,SIM,S,S,250254.82,7.0,4.0,85.0,2240.0,5.0,S,N
6579675,PJ,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,IRPJ,NAO,S,N,2362.03,2.0,2.0,41.0,2305.0,3.0,N,S
12352983,PJ,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,CSLL,NAO,S,S,2654.63,2.0,2.0,70.0,2062.0,1.0,S,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9569274,PJ,Em cobrança,ATIVA EM COBRANCA,IRPJ,NAO,S,S,4773.30,2.0,2.0,56.0,2062.0,1.0,N,N
3118302,PJ,Em cobrança,ATIVA A SER AJUIZADA,IRPJ,NAO,S,S,4495.06,2.0,2.0,47.0,2135.0,1.0,S,N
4351186,PJ,Em cobrança,ATIVA EM COBRANCA,Multa Isolada,NAO,N,S,1374.01,2.0,2.0,68.0,2054.0,5.0,S,N
14139953,PJ,Em cobrança,ATIVA EM COBRANCA,COFINS,NAO,S,N,99483.59,6.0,2.0,28.0,2062.0,5.0,S,N


### Verificação do dataset reduzido

In [13]:
# CHECANDO SE HÁ DADOS NULOS / NAN (NOT A NUMBER)
# RESULTADO: COLUNAS VINDAS DA BASE CNPJ POSSUEM MAIS DE 2 MILHÕES DE DADOS NULOS. SE REFEREM AOS DEBITOS DE PESSOA FÍSICA, QUE, OBVIAMENTE, NÃO TÊM REGISTRO NA BASE CNPJ.
df2.isna().sum()

TIPO_PESSOA                     0
TIPO_SITUACAO_INSCRICAO         0
SITUACAO_INSCRICAO              0
RECEITA_PRINCIPAL               0
INDICADOR_AJUIZADO              0
HA_OUTROS_DEBITOS               0
INSC_>1_ANO                     0
VALOR_CONSOLIDADO               0
VALOR_FAIXA                     0
SIT_CADAST                 138293
CNAE_PRINC                 138293
NAT_JURID                  138305
PORTE                      138305
ATIV_>10_ANOS              138293
PARCELADO                       0
dtype: int64

In [14]:
df2['TIPO_PESSOA'].value_counts()  #contador de frequência

PJ    611442
PF    138205
Name: TIPO_PESSOA, dtype: int64

In [15]:
# SUBSTITUINDO DADOS NULOS / NAN POR ZERO PARA EVITAR ERROS NAS CONVERSÕES
df2.fillna(value = 0, inplace = True)
df2.isna().sum()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


TIPO_PESSOA                0
TIPO_SITUACAO_INSCRICAO    0
SITUACAO_INSCRICAO         0
RECEITA_PRINCIPAL          0
INDICADOR_AJUIZADO         0
HA_OUTROS_DEBITOS          0
INSC_>1_ANO                0
VALOR_CONSOLIDADO          0
VALOR_FAIXA                0
SIT_CADAST                 0
CNAE_PRINC                 0
NAT_JURID                  0
PORTE                      0
ATIV_>10_ANOS              0
PARCELADO                  0
dtype: int64

In [16]:
# ENUMERA A QDE DE VARIAÇÕES DE CADA COLUNA
df2.nunique()

TIPO_PESSOA                     2
TIPO_SITUACAO_INSCRICAO         5
SITUACAO_INSCRICAO             83
RECEITA_PRINCIPAL              13
INDICADOR_AJUIZADO              2
HA_OUTROS_DEBITOS               2
INSC_>1_ANO                     2
VALOR_CONSOLIDADO          609542
VALOR_FAIXA                    10
SIT_CADAST                      6
CNAE_PRINC                     81
NAT_JURID                      59
PORTE                           4
ATIV_>10_ANOS                   3
PARCELADO                       2
dtype: int64

In [17]:
df2.dtypes

TIPO_PESSOA                 object
TIPO_SITUACAO_INSCRICAO     object
SITUACAO_INSCRICAO          object
RECEITA_PRINCIPAL           object
INDICADOR_AJUIZADO          object
HA_OUTROS_DEBITOS           object
INSC_>1_ANO                 object
VALOR_CONSOLIDADO          float64
VALOR_FAIXA                float64
SIT_CADAST                 float64
CNAE_PRINC                 float64
NAT_JURID                  float64
PORTE                      float64
ATIV_>10_ANOS               object
PARCELADO                   object
dtype: object

## PARTE 2 - NORMALIZANDO VARIÁVEIS CONTÍNUAS
MÉTODO: MinMaxScaler

In [18]:
%%time
from sklearn.preprocessing import MinMaxScaler
variaveis_continuas = ['VALOR_FAIXA', 'VALOR_CONSOLIDADO']
scaler = MinMaxScaler()
df2[variaveis_continuas] = scaler.fit_transform(df2[variaveis_continuas])
df2[variaveis_continuas]

Wall time: 156 ms


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[col] = igetitem(value, i)


Unnamed: 0,VALOR_FAIXA,VALOR_CONSOLIDADO
1419707,0.777778,1.024026e-04
7240218,0.111111,1.364299e-07
8072359,0.666667,2.608829e-05
6579675,0.111111,2.460639e-07
12352983,0.111111,2.765668e-07
...,...,...
9569274,0.111111,4.974330e-07
3118302,0.111111,4.684272e-07
4351186,0.111111,1.430652e-07
14139953,0.555556,1.037075e-05


## PARTE 3 - CONVERTENDO VARIÁVEIS CATEGÓRICAS BINÁRIAS
MÉTODO: REPLACE

In [19]:
%%time
df2['TIPO_PESSOA'] = df2['TIPO_PESSOA'].replace(['PJ','PF'],['1','0'])
df2['INDICADOR_AJUIZADO'] = df2['INDICADOR_AJUIZADO'].replace(['SIM','NAO'],['1','0'])
df2['HA_OUTROS_DEBITOS'] = df2['HA_OUTROS_DEBITOS'].replace(['S','N'],['1','0'])
df2['INSC_>1_ANO'] = df2['INSC_>1_ANO'].replace(['S','N'],['1','0'])
df2['ATIV_>10_ANOS'] = df2['ATIV_>10_ANOS'].replace(['S','N'],['1','0'])
df2['PARCELADO'] = df2['PARCELADO'].replace(['S','N'],['1','0'])
df2.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user

Wall time: 566 ms


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,TIPO_PESSOA,TIPO_SITUACAO_INSCRICAO,SITUACAO_INSCRICAO,RECEITA_PRINCIPAL,INDICADOR_AJUIZADO,HA_OUTROS_DEBITOS,INSC_>1_ANO,VALOR_CONSOLIDADO,VALOR_FAIXA,SIT_CADAST,CNAE_PRINC,NAT_JURID,PORTE,ATIV_>10_ANOS,PARCELADO
1419707,1,Em cobrança,ATIVA EM COBRANCA,IRPJ,0,1,1,0.0001024026,0.777778,4.0,71.0,2062.0,1.0,1,0
7240218,1,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,COFINS,0,1,1,1.364299e-07,0.111111,2.0,86.0,2135.0,1.0,1,1
8072359,1,Em cobrança,ATIVA AJUIZADA,COFINS,1,1,1,2.608829e-05,0.666667,4.0,85.0,2240.0,5.0,1,0
6579675,1,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,IRPJ,0,1,0,2.460639e-07,0.111111,2.0,41.0,2305.0,3.0,0,1
12352983,1,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,CSLL,0,1,1,2.765668e-07,0.111111,2.0,70.0,2062.0,1.0,1,1


In [20]:
%%time
# CONVERTENDO TIPO DE DADOS PARA INTEIRO
df2["TIPO_PESSOA"] = df2["TIPO_PESSOA"].astype("int64")
df2["INDICADOR_AJUIZADO"] = df2["INDICADOR_AJUIZADO"].astype("int64")
df2["HA_OUTROS_DEBITOS"] = df2["HA_OUTROS_DEBITOS"].astype("int64")
df2["INSC_>1_ANO"] = df2["INSC_>1_ANO"].astype("int64")
df2["ATIV_>10_ANOS"] = df2["ATIV_>10_ANOS"].astype("int64")
df2["PARCELADO"] = df2["PARCELADO"].astype("int64")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user

Wall time: 478 ms


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


In [21]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 749647 entries, 1419707 to 10318597
Data columns (total 15 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   TIPO_PESSOA              749647 non-null  int64  
 1   TIPO_SITUACAO_INSCRICAO  749647 non-null  object 
 2   SITUACAO_INSCRICAO       749647 non-null  object 
 3   RECEITA_PRINCIPAL        749647 non-null  object 
 4   INDICADOR_AJUIZADO       749647 non-null  int64  
 5   HA_OUTROS_DEBITOS        749647 non-null  int64  
 6   INSC_>1_ANO              749647 non-null  int64  
 7   VALOR_CONSOLIDADO        749647 non-null  float64
 8   VALOR_FAIXA              749647 non-null  float64
 9   SIT_CADAST               749647 non-null  float64
 10  CNAE_PRINC               749647 non-null  float64
 11  NAT_JURID                749647 non-null  float64
 12  PORTE                    749647 non-null  float64
 13  ATIV_>10_ANOS            749647 non-null  int64  
 

## PARTE 4 - CONVERTENDO  VARIÁVEIS CATEGÓRICAS MULTICLASSE
UTILIZAÇÃO DE ENCODER WOEEncoder

In [22]:
# CONVERTENDO A CATEGORIA-ALVO (PARCELADO) PARA INTEIRO, POIS É NECESSÁRIO PARA OS ENCODERS A SEGUIR
df2["PARCELADO"] = df2["PARCELADO"].astype("int64")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2["PARCELADO"] = df2["PARCELADO"].astype("int64")


In [23]:
pip install category_encoders




In [24]:
%%time
from category_encoders import WOEEncoder

y = df2['PARCELADO']
X = df2['TIPO_SITUACAO_INSCRICAO']
encoder = WOEEncoder(cols=['TIPO_SITUACAO_INSCRICAO']).fit(X, y)
df2['COD_TIPO_SIT_INSC'] = encoder.transform(X)
df2[['TIPO_SITUACAO_INSCRICAO', 'COD_TIPO_SIT_INSC']].groupby('TIPO_SITUACAO_INSCRICAO').agg(lambda x: list(set(x))).reset_index()


Wall time: 1.64 s


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,TIPO_SITUACAO_INSCRICAO,COD_TIPO_SIT_INSC
0,Benefício Fiscal,[13.265610817016155]
1,Em cobrança,[-12.053439120593527]
2,Em negociação,[-3.3366419533286638]
3,Garantia,[-6.3643057542276695]
4,Suspenso por decisão judicial,[-5.837380068333345]


In [25]:
%%time
from category_encoders import WOEEncoder

y = df2['PARCELADO']
X = df2['SITUACAO_INSCRICAO']
encoder = WOEEncoder(cols=['SITUACAO_INSCRICAO']).fit(X, y)
df2['COD_SIT_INSC'] = encoder.transform(X)
df2[['SITUACAO_INSCRICAO', 'COD_SIT_INSC']].groupby('SITUACAO_INSCRICAO').agg(lambda x: list(set(x))).reset_index()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Wall time: 1.3 s


Unnamed: 0,SITUACAO_INSCRICAO,COD_SIT_INSC
0,ATIVA A SER AJUIZADA,[-9.848750784285208]
1,ATIVA A SER COBRADA,[-7.891190511807697]
2,ATIVA AJUIZADA,[-10.923434699084284]
3,ATIVA AJUIZADA - ART. 910 CPC - CONTENCIOSO FA...,[-0.17964153217855033]
4,ATIVA AJUIZADA - GARANTIA - CARTA FIANCA,[-3.8809435062910436]
...,...,...
78,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,[12.997050926944457]
79,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR - BLOQ...,[5.01331531871166]
80,ATIVA NAO PRIORIZADA PARA AJUIZAMENTO,[-9.434094478773053]
81,ATIVA PARCELADA TIMEMANIA-DEM ENT COM AJUIZAME...,[0.0]


In [26]:
%%time
y = df2['PARCELADO']
X = df2['RECEITA_PRINCIPAL']
encoder = WOEEncoder(cols=['RECEITA_PRINCIPAL']).fit(X, y)
df2['COD_RECEITA'] = encoder.transform(X)
df2[['RECEITA_PRINCIPAL', 'COD_RECEITA']].groupby('RECEITA_PRINCIPAL').agg(lambda x: list(set(x))).reset_index()


Wall time: 1.21 s


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,RECEITA_PRINCIPAL,COD_RECEITA
0,COFINS,[-0.06619694423417793]
1,CSLL,[0.02123659380639308]
2,IRPF,[0.18373029321957066]
3,IRPJ,[0.009147319274119804]
4,IRRF,[-0.11991071260908229]
5,Multa - CLT,[-0.4788973990601102]
6,Multa Isolada,[-0.6291436494817317]
7,OUTROS,[-0.21704902569012627]
8,PIS,[-0.14337822204361933]
9,SIMP NAC - MEI,[-1.1612239913070337]


In [27]:
%%time
y = df2['PARCELADO']
X = df2['SIT_CADAST']
encoder = WOEEncoder(cols=['SIT_CADAST']).fit(X, y)
df2['COD_SIT_CADAST'] = encoder.transform(X)
df2[['SIT_CADAST', 'COD_SIT_CADAST']].groupby('SIT_CADAST').agg(lambda x: list(set(x))).reset_index()


Wall time: 917 ms


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,SIT_CADAST,COD_SIT_CADAST
0,0.0,[-0.1108332483556772]
1,1.0,[-1.4674958204851885]
2,2.0,[0.49052188938081365]
3,3.0,[-0.7955398604045252]
4,4.0,[-1.5564705135811534]
5,8.0,[-1.0092636476935595]


In [28]:
%%time
y = df2['PARCELADO']
X = df2['CNAE_PRINC']
encoder = WOEEncoder(cols=['CNAE_PRINC']).fit(X, y)
df2['COD_CNAE_PRINC'] = encoder.transform(X)
df2[['CNAE_PRINC', 'COD_CNAE_PRINC']].groupby('CNAE_PRINC').agg(lambda x: list(set(x))).reset_index()

Wall time: 909 ms


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,CNAE_PRINC,COD_CNAE_PRINC
0,0.0,[-0.1108332483556772]
1,10.0,[-0.02581632021421384]
2,11.0,[0.31558315114496055]
3,12.0,[-0.34148455762896424]
4,13.0,[-0.0506546629713501]
...,...,...
76,94.0,[-0.7981363253639957]
77,95.0,[-0.18480248346816777]
78,96.0,[-0.25251532565854823]
79,97.0,[-1.471319916923592]


In [29]:
df2['COD_CNAE_PRINC'].value_counts()  #contador de frequência

-0.110833    138293
 0.000292    124003
 0.052058     59810
 0.013222     32584
-0.059852     27516
              ...  
-1.471320       138
-0.467324       131
-1.332321        80
-0.074281        67
 0.660109        28
Name: COD_CNAE_PRINC, Length: 81, dtype: int64

In [30]:
%%time
y = df2['PARCELADO']
X = df2['NAT_JURID']
encoder = WOEEncoder(cols=['NAT_JURID']).fit(X, y)
df2['COD_NAT_JURID'] = encoder.transform(X)
df2[['NAT_JURID', 'COD_NAT_JURID']].groupby('NAT_JURID').agg(lambda x: list(set(x))).reset_index()

Wall time: 914 ms


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,NAT_JURID,COD_NAT_JURID
0,0.0,[-0.11089985409075033]
1,1015.0,[0.0]
2,1023.0,[1.20665282894134]
3,1031.0,[-0.690467155944541]
4,1066.0,[0.01706876206750396]
5,1082.0,[0.0]
6,1104.0,[-0.9905717483948789]
7,1112.0,[0.10804054027323066]
8,1120.0,[0.0874212530704949]
9,1147.0,[0.29036209706718524]


In [31]:
df2['COD_NAT_JURID'].value_counts()  #contador de frequência

 0.023340    342291
-0.110900    138305
-0.060573    135622
 0.147429     82932
 0.115958     21176
-0.023395     13019
-0.174649      4998
 0.805642      2429
 0.259967      1783
-0.244386      1199
-0.927277      1179
-2.901324      1049
 0.536286       654
-0.251660       406
 0.917327       353
 0.145781       348
-0.711669       326
 0.022883       254
 0.401588       244
-0.415208       192
-0.783382       156
 0.005626       145
 0.424558       135
 0.087421        63
-2.800680        54
-0.033038        47
-1.711118        37
 0.017069        28
 0.108041        28
-0.402785        28
 0.208124        24
-0.690467        21
 0.754668        16
-0.046110        16
 0.395723        11
-0.498095        11
-0.585107        10
 0.513506         8
-0.990572         8
 1.206653         8
 0.983509         7
 0.513506         7
 0.108041         6
 0.290362         5
 0.000000         5
 1.206653         4
Name: COD_NAT_JURID, dtype: int64

In [32]:
%%time
y = df2['PARCELADO']
X = df2['PORTE']
encoder = WOEEncoder(cols=['PORTE']).fit(X, y)
df2['COD_PORTE'] = encoder.transform(X)
df2[['PORTE', 'COD_PORTE']].groupby('PORTE').agg(lambda x: list(set(x))).reset_index()


Wall time: 963 ms


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,PORTE,COD_PORTE
0,0.0,[-0.11089985409075033]
1,1.0,[0.04148408148794645]
2,3.0,[0.12510534065668957]
3,5.0,[-0.08052361027016987]


In [33]:
df2['COD_PORTE'].value_counts()  #contador de frequência

 0.041484    343990
-0.080524    163955
-0.110900    138305
 0.125105    103397
Name: COD_PORTE, dtype: int64

## PARTE 5 - PROCEDIMENTOS FINAIS

In [34]:
df2.head()

Unnamed: 0,TIPO_PESSOA,TIPO_SITUACAO_INSCRICAO,SITUACAO_INSCRICAO,RECEITA_PRINCIPAL,INDICADOR_AJUIZADO,HA_OUTROS_DEBITOS,INSC_>1_ANO,VALOR_CONSOLIDADO,VALOR_FAIXA,SIT_CADAST,...,PORTE,ATIV_>10_ANOS,PARCELADO,COD_TIPO_SIT_INSC,COD_SIT_INSC,COD_RECEITA,COD_SIT_CADAST,COD_CNAE_PRINC,COD_NAT_JURID,COD_PORTE
1419707,1,Em cobrança,ATIVA EM COBRANCA,IRPJ,0,1,1,0.0001024026,0.777778,4.0,...,1.0,1,0,-12.053439,-11.230282,0.009147,-1.556471,0.2752,0.02334,0.041484
7240218,1,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,COFINS,0,1,1,1.364299e-07,0.111111,2.0,...,1.0,1,1,13.265611,12.997051,-0.066197,0.490522,0.58607,-0.060573,0.041484
8072359,1,Em cobrança,ATIVA AJUIZADA,COFINS,1,1,1,2.608829e-05,0.666667,4.0,...,5.0,1,0,-12.053439,-10.923435,-0.066197,-1.556471,0.198774,0.115958,-0.080524
6579675,1,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,IRPJ,0,1,0,2.460639e-07,0.111111,2.0,...,3.0,0,1,13.265611,12.997051,0.009147,0.490522,-0.059852,0.147429,0.125105
12352983,1,Benefício Fiscal,ATIVA NAO AJUIZAVEL NEGOCIADA NO SISPAR,CSLL,0,1,1,2.765668e-07,0.111111,2.0,...,1.0,1,1,13.265611,12.997051,0.021237,0.490522,0.295323,0.02334,0.041484


In [35]:
# EXCLUINDO COLUNAS REDUNDANTES
df2 = df2.drop(columns=['TIPO_SITUACAO_INSCRICAO','SITUACAO_INSCRICAO','RECEITA_PRINCIPAL','SIT_CADAST','CNAE_PRINC','NAT_JURID','PORTE'])

In [36]:
# REORDENANDO COLUNAS
df2 = df2[['TIPO_PESSOA','COD_TIPO_SIT_INSC','COD_SIT_INSC','COD_RECEITA','INDICADOR_AJUIZADO','HA_OUTROS_DEBITOS','INSC_>1_ANO','VALOR_CONSOLIDADO','VALOR_FAIXA','COD_SIT_CADAST','COD_CNAE_PRINC','COD_NAT_JURID','COD_PORTE','ATIV_>10_ANOS','PARCELADO']]
df2.head()

Unnamed: 0,TIPO_PESSOA,COD_TIPO_SIT_INSC,COD_SIT_INSC,COD_RECEITA,INDICADOR_AJUIZADO,HA_OUTROS_DEBITOS,INSC_>1_ANO,VALOR_CONSOLIDADO,VALOR_FAIXA,COD_SIT_CADAST,COD_CNAE_PRINC,COD_NAT_JURID,COD_PORTE,ATIV_>10_ANOS,PARCELADO
1419707,1,-12.053439,-11.230282,0.009147,0,1,1,0.0001024026,0.777778,-1.556471,0.2752,0.02334,0.041484,1,0
7240218,1,13.265611,12.997051,-0.066197,0,1,1,1.364299e-07,0.111111,0.490522,0.58607,-0.060573,0.041484,1,1
8072359,1,-12.053439,-10.923435,-0.066197,1,1,1,2.608829e-05,0.666667,-1.556471,0.198774,0.115958,-0.080524,1,0
6579675,1,13.265611,12.997051,0.009147,0,1,0,2.460639e-07,0.111111,0.490522,-0.059852,0.147429,0.125105,0,1
12352983,1,13.265611,12.997051,0.021237,0,1,1,2.765668e-07,0.111111,0.490522,0.295323,0.02334,0.041484,1,1


In [37]:
# CHECANDO MAIS UMA VEZ SE HÁ DADOS NULOS / NAN (NOT A NUMBER)
df2.isna().sum()

TIPO_PESSOA           0
COD_TIPO_SIT_INSC     0
COD_SIT_INSC          0
COD_RECEITA           0
INDICADOR_AJUIZADO    0
HA_OUTROS_DEBITOS     0
INSC_>1_ANO           0
VALOR_CONSOLIDADO     0
VALOR_FAIXA           0
COD_SIT_CADAST        0
COD_CNAE_PRINC        0
COD_NAT_JURID         0
COD_PORTE             0
ATIV_>10_ANOS         0
PARCELADO             0
dtype: int64

In [38]:
# SUBSTITUINDO DADOS NULOS / NAN POR ZERO
df2.fillna(value = 0, inplace = True)
df2.isna().sum()

TIPO_PESSOA           0
COD_TIPO_SIT_INSC     0
COD_SIT_INSC          0
COD_RECEITA           0
INDICADOR_AJUIZADO    0
HA_OUTROS_DEBITOS     0
INSC_>1_ANO           0
VALOR_CONSOLIDADO     0
VALOR_FAIXA           0
COD_SIT_CADAST        0
COD_CNAE_PRINC        0
COD_NAT_JURID         0
COD_PORTE             0
ATIV_>10_ANOS         0
PARCELADO             0
dtype: int64

In [39]:
%%time
# EXPORTANTO DATASET FINAL
df2.to_csv("07_dataset_final_com_dados_continuos.csv")

Wall time: 9.28 s


In [40]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 749647 entries, 1419707 to 10318597
Data columns (total 15 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   TIPO_PESSOA         749647 non-null  int64  
 1   COD_TIPO_SIT_INSC   749647 non-null  float64
 2   COD_SIT_INSC        749647 non-null  float64
 3   COD_RECEITA         749647 non-null  float64
 4   INDICADOR_AJUIZADO  749647 non-null  int64  
 5   HA_OUTROS_DEBITOS   749647 non-null  int64  
 6   INSC_>1_ANO         749647 non-null  int64  
 7   VALOR_CONSOLIDADO   749647 non-null  float64
 8   VALOR_FAIXA         749647 non-null  float64
 9   COD_SIT_CADAST      749647 non-null  float64
 10  COD_CNAE_PRINC      749647 non-null  float64
 11  COD_NAT_JURID       749647 non-null  float64
 12  COD_PORTE           749647 non-null  float64
 13  ATIV_>10_ANOS       749647 non-null  int64  
 14  PARCELADO           749647 non-null  int64  
dtypes: float64(9), int64(6)
me