In [1]:
# Importando as Bibliotecas
import pandas as pd
from sklearn.svm import OneClassSVM
from sklearn.model_selection import train_test_split

In [2]:
# Lendo os arquivos
csv_populacao_tratada = pd.read_csv('dataframe_completo.csv')
csv_portfolio1 = pd.read_csv('portfolio1.csv')
csv_portfolio2 = pd.read_csv('portfolio2.csv')
csv_portfolio3 = pd.read_csv('portfolio3.csv')

# Criando DataFrame para cada um dos arquivos
df_populacao = pd.DataFrame(csv_populacao_tratada)
df_portfolio1 = pd.DataFrame(csv_portfolio1)
df_portfolio2 = pd.DataFrame(csv_portfolio2)
df_portfolio3 = pd.DataFrame(csv_portfolio3)

In [3]:
df_populacao.shape

(462298, 424)

In [4]:
df_portfolio1.shape

(555, 182)

In [5]:
df_portfolio2.shape

(566, 2)

In [6]:
df_portfolio3.shape

(265, 2)

## TREINO e TESTE

In [7]:
# DataFrame (df_entrada): é o DataFrame criado a partir da lista de clientes do usuário (upload arquivo)
# Queremos apenas o valor de "id". As outras colunas "não interessam, pois já temos as informações na população
df_entrada = pd.DataFrame(df_portfolio3['id'])

# Criando a coluna "target" no DataFrame que recebemos de entrada (que contém a lista das empresas (portfolio))
# E atribuindo o valor target = 1
df_entrada['target'] = 1

In [8]:
df_entrada.columns

Index(['id', 'target'], dtype='object')

In [9]:
df_completo = pd.merge(df_populacao, df_entrada, how='outer', on ='id')

In [10]:
df_completo.shape

(462298, 425)

In [11]:
df_completo.drop(columns = 'Unnamed: 0', inplace = True)

In [12]:
df_completo.shape

(462298, 424)

In [13]:
# Colocando zeros onde "Target" é NaN (ou seja, != 1)
df_completo['target'].fillna(value = 0, inplace=True)

In [14]:
df_completo['target'].isna().sum()

0

In [15]:
# Vamos trabalhar com o DataFrame (df_completo)

## RFE !

In [16]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR

In [17]:
df_entrada.shape

(265, 2)

In [18]:
#df_completo_RFE = df_completo
#df_completo_RFE.drop(columns= 'id', inplace = True)

In [19]:
df_completo_RFE = pd.merge(df_entrada, df_populacao, how='inner', on ='id')

In [20]:
salvando_ID = df_completo_RFE['id']

In [21]:
df_ID = pd.DataFrame({'id': salvando_ID})
df_ID.head()

Unnamed: 0,id
0,bb61c09449a1c1f8b78955d8b7a7f73599e78358993fe2...
1,16843c9ffb920170477118933798510d8d5f00f5c56c12...
2,1b8d092daff12bed8b3c2ab93bf5df2921865a68aca185...
3,3aafa3a1f12f483740a52956af100223333d0e3c79bf2c...
4,c60431fbca90067f105570e1e8a684bcd7048205bbf6c4...


In [22]:
df_completo_RFE.drop(columns = 'id', inplace = True)

In [23]:
df_completo_RFE.shape

(265, 424)

In [24]:
Y_treino_RFE = df_completo_RFE['target']
X_treino_RFE = df_completo_RFE.drop(columns = 'target')

In [25]:
#reg= LinearRegression()
#reg.fit(X_train, y_train)
#rfe = RFE(reg)
#rfe.fit(X_train, y_train)

In [26]:
estimator = SVR(kernel="linear")

In [27]:
selector = RFE(estimator)

In [28]:
selecionadas = selector.fit(X_treino_RFE, Y_treino_RFE)

In [29]:
selecionadas

RFE(estimator=SVR(C=1.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1,
                  gamma='scale', kernel='linear', max_iter=-1, shrinking=True,
                  tol=0.001, verbose=False),
    n_features_to_select=None, step=1, verbose=0)

In [30]:
df_colunas_RFE_auxiliar = pd.DataFrame({'coluna': X_treino_RFE.columns, 'bool': selector.get_support()})
lista_colunas_NAO_selecionadas = list(df_colunas_RFE_auxiliar[df_colunas_RFE_auxiliar['bool'] == False]['coluna'])

In [31]:
len(lista_colunas_NAO_selecionadas)

212

### Preparando o dataFrame para usarmos!

In [32]:
df_completo_AUX = df_completo

In [33]:
df_completo_AUX.shape

(462298, 424)

In [34]:
lista_colunas_NAO_selecionadas.remove('Unnamed: 0')

In [35]:
df_colunasSelecionadas = df_completo_AUX.drop(columns = lista_colunas_NAO_selecionadas)

In [36]:
df_colunasSelecionadas.shape

(462298, 213)

In [37]:
df_colunasSelecionadas.columns

Index(['id',
       'nm_divisao_FABRICACAO DE VEICULOS AUTOMOTORES REBOQUES E CARROCERIAS',
       'nm_divisao_IMPRESSAO E REPRODUCAO DE GRAVACOES',
       'nm_divisao_MANUTENCAO REPARACAO E INSTALACAO DE MAQUINAS E EQUIPAMENTOS',
       'nm_divisao_METALURGIA', 'nm_divisao_OBRAS DE INFRA ESTRUTURA',
       'nm_divisao_ORGANISMOS INTERNACIONAIS E OUTRAS INSTITUICOES EXTRATERRITORIAIS',
       'nm_divisao_OUTRAS ATIVIDADES DE SERVICOS PESSOAIS',
       'nm_divisao_OUTRAS ATIVIDADES PROFISSIONAIS CIENTIFICAS E TECNICAS',
       'nm_divisao_PESCA E AQUICULTURA',
       ...
       'de_faixa_faturamento_estimado_grupo_DE R$ 500.000.000,01 A 1 BILHAO DE REAIS',
       'de_faixa_faturamento_estimado_grupo_DE R$ 81.000,01 A R$ 360.000,00',
       'fl_spa', 'fl_antt', 'fl_veiculo', 'fl_optante_simples',
       'fl_optante_simei', 'fl_simples_irregular', 'fl_passivel_iss',
       'target'],
      dtype='object', length=213)

### Avaliando: SVM.OneClass : TREINO e TESTE + SVM.OneClass
#### Vou juntar todas as partes aqui para conseguir avaliar o algoritmo com os portfolios passados!

#### TREINO e TESTE

In [38]:
df_completo = df_colunasSelecionadas

In [39]:
df_completo.shape

(462298, 213)

In [40]:
# Salvando os valores de "id" em (ArmazenandoID)
ArmazenandoID = df_completo['id']
#df_completo.drop(columns = 'id', inplace=True)

In [41]:
# Definindo a base de TREINO (portfolio): Y_treino, X_treino
# Salvando em "df_completo_TREINO" as linhas do DataFrame que tem "target = 1"
df_completo_TREINO = df_completo.loc[(df_completo['target'] == 1)]

Y_treino = df_completo_TREINO['target']
X_treino = df_completo_TREINO.drop(columns ='target')

In [42]:
X_treino_split, X_teste_split, Y_treino_split, Y_teste_split = train_test_split(X_treino, Y_treino, test_size=0.2)

In [43]:
X_treino_split.shape

(212, 212)

In [44]:
X_teste_split.shape

(53, 212)

In [45]:
Y_treino_split.shape

(212,)

In [46]:
Y_teste_split.shape

(53,)

In [47]:
Y_treino = Y_treino_split
X_treino = X_treino_split

In [48]:
lista_ID_X_TREINO = list(X_treino['id'])

In [49]:
df_lista_ID_X_TREINO = pd.DataFrame({'id': lista_ID_X_TREINO})

In [50]:
# Definindo a base de TEST: X_teste, Y_predito
# (população, excluindo as empresas que fazem parte da lista da empresa, ou seja, "target = 0")
# Salvando em "df_result_0" as linhas do DataFrame que tem "target = 0"
df_completo_TESTE = df_completo.loc[(df_completo['target'] == 0)]
X_teste = df_completo_TESTE.drop(columns ='target')
# Y_predito: vai ser o resultado da previsão do Modelo

In [51]:
X_teste_split.shape

(53, 212)

In [52]:
Y_teste_split.shape

(53,)

In [53]:
X_teste.columns

Index(['id',
       'nm_divisao_FABRICACAO DE VEICULOS AUTOMOTORES REBOQUES E CARROCERIAS',
       'nm_divisao_IMPRESSAO E REPRODUCAO DE GRAVACOES',
       'nm_divisao_MANUTENCAO REPARACAO E INSTALACAO DE MAQUINAS E EQUIPAMENTOS',
       'nm_divisao_METALURGIA', 'nm_divisao_OBRAS DE INFRA ESTRUTURA',
       'nm_divisao_ORGANISMOS INTERNACIONAIS E OUTRAS INSTITUICOES EXTRATERRITORIAIS',
       'nm_divisao_OUTRAS ATIVIDADES DE SERVICOS PESSOAIS',
       'nm_divisao_OUTRAS ATIVIDADES PROFISSIONAIS CIENTIFICAS E TECNICAS',
       'nm_divisao_PESCA E AQUICULTURA',
       ...
       'de_faixa_faturamento_estimado_grupo_DE R$ 4.800.000,01 A R$ 10.000.000,00',
       'de_faixa_faturamento_estimado_grupo_DE R$ 500.000.000,01 A 1 BILHAO DE REAIS',
       'de_faixa_faturamento_estimado_grupo_DE R$ 81.000,01 A R$ 360.000,00',
       'fl_spa', 'fl_antt', 'fl_veiculo', 'fl_optante_simples',
       'fl_optante_simei', 'fl_simples_irregular', 'fl_passivel_iss'],
      dtype='object', length=212)

In [54]:
lista_X_ID_TESTE_split = list(X_teste_split['id'])
lista_X_ID_TREINO_split = list(X_treino_split['id'])

In [55]:
df_X_ID_TESTE_split = pd.DataFrame({'id': lista_X_ID_TESTE_split})
df_X_ID_TREINO_split = pd.DataFrame({'id': lista_X_ID_TREINO_split})

In [56]:
df_X_ID_TREINO_split.shape

(212, 1)

In [57]:
df_X_ID_TESTE_split.head()

Unnamed: 0,id
0,694225b2e4d36734474c4b0ea6ca5b5280fb2099ead533...
1,7439f14e03954c2a82546b23ffed0777fb72c1c1ce91b3...
2,feb9c97a3f694c22a919d9544c433da92d34d5717b43d5...
3,e4f7de0e8a799d4482c84b938c8f644475447bd69c4076...
4,81cca75e9a1f5677aa6743e46d1ee0ceaab045977ecc9c...


In [58]:
X_teste.shape

(462033, 212)

In [59]:
# (X_teste_split): DataFrame teste dos treino COM 20% do portfolio
# (X_teste) com (df_X_teste_split)
Frames = (X_teste, X_teste_split)
X_teste_final = pd.concat(Frames)

In [60]:
X_teste_final

Unnamed: 0,id,nm_divisao_FABRICACAO DE VEICULOS AUTOMOTORES REBOQUES E CARROCERIAS,nm_divisao_IMPRESSAO E REPRODUCAO DE GRAVACOES,nm_divisao_MANUTENCAO REPARACAO E INSTALACAO DE MAQUINAS E EQUIPAMENTOS,nm_divisao_METALURGIA,nm_divisao_OBRAS DE INFRA ESTRUTURA,nm_divisao_ORGANISMOS INTERNACIONAIS E OUTRAS INSTITUICOES EXTRATERRITORIAIS,nm_divisao_OUTRAS ATIVIDADES DE SERVICOS PESSOAIS,nm_divisao_OUTRAS ATIVIDADES PROFISSIONAIS CIENTIFICAS E TECNICAS,nm_divisao_PESCA E AQUICULTURA,...,"de_faixa_faturamento_estimado_grupo_DE R$ 4.800.000,01 A R$ 10.000.000,00","de_faixa_faturamento_estimado_grupo_DE R$ 500.000.000,01 A 1 BILHAO DE REAIS","de_faixa_faturamento_estimado_grupo_DE R$ 81.000,01 A R$ 360.000,00",fl_spa,fl_antt,fl_veiculo,fl_optante_simples,fl_optante_simei,fl_simples_irregular,fl_passivel_iss
0,a6984c3ae395090e3bee8ad63c3758b110de096d5d8195...,0,0,0,0,0,0,0,0,0,...,0,0,0,False,False,False,True,False,False,True
1,6178f41ade1365e44bc2c46654c2c8c0eaae27dcb476c4...,0,0,0,0,0,0,0,0,0,...,0,0,1,False,False,False,True,False,False,True
2,4a7e5069a397f12fdd7fd57111d6dc5d3ba558958efc02...,0,0,0,0,0,0,0,0,0,...,0,0,0,False,False,False,True,True,False,True
3,3348900fe63216a439d2e5238c79ddd46ede454df7b9d8...,0,0,0,0,0,0,0,0,0,...,0,0,1,False,False,False,True,False,False,True
4,1f9bcabc9d3173c1fe769899e4fac14b053037b953a1e4...,0,0,0,0,0,0,0,0,0,...,0,0,1,False,False,False,True,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
326439,7989fef9fa0fe79c7281e0169b0c1e489f811a60b4cdb8...,0,0,0,0,0,0,0,0,0,...,0,0,0,False,False,True,False,False,False,True
442475,80f32ad2298718d2214f5d10b3aff79cd4f12f58aefe31...,0,0,0,0,0,0,0,0,0,...,0,1,0,False,False,True,False,False,False,True
20562,bd4595e9ea66e85ecbbef094bb74a0d1ffec143312c6d6...,0,0,0,0,0,0,0,0,0,...,0,0,0,False,False,True,False,False,False,True
318343,6e6243cba08ab5987f7aabf57abd8058a6bfd9ca02cbe6...,0,0,0,0,0,0,0,0,0,...,0,0,0,False,False,True,False,False,False,True


In [61]:
lista_ID_X_teste_Final = list(X_teste_final['id'])

In [62]:
# DataFrame com uma única coluna "id" com os ids de todos as colunas em "TREINO"
df_lista_ID_X_teste_Final = pd.DataFrame({'id': lista_ID_X_teste_Final})

In [63]:
df_lista_ID_X_teste_Final.columns

Index(['id'], dtype='object')

In [64]:
X_teste_final.shape

(462086, 212)

In [65]:
# Lembrando que os "ids" estão armazenados em (lista_ID_X_teste_Final)/(df_lista_ID_X_teste_Final)
X_teste_final.drop(columns = 'id', inplace =True)

In [66]:
X_teste_final.shape

(462086, 211)

In [67]:
# Lembrando que os "ids"estão armazenados em (lista_ID_X_TREINO)/(df_lista_ID_X_TREINO)
X_treino.drop(columns = 'id', inplace =True)

In [68]:
X_treino.shape

(212, 211)

In [69]:
X_teste_final.isna().sum()

nm_divisao_FABRICACAO DE VEICULOS AUTOMOTORES REBOQUES E CARROCERIAS       0
nm_divisao_IMPRESSAO E REPRODUCAO DE GRAVACOES                             0
nm_divisao_MANUTENCAO REPARACAO E INSTALACAO DE MAQUINAS E EQUIPAMENTOS    0
nm_divisao_METALURGIA                                                      0
nm_divisao_OBRAS DE INFRA ESTRUTURA                                        0
                                                                          ..
fl_veiculo                                                                 0
fl_optante_simples                                                         0
fl_optante_simei                                                           0
fl_simples_irregular                                                       0
fl_passivel_iss                                                            0
Length: 211, dtype: int64

#### OneClass.SVM

In [70]:
# OneClass.SVM
one_class_SVM = OneClassSVM(kernel='rbf')
resultado_OneClass_FIT = one_class_SVM.fit(X_treino)
resultado_OneClass_PREDICT = one_class_SVM.predict(X_teste_final)

#### Analisando o Resultado!

In [71]:
# df_ArmazenandoID.head()

In [72]:
# Criando o DataFrame (df_resultado) e igualamos ao (df_ArmazenandoID)
# Falta: adicionar o (df_completo) ao (df_resultado)
# Falta: adicionar o resultado predito! (df_resultado_OneClass_PREDICT, DataFrame com uma única coluna)
df_resultado = pd.DataFrame(df_lista_ID_X_teste_Final)

In [73]:
# Juntando o DataFrame (df_resultado) com com DataFrame (df_completo)
# df_resultado = df_resultado.join(df_completo)

In [74]:
# Criando um DataFrame com uma única coluna que contém o resultado predito!
df_resultado_OneClass_PREDICT = pd.DataFrame({'resultado_OneClass_PREDICT': resultado_OneClass_PREDICT})

In [75]:
# Juntando o DataFrame (df_resultado) com com DataFrame (resultado_OneClass_PREDICT)
df_resultado = df_resultado.join(df_resultado_OneClass_PREDICT)

In [76]:
df_resultado.head()

Unnamed: 0,id,resultado_OneClass_PREDICT
0,a6984c3ae395090e3bee8ad63c3758b110de096d5d8195...,-1
1,6178f41ade1365e44bc2c46654c2c8c0eaae27dcb476c4...,-1
2,4a7e5069a397f12fdd7fd57111d6dc5d3ba558958efc02...,-1
3,3348900fe63216a439d2e5238c79ddd46ede454df7b9d8...,-1
4,1f9bcabc9d3173c1fe769899e4fac14b053037b953a1e4...,-1


In [77]:
# Pronto, agora temos um DataFrame (df_resultado) com os valores de: ID, resultadoPredict
# Agora temos que avaliar qual a % dos valores do portfolio foram preditas!

# Lembrando que (lista_X_teste_split)/(df_X_teste_split):
# É a LISTA com 20% dos "ids" presente no portfolio de entrada que "se juntaram a população"
# É o DataFrame com 20% dos "ids" presente no portfolio de entrada que "se juntaram a população"

In [78]:
# O DataFrame (df_X_TESTE_split) contém os "ids" ...
# ... corresponde aos 20% dos "ids" presente no portfólio de entrada que estavam na população

# OBJETIVO: Calcular
# Como:
# SOMAR: quantidade de '1'em df_vamosAnalisar['resultado_OneClass_PREDICT']
# Calcular %: SomaDos1 / Tamanho total
#df_vamosAnalisar = df_resultado.loc[df_resultado['id'] == lista_ID_70_portfolioEntrada]

In [79]:
#df_X_TESTE_split

In [80]:
df_resultado.columns

Index(['id', 'resultado_OneClass_PREDICT'], dtype='object')

In [81]:
# Os resultados de (resultado_OneClass_PREDICT) são (-1 e 1)
df_resultado['resultado_OneClass_PREDICT'].unique()

array([-1,  1])

In [82]:
# Vamos substituir os valores -1 por 0
df_resultado['resultado_OneClass_PREDICT'].replace({-1: 0}, inplace = True)

In [83]:
# Testando para ver se mudamos os valores resultado de (-1 e 1) para (0 e 1)
# Resposta: Ficou ótimo :D
df_resultado['resultado_OneClass_PREDICT'].unique()

array([0, 1])

In [84]:
df_axu = pd.DataFrame()

In [85]:
valorTotal = 0
tamanho = len(lista_X_ID_TESTE_split)

lista = []
for x in lista_X_ID_TESTE_split:
    # print('x',x)
    valor = list(df_resultado[df_resultado['id'] == x]['resultado_OneClass_PREDICT'])
    valorTotal = valorTotal + valor[0]


In [86]:
# Verificando % dos 53 que eu já sabia que fazia parte!
acerto = (valorTotal/tamanho)
print('O % de acerto foi: ', acerto)

O % de acerto foi:  0.41509433962264153
