# Importação da Base de Dados

In [1]:
#!pip install qgrid

#!jupyter nbextension enable --py --sys-prefix widgetsnbextension
#!jupyter nbextension enable --py --sys-prefix qgrid

In [2]:
# Essencials
import glob, os
import pandas as pd
import numpy as np

# Widget
# import qgrid

# Gráficos
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
#Validação das Bibliotecas e Versões
import sys

versions = ( ("matplotlib", mpl.__version__),
            ("numpy", np.__version__),
            ("pandas", pd.__version__),
            #('keras', keras.__version__),
            #('tensorflow', tf.__version__),
            ('seaborn', sns.__version__))

print(sys.version, "\n")
print("library" + " " * 4 + "version")
print("-" * 18)

for tup1, tup2 in versions:
    print("{:11} {}".format(tup1, tup2))

3.7.10 (default, Feb 20 2021, 21:17:23) 
[GCC 7.5.0] 

library    version
------------------
matplotlib  3.2.2
numpy       1.19.5
pandas      1.1.5
seaborn     0.11.1


In [4]:
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

Mounted at /gdrive


In [5]:
%cd /gdrive/MyDrive/Datasets/INPI/Marcas/

/gdrive/MyDrive/Datasets/INPI/Marcas


In [6]:
df = []

In [7]:
os.chdir("/gdrive/MyDrive/Datasets/INPI/Marcas/")
for file in glob.glob("*.csv"):
    print("iniciando importação... " + file)
    df.append(pd.read_csv(file,delimiter="|", encoding='latin1'))
    print(" ...importado com sucesso")

iniciando importação... baseDadosBuscaWebMarcas-Periodo2018-02-01a2018-02-28-Extraido20210311.csv
 ...importado com sucesso
iniciando importação... baseDadosBuscaWebMarcas-Periodo2018-06-01a2018-06-30-Extraido20210311.csv
 ...importado com sucesso
iniciando importação... baseDadosBuscaWebMarcas-Periodo2018-05-01a2018-05-31-Extraido20210311.csv
 ...importado com sucesso
iniciando importação... baseDadosBuscaWebMarcas-Periodo2018-04-01a2018-04-30-Extraido20210311.csv
 ...importado com sucesso
iniciando importação... baseDadosBuscaWebMarcas-Periodo2018-07-01a2018-07-31-Extraido20210311.csv
 ...importado com sucesso
iniciando importação... baseDadosBuscaWebMarcas-Periodo2018-09-01a2018-09-30-Extraido20210311.csv
 ...importado com sucesso
iniciando importação... baseDadosBuscaWebMarcas-Periodo2018-01-01a2018-01-31-Extraido20210311.csv
 ...importado com sucesso
iniciando importação... baseDadosBuscaWebMarcas-Periodo2018-03-01a2018-03-31-Extraido20210311.csv
 ...importado com sucesso
iniciand

A importação da base de dados ocorreu com sucesso, usamos a estratégia de ler um diretório e importar todos os datasets dentro de uma variável chamada "df". Essa variável se comporta como a lista de bases de dados. Isso permite uma análise simplificada através da extratificação de parte da base ou podemos consolidar depois toda a base de dados de forma bastante simples. 

Durante a importação foram encontrados algum impedimentos:
1. A base de dados está formatado em um charset chamado "latin1" sendo que o padrão brasileiro de codificação é "utf-8" devido a quantidade de caracteres especiais que dispomos em nosso idioma o que pode trazer divergências em palavras que possuem acentos. 
2. O delimitador padrão para importação de arquivos .csv é "," (virgula), mas nos datasets foram utilizados o pipe "|" o que conflitou em palavras e comentários existentes na base de dados. Isto exigiu uma alteração manual dos locais que existiam este conflito por hífen "-" já que o propósito do texto original era apenas separar as palavras. 
3. Os meses que ocorreram este problema foram: 01, 03, 08, 10, 11
4. A base de dados não apresentou as imagens, então este algoritmo não abordará processamento de imagem.
5. As colunas no dataset original vieram com espaços em branco extras o que aumentou ainda mais a complexidade do tratamento dos dados

# Informações sobre a base de dados

In [8]:
# Construção do DataFrame para consolidar os dados devido a separação por mês
dados = pd.DataFrame(columns = ["numero_processo", "nome_marca", "descricao_situacao", "descricao_apresentacao", "descricao_natureza", "classificacao_viena", "nome_titular", "nome_representante_legal", "data_deposito", "data_concessao", "data_vigencia", "numero_rpi", "data_Rpi", "codigo_despacho", "descricao_despacho", "complemento_despacho", "numero_revisao_classificacao_nice", "codigo_classificacao_nice", "especificacao_classificacao_nice"])
dados = dados.astype({"numero_processo":"int64", "numero_rpi":"int64", "codigo_despacho":"int64", "numero_revisao_classificacao_nice":"int64", "codigo_classificacao_nice":"int64"})
dados = dados.astype({"nome_marca":"object","descricao_situacao":"object","descricao_apresentacao":"object","descricao_natureza":"object","classificacao_viena":"object","nome_titular":"object","nome_representante_legal":"object","data_deposito":"object","data_concessao":"object","data_vigencia":"object", "data_Rpi":"object", "descricao_despacho":"object", "complemento_despacho":"object", "especificacao_classificacao_nice":"object"})
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 19 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   numero_processo                    0 non-null      int64 
 1   nome_marca                         0 non-null      object
 2   descricao_situacao                 0 non-null      object
 3   descricao_apresentacao             0 non-null      object
 4   descricao_natureza                 0 non-null      object
 5   classificacao_viena                0 non-null      object
 6   nome_titular                       0 non-null      object
 7   nome_representante_legal           0 non-null      object
 8   data_deposito                      0 non-null      object
 9   data_concessao                     0 non-null      object
 10  data_vigencia                      0 non-null      object
 11  numero_rpi                         0 non-null      int64 
 12  data_Rpi                 

In [9]:
dados = pd.concat(df)

In [10]:
dados.describe()

Unnamed: 0,numero_processo,numero_rpi,codigo_despacho,numero_revisao_classificacao_nice,codigo_classificacao_nice
count,541796.0,541796.0,541796.0,541796.0,541796.0
mean,914819800.0,2512.297234,297.375532,10.999815,29.973796
std,4394639.0,28.219487,13.517492,0.013584,13.084633
min,840891200.0,2456.0,275.0,10.0,1.0
25%,914444200.0,2493.0,283.0,11.0,25.0
50%,914921600.0,2516.0,300.0,11.0,35.0
75%,915887300.0,2528.0,301.0,11.0,41.0
max,916354800.0,2618.0,469.0,11.0,45.0


In [11]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 541796 entries, 0 to 56613
Data columns (total 19 columns):
 #   Column                              Non-Null Count   Dtype 
---  ------                              --------------   ----- 
 0   numero_processo                     541796 non-null  int64 
 1   nome_marca                          541796 non-null  object
 2   descricao_situacao                  541796 non-null  object
 3   descricao_apresentacao              541796 non-null  object
 4   descricao_natureza                  541796 non-null  object
 5   classificacao_viena                 541796 non-null  object
 6   nome_titular                        541796 non-null  object
 7   nome_representante_legal            541796 non-null  object
 8   data_deposito                       541796 non-null  object
 9   data_concessao                      541796 non-null  object
 10  data_vigencia                       541796 non-null  object
 11  numero_rpi                          5417

In [12]:
dados.sample(20)

Unnamed: 0,numero_processo,nome_marca,descricao_situacao,descricao_apresentacao,descricao_natureza,classificacao_viena,nome_titular,nome_representante_legal,data_deposito,data_concessao,data_vigencia,numero_rpi,data_Rpi,codigo_despacho,descricao_despacho,complemento_despacho,numero_revisao_classificacao_nice,codigo_classificacao_nice,especificacao_classificacao_nice
17360,914437356,SejaCriativa.com,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.2 - Pontos / 4 - 29.1.13 - ...,SEJA CRIATIVA,FABIANA DE PAULA FERREIRA BARBOSA,2018-04-03,2019-05-07,2029-05-07,2522,2019-05-07,280,Concessão de registro,,11,35,Atualização de material publicitário - Infor...
42176,916320634,Fan rádio fm,Aguardando fim de sobrestamento ...,Mista,De Serviço,4 - 27.5.1 - Letras apresentando um grafi...,RADIO EMISSORA BOTUCARAI LTDA,,2018-11-27,,,2524,2019-05-21,323,Notificação de oposição,850190036020 de 08/02/2019,11,38,Comunicação por rádio Comunicação por rádio ...
34663,914558900,PÓS CIRÚRGICO,Aguardando apresentação ou exame de recurso c...,Mista,De Serviço,4 - 2.3.5 - Mulheres nuas ou com roupas ...,CLEITON SCHLICKMANN,NILTON MARQUES JÚNIOR,2018-04-23,,,2471,2018-05-15,300,Publicação de pedido de registro para oposiçã...,,11,44,Fisioterapia - Informação em Fisioterapia ...
11758,916225542,EMPREENDER 360,Registro de marca em vigor ...,Mista,De Serviço,4 - 7.5.11 - Labirintos / 4 - 27.5.1 ...,ASSOCIAÇÃO ALIANÇA EMPREENDEDORA,Carlos Eduardo Leme de Jesus,2018-11-08,2019-10-15,2029-10-15,2533,2019-07-23,301,Deferimento do pedido,,11,38,Fornecimento de acesso a bancos de dados For...
8909,916010104,E EXPEDITE SCHOOL,Registro de marca em vigor ...,Mista,De Serviço,4 - 26.5.1 - Um polígono / 4 - 27.5.1 ...,VICTOR CRISTIANO ROSSI CURIO DE CARVALHO,Carlos Eduardo Gomes da Silva,2018-10-03,2019-09-17,2029-09-17,2525,2019-05-28,301,Deferimento do pedido,,11,35,Comércio através de qualquer meio de livros...
21151,916213382,AGROFOREST ASSESSORIA,Registro de marca em vigor ...,Mista,De Serviço,4 - 27.5.1 - Letras apresentando um grafi...,AGROFOREST ASSESSORIA LTDA,Sidinei dos Santos Nunes,2018-11-06,2019-08-20,2029-08-20,2528,2019-06-18,301,Deferimento do pedido,,11,42,Consultoria e assessoria de projetos floresta...
21369,914393693,REI DO PNEU,Registro de marca em vigor ...,Mista,De Serviço,4 - 27.5.1 - Letras apresentando um grafi...,MGDC COMERCIO LTDA - ME,Embramarcas - Empresa Brasileira de Marcas Lt...,2018-03-26,2019-05-14,2029-05-14,2468,2018-04-24,300,Publicação de pedido de registro para oposiçã...,,11,35,"Comércio de pneus, câmaras de ar, peças e ace..."
20916,914780344,ACALANTO,Registro de marca em vigor ...,Nominativa,De Produto,,BEBIDAS POY LTDA,Beerre Assessoria Empresarial Ltda.(Alt. de B...,2018-05-30,2019-06-11,2029-06-11,2516,2019-03-26,301,Deferimento do pedido,,11,33,Bebidas alcoólicas exceto cerveja Licores ...
25313,914708325,NOBRE PREMIUM,Aguardando apresentação ou exame de recurso c...,Mista,De Produto,4 - 26.4.5 - Um quadrilátero / 4 - 26.1...,FECOAGRO - FEDERAÇÃO DAS COOPERATIVAS AGROPEC...,D Mark Registros de Marcas e Patentes S/S Lt...,2018-05-18,,,2490,2018-09-25,323,Notificação de oposição,850180227728 de 06/08/2018,11,1,Adubo composto Adubos nitrogenados Cloretos...
2259,914842463,DUARTE ENXOVAIS,Registro de marca em vigor ...,Mista,De Serviço,4 - 27.5.1 - Letras apresentando um grafi...,DUARTE TECIDOS DA MODA LTDA,VIVIANE ROCHA CARREGAL RAMOS DE ASSIS,2018-06-12,2019-05-14,2029-05-14,2516,2019-03-26,301,Deferimento do pedido,,11,35,Comércio (através de qualquer meio) de artigo...


In [13]:
# Identificação do nome das colunas
dados.columns

Index(['numero_processo ', 'nome_marca ', 'descricao_situacao ',
       'descricao_apresentacao ', 'descricao_natureza ',
       'classificacao_viena ', 'nome_titular ', 'nome_representante_legal ',
       'data_deposito  ', 'data_concessao ', 'data_vigencia ', 'numero_rpi ',
       'data_Rpi ', 'codigo_despacho ', 'descricao_despacho ',
       'complemento_despacho ', 'numero_revisao_classificacao_nice ',
       'codigo_classificacao_nice ', 'especificacao_classificacao_nice '],
      dtype='object')

In [14]:
# Foram identificados espaços em branco, que iriam atrabalhar o processo de exploração dos dados. Com a função strip realizamos a limpeza desses espaços indesejados.
dados.rename(columns=lambda x: x.strip(), inplace=True)

In [15]:
dados.columns

Index(['numero_processo', 'nome_marca', 'descricao_situacao',
       'descricao_apresentacao', 'descricao_natureza', 'classificacao_viena',
       'nome_titular', 'nome_representante_legal', 'data_deposito',
       'data_concessao', 'data_vigencia', 'numero_rpi', 'data_Rpi',
       'codigo_despacho', 'descricao_despacho', 'complemento_despacho',
       'numero_revisao_classificacao_nice', 'codigo_classificacao_nice',
       'especificacao_classificacao_nice'],
      dtype='object')

In [16]:
print("Período inicial: " + dados.data_deposito.min() + " Período final: " + dados.data_deposito.max())

Período inicial:  2018-01-01  Período final:  2018-11-30 


## Sobre a base de Dados

A base de dados apresentada possui 19 atributos que represetam os dados de registro de marcas do INPI no período de Janeiro de 2018 à 30 de Novembro de 2018. 

A base registro um total de 541.796 instâncias contendo informações de marcas de produtos e serviços. 

Os atributos encontrados na base possuem os seguintes significados:
* **numero_processo** 		- Número do processo
* **nome_marca**			- Nome da marca
* **descricao_situacao** 		- Descrição da situação
* **descricao_apresentacao**		- Descrição da apresentação, representa a forma que a marca é apresentada. Sendo Nominativa, Figurativa, Mista ou Tridimencionais
* **descricao_natureza** 		- Descrição da natureza
* **classificacao_viena**		- Descrição da classificação Viena (é um sistema de classificação internacional de elementos figurativos de marcas)
* **nome_titular**			- Nome do titular
* **nome_representante_legal**	- Nome do representante legal
* **data_deposito** 			- Data de depósito (Data da solicitação de registro de marca)
* **data_concessao** 			- Data da concessão da marca
* **data_vigencia**			- Data da vigência da marca
* **numero_rpi** 			- Número da RPI (revista)	(Nro da revista da propridade industrial)
* **data_rpi** 			- Data da publicação da RPI
* **codigo_despacho**			- Código do despacho na RPI 	
* **descricao_despacho**		- Descricão do despacho
* **complemento_despacho** 		- Complemento do despacho
* **numero_revisao_classicacao_nice** - Número da revisão da classificação Nice
* **codigo_classificacao_nice** 	- Código da classificação Nice
* **especificacao_classificacao_nice**- Especificação da classificação Nice

É perceptível que existe uma grande complexidade no processo de classificação, além de usar a classificação de NICE (), que possui 45 classes (sendo 34 de produtos e 11 de serviço), utiliza também a classificação de VIENA. 

O manual da marca pode ser obtivo através do site [do inpi](http://manualdemarcas.inpi.gov.br/). Buscaremos resumir os principais pontos do processo.

# Processo de requisição de registro de marca

O primeiro passo é o cadastro do requerinte no portal do INPI, emissão e pagamento da Guia de Recolhimento da União (GRU) e a realização do peticionamento eletrônico pelo e-Marcas. 

O processo de classificação de VIENA inicia através da identificação da atividade do titular e quais classes podem ser utilizadas por ele. 

# Dados ausentes

In [17]:
#Número de valores faltantes em cada coluna. isnull() retorna 1 se o valor é nulo.
dados.apply(lambda x: sum(x.isnull()),axis=0)

numero_processo                      0
nome_marca                           0
descricao_situacao                   0
descricao_apresentacao               0
descricao_natureza                   0
classificacao_viena                  0
nome_titular                         0
nome_representante_legal             0
data_deposito                        0
data_concessao                       0
data_vigencia                        0
numero_rpi                           0
data_Rpi                             0
codigo_despacho                      0
descricao_despacho                   0
complemento_despacho                 0
numero_revisao_classificacao_nice    0
codigo_classificacao_nice            0
especificacao_classificacao_nice     0
dtype: int64

A base liberada pelo INPI não apresenta dados ausentes, porém este é apenas uma pequena amostra da base completa o que em um cenário de produção os dados podem ser totalmente divergentes desta realidade. 

# Dados Repetidos

In [18]:
#pd.concat(g for _, g in dados.groupby("numero_processo") if len(g) > 1)

<!-- Percebemos que a tabela mostra o trâmite de alguns processos,  

In [19]:
duplicados = dados[dados.duplicated(keep=False)]
duplicados

Unnamed: 0,numero_processo,nome_marca,descricao_situacao,descricao_apresentacao,descricao_natureza,classificacao_viena,nome_titular,nome_representante_legal,data_deposito,data_concessao,data_vigencia,numero_rpi,data_Rpi,codigo_despacho,descricao_despacho,complemento_despacho,numero_revisao_classificacao_nice,codigo_classificacao_nice,especificacao_classificacao_nice
19333,916063585,CONT4+,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.5 - Sinais matemáticos / 4 - 2...,FRANCELINO PEREIRA DA SILVA NETO,FRANCELINO PEREIRA DA SILVA NETO,2018-10-11,2019-08-27,2029-08-27,2497,2018-11-13,300,Publicação de pedido de registro para oposiçã...,,11,35,Contabilidade - Informação em Contabilidad...
19334,916063585,CONT4+,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.5 - Sinais matemáticos / 4 - 2...,FRANCELINO PEREIRA DA SILVA NETO,FRANCELINO PEREIRA DA SILVA NETO,2018-10-11,2019-08-27,2029-08-27,2530,2019-07-02,301,Deferimento do pedido,,11,35,Contabilidade - Informação em Contabilidad...
19335,916063585,CONT4+,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.5 - Sinais matemáticos / 4 - 2...,FRANCELINO PEREIRA DA SILVA NETO,FRANCELINO PEREIRA DA SILVA NETO,2018-10-11,2019-08-27,2029-08-27,2538,2019-08-27,280,Concessão de registro,,11,35,Contabilidade - Informação em Contabilidad...
19336,916063585,CONT4+,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.5 - Sinais matemáticos / 4 - 2...,FRANCELINO PEREIRA DA SILVA NETO,FRANCELINO PEREIRA DA SILVA NETO,2018-10-11,2019-08-27,2029-08-27,2609,2021-01-05,283,Deferimento da petição,<b>Protocolo:</b> 850200431737 (09/12/2020) <...,11,35,Contabilidade - Informação em Contabilidad...
19337,916063585,CONT4+,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.5 - Sinais matemáticos / 4 - 2...,FRANCELINO PEREIRA DA SILVA NETO,FRANCELINO PEREIRA DA SILVA NETO,2018-10-11,2019-08-27,2029-08-27,2497,2018-11-13,300,Publicação de pedido de registro para oposiçã...,,11,35,Contabilidade - Informação em Contabilidad...
19338,916063585,CONT4+,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.5 - Sinais matemáticos / 4 - 2...,FRANCELINO PEREIRA DA SILVA NETO,FRANCELINO PEREIRA DA SILVA NETO,2018-10-11,2019-08-27,2029-08-27,2530,2019-07-02,301,Deferimento do pedido,,11,35,Contabilidade - Informação em Contabilidad...
19339,916063585,CONT4+,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.5 - Sinais matemáticos / 4 - 2...,FRANCELINO PEREIRA DA SILVA NETO,FRANCELINO PEREIRA DA SILVA NETO,2018-10-11,2019-08-27,2029-08-27,2538,2019-08-27,280,Concessão de registro,,11,35,Contabilidade - Informação em Contabilidad...
19340,916063585,CONT4+,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.17.5 - Sinais matemáticos / 4 - 2...,FRANCELINO PEREIRA DA SILVA NETO,FRANCELINO PEREIRA DA SILVA NETO,2018-10-11,2019-08-27,2029-08-27,2609,2021-01-05,283,Deferimento da petição,<b>Protocolo:</b> 850200431737 (09/12/2020) <...,11,35,Contabilidade - Informação em Contabilidad...


In [20]:
duplicados.value_counts()

numero_processo  nome_marca  descricao_situacao                                                                                                                                                                                                                                                      descricao_apresentacao  descricao_natureza                classificacao_viena                                                                                                                                                                                                                                                nome_titular                        nome_representante_legal            data_deposito  data_concessao  data_vigencia  numero_rpi  data_Rpi      codigo_despacho  descricao_despacho                                                         complemento_despacho                                                                                                                                      

# Derivação de Atributos - Criação de novas variáveis

Analisando a base de dados encontramos uma oporutnidade de realizar a classificação usando as novas técnicas de machine learning mas os dados apresentado no dataset precisam ser melhorados, para isso realizaremos uma técnica chamada derivação de atributos. Essa técnica permite realizar o desmembramento de variaveis ou a releitura dela usando outras abrodagens. 

No caso deste dataset, queremos realizar a automação da classificação de viena, e para isso o nosso dataset precisa de mais informações sobre esta categoria, a marca e o requisitante. Iremos aumentar a quantidade de informação que o modelo de classificação poderá usar criando uma base auxiliar com as informações em detalhe das categorias de viena. Essas bases possuem informações das categorias, das divisões e da seções (nem construção).

## Construção do Dataset Classificação Viena

In [21]:
viena = []

In [22]:
os.chdir("/gdrive/MyDrive/Datasets/INPI/CategoriaViena/")
for file in glob.glob("*.csv"):
    print("iniciando importação... " + file)
    viena.append(pd.read_csv(file,delimiter=";", encoding='utf-8'))
    print(" ...importado com sucesso")

iniciando importação... categoria_viena.csv
 ...importado com sucesso
iniciando importação... categoria_divisoes.csv
 ...importado com sucesso
iniciando importação... categoria_secoes.csv
 ...importado com sucesso


In [23]:
for df in viena:
  df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 2 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   codigo_categoria_viena  29 non-null     int64 
 1   catgoria_viena          29 non-null     object
dtypes: int64(1), object(1)
memory usage: 592.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 143 entries, 0 to 142
Data columns (total 4 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   codigo_categoria_divisoes               143 non-null    float64
 1   codigo_categoria_divisoes_simplificado  143 non-null    int64  
 2   categoria_divisoes                      143 non-null    object 
 3   categoria                               143 non-null    int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 4.6+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 197 e

In [24]:
viena_categoria = viena[0]

In [25]:
viena_divisao = viena[1]

In [26]:
viena_secao = viena[2]

In [27]:
df = viena_categoria.merge(viena_divisao, left_on=['codigo_categoria_viena'], right_on='categoria', how='left')

In [28]:
df = df.merge(viena_secao, left_on=['codigo_categoria_divisoes'], right_on=['categoria_divisao'], how='left')

In [29]:
df.sample(25)

Unnamed: 0,codigo_categoria_viena,catgoria_viena,codigo_categoria_divisoes,codigo_categoria_divisoes_simplificado,categoria_divisoes,categoria,codigo_categoria_secao,codigo_categoria_secao_simples,categoria_secao,categoria_divisao
255,15,"Maquinaria, motores, engenhos",15.1,151,"MÁQUINAS PARA INDÚSTRIA OU AGRICULTURA, INSTAL...",15,,,,
204,3,Animais,3.9,39,"ANIMAIS AQUÁTICOS, ESCORPIÕES",3,,,,
99,2,Seres humanos,2.1,21,HOMENS,2,2.1.1,211.0,"Cabeças, bustos",2.1
216,5,Plantas,5.7,57,"GRÃOS, SEMENTES, FRUTOS",5,,,,
279,19,"Recipientes, embalagens, representações de pro...",19.19,1919,REPRESENTAÇÕES DE PRODUTOS DIVERSOS,19,,,,
228,7,"Construções, suportes de cartazes, portões ou ...",7.11,711,TRABALHOS ESTRUTURAIS,7,,,,
203,3,Animais,3.7,37,"PÁSSAROS, MORCEGOS",3,,,,
89,1,"Corpos celestes, fenômenos naturais, mapas geo...",1.17,117,"MAPAS GEOGRÁFICOS, PLANISFÉRIOS",1,1.17.15,11715.0,Mapas polares,1.17
326,29,Cores,29.1,291,CORES,29,,,,
311,26,Figuras e sólidos geométricos,26.11,2611,"LINHAS, FAIXAS",26,,,,


In [30]:
classificacao_viena = pd.DataFrame(columns=['cod_categoria', 'categoria', 'cod_divisao', 'cod_divisao_compacto', 'divisao', 'cod_secao', 'cod_secao_compacto','secao'])
classificacao_viena.info()

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   cod_categoria         0 non-null      object
 1   categoria             0 non-null      object
 2   cod_divisao           0 non-null      object
 3   cod_divisao_compacto  0 non-null      object
 4   divisao               0 non-null      object
 5   cod_secao             0 non-null      object
 6   cod_secao_compacto    0 non-null      object
 7   secao                 0 non-null      object
dtypes: object(8)
memory usage: 0.0+ bytes


In [31]:
classificacao_viena['cod_categoria'] = df.codigo_categoria_viena
classificacao_viena['categoria'] = df.catgoria_viena
classificacao_viena['cod_divisao'] = df.codigo_categoria_divisoes
classificacao_viena['cod_divisao_compacto'] = df.codigo_categoria_divisoes_simplificado
classificacao_viena['divisao'] = df.categoria_divisoes
classificacao_viena['cod_secao'] = df.codigo_categoria_secao
classificacao_viena['cod_secao_compacto'] = df.codigo_categoria_secao_simples
classificacao_viena['secao'] = df.categoria_secao

In [32]:
classificacao_viena.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 327 entries, 0 to 326
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   cod_categoria         327 non-null    int64  
 1   categoria             327 non-null    object 
 2   cod_divisao           327 non-null    float64
 3   cod_divisao_compacto  327 non-null    int64  
 4   divisao               327 non-null    object 
 5   cod_secao             197 non-null    object 
 6   cod_secao_compacto    197 non-null    float64
 7   secao                 197 non-null    object 
dtypes: float64(2), int64(2), object(4)
memory usage: 23.0+ KB


In [33]:
classificacao_viena.sample(20)

Unnamed: 0,cod_categoria,categoria,cod_divisao,cod_divisao_compacto,divisao,cod_secao,cod_secao_compacto,secao
295,24,"Heráldica, moedas, emblemas, símbolos",24.9,249,"COROAS, DIADEMAS",,,
1,1,"Corpos celestes, fenômenos naturais, mapas geo...",1.1,11,"ESTRELAS, COMETAS",1.1.3,113.0,Duas estrelas
274,19,"Recipientes, embalagens, representações de pro...",19.7,197,"GARRAFAS, FRASCOS",,,
18,1,"Corpos celestes, fenômenos naturais, mapas geo...",1.3,13,SOL,1.3.10,1310.0,"Sol com nuvens, chuva, gotas d'água ou represe..."
32,1,"Corpos celestes, fenômenos naturais, mapas geo...",1.5,15,"TERRA, GLOBOS TERRESTRES, PLANETAS",1.5.6,156.0,Globos terrestres com flâmula ou inscrição
126,2,Seres humanos,2.3,23,MULHERES,2.3.7,237.0,Mulheres de vestido longo
42,1,"Corpos celestes, fenômenos naturais, mapas geo...",1.5,15,"TERRA, GLOBOS TERRESTRES, PLANETAS",1.5.25,1525.0,Outros planetas
166,2,Seres humanos,2.7,27,"GRUPOS MISTOS, CENAS",2.7.10,2710.0,Mulher(es) e criança(s)
273,19,"Recipientes, embalagens, representações de pro...",19.3,193,PEQUENOS RECIPIENTES,,,
253,14,"Ferragens, ferramentas, escadas",14.9,149,"FERRAMENTAS PARA AGRICULTURA OU HORTICULTURA, ...",,,


In [34]:
# Preenche os dados vazios com zero para não atrapalhar o modelo
classificacao_viena.fillna(0, inplace=True)

## Criação de um campo para identificar claramente a categoria de viena

In [35]:
dados.classificacao_viena.sample(20)

15169     4 - 26.13.25   - Outras figuras geométricas, ...
40622     4 - 24.15.2    - Duas flechas  /  4 - 24.15.2...
42687     4 - 26.4.2     - Retângulos  /  4 - 26.4.9   ...
5984      4 - 27.5.1     - Letras apresentando um grafi...
16212     4 - 26.5.18    - Polígonos contendo uma ou ma...
22362     4 - 5.3.13     - Folhas estilizadas  /  4 - 2...
51676     4 - 5.3.13     - Folhas estilizadas  /  4 - 5...
46285     4 - 26.4.4     - Outros paralelogramos, trapé...
6328      4 - 29.1.12    - Duas cores predominantes  / ...
812       4 - 27.5.1     - Letras apresentando um grafi...
8004      4 - 1.17.16    - Mapas físicos  /  4 - 1.17.2...
5343      4 - 27.5.1     - Letras apresentando um grafi...
33089     4 - 27.5.1     - Letras apresentando um grafi...
8997                                                      
25628     4 - 26.1.3     - Um círculo ou elipse  /  4 -...
33967     4 - 27.5.1     - Letras apresentando um grafi...
40242     4 - 16.1.4     - Aparelhos e equipamentos de .

In [36]:
codigo_classificacao_viena = dados.classificacao_viena.str.slice(0,13).str.split("-", expand=True)
codigo_classificacao_viena.columns = ['chave', 'codigo_classificacao_viena']

In [37]:
dados['codigo_classificacao_viena'] = codigo_classificacao_viena.codigo_classificacao_viena.str.replace(".", "")

In [38]:
dados.sample(40)

Unnamed: 0,numero_processo,nome_marca,descricao_situacao,descricao_apresentacao,descricao_natureza,classificacao_viena,nome_titular,nome_representante_legal,data_deposito,data_concessao,data_vigencia,numero_rpi,data_Rpi,codigo_despacho,descricao_despacho,complemento_despacho,numero_revisao_classificacao_nice,codigo_classificacao_nice,especificacao_classificacao_nice,codigo_classificacao_viena
43800,914600303,25 PARA NOIVAS,Registro de marca em vigor ...,Nominativa,De Serviço,,ALINE DE ALMEIDA E OLIVEIRA,Aline de Almeida e Oliveira,2018-04-29,2019-05-07,2029-05-07,2522,2019-05-07,280,Concessão de registro,,11,41,Condução de visitas guiadas Condução de visi...,
7251,914361376,G & Mirrha casquinhas gluten free,Pedido definitivamente arquivado ...,Mista,De Produto,4 - 8.7.25 - Outros produtos alimentícios...,GENILDA MEDEIROS DE OLIVEIRA,,2018-03-20,,,2466,2018-04-10,300,Publicação de pedido de registro para oposiçã...,,11,30,Casquinha para sorvete ...,8725.0
12161,914860445,AGROBULL Florianópolis / SC,Registro de marca em vigor ...,Mista,De Serviço,4 - 24.1.9 - Escudos com representações d...,MARQUES & SCHERER COMÉRCIO E SERVIÇOS AGROPEC...,Lenice Dos Santos Marino,2018-06-14,2019-07-02,2029-07-02,2530,2019-07-02,280,Concessão de registro,,11,44,Estética para animal toalete animal Higien...,2419.0
35487,915193779,LANBENA,Registro de marca em vigor ...,Mista,De Produto,4 - 27.5.1 - Letras apresentando um grafi...,"SHENZHEN QIANZIMEI COSMETICS CO.,LTD.",Vilage Marcas e Patentes Ltda,2018-08-09,2019-05-28,2029-05-28,2521,2019-04-30,301,Deferimento do pedido,,11,3,"Cosméticos em geral, produtos de limpeza faci...",2751.0
19806,915856417,Instituto Feluma,Registro de marca em vigor ...,Mista,De Serviço,4 - 26.11.3 - Mais de duas linhas ou de du...,FUNDAÇÃO EDUCACIONAL LUCAS MACHADO,Luiza Tangari Coelho,2018-09-11,2019-07-02,2029-07-02,2530,2019-07-02,280,Concessão de registro,,11,42,Aluguel de software de computador - Informaç...,26113.0
16739,914954229,JORGEPLA CONTABILIDADE,Registro de marca em vigor ...,Nominativa,De Serviço,,JORGEPLA CONTABILIDADE LTDA.,,2018-07-02,2019-04-30,2029-04-30,2517,2019-04-02,301,Deferimento do pedido,,11,35,Contabilidade - Informação em Contabilidad...,
56096,916183858,MADRIL,Registro de marca em vigor ...,Mista,De Produto,4 - 27.5.1 - Letras apresentando um grafi...,MADRIL INDUSTRIA METALURGICA LTDA,Everton Luis Rossin,2018-10-31,2019-09-17,2029-09-17,2527,2019-06-11,301,Deferimento do pedido,,11,6,Abraçadeiras de metal Armaduras de metal par...,2751.0
10197,914347853,WITNESS FOR THE PROSECUTION,Registro de marca em vigor ...,Nominativa,De Produto,,AGATHA CHRISTIE LIMITED,Letícia Provedel da Cunha,2018-03-16,2019-03-06,2029-03-06,2509,2019-02-05,301,Deferimento do pedido,,11,9,Suportes de mídia e mídia de gravação magnéti...,
2243,914113720,GynoPrep,Registro de marca em vigor ...,Mista,De Produto,4 - 27.5.1 - Letras apresentando um grafi...,STRA NEGÓCIOS EM SAÚDE E BEM ESTAR LTDA EPP,Edvaldo Luis Alves,2018-02-01,2019-11-19,2029-11-19,2507,2019-01-22,307,Exigência de mérito,<b>Detalhes do despacho: </b>Reapresente espe...,11,5,preparação farmacêutica para diagnóstico in v...,2751.0
31851,915146851,DEEP ST,Registro de marca em vigor ...,Nominativa,De Serviço,,FÁBIO AUGUSTO FRERING,M C Araújo Consultoria em Propriedade Industr...,2018-08-02,2019-07-23,2029-07-23,2565,2020-03-03,283,Deferimento da petição,<b>Protocolo:</b> 850200023946 (27/01/2020) <...,11,35,Serviços de comércio através de qualquer mei...,


In [39]:
dados.codigo_classificacao_viena.sample(5)

37067     614   
19447     261125
36393     2751  
33864       None
6077      1911  
Name: codigo_classificacao_viena, dtype: object

In [40]:
dados.fillna(0, inplace=True)

In [41]:
dados['codigo_classificacao_viena'] = dados['codigo_classificacao_viena'].astype(float).astype(int)

## União das Bases de Classificação de Viena com o Dataset Principal

In [42]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 541796 entries, 0 to 56613
Data columns (total 20 columns):
 #   Column                             Non-Null Count   Dtype 
---  ------                             --------------   ----- 
 0   numero_processo                    541796 non-null  int64 
 1   nome_marca                         541796 non-null  object
 2   descricao_situacao                 541796 non-null  object
 3   descricao_apresentacao             541796 non-null  object
 4   descricao_natureza                 541796 non-null  object
 5   classificacao_viena                541796 non-null  object
 6   nome_titular                       541796 non-null  object
 7   nome_representante_legal           541796 non-null  object
 8   data_deposito                      541796 non-null  object
 9   data_concessao                     541796 non-null  object
 10  data_vigencia                      541796 non-null  object
 11  numero_rpi                         541796 non-null  i

In [43]:
classificacao_viena.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 327 entries, 0 to 326
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   cod_categoria         327 non-null    int64  
 1   categoria             327 non-null    object 
 2   cod_divisao           327 non-null    float64
 3   cod_divisao_compacto  327 non-null    int64  
 4   divisao               327 non-null    object 
 5   cod_secao             327 non-null    object 
 6   cod_secao_compacto    327 non-null    float64
 7   secao                 327 non-null    object 
dtypes: float64(2), int64(2), object(4)
memory usage: 23.0+ KB


In [44]:
classificacao_viena.sample(20)

Unnamed: 0,cod_categoria,categoria,cod_divisao,cod_divisao_compacto,divisao,cod_secao,cod_secao_compacto,secao
86,1,"Corpos celestes, fenômenos naturais, mapas geo...",1.17,117,"MAPAS GEOGRÁFICOS, PLANISFÉRIOS",1.17.12,11712.0,"Ilhas, arquipélagos"
174,2,Seres humanos,2.7,27,"GRUPOS MISTOS, CENAS",2.7.18,2718.0,Grupos comendo ou bebendo
256,15,"Maquinaria, motores, engenhos",15.3,153,"MÁQUINAS DE USO DOMÉSTICO, RODAS DE FIAR",0,0.0,0
254,14,"Ferragens, ferramentas, escadas",14.11,1411,ESCADAS,0,0.0,0
155,2,Seres humanos,2.5,25,CRIANÇAS,2.5.25,2525.0,Outras crianças
239,10,"Tabacos, artigos para fumantes, fósforos, arti...",10.1,101,"TABACOS, ARTIGOS PARA FUMANTES, FÓSFOROS",0,0.0,0
71,1,"Corpos celestes, fenômenos naturais, mapas geo...",1.15,115,FENÔMENOS NATURAIS,1.15.9,1159.0,"Fontes luminosas, raios, feixes de luz"
187,2,Seres humanos,2.9,29,"PARTES DO CORPO HUMANO, ESQUELETOS, CRÂNIOS",2.9.12,2912.0,"Cabelos, mechas de cabelo, perucas, barbas, bi..."
171,2,Seres humanos,2.7,27,"GRUPOS MISTOS, CENAS",2.7.15,2715.0,Outros grupos trabalhando
295,24,"Heráldica, moedas, emblemas, símbolos",24.9,249,"COROAS, DIADEMAS",0,0.0,0


In [45]:
classificacao_viena['cod_secao_compacto'] = classificacao_viena['cod_secao_compacto'].astype(float).astype(int)

In [46]:
classificacao_viena.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 327 entries, 0 to 326
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   cod_categoria         327 non-null    int64  
 1   categoria             327 non-null    object 
 2   cod_divisao           327 non-null    float64
 3   cod_divisao_compacto  327 non-null    int64  
 4   divisao               327 non-null    object 
 5   cod_secao             327 non-null    object 
 6   cod_secao_compacto    327 non-null    int64  
 7   secao                 327 non-null    object 
dtypes: float64(1), int64(3), object(4)
memory usage: 23.0+ KB


In [47]:
base_marcas = dados.merge(classificacao_viena, left_on='codigo_classificacao_viena', right_on='cod_secao_compacto', how='inner')

In [48]:
base_marcas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20352329 entries, 0 to 20352328
Data columns (total 28 columns):
 #   Column                             Dtype  
---  ------                             -----  
 0   numero_processo                    int64  
 1   nome_marca                         object 
 2   descricao_situacao                 object 
 3   descricao_apresentacao             object 
 4   descricao_natureza                 object 
 5   classificacao_viena                object 
 6   nome_titular                       object 
 7   nome_representante_legal           object 
 8   data_deposito                      object 
 9   data_concessao                     object 
 10  data_vigencia                      object 
 11  numero_rpi                         int64  
 12  data_Rpi                           object 
 13  codigo_despacho                    int64  
 14  descricao_despacho                 object 
 15  complemento_despacho               object 
 16  numero_revisao_c

## Limpeza das variáveis usadas no pré-processamento

In [55]:
import gc
gc.collect()

183

In [56]:
del classificacao_viena
del viena
del viena_categoria
del viena_divisao
del viena_secao

In [57]:
gc.collect()

100

## Criação do Target

In [64]:
# Atribuição manual das classificações, o ideal é que já venha classificado da base
# Positivos
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Anulação'), 'cod_situacao'] = 1
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Deferimento'), 'cod_situacao'] = 1
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Emissão'), 'cod_situacao'] = 1
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Recurso provido'), 'cod_situacao'] = 1
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Concessão de registro'), 'cod_situacao'] = 1
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Petição de retificação atendida'), 'cod_situacao'] = 1
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Publicação de decisão judicial transitada em julgado'), 'cod_situacao'] = 1
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Publicação de pedido'), 'cod_situacao'] = 1
base_marcas.loc[base_marcas['descricao_situacao'].str.contains('Registro de marca em vigor'), 'cod_situacao'] = 1

# Negativos
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Arquivamento definitivo de pedido de registro por falta de documentos de marca coletiva'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Arquivamento definitivo de pedido de registro por falta de documentos de marca de certificação'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Arquivamento definitivo de pedido de registro por falta de cumprimento de exigência de mérito'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Arquivamento de petição por falta de procuração'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Arquivamento definitivo de pedido de registro por falta de pagamento da concessão'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Arquivamento definitivo de pedido de registro por falta de procuração'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Cancelamento de ofício de registro de marca'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Notificação'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Recurso não provido'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Indeferimento'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Petição de retificação não atendida'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Requerimento provido (nulo o registro)'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Arquivamento de ofício de pedido de registro de marca'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Requerimento não provido'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_situacao'].str.contains('indeferido'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_situacao'].str.contains('Pedido definitivamente arquivado'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_situacao'].str.contains('Registro de marca extinto'), 'cod_situacao'] = 0
base_marcas.loc[base_marcas['descricao_situacao'].str.contains('Registro de marca nulo'), 'cod_situacao'] = 0

# Intermediario
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Exigência'), 'cod_situacao'] = 2
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Sobrestamento'), 'cod_situacao'] = 2
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Ato de prejudicar petição'), 'cod_situacao'] = 2
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Decisão de não conhecer da petição'), 'cod_situacao'] = 2
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Publicação de pedido de registro para oposição (exame formal concluído)'), 'cod_situacao'] = 2
base_marcas.loc[base_marcas['descricao_despacho'].str.contains('Republicação de pedido'), 'cod_situacao'] = 2
base_marcas.loc[base_marcas['descricao_situacao'].str.contains('Aguardando'), 'cod_situacao'] = 2

  return func(self, *args, **kwargs)


In [80]:
base_marcas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20352329 entries, 0 to 20352328
Data columns (total 29 columns):
 #   Column                             Dtype  
---  ------                             -----  
 0   numero_processo                    int64  
 1   nome_marca                         object 
 2   descricao_situacao                 object 
 3   descricao_apresentacao             object 
 4   descricao_natureza                 object 
 5   classificacao_viena                object 
 6   nome_titular                       object 
 7   nome_representante_legal           object 
 8   data_deposito                      object 
 9   data_concessao                     object 
 10  data_vigencia                      object 
 11  numero_rpi                         int64  
 12  data_Rpi                           object 
 13  codigo_despacho                    int64  
 14  descricao_despacho                 object 
 15  complemento_despacho               object 
 16  numero_revisao_c

In [81]:
#Número de valores faltantes em cada coluna. isnull() retorna 1 se o valor é nulo.
base_marcas.apply(lambda x: sum(x.isnull()),axis=0)

numero_processo                      0
nome_marca                           0
descricao_situacao                   0
descricao_apresentacao               0
descricao_natureza                   0
classificacao_viena                  0
nome_titular                         0
nome_representante_legal             0
data_deposito                        0
data_concessao                       0
data_vigencia                        0
numero_rpi                           0
data_Rpi                             0
codigo_despacho                      0
descricao_despacho                   0
complemento_despacho                 0
numero_revisao_classificacao_nice    0
codigo_classificacao_nice            0
especificacao_classificacao_nice     0
codigo_classificacao_viena           0
cod_categoria                        0
categoria                            0
cod_divisao                          0
cod_divisao_compacto                 0
divisao                              0
cod_secao                

# Análise Exploratória

## Inicio da Análise Exploratória

In [84]:
# Resumo da base depois da derivação de atributos
base_marcas.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20352329 entries, 0 to 20352328
Data columns (total 29 columns):
 #   Column                             Dtype  
---  ------                             -----  
 0   numero_processo                    int64  
 1   nome_marca                         object 
 2   descricao_situacao                 object 
 3   descricao_apresentacao             object 
 4   descricao_natureza                 object 
 5   classificacao_viena                object 
 6   nome_titular                       object 
 7   nome_representante_legal           object 
 8   data_deposito                      object 
 9   data_concessao                     object 
 10  data_vigencia                      object 
 11  numero_rpi                         int64  
 12  data_Rpi                           object 
 13  codigo_despacho                    int64  
 14  descricao_despacho                 object 
 15  complemento_despacho               object 
 16  numero_revisao_c

In [85]:
base_marcas.shape

(20352329, 29)

### Análise univariada

In [None]:
#Distribuição das variáveis categóricas
for c in ['secao', 'divisao', 'categoria','codigo_classificacao_viena', 'descricao_natureza', 'descricao_situacao', 'cod_situacao']:
    print ("---- %s ---" % c)
    print (base_marcas[c].value_counts())

### Análise bivariada

In [None]:
# nâo foi feita por falta de tempo hábil

# MLP (Clustering with Multi Layer Perceptron - Deep Learning)

In [91]:
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split
import numpy as np

import keras

from keras.models import Sequential
from keras.layers import Dense, Activation
%matplotlib inline 

## Preparação da base para treinamento

Exclusão de toda e qualquer variável alfanumérica, pois o modelo preditivo não aceita tais caracteres. 

In [98]:
labels = {
    'target' : ['Deferido', 'Indeferido', 'Intermediario'],
    'features' : ['Nro RPI', 'Cod. Despacho', 'Nro Revisão NICE', 'Cod. Nice', 'Cod. Viena', 'Cod. Categoria', 'Cod. Divisão', 'Cod. Seção']
}

In [93]:
marcas_target = base_marcas['cod_situacao']
marcas = base_marcas.loc[:, base_marcas.columns != 'cod_situacao']

del marcas['numero_processo']
del marcas['nome_marca']
del marcas['descricao_situacao']
del marcas['descricao_apresentacao'] # deve ser convertido para numerico
del marcas['descricao_natureza'] # deve ser convertido para numerico
del marcas['classificacao_viena']
del marcas['nome_titular']
del marcas['nome_representante_legal']
del marcas['data_deposito'] # derivar para o mes
del marcas['data_concessao'] # derivar para o mes
del marcas['data_vigencia'] # derivar para o mes
del marcas['data_Rpi']
del marcas['descricao_despacho']
del marcas['complemento_despacho']
del marcas['especificacao_classificacao_nice']
del marcas['categoria']
del marcas['cod_divisao']
del marcas['divisao']
del marcas['cod_secao']
del marcas['secao']

In [107]:
marcas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20352329 entries, 0 to 20352328
Data columns (total 8 columns):
 #   Column                             Dtype
---  ------                             -----
 0   numero_rpi                         int64
 1   codigo_despacho                    int64
 2   numero_revisao_classificacao_nice  int64
 3   codigo_classificacao_nice          int64
 4   codigo_classificacao_viena         int64
 5   cod_categoria                      int64
 6   cod_divisao_compacto               int64
 7   cod_secao_compacto                 int64
dtypes: int64(8)
memory usage: 1.4 GB


In [120]:
marcas = marcas.values
marcas_target = marcas_target.values

## Separação da base de treinamento e testes

In [121]:
X, y = marcas, marcas_target

x_train, x_test, y_train, y_test = train_test_split(X, y, train_size=0.8, random_state=0)

x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.5)

print('Shape de x_train', x_train.shape)
print('Shape de x_val', x_val.shape)
print('Shape de x_test', x_test.shape)

print('Shape de y_train', y_train.shape)
print('Shape de y_val', y_val.shape)
print('Shape de y_test', y_test.shape)

Shape de x_train (8140931, 8)
Shape de x_val (8140932, 8)
Shape de x_test (4070466, 8)
Shape de y_train (8140931,)
Shape de y_val (8140932,)
Shape de y_test (4070466,)


In [None]:
fig, ax = plt.subplots(3, 3, figsize=(15,15))

for i in range(3):
    for j in range(3):
        ax[i,j].scatter(x_train[:,j], x_train[:, i + 1], c=y_train, s=60)
        ax[i,j].set_xticks(())
        ax[i,j].set_yticks(())
        
        if i == 2:
            ax[i,j].set_xlabel(labels['features'][j])
        if j == 0:
            ax[i,j].set_ylabel(labels['features'][i + 1])
        if j > i:
            ax[i,j].set_visible(False)

## Modelo 

In [125]:
model = Sequential()

# Layer de tamanho 16 e 8 atributos
model.add(Dense(16, input_shape=(8,), activation='tanh'))
model.add(Dense(8, activation="relu"))
# 3 categorias possiveis
model.add(Dense(3, activation='softmax'))
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
batch_size = 25 # ideal 16 a 25
epochs = 100 # ideal 200 

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_val, y_val))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100

In [None]:
model.save('/gdrive/MyDrive/Datasets/INPI/')

In [None]:
# Plotando o historico do processo de treinamento
plt.figure(figsize=(20, 5))
plt.plot(history.history['loss'], color='blue')
plt.plot(history.history['val_loss'], color='red')
plt.title('Model loss', fontsize=20)
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['Treinamento', 'Validação'], loc='upper right', fontsize=14)
plt.show()

## Avaliação do Modelo

In [130]:
score = model.evaluate(x_test, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

Test loss: 0.8161627054214478
Test accuracy: 0.7007138729095459


# Conclusões

In [None]:
#testing model
x_new = np.array([[5, 2.9, 1, 0.2]])
x_new.shape

In [None]:
prediction = model.predict(x_new)
prediction

In [None]:
iris['target_names'][prediction.argmax()]

O algoritmo deve trazer a informação se a patente tem chances de aprovação.