# _Notebook Jupyter_ 4_classificarDESCRICAO

# Classificação da DESCRIÇÃO obtida a partir da lista de Aplicações

Diante da necessidade de se ter uma série de registros classificados para o aprendizado supervisionado será necessária a classificação prévia de toda a base de dados para a aplicação do aprendizado de máquina que fará predições futuras dessa classificação.

### Importa as bibliotecas necessárias

In [1]:
import pandas as pd, numpy as np
import time
# importa o CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# Data e hora da execução do script
print(f'Código executado em {time.strftime("%d/%m/%Y às %H:%M", time.localtime(time.time()))}')

Código executado em 10/01/2022 às 20:02


### Importando a lista de Aplicações

In [3]:
df_aplicacoes = pd.read_csv('Aplicacoes.csv')

In [4]:
df_aplicacoes

Unnamed: 0,APLICACOES
0,ACELLERA ACX 250F 250
1,ACELLERA FRONTLANDER 500
2,ACELLERA FRONTLANDER 800 EFI
3,ACELLERA HOTZOO SPORT 90
4,ACELLERA QUADRILANDER 300
5,ACELLERA QUADRILANDER 400
6,ACELLERA QUADRILANDER 600
7,ACELLERA SPORTLANDER 150R 150
8,ACELLERA SPORTLANDER 250XR 250
9,ACELLERA SPORTLANDER 350ZX 350


In [5]:
df_aplicacoes.shape

(861, 1)

Observa-se dos dados acima que há 858 modelos de motocicletas disponíveis, que são as nossas possíveis aplicações dos kits de transmissão a serem importados.

#### Criação das Bags of Words do DataSet de aplicações

In [6]:
bow_aplicacoes = CountVectorizer(token_pattern='(?u)\\b[a-zA-z0-9\\w-]+\\b')

In [7]:
display(bow_aplicacoes)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b[a-zA-z0-9\\w-]+\\b',
        tokenizer=None, vocabulary=None)

In [8]:
bow_aplicacoes.fit(df_aplicacoes['APLICACOES'])

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b[a-zA-z0-9\\w-]+\\b',
        tokenizer=None, vocabulary=None)

In [9]:
# Verificação das palavras
vocabulario_aplicacoes = bow_aplicacoes.vocabulary_
vocabulario_aplicacoes

{'acellera': 89,
 'acx': 91,
 '250f': 35,
 '250': 34,
 'frontlander': 334,
 '500': 51,
 '800': 76,
 'efi': 280,
 'hotzoo': 414,
 'sport': 702,
 '90': 82,
 'quadrilander': 616,
 '300': 39,
 '400': 44,
 '600': 58,
 'sportlander': 704,
 '150r': 24,
 '150': 23,
 '250xr': 36,
 '350zx': 42,
 '350': 41,
 '450tr': 48,
 '450': 46,
 'adly': 93,
 'atv': 127,
 'jaguar': 433,
 'rt': 662,
 'agrale': 100,
 'city': 202,
 'dakar': 228,
 'elefant': 282,
 're': 641,
 'explorer': 303,
 'force': 328,
 'junior': 449,
 'sst': 715,
 'super': 731,
 'sxt': 737,
 'tchau': 743,
 'amazonas': 106,
 'ame': 107,
 '110': 6,
 'ame-110': 108,
 'ame-150': 109,
 'ame-250': 110,
 'lx': 504,
 'ame-lx': 111,
 'aprilia': 118,
 'area-51': 120,
 'classic': 205,
 'leonardo': 489,
 'moto': 541,
 'pegaso': 591,
 'rally': 634,
 'rs': 660,
 'rsv': 661,
 'mille': 530,
 'rx': 665,
 'scarabeo': 675,
 'sonic': 696,
 'sr': 710,
 'racing': 633,
 'www': 852,
 'ariel': 121,
 'golden': 367,
 'arrow': 122,
 'm2f': 506,
 'red': 643,
 'hunter':

In [10]:
# Verificação do número de termos no vocabulário de aplicações
len(bow_aplicacoes.vocabulary_)

914

In [11]:
# Transformação em vetores binários
X_bow_aplicacoes = bow_aplicacoes.fit_transform(df_aplicacoes['APLICACOES'])
print(X_bow_aplicacoes)

  (0, 34)	1
  (0, 35)	1
  (0, 91)	1
  (0, 89)	1
  (1, 51)	1
  (1, 334)	1
  (1, 89)	1
  (2, 280)	1
  (2, 76)	1
  (2, 334)	1
  (2, 89)	1
  (3, 82)	1
  (3, 702)	1
  (3, 414)	1
  (3, 89)	1
  (4, 39)	1
  (4, 616)	1
  (4, 89)	1
  (5, 44)	1
  (5, 616)	1
  (5, 89)	1
  (6, 58)	1
  (6, 616)	1
  (6, 89)	1
  (7, 23)	1
  :	:
  (853, 896)	1
  (853, 887)	1
  (853, 46)	1
  (854, 81)	1
  (854, 896)	1
  (854, 887)	1
  (855, 59)	1
  (855, 897)	1
  (855, 887)	1
  (855, 58)	1
  (856, 621)	1
  (856, 897)	1
  (856, 887)	1
  (857, 628)	1
  (857, 897)	1
  (857, 887)	1
  (858, 898)	1
  (858, 887)	1
  (858, 51)	1
  (859, 912)	1
  (859, 909)	1
  (859, 16)	1
  (860, 912)	1
  (860, 909)	1
  (860, 29)	1


In [12]:
type(X_bow_aplicacoes)

scipy.sparse.csr.csr_matrix

In [13]:
matrix_aplicacoes = bow_aplicacoes.transform(df_aplicacoes['APLICACOES'])

In [14]:
print(matrix_aplicacoes)

  (0, 34)	1
  (0, 35)	1
  (0, 89)	1
  (0, 91)	1
  (1, 51)	1
  (1, 89)	1
  (1, 334)	1
  (2, 76)	1
  (2, 89)	1
  (2, 280)	1
  (2, 334)	1
  (3, 82)	1
  (3, 89)	1
  (3, 414)	1
  (3, 702)	1
  (4, 39)	1
  (4, 89)	1
  (4, 616)	1
  (5, 44)	1
  (5, 89)	1
  (5, 616)	1
  (6, 58)	1
  (6, 89)	1
  (6, 616)	1
  (7, 23)	1
  :	:
  (853, 46)	1
  (853, 887)	1
  (853, 896)	1
  (854, 81)	1
  (854, 887)	1
  (854, 896)	1
  (855, 58)	1
  (855, 59)	1
  (855, 887)	1
  (855, 897)	1
  (856, 621)	1
  (856, 887)	1
  (856, 897)	1
  (857, 628)	1
  (857, 887)	1
  (857, 897)	1
  (858, 51)	1
  (858, 887)	1
  (858, 898)	1
  (859, 16)	1
  (859, 909)	1
  (859, 912)	1
  (860, 29)	1
  (860, 909)	1
  (860, 912)	1


In [15]:
print(matrix_aplicacoes.shape)

(861, 914)


In [16]:
print(matrix_aplicacoes.toarray())

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 1 0]
 [0 0 0 ... 0 1 0]]


In [17]:
df1=pd.DataFrame(matrix_aplicacoes.toarray())
df1

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,904,905,906,907,908,909,910,911,912,913
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [18]:
# Totalização do número de termos de cada vocábulo
df_sum=df1.sum(axis=0)
df_sum

0       5
1       9
2       1
3       1
4       1
5       1
6       7
7       2
8       1
9       1
10      1
11      1
12      2
13      1
14      5
15      1
16     29
17      1
18      1
19      2
20      3
21      2
22      2
23     26
24      2
25      1
26      1
27      1
28      2
29     15
       ..
884     1
885     1
886     1
887    97
888     1
889     1
890     1
891     1
892     1
893     1
894     1
895     1
896     4
897     3
898     1
899     1
900     1
901     1
902     1
903     1
904     1
905     1
906     1
907     1
908     1
909     2
910     1
911     1
912     2
913     1
Length: 914, dtype: int64

In [19]:
# Sumário do dataset
df_sum.describe()

count    914.000000
mean       2.539387
std        5.752382
min        1.000000
25%        1.000000
50%        1.000000
75%        2.000000
max       97.000000
dtype: float64

In [20]:
# Identificação dos valores máximos
print(df_sum.sort_values())

456     1
557     1
558     1
559     1
560     1
562     1
564     1
565     1
567     1
568     1
556     1
569     1
573     1
574     1
576     1
579     1
580     1
581     1
582     1
583     1
584     1
571     1
555     1
554     1
553     1
527     1
528     1
529     1
530     1
532     1
       ..
705    12
158    13
356    13
731    13
46     14
769    14
730    14
118    14
44     15
29     15
778    15
51     16
185    17
552    17
256    18
814    18
498    22
463    23
50     24
475    25
148    25
685    25
23     26
16     29
733    36
607    40
34     40
465    43
412    79
887    97
Length: 914, dtype: int64


In [21]:
# Identificação dos valores com uma ocorrência
df_sum[df_sum==1]

2      1
3      1
4      1
5      1
8      1
9      1
10     1
11     1
13     1
15     1
17     1
18     1
25     1
26     1
27     1
30     1
32     1
33     1
36     1
38     1
40     1
42     1
45     1
47     1
48     1
49     1
52     1
53     1
54     1
55     1
      ..
877    1
878    1
879    1
880    1
881    1
884    1
885    1
886    1
888    1
889    1
890    1
891    1
892    1
893    1
894    1
895    1
898    1
899    1
900    1
901    1
902    1
903    1
904    1
905    1
906    1
907    1
908    1
910    1
911    1
913    1
Length: 655, dtype: int64

Diante da necessidade de se ter uma série de registros classificados para o aprendizado supervisionado e após a determinação dos 858 modelos de aplicações disponíveis, vamos classificar baseados nas seguintes observações realizadas na análise exploratória dos dados:
1. Os modelos de motocicletas têm nomes que os distinguem em grande parte dos casos;
2. Dos 913 termos, 655 aparacem apenas uma vez, o que implica que sua ocorrência já deve classificar o item;
3. O termo com maior número de ocorrências aparece 97 vezes (YAMAHA), sendo o menos distintivo de todos.

In [22]:
# Função para pegar a chave pelo valor, dado que valor é único.
def pegaChave(v):
    for chave, valor in vocabulario_aplicacoes.items():
        if v == valor:
            return chave
    return "Não existe chave para esse valor."

In [23]:
print(pegaChave(881).upper())

XS850


In [24]:
# Criação do dicionário chaves invertendo chave e valor do vocabulário
chaves = dict((v,k) for k,v in vocabulario_aplicacoes.items())

In [25]:
# Termo do vocabulário pelo índice
chaves[887].upper()

'YAMAHA'

In [26]:
# Índice pelo termo do vocabulário
vocabulario_aplicacoes['yamaha']

887

In [27]:
# Número de ocorrências pelo termo do vocabulário
df_sum[vocabulario_aplicacoes['yamaha']]

97

In [28]:
# Função para determinar a aplicação caso a contagem do termo seja 1
def achaAplicacao1(modelo):
    # pega os termos do modelo e transforma em uma lista
    modelolst = modelo.lower().split()
    # para cada termo
    for mod in modelolst:
        try:
            # l é o índice termo no vocabulário de aplicações
            l = vocabulario_aplicacoes[mod]
            # se a soma de todos os termos do índice i do vocabulário for 1
            if df_sum[l]==1: 
                # pegar o índice dessa linha
                # que será onde o valor 1 aparece na coluna chamada linha do df1
                i = int(df1[df1[l]==1].index.values)
                # retornar a descrição da aplicação dessa linha
                return df_aplicacoes['APLICACOES'][i]
        except:
            continue
    return 'XXX'

In [29]:
print(achaAplicacao1('MOTO TEMOS OUTRO ZING'))

KIMCO ZING


### Importa os dados já tratados

In [30]:
# Importa base de dados com os modelos já determinados para um dataframe
df = pd.read_excel('dataframe_modelos.xlsx')

In [31]:
df.sample(4)

Unnamed: 0,NUMERO DE ORDEM,ANOMES,COD.NCM,DESCRICAO DO CODIGO NCM,PAIS.OR,PAIS DE ORIGEM,PAIS.AQ,PAIS DE AQUISICAO,UND.ESTAT.,UNIDADE DE MEDIDA,...,VALOR UN.PROD.DOLAR,QTD COMERCIAL.,TOT.UN.PROD.DOLAR,UNIDADE DESEMBARQUE,UNIDADE DESEMBARACO,INCOTERM,NAT.INFORMACAO,SITUACAO DO DESPACHO,DESCRICAO,Modelo
887,264610000100010,202002,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",767,SUICA,10,QUILOGRAMA LIQUIDO,...,4.5,500.0,2250.0,N/INFORMADO,IRF - PORTO DE SUAPE,FOB,EFETIVA,DI DESEMBARAÇADA,cg 125 fan cargo 125,HONDA CARGO 125 CG FAN
13879,195800000200022,202103,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,4.16,100.0,416.0,N/INFORMADO,PORTO DE MANAUS,FOB,EFETIVA,DI DESEMBARAÇADA,cg 125 titan ks es cargo p21b-,HONDA CG TIT AN 125 CARGO TITAN
3190,124890000200011,202006,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",767,SUICA,10,QUILOGRAMA LIQUIDO,...,3.987,1000.0,3987.0,N/INFORMADO,ITAJAI,FOB,EFETIVA,DI DESEMBARAÇADA,cg 125 fan cargo 125 nr,HONDA CARGO 125 CG FAN
9927,1709790000100031,202011,87141000,PARTES ACESSÓRIOS P/MOTOCICLET,160,"CHINA, REPUBLICA POP",160,"CHINA, REPUBLICA POP",10,QUILOGRAMA LIQUIDO,...,1.63,300.0,489.0,N/INFORMADO,ITAJAI,FOB,EFETIVA,DI DESEMBARAÇADA,gsr150 42 allen,GSR 150


In [32]:
df.iloc[:,-2:].head()

Unnamed: 0,DESCRICAO,Modelo
0,honda cg 150 titan ks es mix fan,HONDA CG 150 TIT AN TITAN FAN
1,honda cg 125 titan ks es cargo,CG HONDA TIT AN 125 CARGO TITAN
2,honda cg 125 fan,HONDA 125 CG FAN
3,c100 biz allen,HONDA BIZ C100
4,mirage 150 allen,MIRAGE 150


In [33]:
# Verifica o tamnanho do dataframe
df.shape

(18237, 27)

## Classificando segundo a lista de Aplicações

In [34]:
df['APLICACAO']=df['Modelo'].apply(achaAplicacao1)

In [35]:
df.iloc[:,-3:].head(10)

Unnamed: 0,DESCRICAO,Modelo,APLICACAO
0,honda cg 150 titan ks es mix fan,HONDA CG 150 TIT AN TITAN FAN,HONDA CG TIT TITAN 125 150 160
1,honda cg 125 titan ks es cargo,CG HONDA TIT AN 125 CARGO TITAN,HONDA CG TIT TITAN 125 150 160
2,honda cg 125 fan,HONDA 125 CG FAN,HONDA CG FAN
3,c100 biz allen,HONDA BIZ C100,HONDA BIZ 100 C100 125 C125
4,mirage 150 allen,MIRAGE 150,XXX
5,cbx 250 twister allen,HONDA CBX TWISTER 250,HONDA TWISTER CBX 250
6,crf 230 allen,HONDA CRF 230,XXX
7,shineray phoenix 50cc allen,SHINERAY PHOENIX,XXX
8,pop 110 allen,HONDA 110 POP,HONDA POP 100
9,pop 100 allen,HONDA POP 100,HONDA POP 100


In [36]:
df[df['APLICACAO']=='XXX'].iloc[:,-3:].head(10)

Unnamed: 0,DESCRICAO,Modelo,APLICACAO
4,mirage 150 allen,MIRAGE 150,XXX
6,crf 230 allen,HONDA CRF 230,XXX
7,shineray phoenix 50cc allen,SHINERAY PHOENIX,XXX
11,hunter max 125 allen,125 HUNTER MAX,XXX
13,web 100 allen,WEB 100,XXX
14,cb 250f allen,HONDA CB 250F,XXX
16,xt 250 tenere allen,YAMAHA TENERE XT 250,XXX
22,jet 49cc allen,JET,XXX
24,xtz 125 allen,YAMAHA XTZ 125,XXX
30,fazer 150 allen,YAMAHA 150 FAZER,XXX


In [37]:
print('Registros sem classificação:  ' + str(df[df['APLICACAO']=='XXX'].iloc[:,-3:].shape[0]))
print('Registros com classificação: ' + str(df[df['APLICACAO']!='XXX'].iloc[:,-3:].shape[0]))
print('Total de Registros:          ' + str(df.shape[0]))

Registros sem classificação:  2916
Registros com classificação: 15321
Total de Registros:          18237


Observa-se que após a classificação pelos termos únicos restaram cerca de 3.000 linhas, havendo mais de 15.000 registros já classificados.

#### Classifica o modelo como aplicação se os termos forem exatamente iguais

In [38]:
def achaAplicacao2(modelo):
    modelolst=modelo.lower().split() # cria lista com termos do modelo
    aplicacoes_temp=[] # inicializa a lista de saída
    for aplicacao in df_aplicacoes['APLICACOES']: # para cada aplicação
        aplicacaolst = aplicacao.lower().split() # cria lista
        if all(termos in aplicacaolst for termos in modelolst): # se a aplicacão contém o modelo
            aplicacoes_temp.append(aplicacao) # adiciona na lista de saída
    if len(aplicacoes_temp)==0:
        return 'XXX' # retorna a saída
    elif len(aplicacoes_temp)==1:
        return aplicacoes_temp[0] # retorna a saída
    else:
        return aplicacoes_temp # retorna a saída

In [39]:
# df temporário filtrado pelos não classificados
dftemp=df.iloc[:,-2:][df['APLICACAO']=='XXX']
dftemp.shape

(2916, 2)

In [40]:
dftemp.head()

Unnamed: 0,Modelo,APLICACAO
4,MIRAGE 150,XXX
6,HONDA CRF 230,XXX
7,SHINERAY PHOENIX,XXX
11,125 HUNTER MAX,XXX
13,WEB 100,XXX


In [41]:
# aplica a funão achaachaAplicacao2
dftemp=dftemp.assign(APLICACAO=dftemp['Modelo'].apply(achaAplicacao2))

In [42]:
dftemp.sample(5)

Unnamed: 0,Modelo,APLICACAO
17456,HONDA CB 300,HONDA CB 300R 300 CB300
1125,YAMAHA XTZ 250,"[YAMAHA LANDER XTZ 250, YAMAHA XTZ TENERE 250]"
4718,YAMAHA FAZER 250,YAMAHA FAZER YS250 250
14969,HONDA WR 200 CBX,XXX
4748,125 HUNTER MAX,XXX


In [43]:
# quantidade de registros sem classificação
dftemp[dftemp['APLICACAO']=='XXX'].shape

(659, 2)

In [44]:
# atualiza o dataframe df com as alterações feitas em dftemp
df.update(dftemp)

In [45]:
df.iloc[:,-3:].sample(5)

Unnamed: 0,DESCRICAO,Modelo,APLICACAO
16818,ys 250 fazer,YAMAHA FAZER 250,YAMAHA FAZER YS250 250
1780,bmk titan fan 200,HONDA TIT AN 200 TITAN FAN,HONDA CG TIT TITAN 125 150 160
364,brandy yamaha xtz 125 pc-corrente reg pc-coroa...,PC 125 XTZ BRANDY YAMAHA,HONDA PC 50
11310,racing xl 125,HONDA 125 RACING XL,XXX
3066,stt cb 300,HONDA CB 300,HONDA CB 300R 300 CB300


In [46]:
df[df['APLICACAO']=='XXX'].iloc[:,-3:].sample(5)

Unnamed: 0,DESCRICAO,Modelo,APLICACAO
11685,web 100,WEB 100,XXX
311,hunter max125 allen,125 HUNTER MAX,XXX
13551,crf230 50 allen,HONDA 230 50 CRF,XXX
5697,xt 250 tenere,YAMAHA TENERE XT 250,XXX
3878,speed 150,SPEED 150,XXX


In [47]:
print('Registros sem classificação:  ' + str(df[df['APLICACAO']=='XXX'].iloc[:,-3:].shape[0]))
print('Registros com classificação: ' + str(df[df['APLICACAO']!='XXX'].iloc[:,-3:].shape[0]))
print('Total de Registros:          ' + str(df.shape[0]))

Registros sem classificação:  659
Registros com classificação: 17578
Total de Registros:          18237


Observa-se que após a classificação pelos termos únicos restaram um pouco mais de 700 linhas.<br>
Para fins de utilização no aprendizado de classificação, os mais de 17.700 registros restantes são suficientes para comparação com os outros modelos a determinar a melhor classificação.

### Exportando o DataFrame

Exportando para um arquivo CSV

In [48]:
df.to_csv(r'dataframe_modelos_class0.csv', index = False, header = True)

Exportando para um arquivo de planilha do Excel

In [49]:
df.to_excel(r'dataframe_modelos_class0.xlsx', index = False, header = True)