# _Notebook Jupyter_ 4_classificarDESCRICAO

# Classificação da DESCRIÇÃO obtida a partir da lista de Aplicações

Diante da necessidade de se ter uma série de registros classificados para o aprendizado supervisionado será necessária a classificação prévia de toda a base de dados para a aplicação do aprendizado de máquina que fará predições futuras dessa classificação.

### Importa as bibliotecas necessárias

In [1]:
import pandas as pd, numpy as np
import time
# importa o CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# Data e hora da execução do script
print(f'Código executado em {time.strftime("%d/%m/%Y às %H:%M", time.localtime(time.time()))}')

Código executado em 12/01/2022 às 19:31


### Importando a lista de Aplicações

In [3]:
df_aplicacoes = pd.read_csv(r'./bases/Aplicacoes.csv')

In [4]:
df_aplicacoes.head()

Unnamed: 0,APLICACOES
0,ACELLERA ACX 250F 250
1,ACELLERA FRONTLANDER 500
2,ACELLERA FRONTLANDER 800 EFI
3,ACELLERA HOTZOO SPORT 90
4,ACELLERA QUADRILANDER 300


In [5]:
df_aplicacoes.shape

(861, 1)

Observa-se dos dados acima que há 858 modelos de motocicletas disponíveis, que são as nossas possíveis aplicações dos kits de transmissão a serem importados.

#### Criação das Bags of Words do DataSet de aplicações

In [6]:
bow_aplicacoes = CountVectorizer(token_pattern='(?u)\\b[a-zA-z0-9\\w-]+\\b')

In [7]:
display(bow_aplicacoes)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b[a-zA-z0-9\\w-]+\\b',
        tokenizer=None, vocabulary=None)

In [8]:
bow_aplicacoes.fit(df_aplicacoes['APLICACOES'])

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b[a-zA-z0-9\\w-]+\\b',
        tokenizer=None, vocabulary=None)

In [9]:
# Verificação das palavras
vocabulario_aplicacoes = bow_aplicacoes.vocabulary_
print(str(vocabulario_aplicacoes)[:500]+' (...) '+str(vocabulario_aplicacoes)[-500:]) # amostra

{'acellera': 89, 'acx': 91, '250f': 35, '250': 34, 'frontlander': 334, '500': 51, '800': 76, 'efi': 280, 'hotzoo': 414, 'sport': 702, '90': 82, 'quadrilander': 616, '300': 39, '400': 44, '600': 58, 'sportlander': 704, '150r': 24, '150': 23, '250xr': 36, '350zx': 42, '350': 41, '450tr': 48, '450': 46, 'adly': 93, 'atv': 127, 'jaguar': 433, 'rt': 662, 'agrale': 100, 'city': 202, 'dakar': 228, 'elefant': 282, 're': 641, 'explorer': 303, 'force': 328, 'junior': 449, 'sst': 715, 'super': 731, 'sxt':  (...) 792, 'tzr': 793, 'v-max': 796, '1680': 26, 'v-star': 799, 'virago': 816, '535': 55, '450f': 47, 'xf50x': 859, 'xj6': 860, 'xjr': 861, 'xr180': 871, 'xs1100': 876, 'xs': 875, 'xs400': 877, 'xs500': 878, 'xs650': 879, 'xs750': 880, 'xs850': 881, 'xt': 882, '225': 30, '660r': 63, '660': 62, 'tenere': 747, '1200z': 15, '660z': 64, 'crosser': 216, 'xz': 886, 'yfm': 892, '700r': 68, 'yfs': 893, 'yz': 896, '85lw': 81, 'yzf': 897, '600r': 59, 'r1': 621, 'r6': 628, 'yzr': 898, 'zongshen': 909, 'zs

In [10]:
# Verificação do número de termos no vocabulário de aplicações
len(bow_aplicacoes.vocabulary_)

914

In [11]:
# Transformação em vetores binários
X_bow_aplicacoes = bow_aplicacoes.fit_transform(df_aplicacoes['APLICACOES'])
print(f'{X_bow_aplicacoes[:2]}\n       (...)\n{X_bow_aplicacoes[-2:]}') # amostra

  (0, 34)	1
  (0, 35)	1
  (0, 91)	1
  (0, 89)	1
  (1, 51)	1
  (1, 334)	1
  (1, 89)	1
       (...)
  (0, 912)	1
  (0, 909)	1
  (0, 16)	1
  (1, 912)	1
  (1, 909)	1
  (1, 29)	1


In [12]:
type(X_bow_aplicacoes)

scipy.sparse.csr.csr_matrix

In [13]:
matrix_aplicacoes = bow_aplicacoes.transform(df_aplicacoes['APLICACOES'])

In [14]:
print(f'{matrix_aplicacoes[:2]}\n       (...)\n{matrix_aplicacoes[-2:]}') # amostra

  (0, 34)	1
  (0, 35)	1
  (0, 89)	1
  (0, 91)	1
  (1, 51)	1
  (1, 89)	1
  (1, 334)	1
       (...)
  (0, 16)	1
  (0, 909)	1
  (0, 912)	1
  (1, 29)	1
  (1, 909)	1
  (1, 912)	1


In [15]:
print(matrix_aplicacoes.shape)

(861, 914)


In [16]:
print(matrix_aplicacoes.toarray())

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 1 0]
 [0 0 0 ... 0 1 0]]


In [17]:
df1=pd.DataFrame(matrix_aplicacoes.toarray())
df1.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,904,905,906,907,908,909,910,911,912,913
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [18]:
# Totalização do número de termos de cada vocábulo
df_sum=df1.sum(axis=0)
df_sum.head()

0    5
1    9
2    1
3    1
4    1
dtype: int64

In [19]:
# Sumário do dataset
df_sum.describe()

count    914.000000
mean       2.539387
std        5.752382
min        1.000000
25%        1.000000
50%        1.000000
75%        2.000000
max       97.000000
dtype: float64

In [20]:
# Identificação dos valores máximos
print(df_sum.sort_values().head(),df_sum.sort_values().tail())

456    1
557    1
558    1
559    1
560    1
dtype: int64 607    40
34     40
465    43
412    79
887    97
dtype: int64


In [21]:
# Identificação dos valores com uma ocorrência
df_sum[df_sum==1].sample(5)

86     1
614    1
386    1
470    1
797    1
dtype: int64

Diante da necessidade de se ter uma série de registros classificados para o aprendizado supervisionado e após a determinação dos 858 modelos de aplicações disponíveis, vamos classificar baseados nas seguintes observações realizadas na análise exploratória dos dados:
1. Os modelos de motocicletas têm nomes que os distinguem em grande parte dos casos;
2. Dos 913 termos, 655 aparacem apenas uma vez, o que implica que sua ocorrência já deve classificar o item;
3. O termo com maior número de ocorrências aparece 97 vezes (YAMAHA), sendo o menos distintivo de todos.

In [22]:
# Função para pegar a chave pelo valor, dado que valor é único.
def pegaChave(v):
    for chave, valor in vocabulario_aplicacoes.items():
        if v == valor:
            return chave
    return "Não existe chave para esse valor."

In [23]:
print(pegaChave(881).upper())

XS850


In [24]:
# Criação do dicionário chaves invertendo chave e valor do vocabulário
chaves = dict((v,k) for k,v in vocabulario_aplicacoes.items())

In [25]:
# Termo do vocabulário pelo índice
chaves[887].upper()

'YAMAHA'

In [26]:
# Índice pelo termo do vocabulário
vocabulario_aplicacoes['yamaha']

887

In [27]:
# Número de ocorrências pelo termo do vocabulário
df_sum[vocabulario_aplicacoes['yamaha']]

97

In [28]:
# Função para determinar a aplicação caso a contagem do termo seja 1
def achaAplicacao1(modelo):
    # pega os termos do modelo e transforma em uma lista
    modelolst = modelo.lower().split()
    # para cada termo
    for mod in modelolst:
        try:
            # l é o índice termo no vocabulário de aplicações
            l = vocabulario_aplicacoes[mod]
            # se a soma de todos os termos do índice i do vocabulário for 1
            if df_sum[l]==1: 
                # pegar o índice dessa linha
                # que será onde o valor 1 aparece na coluna chamada linha do df1
                i = int(df1[df1[l]==1].index.values)
                # retornar a descrição da aplicação dessa linha
                return df_aplicacoes['APLICACOES'][i]
        except:
            continue
    return 'XXX'

In [29]:
print(achaAplicacao1('MOTO TEMOS OUTRO ZING'))

KIMCO ZING


### Importa os dados já tratados

In [30]:
# Importa base de dados com os modelos já determinados para um dataframe
df = pd.read_excel('./bases/dataframe_modelos.xlsx')

In [31]:
df.sample(4)

Unnamed: 0,PAIS DE ORIGEM,DESCRICAO DO PRODUTO,VALOR UN.PROD.DOLAR,DESCRICAO,Modelo
9954,"CHINA, REPUBLICA POP",881739 - SEMI-KIT DE TRANSMISSAO COMPOSTO DE C...,1.708,ybr125 14 allen,YAMAHA YBR125 125 YBR
8679,"CHINA, REPUBLICA POP",10530030 IN KIT TRANSMISSAO P/MOTOCICLETAS(COR...,5.751,falcon,FALCON
16503,"CHINA, REPUBLICA POP",ENGRENAGENS PARA TRANSMISSÃO DE MOTOCICLETAS E...,6.39,xlr 125,HONDA 125 XLR
17091,"CHINA, REPUBLICA POP","980721 KIT DE TRANSMISSÃO, COMPOSTO DE CORRENT...",3.689,fan125 velth,HONDA 125 FAN


In [32]:
df.iloc[:,-2:].head()

Unnamed: 0,DESCRICAO,Modelo
0,honda cg 150 titan ks es mix fan,TITAN HONDA FAN CG TIT 150 AN
1,honda cg 125 titan ks es cargo,TITAN HONDA CG CARGO TIT 125 AN
2,honda cg 125 fan,125 CG HONDA FAN
3,c100 biz allen,HONDA BIZ C100
4,mirage 150 allen,MIRAGE 150


In [33]:
# Verifica o tamnanho do dataframe
df.shape

(18327, 5)

## Classificando segundo a lista de Aplicações

In [34]:
df['APLICACAO']=df['Modelo'].apply(achaAplicacao1)

In [35]:
df.iloc[:,-3:].head(10)

Unnamed: 0,DESCRICAO,Modelo,APLICACAO
0,honda cg 150 titan ks es mix fan,TITAN HONDA FAN CG TIT 150 AN,HONDA CG TIT TITAN 125 150 160
1,honda cg 125 titan ks es cargo,TITAN HONDA CG CARGO TIT 125 AN,HONDA CG TIT TITAN 125 150 160
2,honda cg 125 fan,125 CG HONDA FAN,HONDA CG FAN
3,c100 biz allen,HONDA BIZ C100,HONDA BIZ 100 C100 125 C125
4,mirage 150 allen,MIRAGE 150,XXX
5,cbx 250 twister allen,HONDA TWISTER 250 CBX,HONDA TWISTER CBX 250
6,crf 230 allen,HONDA CRF 230,XXX
7,shineray phoenix 50cc allen,SHINERAY PHOENIX,XXX
8,pop 110 allen,HONDA POP 110,HONDA POP 100
9,pop 100 allen,HONDA 100 POP,HONDA POP 100


In [36]:
df[df['APLICACAO']=='XXX'].iloc[:,-3:].head(10)

Unnamed: 0,DESCRICAO,Modelo,APLICACAO
4,mirage 150 allen,MIRAGE 150,XXX
6,crf 230 allen,HONDA CRF 230,XXX
7,shineray phoenix 50cc allen,SHINERAY PHOENIX,XXX
11,hunter max 125 allen,125 HUNTER MAX,XXX
13,web 100 allen,100 WEB,XXX
14,cb 250f allen,HONDA CB 250F,XXX
16,xt 250 tenere allen,YAMAHA TENERE XT 250,XXX
22,jet 49cc allen,JET,XXX
24,xtz 125 allen,YAMAHA 125 XTZ,XXX
30,fazer 150 allen,YAMAHA 150 FAZER,XXX


In [37]:
print('Registros sem classificação:  ' + str(df[df['APLICACAO']=='XXX'].iloc[:,-3:].shape[0]))
print('Registros com classificação: ' + str(df[df['APLICACAO']!='XXX'].iloc[:,-3:].shape[0]))
print('Total de Registros:          ' + str(df.shape[0]))

Registros sem classificação:  2945
Registros com classificação: 15382
Total de Registros:          18327


Observa-se que após a classificação pelos termos únicos restaram cerca de 3.000 linhas, havendo mais de 15.000 registros já classificados.

#### Classifica o modelo como aplicação se os termos forem exatamente iguais

In [38]:
def achaAplicacao2(modelo):
    modelolst=modelo.lower().split() # cria lista com termos do modelo
    aplicacoes_temp=[] # inicializa a lista de saída
    for aplicacao in df_aplicacoes['APLICACOES']: # para cada aplicação
        aplicacaolst = aplicacao.lower().split() # cria lista
        if all(termos in aplicacaolst for termos in modelolst): # se a aplicacão contém o modelo
            aplicacoes_temp.append(aplicacao) # adiciona na lista de saída
    if len(aplicacoes_temp)==0:
        return 'XXX' # retorna a saída
    elif len(aplicacoes_temp)==1:
        return aplicacoes_temp[0] # retorna a saída
    else:
        return aplicacoes_temp # retorna a saída

In [39]:
# df temporário filtrado pelos não classificados
dftemp=df.iloc[:,-2:][df['APLICACAO']=='XXX']
dftemp.shape

(2945, 2)

In [40]:
dftemp.head()

Unnamed: 0,Modelo,APLICACAO
4,MIRAGE 150,XXX
6,HONDA CRF 230,XXX
7,SHINERAY PHOENIX,XXX
11,125 HUNTER MAX,XXX
13,100 WEB,XXX


In [41]:
# aplica a funão achaachaAplicacao2
dftemp=dftemp.assign(APLICACAO=dftemp['Modelo'].apply(achaAplicacao2))

In [42]:
dftemp.sample(5)

Unnamed: 0,Modelo,APLICACAO
15037,YAMAHA FAZER 250,YAMAHA FAZER YS250 250
42,YAMAHA 250 XTZ,"[YAMAHA LANDER XTZ 250, YAMAHA XTZ TENERE 250]"
3808,YAMAHA FAZER 250,YAMAHA FAZER YS250 250
12139,SHINERAY PHOENIX 50,SHINERAY PHOENIX 50
2976,YAMAHA 250 XTZ,"[YAMAHA LANDER XTZ 250, YAMAHA XTZ TENERE 250]"


In [43]:
# quantidade de registros sem classificação
dftemp[dftemp['APLICACAO']=='XXX'].shape

(659, 2)

In [44]:
# atualiza o dataframe df com as alterações feitas em dftemp
df.update(dftemp)

In [45]:
df.iloc[:,-3:].sample(5)

Unnamed: 0,DESCRICAO,Modelo,APLICACAO
13965,cg 150 titan fan start cargo nr,HONDA TITAN FAN CG CARGO TIT 150 AN,HONDA CG TIT TITAN 125 150 160
6174,cbx 250 twister nr,HONDA TWISTER 250 CBX,HONDA TWISTER CBX 250
16618,xl 125,HONDA 125 XL,HONDA XL XLS 125 XL125 XL125S
16711,cb twister 250,HONDA CB 250 TWISTER,HONDA TWISTER CBX 250
8792,racing twister 250,TWISTER RACING 250,HONDA TWISTER CBX 250


In [46]:
df[df['APLICACAO']=='XXX'].iloc[:,-3:].sample(5)

Unnamed: 0,DESCRICAO,Modelo,APLICACAO
13041,web 100 108,100 WEB,XXX
9702,web-100,100 WEB,XXX
1223,cpk16 ninja 250 300,KAWASAKI NINJA 250 300,XXX
3387,intruder 125 nr,SUZUKI INTRUDER 125,XXX
18018,max 125 hunter,125 HUNTER MAX,XXX


In [47]:
print('Registros sem classificação:  ' + str(df[df['APLICACAO']=='XXX'].iloc[:,-3:].shape[0]))
print('Registros com classificação: ' + str(df[df['APLICACAO']!='XXX'].iloc[:,-3:].shape[0]))
print('Total de Registros:          ' + str(df.shape[0]))

Registros sem classificação:  659
Registros com classificação: 17668
Total de Registros:          18327


Observa-se que após a classificação pelos termos únicos restaram menos de 700 linhas.<br>
Para fins de utilização no aprendizado de classificação, os mais de 17.000 registros restantes são suficientes para comparação com os outros modelos a determinar a melhor classificação.

### Exportando o DataFrame

Exportando para um arquivo CSV

In [48]:
df.to_csv(r'./bases/dataframe_modelos_class0.csv', index = False, header = True)

Exportando para um arquivo de planilha do Excel

In [49]:
df.to_excel(r'./bases/dataframe_modelos_class0.xlsx', index = False, header = True)