### Importação dos dados

In [25]:
import pandas as pd

data_url = "https://raw.githubusercontent.com/lsouzadasilva/datasets/main/treinamento_teste_produto.xlsx"

df_treino = pd.read_excel(data_url, sheet_name=1)

df_treino = df_treino.drop(columns='codigo')

df_treino = df_treino.dropna()

display(df_treino)

display(df_treino.info())

Unnamed: 0,marca,tipo,categoria
0,Logitech,Mouse,Tecnologia
1,Logitech,Mouse,Tecnologia
2,Hashtag,Camisa,Vestuario
3,Hashtag,Camisa,Vestuario
4,Multilaser,Mouse,Tecnologia
...,...,...,...
273,Apple,Acessorios,Tecnologia
274,Samsung,Acessorios,Tecnologia
275,Motorola,Celular,Tecnologia
276,Motorola,Fone,Tecnologia


<class 'pandas.core.frame.DataFrame'>
Index: 277 entries, 0 to 277
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   marca      277 non-null    object
 1   tipo       277 non-null    object
 2   categoria  277 non-null    object
dtypes: object(3)
memory usage: 8.7+ KB


None

### Processamento do dados
Este processo é de pré-processamento de dados, especificamente para codificar variáveis categóricas em variáveis numéricas.

In [26]:
from sklearn.preprocessing import LabelEncoder

codificador_marca = LabelEncoder()
df_treino['marca'] = codificador_marca.fit_transform(df_treino['marca'])

codificador_tipo = LabelEncoder()
df_treino['tipo'] = codificador_tipo.fit_transform(df_treino['tipo'])

display(df_treino.info())


<class 'pandas.core.frame.DataFrame'>
Index: 277 entries, 0 to 277
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   marca      277 non-null    int64 
 1   tipo       277 non-null    int64 
 2   categoria  277 non-null    object
dtypes: int64(2), object(1)
memory usage: 8.7+ KB


None

### Esta etapa faz a divisão dos dados em conjuntos de treinamento e teste.

Aqui está o que acontece:

y = tabela['categoria']: Esta linha seleciona a coluna "categoria" da tabela e a atribui à variável y. Essa coluna é a variável alvo, ou seja, a variável que você deseja prever.

x = tabela.drop(columns="categoria"): Esta linha remove a coluna "categoria" da tabela e a atribui à variável x. Isso porque você não deseja incluir a variável alvo nos dados de treinamento.

from sklearn.model_selection import train_test_split: Esta linha importa a função train_test_split do módulo sklearn.model_selection.

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3): Esta linha divide os dados em conjuntos de treinamento e teste. A função train_test_split recebe como parâmetros:

    - x: os dados de entrada (sem a coluna "categoria")

    - y: a variável alvo (a coluna "categoria")
    
    - test_size=0.3: a proporção de dados que será usada para o conjunto de teste (30% dos dados)

In [27]:
y = df_treino['categoria']

x = df_treino.drop(columns='categoria')

from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3)


### Modelos de IA

Importação de 9 modelos de IA focados em previsão de resultados

In [28]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestCentroid
from sklearn.neural_network import MLPClassifier
from sklearn.linear_model import LogisticRegression

modelo_1 = RandomForestClassifier()
modelo_2 = ExtraTreesClassifier()
modelo_3 = GradientBoostingClassifier()
modelo_4 = HistGradientBoostingClassifier()
modelo_5 = BaggingClassifier()
modelo_6 = KNeighborsClassifier()
modelo_7 = NearestCentroid()
modelo_8 = MLPClassifier()
modelo_9 = LogisticRegression()

modelo_1.fit(x_treino, y_treino)
modelo_2.fit(x_treino, y_treino)
modelo_3.fit(x_treino, y_treino)
modelo_4.fit(x_treino, y_treino)
modelo_5.fit(x_treino, y_treino)
modelo_6.fit(x_treino, y_treino)
modelo_7.fit(x_treino, y_treino)
modelo_8.fit(x_treino, y_treino)
modelo_9.fit(x_treino, y_treino)



### Acuracidade %

In [29]:
from sklearn.metrics import accuracy_score

previsao_modelo_1 = modelo_1.predict(x_teste)
previsao_modelo_2 = modelo_2.predict(x_teste)
previsao_modelo_3 = modelo_3.predict(x_teste)
previsao_modelo_4 = modelo_4.predict(x_teste)
previsao_modelo_5 = modelo_5.predict(x_teste)
previsao_modelo_6 = modelo_6.predict(x_teste)
previsao_modelo_7 = modelo_7.predict(x_teste)
previsao_modelo_8 = modelo_8.predict(x_teste)
previsao_modelo_9 = modelo_9.predict(x_teste)

display(accuracy_score(y_teste, previsao_modelo_1))
display(accuracy_score(y_teste, previsao_modelo_2))
display(accuracy_score(y_teste, previsao_modelo_3))
display(accuracy_score(y_teste, previsao_modelo_5))
display(accuracy_score(y_teste, previsao_modelo_6))
display(accuracy_score(y_teste, previsao_modelo_7))
display(accuracy_score(y_teste, previsao_modelo_8))
display(accuracy_score(y_teste, previsao_modelo_9))


1.0

1.0

1.0

1.0

1.0

0.6309523809523809

0.9523809523809523

0.9404761904761905

### Carregndo base de teste

In [30]:
df_teste = pd.read_excel(data_url, sheet_name=0, usecols=['marca', 'tipo'])
display(df_teste)

Unnamed: 0,marca,tipo
0,Multilaser,Mouse
1,Multilaser,Mouse
2,Logitech,Mouse
3,LG,Teclado
4,Hashtag,Casaco
5,Hashtag,Casaco
6,Spectre,Monitor
7,Spectre,Monitor
8,Spectre,Mouse
9,LG,Teclado


### Teste sendo realizado

In [31]:
display(df_teste)
codificador_marca_teste = LabelEncoder()
df_teste['marca'] = codificador_marca_teste.fit_transform(df_teste['marca'])

codificador_tipo_teste = LabelEncoder()
df_teste['tipo'] = codificador_marca_teste.fit_transform(df_teste['tipo'])

nova_previsao = modelo_9.predict(df_teste)

from collections import Counter

contagem = Counter(nova_previsao)

for categoria, frequencia in contagem.items():
    print(f'{categoria}: {frequencia}')

Unnamed: 0,marca,tipo
0,Multilaser,Mouse
1,Multilaser,Mouse
2,Logitech,Mouse
3,LG,Teclado
4,Hashtag,Casaco
5,Hashtag,Casaco
6,Spectre,Monitor
7,Spectre,Monitor
8,Spectre,Mouse
9,LG,Teclado


Tecnologia: 10
Vestuario: 6
