In [11]:
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer

In [12]:
df = pd.read_csv('..\datasets\dataset-maritaca-teste3.csv')

# Remover erros comuns da classicação com MariTalk
df['categoria_maritaka'] = df['categoria_maritaka'].str.replace('<frase>', '')
df['categoria_maritaka'] = df['categoria_maritaka'].str.replace('<saída>', '')
df['categoria_maritaka'] = df['categoria_maritaka'].str.replace(', ', ',')

# Realizar strip
df['categoria_maritaka'] = df['categoria_maritaka'].apply(lambda x: x.strip())

# Converter todas a letras para minúsculas
df['categoria_maritaka'] = df['categoria_maritaka'].str.lower()
df

Unnamed: 0,sentenca,categoria_maritaka
0,"Atendimento bom, lugar pequeno, porém aconcheg...","ambiente,geral"
1,Lugar agradável atendimento não é muito bom po...,"serviço,comida"
2,"Pra quem gosta de uma vida noturna, este é um ...","comida,bebida,serviço,ambiente,localização"
3,"Para quem já foi em uma boa churrascaria, a Bú...","comida,geral"
4,Localizado em um ótimo shopping em Manaus.,localização
...,...,...
3995,"Local bem bacana, ótimo pra desestressar e apr...","ambiente,localização"
3996,Atendimento de um rapaz atencioso e educado Sa...,serviço
3997,"Tem comida, muuuuita comida!",comida
3998,Muito bom o atendimento do Emerson local muito...,"serviço,ambiente"


In [13]:
# Dividir cada registro da coluna "categoria" em uma lista de palavras e ordená-las em ordem alfabética
df['categoria_maritaka'] = df['categoria_maritaka'].apply(lambda x: x.split(',')).apply(lambda x: sorted(x))

# Criando uma instância do MultiLabelBinarizer
mlb = MultiLabelBinarizer()

# Transformando a coluna de categoria em uma matriz binária
categorias_matriz = mlb.fit_transform(df['categoria_maritaka'])

# Criando um novo DataFrame com as colunas de categoria binárias
df_categorias = pd.DataFrame(categorias_matriz, columns=mlb.classes_)

# Concatenando os DataFrames de sentença e categoria
df = pd.concat([df['sentenca'], df_categorias], axis=1)

# Contando as ocorrências de cada categoria
ocorrencias = df_categorias.sum(axis=0)

# Mostrando as ocorrências em ordem decrescente
print(ocorrencias.sort_values(ascending=False))

correct_columns = ['sentenca', 'ambiente', 'bebida', 'comida', 'geral', 'localização', 'outros', 'preço', 'serviço']

# Filtrar o dataset apenas com as colunas das categorias
df = df.filter([col for col in df.columns if col in correct_columns])

comida                                                 2291
serviço                                                1691
ambiente                                               1632
geral                                                   998
preço                                                   756
                                                       ... 
decoraçãoanalise a frase: 'o vinho estava delicioso       1
de acordo com as regras estabelecidas                     1
de acordo com as instruções fornecidas                    1
de acordo com as informações fornecidas                   1
ótimo para ir a dois"a partir dessa frase                 1
Length: 390, dtype: int64


In [15]:
# Salvar dataset
df.to_csv(f'../datasets/dataset-maritaca-multilabel.csv', index=False)