In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
import random

# Novo dataset com mais exemplos por classe
dados = {
    'emoji': ['😁', '😁', '😒', '😒', '😥', '😥', '😎', '😎', '😤', '😤',
              '😡', '😡', '😕', '😕', '😂', '😂', '😪', '😪', '😭', '😭',
              '😃', '😃', '🙁', '🙁', '😜', '😜', '😊', '😊', '🤔', '🤔',
              '😟', '😟', '😇', '😇', '😉', '😉', '😴', '😴', '😭', '😭',
              '😁', '😁', '😒', '😒', '😥', '😥', '😎', '😎', '😤', '😤',
              '😡', '😡', '😕', '😕', '😂', '😂', '😪', '😪', '😭', '😭'],
    'sentimento': ['alegre', 'alegre', 'impaciente', 'impaciente', 'triste', 'triste',
                   'relaxado', 'relaxado', 'estressado', 'estressado', 'irritado', 'irritado',
                   'confuso', 'confuso', 'feliz', 'feliz', 'sonolento', 'sonolento',
                   'chorando', 'chorando', 'animado', 'animado', 'desanimado', 'desanimado',
                   'divertido', 'divertido', 'contente', 'contente', 'pensativo', 'pensativo',
                   'preocupado', 'preocupado', 'calmo', 'calmo', 'brincalhão', 'brincalhão',
                   'cansado', 'cansado', 'chorando', 'chorando', 'alegre', 'alegre',
                   'impaciente', 'impaciente', 'triste', 'triste', 'relaxado', 'relaxado',
                   'estressado', 'estressado', 'irritado', 'irritado', 'confuso', 'confuso',
                   'feliz', 'feliz', 'sonolento', 'sonolento', 'chorando', 'chorando']
}

# Criando o DataFrame
df = pd.DataFrame(dados)

# Codificação dos emojis e sentimentos
encoder_emoji = LabelEncoder()
encoder_sentimento = LabelEncoder()

df['emoji_codificado'] = encoder_emoji.fit_transform(df['emoji'])
df['sentimento_codificado'] = encoder_sentimento.fit_transform(df['sentimento'])

# Dividindo os dados em treino e teste
X = df[['emoji_codificado']]
y = df['sentimento_codificado']
# Definir um número fixo para o tamanho do conjunto de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=19, random_state=42, stratify=y)

for i in range(5):  # Número de exemplos com ruído
    idx = random.randint(0, len(y_train) - 1)  # Seleciona um índice aleatório
    y_train.iloc[idx] = random.choice(y_train.unique())  # Atribui um rótulo aleatório

# Treinando o modelo com uma árvore de decisão
modelo = DecisionTreeClassifier()
modelo.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
previsoes = modelo.predict(X_test)

# Decodificando previsões e resultados reais
previsoes_texto = encoder_sentimento.inverse_transform(previsoes)
realidade_texto = encoder_sentimento.inverse_transform(y_test)

# Exibindo resultados
resultado = pd.DataFrame({
    'emoji_testado': encoder_emoji.inverse_transform(X_test['emoji_codificado']),
    'sentimento_real': realidade_texto,
    'sentimento_previsto': previsoes_texto
})

print("Resultados do teste:")
print(resultado)

# Avaliação da precisão
acuracia = (previsoes == y_test).mean() * 100
print(f"\nAcurácia do modelo: {acuracia:.2f}%")


Resultados do teste:
   emoji_testado sentimento_real sentimento_previsto
0              😉      brincalhão          brincalhão
1              😴         cansado             cansado
2              😭        chorando             cansado
3              😜       divertido           divertido
4              😭        chorando             cansado
5              😇           calmo               calmo
6              😟      preocupado          preocupado
7              😂           feliz               feliz
8              😤      estressado          estressado
9              😎        relaxado            relaxado
10             😊        contente            contente
11             😡        irritado            irritado
12             😕         confuso             confuso
13             😪       sonolento           sonolento
14             😁          alegre              alegre
15             😥          triste              triste
16             🤔       pensativo           pensativo
17             🙁      des