In [None]:
from nltk.tokenize import word_tokenize

all_words = []

for message in df['processed_flavor']:
    words = word_tokenize(message)
    for w in words:
        all_words.append(w)
        
all_words = nltk.FreqDist(all_words)

# Print the result
print('Number of words: {}'.format(len(all_words)))
print('Most common words: {}'.format(all_words.most_common(15)))

In [None]:
# Função para calcular a pontuação de cada cor com base nos termos
def calculate_color_score(row, tfidf_df, terms):
    # Inicializa as pontuações para cada cor como 0
    color_scores = {color: 0 for color in tfidf_df.index}
    
    # Calcula a pontuação para cada termo presente no vetor
    for term, value in zip(terms, row):
        if value > 0 and term in tfidf_df.columns:
            for color in tfidf_df.index:
                color_scores[color] += tfidf_df.loc[color, term] * value

    # Normaliza as pontuações para evitar dominância de cores mais frequentes
    total_scores = sum(color_scores.values())
    if total_scores > 0:
        color_scores = {color: score / total_scores for color, score in color_scores.items()}
    
    return color_scores

# Converte a matriz esparsa X para um array denso
X_dense = X.toarray()

# Aplica a função a cada linha da matriz X
df['test_color'] = [calculate_color_score(row, tfidf_df, vectorizer.get_feature_names_out()) for row in X_dense]

# Determina a cor com a maior pontuação para cada frase
df['predicted_color'] = df['test_color'].apply(lambda x: max(x, key=x.get))

# Calcula a precisão (accuracy) comparando cor real com cor prevista
accuracy = accuracy_score(df['color'], df['predicted_color'])

# Exibe o DataFrame final e a precisão
print(df[['processed_flavor', 'color', 'predicted_color']])
print(f"Acc: {accuracy:.2f}")


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.utils import to_categorical

# Preparar as variáveis X e y
X = np.array([list(color.values()) for color in df['test_color']])  # Converter os dicionários em listas de pontuações
y = df['color']

# Codificar as classes (cores) como números
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

# Converter as labels para one-hot encoding
y_one_hot = to_categorical(y_encoded)

# Dividir os dados em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y_one_hot, test_size=0.2, random_state=42)

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from keras.models import Sequential
from keras.layers import Dense, Dropout, Input
from keras.utils import to_categorical
from keras.optimizers import SGD 
# Criar o modelo
model = Sequential()

# Camada de entrada com 128 neurônios e função de ativação 'relu'
model.add(Dense(128, input_dim=X_train.shape[1], activation='relu'))

# Camada oculta adicional 1
model.add(Dense(64, activation='relu'))

# Camada oculta adicional 2
model.add(Dense(32, activation='relu'))

# Camada de Dropout para prevenir overfitting
model.add(Dropout(0.2))

# Camada de saída com a função de ativação 'softmax' (para classificação multiclasse)
model.add(Dense(y_one_hot.shape[1], activation='softmax'))

# Compilar o modelo com o otimizador 'adam' e a função de perda 'categorical_crossentropy'
sgd_optimizer = SGD(learning_rate=0.01)  # Definindo a taxa de aprendizado do SGD
model.compile(optimizer=sgd_optimizer, loss='categorical_crossentropy', metrics=['accuracy'])

# Resumo do modelo
model.summary()


In [None]:
# Treinar o modelo
history = model.fit(X_train, y_train, epochs=500, batch_size=64, validation_data=(X_test, y_test))


In [None]:
# Avaliar o modelo
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Acc no conjunto de teste: {accuracy:.4f}')


In [None]:
# Fazer previsões com novos dados (aqui usamos X_test como exemplo)
y_pred = model.predict(X_test)

# Converter a previsão (vetor de probabilidades) para a classe com maior probabilidade
y_pred_classes = np.argmax(y_pred, axis=1)

# Decodificar a classe de volta para a cor
predicted_colors = label_encoder.inverse_transform(y_pred_classes)

# Mostrar as previsões
print(f'Previsões: {predicted_colors}')


In [None]:
from sklearn.ensemble import RandomForestClassifier

# Define as features (colunas usadas para prever) e o target (cor)
X = df.drop(columns='color')
y = df['color']  # A coluna target, que é a cor

# Divide os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializa o classificador RandomForest
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

# Treina o modelo
rf_classifier.fit(X_train, y_train)

# Faz previsões no conjunto de teste
y_pred = rf_classifier.predict(X_test)

# Calcula a acurácia
accuracy = accuracy_score(y_test, y_pred)

# Exibe as previsões e a acurácia
print("Previsões:", y_pred)
print(f"Acurácia: {accuracy:.2f}")