In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import nltk
from wordcloud import WordCloud, STOPWORDS
from collections import Counter
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import re
nltk.download('stopwords')
nltk.download('punkt')


# Função de pré-processamento, tokenização e remoção de stop words
def preprocess(text, stop_words):
    text = re.sub(r'[^\w\s]', '', text.lower())  # Remove pontuação e converte para minúsculas
    tokens = word_tokenize(text)  # Tokeniza o texto
    filtered_tokens = [word for word in tokens if word not in stop_words]  # Remove as stop words
    return filtered_tokens

# Função para contar coocorrência
def count_coocurrences(corpus, window_size=1):
    coocurrence = Counter()
    for doc in corpus:
        for i, word in enumerate(doc):
            for j in range(i + 1, min(i + window_size + 1, len(doc))):
                coocurrence[(word, doc[j])] += 1
    return coocurrence

# Calcular o PMI para um par de palavras
def calculate_pmi(word1, word2, coocurrence, word_freq, corpus_size):
    coocurrence_count = coocurrence.get((word1, word2), 0)
    p_word1 = word_freq[word1] / corpus_size
    p_word2 = word_freq[word2] / corpus_size
    p_word1_word2 = coocurrence_count / corpus_size
    return np.log(p_word1_word2 / (p_word1 * p_word2)) if p_word1_word2 > 0 else 0

# Construir a árvore de palavras para uma cor
def build_color_tree(corpus, color_words, stop_words):
    tokenized_text = corpus.apply(lambda x: preprocess(x, stop_words))  # Tokenizar e remover stopwords
    word_freq_text = Counter(word for doc in tokenized_text for word in doc)  # Contar frequências
    coocurrence_text = count_coocurrences(tokenized_text)  # Contar coocorrências
    
    corpus_size_text = sum(word_freq_text.values())  # Tamanho do corpus
    tree = {color: [] for color in color_words}  # Estrutura da árvore para cores
    
    # Calcular o PMI para as palavras e construir a árvore
    for color in color_words:
        for word, count in word_freq_text.items():
            pmi_value = calculate_pmi(word, color, coocurrence_text, word_freq_text, corpus_size_text)
            if pmi_value > 0:  # Se o PMI for maior que zero, adicionamos à árvore
                tree[color].append((word, pmi_value))
        
        # Ordenar as palavras por PMI (maior PMI é mais próximo)
        tree[color] = sorted(tree[color], key=lambda x: x[1], reverse=True)
    return tree



# Definir palavras associadas às cores
color_words = ['change']

# Definir stop words
stop_words = set(stopwords.words('english'))

# Construir a árvore de palavras para as cores
color_tree = build_color_tree(df['flavor'], color_words, stop_words)

# Exibir a árvore com as palavras mais próximas
for color, words in color_tree.items():
    print(f"\nPalavras mais próximas da cor {color}:")
    for word, pmi in words:
        print(f"{word}: PMI = {pmi}")


In [None]:
# Definir as stop words
stop_words = set(stopwords.words('english'))

# Função para limpar, tokenizar e remover stop words
def preprocess(text):
    text = re.sub(r'[^\w\s]', '', text.lower())  # Remove pontuação e converte para minúsculas
    tokens = word_tokenize(text)  # Tokeniza o texto
    filtered_tokens = [word for word in tokens if word not in stop_words]  # Remove as stop words
    return filtered_tokens

# Tokenizar a coluna 'flavor' e remover as stop words
tokenized_text = df['flavor'].apply(preprocess)

# Contar as frequências das palavras
word_freq_text = Counter(word for doc in tokenized_text for word in doc)

# Contar a coocorrência de pares de palavras
def count_coocurrences(corpus, window_size=1):
    coocurrence = Counter()
    for doc in corpus:
        for i, word in enumerate(doc):
            for j in range(i + 1, min(i + window_size + 1, len(doc))):
                coocurrence[(word, doc[j])] += 1
    return coocurrence

coocurrence_text = count_coocurrences(tokenized_text)

# Calcular o PMI para um par de palavras
def calculate_pmi(word1, word2, coocurrence, word_freq, corpus_size):
    coocurrence_count = coocurrence.get((word1, word2), 0)
    p_word1 = word_freq[word1] / corpus_size
    p_word2 = word_freq[word2] / corpus_size
    p_word1_word2 = coocurrence_count / corpus_size
    return np.log(p_word1_word2 / (p_word1 * p_word2)) if p_word1_word2 > 0 else 0

# Calculando o PMI para todos os pares de palavras
corpus_size_text = sum(word_freq_text.values())
pmi_results = {}

# Iterando por todos os pares únicos de palavras
for (word1, word2), count in coocurrence_text.items():
    pmi = calculate_pmi(word1, word2, coocurrence_text, word_freq_text, corpus_size_text)
    pmi_results[(word1, word2)] = pmi

# Exibir os resultados do PMI
for pair, pmi_value in pmi_results.items():
    print(f"PMI entre {pair[0]} e {pair[1]}: {pmi_value}")


In [None]:
# Definindo palavras-chave para cores positivas, como exemplo
positive_colors = ['white', 'green', 'blue']  # Branco, Verde e Azul

# Função para identificar palavras associadas a cores positivas
def get_positive_words(pmi_results, positive_colors, top_n=10):
    positive_words = {}
    
    for (word1, word2), pmi in pmi_results.items():
        if any(color in word1 for color in positive_colors) or any(color in word2 for color in positive_colors):
            if word1 not in positive_words:
                positive_words[word1] = pmi
            else:
                positive_words[word1] += pmi
            if word2 not in positive_words:
                positive_words[word2] = pmi
            else:
                positive_words[word2] += pmi

    # Classificar as palavras por PMI e retornar as top_n palavras mais associadas
    sorted_positive_words = sorted(positive_words.items(), key=lambda x: x[1], reverse=True)
    return sorted_positive_words[:top_n]

# Exemplo de como obter as top 10 palavras mais positivas
top_positive_words = get_positive_words(pmi_results, positive_colors, top_n=20)
print("Top 20 palavras com maior positividade:")
for word, pmi in top_positive_words:
    print(f"{word}: {pmi}")

In [None]:
#importante

In [None]:
# Junta as palavras por cor única
df_grouped = df.groupby('color')['processed_flavor'].apply(lambda x: ' '.join(x)).reset_index()

# Inicializa o TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english')

# Ajusta e transforma os textos agregados por cor
tfidf_matrix = vectorizer.fit_transform(df_grouped['processed_flavor'])

# Converte a matriz TF-IDF para um DataFrame para visualização
tfidf_df = pd.DataFrame(
    tfidf_matrix.toarray(),
    columns=vectorizer.get_feature_names_out(),
    index=df_grouped['color']  # Define as cores únicas como índice
)

# Exibe o DataFrame TF-IDF
print(tfidf_df)

In [None]:
# Empilhar os dados para todas as cores e palavras
tfidf_data = tfidf_df.stack().reset_index()
tfidf_data.columns = ['color', 'word', 'tfidf']

# Ordenar os dados por TF-IDF de forma decrescente
top_tfidf_all = tfidf_data.sort_values(by='tfidf', ascending=False).head(20)

# Exibir o top 20
print(top_tfidf_all)

In [None]:
# Empilhar os dados para todas as cores e palavras
tfidf_data = tfidf_df.stack().reset_index()
tfidf_data.columns = ['color', 'word', 'tfidf']

# Ordenar os dados por TF-IDF de forma decrescente para pegar as 20 palavras mais relevantes
top_tfidf_all = tfidf_data.sort_values(by='tfidf', ascending=False).head(20)

# Pegar as 20 palavras mais relevantes
top_20_words = top_tfidf_all['word'].unique()

# Filtrar a matriz TF-IDF para as 20 palavras mais relevantes
filtered_tfidf = tfidf_df[top_20_words]

# Exibir o TF-IDF das 20 palavras para as 5 cores específicas
top_20_tfidf = filtered_tfidf.loc[df['color'].unique()[:5]]  # Aqui você pode ajustar o número de cores ou selecionar específicas
print(top_20_tfidf)

In [None]:
# Calcular a soma dos valores de TF-IDF para cada palavra
tfidf_sum = tfidf_df.sum(axis=0)

# Identificar palavras a remover: TF-IDF > 0.1 em todas as cores e soma > 0.6
words_to_remove = []

for word in tfidf_df.columns:
    if all(tfidf_df[word] > 0.1) and tfidf_sum[word] > 0.6:
        words_to_remove.append(word)

# Função para remover as palavras da lista
def remove_words(flavor_list, words_to_remove):
    return [word for word in flavor_list if word not in words_to_remove]
            
words_to_remove.append('color')
# Remover as palavras identificadas
filtered_tfidf_df = tfidf_df.drop(columns=words_to_remove)

# Aplicar a função à coluna 'processed_flavor'
df['processed_flavor'] = df['processed_flavor'].apply(lambda x: remove_words(x, words_to_remove))

# Exibir as palavras removidas
print("Palavras removidas:", words_to_remove)

In [None]:
# Calcular a soma dos valores de TF-IDF para cada palavra
tfidf_sum = filtered_tfidf_df.sum(axis=0)

# Identificar palavras a remover: TF-IDF > 0.1 em todas as cores e soma > 0.6
words_to_remove = []

for word in filtered_tfidf_df.columns:
    if all(filtered_tfidf_df[word] > 0.1) and tfidf_sum[word] > 0.6:
        words_to_remove.append(word)

# Remover as palavras identificadas
filtered_tfidf_df_df = filtered_tfidf_df.drop(columns=words_to_remove)

# Agora, reorganizar as palavras em uma coluna, mantendo as cores nas linhas
# "melt" transforma as colunas em uma única coluna de palavras e uma coluna de cores
melted_df = filtered_tfidf_df.reset_index().melt(id_vars=['color'], var_name='word', value_name='tfidf_value')

# Remover as linhas com valor de TF-IDF 0 (não precisam ser exibidas)
melted_df = melted_df[melted_df['tfidf_value'] > 0]

# Exibir o DataFrame reorganizado
print(melted_df.head())


In [8]:
import re

def remove_non_letter_words(text):
    # split do texto
    words = text.split()
    # retira tudo que contém números e caracteres especiais (são sejam letras) e também retira palavras com letras repetidas (algumas onomatopéias como "aaaaahhhh")
    clean_words = [word for word in words if re.search(r'[a-zA-Z]', word)  and not re.search(r'(.)\1{2,}', word)] 
    return ' '.join(clean_words)

text = "aaaah essafica  ætheric 1234 124teste essatambémfica"
print(remove_non_letter_words(text))

essafica ætheric 124teste essatambémfica
