## Carregar o arquivo .Json

In [1]:
import os
import json

# Definir o caminho para o arquivo
file_path = os.path.join('..', 'data', 'stores.json')

# Carregar o arquivo JSON
with open(file_path, 'r', encoding='utf-8') as f:
    apps_data = json.load(f)

# Exibir os dados carregados
apps_data


{'Temu': {'titulo': 'Temu: Compre como um bilionário',
  'descrição': 'Compre na Temu e receba ofertas exclusivas. Não importa o que você esteja procurando, a Temu tem o que você precisa, incluindo moda, decoração para casa, artesanato, beleza e cosméticos, roupas, sapatos e muito mais. Baixe o app da Temu hoje mesmo e aproveite ofertas incríveis diariamente.',
  'store': 'google'},
 'Shopee': {'titulo': 'Shopee: 11.11 A Maior Liquida',
  'descrição': 'No 11.11 A Maior Liquida você economiza nas suas compras online com os melhores preços do ano! Quer promoção de verdade? Olha na Shopee! De 28 de outubro a 12 de novembro, você poderá aproveitar as diversas ofertas e vantagens na Shopee, como R$ 11 milhões em cupons e frete grátis* (*Confira as condições de frete grátis e o valor mínimo de compra no aplicativo).',
  'store': 'google'},
 'AliExpress': {'titulo': 'AliExpress: Compras online',
  'descrição': 'Venha para o AliExpress: Seu Aplicativo de Compra Favorito! Procurando um produto 

## Análise de Palavras-Chave

In [2]:
import nltk
nltk.download('punkt')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\marcio.nogueira\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
from rake_nltk import Rake
import openai
from dotenv import load_dotenv
import os
import nltk
from nltk.corpus import stopwords

# Carregar variáveis do arquivo .env
load_dotenv()

# Recuperar a chave da API do OpenAI do arquivo .env
openai_api_key = os.getenv('OPENAI_API_KEY')

# Baixar stop words do NLTK (se ainda não estiverem baixadas)
nltk.download('stopwords')

# Obter stop words em português
stop_words = set(stopwords.words('portuguese'))

# Função para extrair palavras-chave usando RAKE
def extrair_palavras_chave_rake(descricao):
    r = Rake(language='portuguese')  # Configura o Rake para português
    r.extract_keywords_from_text(descricao)
    
    # Obter as palavras-chave ordenadas por relevância
    palavras_chave = r.get_ranked_phrases()
    
    # Filtrar palavras-chave para remover duplicatas e stop words
    palavras_chave_filtradas = set()
    
    for frase in palavras_chave:
        # Dividir a frase em palavras
        palavras = frase.split()
        # Adicionar palavras que não estão na lista de stop words
        for palavra in palavras:
            if palavra.lower() not in stop_words:
                palavras_chave_filtradas.add(palavra.lower())
    
    return list(palavras_chave_filtradas)

# Processar as descrições de cada aplicativo e extrair palavras-chave
for app, data in apps_data.items():
    descricao = data['descrição']
    
    print(f"App: {app}")
    
    # Extrair palavras-chave usando RAKE
    palavras_chave = extrair_palavras_chave_rake(descricao)
    
    print("Palavras-chave filtradas:")
    print(palavras_chave)
    print()


App: Temu
Palavras-chave filtradas:
['diariamente', 'casa', 'procurando', 'moda', 'app', 'artesanato', 'decoração', 'incluindo', 'exclusivas', 'sapatos', 'roupas', 'baixe', 'incríveis', 'beleza', 'temu', 'aproveite', 'hoje', 'compre', 'cosméticos', 'receba', 'precisa', 'ofertas', 'importa']

App: Shopee
Palavras-chave filtradas:
['(*', 'grátis', 'compras', 'vantagens', 'verdade', 'compra', 'outubro', 'confira', 'condições', '11', '28', 'olha', 'aproveitar', ').', 'melhores', 'diversas', 'poderá', 'liquida', 'economiza', 'milhões', 'novembro', '12', 'valor', 'online', 'preços', 'cupons', 'quer', 'r', 'frete', 'shopee', 'ano', 'maior', 'ofertas', 'promoção', 'aplicativo', 'mínimo']

App: AliExpress
Palavras-chave filtradas:
['opções', 'aliexpress', 'on', 'compras', 'vantagens', 'compra', 'procurando', 'economizar', 'lojas', 'produto', 'venha', 'melhor', 'line', 'baixe', 'nenhum', 'favorito', 'mundo', 'internacionais', 'descubra', 'encontra', 'agora', 'ofertas', 'lugar', 'aplicativo', 'mã

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\marcio.nogueira\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [8]:
import nltk
from nltk.corpus import stopwords
from collections import Counter
import re

# Função para extrair palavras-chave
def extrair_palavras_chaves(texto):
    # Remover pontuação e colocar tudo em minúsculas
    texto_limpo = re.sub(r'[^\w\s]', '', texto.lower())
    
    # Tokenização
    palavras = nltk.word_tokenize(texto_limpo)
    
    # Remover stop words
    palavras_sem_stop = [palavra for palavra in palavras if palavra not in stopwords.words('portuguese')]
    
    # Contar a frequência das palavras
    contagem = Counter(palavras_sem_stop)
    
    # Obter as 10 palavras mais comuns
    palavras_chaves = contagem.most_common(10)
    
    return [palavra for palavra, _ in palavras_chaves]

# Contar palavras nos títulos e descrições
palavras_titulos = Counter()
palavras_descricoes = Counter()

for app, data in apps_data.items():
    if 'titulo' in data and 'descrição' in data:
        palavras_titulos.update(extrair_palavras_chaves(data['titulo']))
        palavras_descricoes.update(extrair_palavras_chaves(data['descrição']))

# Imprimir as palavras mais frequentes
print("Palavras mais frequentes nos títulos:", palavras_titulos.most_common(10))
print("Palavras mais frequentes nas descrições:", palavras_descricoes.most_common(10))


Palavras mais frequentes nos títulos: [('temu', 1), ('compre', 1), ('bilionário', 1), ('shopee', 1), ('1111', 1), ('maior', 1), ('liquida', 1), ('aliexpress', 1), ('compras', 1), ('online', 1)]
Palavras mais frequentes nas descrições: [('procurando', 2), ('frete', 2), ('grátis', 2), ('aplicativo', 2), ('compra', 2), ('temu', 1), ('ofertas', 1), ('compre', 1), ('receba', 1), ('exclusivas', 1)]


In [9]:
from collections import Counter
import re

# Função para contar palavras
def contar_palavras(text):
    words = re.findall(r'\b\w+\b', text.lower())
    return Counter(words)

# Contar palavras nos títulos e descrições
palavras_titulos = Counter()
palavras_descricoes = Counter()

for app, data in apps_data.items():
    palavras_titulos.update(contar_palavras(data['titulo']))
    palavras_descricoes.update(contar_palavras(data['descrição']))

print("Palavras mais frequentes nos títulos:", palavras_titulos.most_common(10))
print("Palavras mais frequentes nas descrições:", palavras_descricoes.most_common(10))


Palavras mais frequentes nos títulos: [('11', 2), ('temu', 1), ('compre', 1), ('como', 1), ('um', 1), ('bilionário', 1), ('shopee', 1), ('a', 1), ('maior', 1), ('liquida', 1)]
Palavras mais frequentes nas descrições: [('e', 17), ('o', 12), ('de', 10), ('você', 7), ('para', 6), ('frete', 6), ('grátis', 6), ('ofertas', 5), ('com', 5), ('em', 5)]


## Análise de tamanho de títulos e Descrições

In [11]:
# Limites recomendados para o Google Play
limite_titulo = 30
limite_descricao = 4000

for app, data in apps_data.items():
    tamanho_titulo = len(data['titulo'])
    tamanho_descricao = len(data['descrição'])
    
    print(f"App: {app}")
    print(f"Tamanho do título: {tamanho_titulo} caracteres {'- OK' if tamanho_titulo <= limite_titulo else '- EXCEDEU'}")
    print(f"Tamanho da descrição: {tamanho_descricao} caracteres {'- OK' if tamanho_descricao <= limite_descricao else '- EXCEDEU'}")
    print()


App: Temu
Tamanho do título: 31 caracteres - EXCEDEU
Tamanho da descrição: 290 caracteres - OK

App: Shopee
Tamanho do título: 29 caracteres - OK
Tamanho da descrição: 364 caracteres - OK

App: AliExpress
Tamanho do título: 26 caracteres - OK
Tamanho da descrição: 335 caracteres - OK

App: Mercado Livre
Tamanho do título: 13 caracteres - OK
Tamanho da descrição: 277 caracteres - OK

App: Amazon Shopping
Tamanho do título: 15 caracteres - OK
Tamanho da descrição: 395 caracteres - OK



## Contador de Densidade das palavras

$$
\text{Densidade de uma palavra} = \frac{N_{\text{úmero de ocorrências da palavra}}}{N_{\text{úmero total de palavras na descrição}}} \times 100
$$


### Explicação do Código:
- **Função `calcular_densidade_palavras(text)`**: Extrai as palavras da descrição, calcula o total de palavras e a densidade de cada uma.
- **Densidade**: A densidade é calculada dividindo o número de ocorrências de cada palavra pelo número total de palavras e multiplicando por 100 para obter a porcentagem.
- **Exibição**: Exibimos a densidade das 10 palavras mais frequentes em cada descrição.

In [12]:
import re
from collections import Counter

# Função para contar palavras em um texto e calcular a densidade
def calcular_densidade_palavras(text):
    # Transformar em minúsculas e contar todas as palavras
    palavras = re.findall(r'\b\w+\b', text.lower())
    total_palavras = len(palavras)
    contagem_palavras = Counter(palavras)
    
    # Calcular a densidade para cada palavra
    densidade_palavras = {palavra: (contagem / total_palavras) * 100 for palavra, contagem in contagem_palavras.items()}
    
    return densidade_palavras, total_palavras

# Calcular densidade de palavras nas descrições dos aplicativos
for app, data in apps_data.items():
    descricao = data['descrição']
    densidade, total_palavras = calcular_densidade_palavras(descricao)
    
    print(f"App: {app}")
    print(f"Total de palavras na descrição: {total_palavras}")
    print(f"Densidade de palavras (em %):")
    
    # Ordenar e exibir as palavras com maior densidade
    densidade_ordenada = sorted(densidade.items(), key=lambda x: x[1], reverse=True)
    
    for palavra, densidade_perc in densidade_ordenada[:10]:  # Mostrar as 10 palavras mais frequentes
        print(f"Palavra: '{palavra}', Densidade: {densidade_perc:.2f}%")
    
    print()


App: Temu
Total de palavras na descrição: 47
Densidade de palavras (em %):
Palavra: 'e', Densidade: 8.51%
Palavra: 'temu', Densidade: 6.38%
Palavra: 'o', Densidade: 6.38%
Palavra: 'ofertas', Densidade: 4.26%
Palavra: 'que', Densidade: 4.26%
Palavra: 'você', Densidade: 4.26%
Palavra: 'compre', Densidade: 2.13%
Palavra: 'na', Densidade: 2.13%
Palavra: 'receba', Densidade: 2.13%
Palavra: 'exclusivas', Densidade: 2.13%

App: Shopee
Total de palavras na descrição: 66
Densidade de palavras (em %):
Palavra: 'de', Densidade: 9.09%
Palavra: '11', Densidade: 4.55%
Palavra: 'e', Densidade: 4.55%
Palavra: 'no', Densidade: 3.03%
Palavra: 'a', Densidade: 3.03%
Palavra: 'você', Densidade: 3.03%
Palavra: 'na', Densidade: 3.03%
Palavra: 'shopee', Densidade: 3.03%
Palavra: 'as', Densidade: 3.03%
Palavra: 'frete', Densidade: 3.03%

App: AliExpress
Total de palavras na descrição: 56
Densidade de palavras (em %):
Palavra: 'o', Densidade: 5.36%
Palavra: 'de', Densidade: 5.36%
Palavra: 'um', Densidade: 5.36%

## Gráfico de Densidade de Palavras

In [None]:
import matplotlib.pyplot as plt

# Função para calcular densidade e plotar gráfico de barras
def plotar_densidade_palavras(app, densidade_palavras):
    # Ordenar as palavras pela densidade em ordem decrescente
    densidade_ordenada = sorted(densidade_palavras.items(), key=lambda x: x[1], reverse=True)
    
    # Selecionar as 10 palavras com maior densidade
    palavras = [item[0] for item in densidade_ordenada[:10]]
    densidades = [item[1] for item in densidade_ordenada[:10]]
    
    # Criar o gráfico de barras
    plt.figure(figsize=(10, 6))
    plt.barh(palavras, densidades, color='skyblue')
    plt.xlabel('Densidade (%)')
    plt.ylabel('Palavras')
    plt.title(f'Densidade das Principais Palavras na Descrição do App "{app}"')
    plt.gca().invert_yaxis()  # Inverter para que as palavras com maior densidade fiquem no topo
    plt.show()

# Calcular e plotar a densidade para cada aplicativo
for app, data in apps_data.items():
    descricao = data['descrição']
    densidade, total_palavras = calcular_densidade_palavras(descricao)
    
    print(f"App: {app}")
    print(f"Total de palavras na descrição: {total_palavras}")
    
    # Plotar gráfico de densidade de palavras
    plotar_densidade_palavras(app, densidade)


## Chamada para Ação (CTA)
 Verificamos se as descrições contêm expressões comuns de CTA, como "baixe agora", "aproveite", "descubra", etc.

In [13]:
# Lista de CTAs comuns
ctas_comuns = ["baixe agora", "aproveite", "descubra", "compre", "não perca"]

# Verificar se as CTAs aparecem nas descrições
for app, data in apps_data.items():
    descricao = data['descrição'].lower()
    ctas_presentes = [cta for cta in ctas_comuns if cta in descricao]
    
    print(f"App: {app}")
    if ctas_presentes:
        print(f"CTAs presentes: {', '.join(ctas_presentes)}")
    else:
        print("Nenhuma CTA encontrada.")
    print()


App: Temu
CTAs presentes: aproveite, compre

App: Shopee
Nenhuma CTA encontrada.

App: AliExpress
CTAs presentes: baixe agora, descubra

App: Mercado Livre
Nenhuma CTA encontrada.

App: Amazon Shopping
CTAs presentes: aproveite, compre



## Foco em Promoções e Benefícios

In [14]:
# Lista de palavras relacionadas a promoções
palavras_promocao = ["frete grátis", "oferta", "promoção", "desconto", "exclusivo"]

# Verificar se há menção a promoções nas descrições
for app, data in apps_data.items():
    descricao = data['descrição'].lower()
    promocoes_presentes = [palavra for palavra in palavras_promocao if palavra in descricao]
    
    print(f"App: {app}")
    if promocoes_presentes:
        print(f"Promoções mencionadas: {', '.join(promocoes_presentes)}")
    else:
        print("Nenhuma promoção mencionada.")
    print()


App: Temu
Promoções mencionadas: oferta

App: Shopee
Promoções mencionadas: frete grátis, oferta, promoção

App: AliExpress
Promoções mencionadas: oferta

App: Mercado Livre
Promoções mencionadas: frete grátis, oferta

App: Amazon Shopping
Promoções mencionadas: frete grátis



## Diferenciação de Concorrentes
Comparação básicoa de como os concorrentes mencionam ofertas e vantagens

In [None]:
# Concorrentes: Shopee, AliExpress, Mercado Livre
concorrentes = ["Shopee", "AliExpress", "Mercado Livre"]

for concorrente in concorrentes:
    if concorrente in apps_data:
        descricao = apps_data[concorrente]['descrição']
        print(f"{concorrente} - Descrição: {descricao}")
        print()


## Análise de Localização (Traduções)
verificar se as descrições parecem apropriadas ao público brasileiro  (usaremos um simples verificador de expressões culturais).

In [None]:
# Palavras relacionadas à cultura brasileira
palavras_locais = ["brasil", "frete", "oferta", "reais"]

# Verificar se as descrições estão adaptadas ao Brasil
for app, data in apps_data.items():
    descricao = data['descrição'].lower()
    locais_presentes = [palavra for palavra in palavras_locais if palavra in descricao]
    
    print(f"App: {app}")
    if locais_presentes:
        print(f"Adaptações culturais encontradas: {', '.join(locais_presentes)}")
    else:
        print("Nenhuma adaptação cultural encontrada.")
    print()
