# Bigramas

A análise de bigramas básicamente serve para visualizar quais palavras aparecem frequentemente aparecem junta, sendo assim revelando combinações comuns de palavras (ou palavras compostas) e fornece insights sobre a estrutura do texto e o contexto das palavras

Essa analise vai ser feitas com todo os site que nossa equipe selecionou que pode ter a ver com o nosso tema, o csv utilizado é 'dados_sites.csv'.

In [20]:
import csv
import nltk
from nltk import word_tokenize
from nltk.util import ngrams
from nltk.corpus import stopwords
from collections import Counter
import string
import pandas as pd

# Definir as palavras indesejadas
palavras_indesejadas = set(stopwords.words('portuguese'))

# Definir o limite de frequência mínima
limite_frequencia = 2

# Lê o arquivo CSV com a codificação correta
with open('dados_sites.csv', 'r', encoding='utf-8') as arquivo_csv:
    leitor_csv = csv.reader(arquivo_csv)
    
    # Pula o cabeçalho do CSV
    next(leitor_csv)
    
    # Lista para armazenar os bigramas relevantes
    bigramas_relevantes = []
    
    # Itera sobre as linhas do CSV
    for linha in leitor_csv:
        texto = linha[1]  # Obtém o texto da segunda coluna
        
        # Tokeniza o texto em palavras
        tokens = word_tokenize(texto)
        
        # Filtra as palavras indesejadas, remove pontuações e números
        palavras_filtradas = [palavra.lower() for palavra in tokens if palavra.lower() not in palavras_indesejadas and palavra not in string.punctuation and not any(char.isdigit() for char in palavra)]
        
        # Gera os bigramas
        bigramas = list(ngrams(palavras_filtradas, 2))
        
        # Atualiza a lista de bigramas relevantes com base no limite de frequência
        bigramas_relevantes.extend([bigrama for bigrama in bigramas if bigramas.count(bigrama) >= limite_frequencia])

# Conta a frequência dos bigramas relevantes
frequencia_bigramas = Counter(bigramas_relevantes)

# Cria o dataframe com os bigramas e suas frequências
df = pd.DataFrame.from_dict(frequencia_bigramas, orient='index', columns=['Frequência'])
df.index.names = ['Bigramas']
df.sort_values(by='Frequência', ascending=False, inplace=True)

# Configura para exibir todas as linhas do dataframe
pd.set_option('display.max_rows', None)


Lembrando que as stopwords foram retiradas, ou seja bigramas como (fim,semana) aparecem em conjunto pois antes eram "fim de semana"

In [17]:
df = df[df['Frequência'] > 30]
df

Unnamed: 0_level_0,Frequência
Bigramas,Unnamed: 1_level_1
"(exercícios, sobre)",5294
"(festa, junina)",4332
"(dúvidas, sobre)",2950
"(..., exercícios)",2843
"(guia, folha)",2296
"(exclusivo, assinantes)",2009
"(fim, semana)",2004
"(faça, login)",1975
"(salvar, artigos)",1973
"(assine, faça)",1973


In [18]:
len(df)

1671

# Insights

#### bigramas referente ao público-alvo

1. (brasil,escola) com frequencia de 765

2. (passeios, crianças) com frequencia de 560

3. (ensino,médio) com frequencia de 317

4. (diversão, educando) com frequencia de 256

5. (crianças, bebês) com frequencia de 204

6. (junina, crianças) com frequencia de 198

7. (bebês, fotos) com frequencia de 198

8. (ensino, fundamental) com frequencia de 83


*Esses bigramas podem estar indicando a necessidade do nosso grupo investir em um publico-alvo mais jovem, como crianças e adolescentes visto que eles participam desses eventos frequentemente nas escolas.*

#### bigramas referentes a época

1. (fim, semana) com frequencia de 2004

2. (final,semana) com frequencia de 349

*Esses bigramas podem indicar qual época nosso clientes buscam mais nosso produtos, podemos validar esse teória vendo a frequencia da citações sobre o tema nas redes sociais ao decorrer da semana.*

#### bigramas referentes a local

1. (parque, ibirapuera) com frequencia de 266

*Talvez o parque ibirapuera tenha um relação com nosso público, podemos analisar a existencia de eventos e shows nessa época do ano*