### Imports

In [2]:
import re
import time
import random
import requests
import schedule
import pandas as pd
import matplotlib.pyplot as plt
import tkinter as tk
from tkinter import ttk, messagebox, Toplevel
from datetime import datetime, timedelta
from bs4 import BeautifulSoup
from collections import Counter
from nltk import word_tokenize, pos_tag
from nltk.corpus import stopwords, wordnet as wn
from sqlite3 import connect
from threading import Thread

### Config

In [3]:
API_KEY = "AIzaSyB1yXwbkMUH_00Ixj-ztWQyGtCAzEYxMRY"
CX = "c122f8bd52e10465a"
DB_NAME = 'webmetrics.db'
HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"}

#### Criar Database (não rodar se á houver uma database criada)

In [3]:
def criar_base_dados():
    with connect(DB_NAME) as conn:
        conn.execute('''
            CREATE TABLE IF NOT EXISTS webmetrics (
                id INTEGER PRIMARY KEY AUTOINCREMENT,
                query TEXT,
                url TEXT,
                words INTEGER,
                stopwords INTEGER,
                midias INTEGER,
                percText REAL,
                pageSize REAL,
                lexDensity REAL,
                nouns INTEGER,
                verbs INTEGER,
                adverbs INTEGER,
                adjectives INTEGER
            )
        ''')

#### Limpar texto

In [4]:
def limpar_texto(texto):
    return re.sub(r'\s+', ' ', texto).strip()

#### Densidade lexical

In [5]:
def densidade_lexical(texto):
    tokens = word_tokenize(texto)
    palavras = [t.lower() for t in tokens if t.isalpha()]
    return round(len(set(palavras)) / len(palavras), 2) if palavras else 0

### Analisar texto

In [6]:

def analisar_texto_nltk(texto):
    tokens = word_tokenize(texto)
    palavras = [t for t in tokens if t.isalpha()]
    stop_words = set(stopwords.words('english'))
    stopword_tokens = [t for t in palavras if t.lower() in stop_words]
    tagged = pos_tag(palavras)

    categorias = {
        'NOMES': [], 'SUBSTANTIVOS': [], 'VERBOS': [], 'ADJETIVOS': [], 'ADVÉRBIOS': []
    }

    for palavra, tag in tagged:
        if tag.startswith('NNP'): categorias['NOMES'].append(palavra)
        elif tag.startswith('NN'): categorias['SUBSTANTIVOS'].append(palavra)
        elif tag.startswith('VB'): categorias['VERBOS'].append(palavra)
        elif tag.startswith('JJ'): categorias['ADJETIVOS'].append(palavra)
        elif tag.startswith('RB'): categorias['ADVÉRBIOS'].append(palavra)

    return {
        'frequencias': {cat: Counter(words).most_common(5) for cat, words in categorias.items()},
        'totais': {
            'NOMES': len(categorias['NOMES']),
            'SUBSTANTIVOS': len(categorias['SUBSTANTIVOS']),
            'VERBOS': len(categorias['VERBOS']),
            'ADJETIVOS': len(categorias['ADJETIVOS']),
            'ADVÉRBIOS': len(categorias['ADVÉRBIOS']),
            'STOPWORDS': len(stopword_tokens)
        },
        'categorias': categorias
    }

### Escolher termo aleatorio

In [7]:
def escolher_termo_aleatorio():
    termos = [lemma.name().replace('_', ' ').lower() for syn in wn.all_synsets(pos=wn.NOUN)
              for lemma in syn.lemmas() if lemma.name().isalpha() and len(lemma.name()) >= 4]
    return random.choice(termos)

### Analisar pagina

In [8]:
def analisar_pagina(url):
    try:
        resposta = requests.get(url, headers=HEADERS, timeout=10)
        resposta.raise_for_status()
    except:
        return None

    soup = BeautifulSoup(resposta.text, 'html.parser')
    for tag in soup(["script", "style", "noscript"]):
        tag.decompose()
    texto = limpar_texto(soup.get_text())

    if not texto or len(texto.split()) < 30:
        return None

    num_palavras = len(texto.split())
    num_imagens = len(soup.find_all('img'))
    num_videos = len(soup.find_all(['video', 'iframe']))
    tamanho_texto_kb = round(len(texto.encode('utf-8')) / 1024, 2)
    tamanho_total_kb = round(len(resposta.content) / 1024, 2)
    percentual_texto = round((tamanho_texto_kb / tamanho_total_kb) * 100, 2) if tamanho_total_kb else 0

    analise = analisar_texto_nltk(texto)

    return {
        'url': url,
        'n_palavras': num_palavras,
        'n_imagens': num_imagens,
        'n_videos': num_videos,
        'tamanho_texto_kb': tamanho_texto_kb,
        'tamanho_total_kb': tamanho_total_kb,
        'percentual_texto': percentual_texto,
        'densidade_lexical': densidade_lexical(texto),
        'total_stopwords': analise['totais']['STOPWORDS'],
        'total_nouns': analise['totais']['SUBSTANTIVOS'],
        'total_verbs': analise['totais']['VERBOS'],
        'total_adjectives': analise['totais']['ADJETIVOS'],
        'total_adverbs': analise['totais']['ADVÉRBIOS'],
        'analise_linguistica': analise,
        'texto': texto
    }

### Buscar links atraves da API do google

In [9]:
def buscar_links_google(query):
    url = "https://www.googleapis.com/customsearch/v1"
    params = {"key": API_KEY, "cx": CX, "q": query, "num": 10, "start": random.randint(1, 90)}
    r = requests.get(url, params=params)
    if r.status_code == 200:
        return [item['link'] for item in r.json().get('items', [])]
    return []

#### Salvar resultados na database

In [10]:
def salvar_em_db(resultados):
    with connect(DB_NAME) as conn:
        for r in resultados:
            try:
                conn.execute('''
                    INSERT INTO webmetrics (query, url, words, stopwords, midias, percText, pageSize, lexDensity, nouns, verbs, adverbs, adjectives)
                    VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)''', (
                    r.get('query'), r['url'], r['n_palavras'], r['total_stopwords'],
                    r['n_imagens'] + r['n_videos'], r['percentual_texto'],
                    r['tamanho_total_kb'], r['densidade_lexical'],
                    r['total_nouns'], r['total_verbs'],
                    r['total_adverbs'], r['total_adjectives']
                ))
            except Exception as e:
                continue

#### Visualização dos resultados

In [11]:
def visualizar_resultados(resultados):
    urls = [r['url'] for r in resultados]
    texto_pct = [r['percentual_texto'] for r in resultados]
    num_palavras = [r['n_palavras'] for r in resultados]
    num_midias = [r['n_imagens'] + r['n_videos'] for r in resultados]
    dens_lex = [r['densidade_lexical'] for r in resultados]

    plt.figure()
    plt.barh(urls, texto_pct)
    plt.xlabel('% de Texto na Página')
    plt.title('Distribuição da Percentagem de Texto')
    plt.tight_layout()
    plt.show()

    plt.figure()
    plt.scatter(num_palavras, num_midias)
    plt.xlabel('Número de Palavras')
    plt.ylabel('Número de Mídias')
    plt.title('Correlação entre Texto e Mídia')
    plt.grid(True)
    plt.tight_layout()
    plt.show()

    plt.figure()
    plt.barh(urls, dens_lex)
    plt.xlabel('Densidade Lexical')
    plt.title('Densidade Lexical por Página')
    plt.tight_layout()
    plt.show()

### Interface gráfica

In [17]:
class WebMetricsGUI:
    def __init__(self, root):
        self.root = root
        self.root.title("WebMetrics")
        self.root.geometry("600x500")
        # Fonte e estilo
        self.style = ttk.Style()
        self.style.configure("TButton", font=("Helvetica", 10), padding=8)
        self.style.configure("TLabel", font=("Helvetica", 12))
        self.style.configure("Header.TLabel", font=("Helvetica", 16, "bold"))
        
        self.resultados = []
        # --- Título ---
        header = ttk.Label(root, text="WebMetrics", style="Header.TLabel")
        header.pack(pady=(20,10))
        
        # --- Frame para botões ---
        btn_frame = ttk.Frame(root)
        btn_frame.pack(pady=10)
        
        # Botões alinhados e tamanho único
        btn_opts = {"master": btn_frame, "width": 20}
        self.btn_random = ttk.Button(**btn_opts, text="Pesquisa Aleatória", command=self.pesquisa_aleatoria)
        self.btn_schedule = ttk.Button(**btn_opts, text="Fazer Agendamento", command=self.janela_agendamento)
        self.btn_stop = ttk.Button(**btn_opts, text="Parar Agendamento", command=self.parar_agendamento)
        self.btn_view_recent = ttk.Button(**btn_opts, text="Gráficos da pesquisa", command=self.mostrar_graficos)
        self.btn_view_db = ttk.Button(**btn_opts, text="Gráficos da BD", command=self.mostrar_graficos_db)
        self.btn_db = ttk.Button(**btn_opts, text="Ver Base de Dados", command=self.ver_db)
        
        self.log = tk.Text(root, height=10, width=80)
        self.log.pack(pady=10)
        self.log.config(state="disabled")  # se quiseres evitar edição direta

        
        # Grid dentro do frame
        for i, btn in enumerate([self.btn_random, self.btn_schedule, self.btn_view_recent, self.btn_stop,
                                 self.btn_view_db, self.btn_db]):
            btn.grid(row=i//2, column=i%2, padx=10, pady=5, sticky="ew")
        
    def mostrar_graficos_db(self):
        # Carrega todos os registos da BD
        with connect(DB_NAME) as conn:
            df = pd.read_sql_query(
                "SELECT url, percText, words AS n_palavras, midias, lexDensity AS densidade_lexical "
                "FROM webmetrics",
                conn
            )

        if df.empty:
            messagebox.showinfo("Info", "Nenhum dado na base de dados para visualização.")
            return

        # 0) Índices e labels
        indices = list(range(len(df)))

        # Ajuste 1: garante 0 ≤ percText ≤ 100
        df["percText_clipped"] = df["percText"].clip(lower=0, upper=100)

        # 1) Scatter da percentagem de texto
        plt.figure()
        plt.scatter(indices, df["percText_clipped"], marker='o')
        plt.ylim(0, 100)
        plt.xlabel("Páginas")
        plt.ylabel("% de Texto")
        plt.title("Distribuição da Percentagem de Texto")
        plt.grid(True)
        plt.tight_layout()
        plt.show()

        # 2) Scatter do número de palavras vs número de mídias
        plt.figure()
        plt.scatter(df["n_palavras"], df["midias"], marker='o')
        plt.xlim(0, 10000)  # Ajuste 2: número de palavras limitado a 10 000
        plt.xlabel("Número de Palavras")
        plt.ylabel("Número de Mídias")
        plt.title("Correlação entre Texto e Mídia (corte em 10 000 palavras)")
        plt.grid(True)
        plt.tight_layout()
        plt.show()

        # 3) Scatter da densidade lexical
        plt.figure()
        plt.scatter(indices, df["densidade_lexical"], marker='o')
        plt.xlabel("Páginas")
        plt.ylabel("Densidade Lexical")
        plt.title("Distribuição da Densidade Lexical (Scatter)")
        plt.grid(True)
        plt.tight_layout()
        plt.show()


    def log_msg(self, msg):
        timestamp = datetime.now().strftime("[%H:%M:%S]")
        self.log.insert(tk.END, f"{timestamp} {msg}\n")
        self.log.see(tk.END)

    def pesquisa_aleatoria(self):
        termo = escolher_termo_aleatorio()
        self.log_msg(f" A pesquisar: {termo}")
        links = buscar_links_google(termo)
        resultados = []
        for link in links:
            res = analisar_pagina(link)
            if res:
                res['query'] = termo
                resultados.append(res)
                self.log_msg(f"→ {link} | Palavras: {res['n_palavras']} | Stopwords: {res['total_stopwords']} | Densidade: {res['densidade_lexical']}")
            time.sleep(1)
        if resultados:
            salvar_em_db(resultados)
            self.resultados = resultados
            self.log_msg(" Resultados guardados.")
        else:
            self.log_msg(" Nenhum resultado relevante.")

    def janela_agendamento(self):
        janela = Toplevel(self.root)
        janela.title("Configurar Agendamento")

        ttk.Label(janela, text="Pesquisas por Dia:").grid(row=0, column=0)
        ttk.Label(janela, text="Pesquisas por Hora:").grid(row=1, column=0)

        dia_entry = ttk.Entry(janela)
        hora_entry = ttk.Entry(janela)
        dia_entry.grid(row=0, column=1)
        hora_entry.grid(row=1, column=1)

        def iniciar():
            try:
                por_dia = int(dia_entry.get())
                por_hora = int(hora_entry.get())
                intervalo = int(60 / por_hora)
                max_dia = 24 * por_hora
                if por_dia > max_dia:
                    self.log_msg(f" Máximo permitido: {max_dia} por dia. Ajustado automaticamente.")
                    por_dia = max_dia
                self.total_pedidas = por_dia
                self.pesquisas_feitas = 0
                self.inicio = datetime.now()
                self.fim = self.inicio + timedelta(minutes=intervalo * por_dia)

                def tarefa():
                    if self.pesquisas_feitas >= por_dia:
                        return schedule.CancelJob
                    termo = escolher_termo_aleatorio()
                    self.log_msg(f" [{self.pesquisas_feitas + 1}] {termo}")
                    resultados = []
                    links = buscar_links_google(termo)
                    for link in links:
                        res = analisar_pagina(link)
                        if res:
                            res['query'] = termo
                            resultados.append(res)
                        time.sleep(1)
                    if resultados:
                        salvar_em_db(resultados)
                        self.resultados.extend(resultados)
                    self.pesquisas_feitas += 1

                schedule.every(intervalo).minutes.do(tarefa)

                def run_schedule():
                    while self.pesquisas_feitas < self.total_pedidas:
                        schedule.run_pending()
                        time.sleep(1)
                    self.log_msg(" Agendamento concluído.")

                self.task_thread = Thread(target=run_schedule, daemon=True)
                self.task_thread.start()
                self.log_msg(" Agendamento iniciado...")
                janela.destroy()

            except Exception as e:
                messagebox.showerror("Erro", str(e))

        ttk.Button(janela, text="Iniciar", command=iniciar).grid(row=2, column=0, columnspan=2, pady=10)
    
    def parar_agendamento(self):
        schedule.clear()
        self.pesquisas_feitas = 0
        self.log_msg(" Qualquer tarefa ativa foi parada.")

    def ver_db(self):
        janela = Toplevel(self.root)
        janela.title("Base de Dados")
        tree = ttk.Treeview(janela)
        tree.pack(fill='both', expand=True)

        with connect(DB_NAME) as conn:
            df = pd.read_sql_query("SELECT * FROM webmetrics", conn)

        tree['columns'] = list(df.columns)
        tree['show'] = 'headings'

        for col in df.columns:
            tree.heading(col, text=col)
            tree.column(col, width=100)

        for _, row in df.iterrows():
            tree.insert("", tk.END, values=list(row))

    def mostrar_graficos(self):
        if not self.resultados:
            messagebox.showinfo("Info", "Nenhum resultado recente para visualização.")
            return

        urls = [r['url'] for r in self.resultados]
        urls_legiveis = [url[:60] + "..." if len(url) > 60 else url for url in urls]

        # Corrigir cálculo de percentagem de texto para garantir intervalo 0-100% e evitar distorções
        texto_pct = []
        for r in self.resultados:
            total_kb = r['tamanho_total_kb']
            texto_kb = r['tamanho_texto_kb']
            if total_kb > 0:
                pct = (texto_kb / total_kb) * 100
                pct = max(0, min(pct, 100))  # garantir dentro de 0 a 100%
            else:
                pct = 0
            texto_pct.append(round(pct, 2))

        num_palavras = [r['n_palavras'] for r in self.resultados]
        num_midias = [r['n_imagens'] + r['n_videos'] for r in self.resultados]
        dens_lex = [r['densidade_lexical'] for r in self.resultados]

        plt.figure()
        plt.barh(urls_legiveis, texto_pct)
        plt.xlabel('% de Texto na Página')
        plt.title('Distribuição da Percentagem de Texto')
        plt.tight_layout()
        plt.show()

        plt.figure()
        plt.scatter(num_palavras, num_midias, c='blue')
        plt.xlabel('Número de Palavras')
        plt.ylabel('Número de Mídias')
        plt.title('Correlação entre Texto e Mídia')
        plt.grid(True)
        plt.tight_layout()
        plt.show()

        plt.figure()
        plt.barh(urls_legiveis, dens_lex, color='green')
        plt.xlabel('Densidade Lexical')
        plt.title('Densidade Lexical por Página')
        plt.tight_layout()
        plt.show()


#### Execução

In [19]:
if __name__ == "__main__":
    root = tk.Tk()
    app = WebMetricsGUI(root)
    root.mainloop()