<a href="https://colab.research.google.com/github/guifav/roger/blob/main/Roger%20-%20AI_Agente_Escritor_de_Blog%20(Com%20SERPER).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
import os
import re
import json
import time
import nltk
import numpy as np
import pandas as pd
from tqdm import tqdm
import requests
from datetime import datetime
from IPython.display import HTML, display, Markdown

# Verificar se estamos no ambiente do Google Colab
try:
    from google.colab import userdata
    from google.colab import files
    IN_COLAB = True
except ImportError:
    IN_COLAB = False

# Instala√ß√£o das bibliotecas necess√°rias
try:
    from openai import OpenAI
    from nltk.tokenize import word_tokenize
    from nltk.corpus import stopwords
except ImportError:
    !pip install openai==1.3.0 nltk tqdm pandas requests
    from openai import OpenAI
    from nltk.tokenize import word_tokenize
    from nltk.corpus import stopwords

# Download dos pacotes NLTK necess√°rios
nltk.download('punkt')
nltk.download('stopwords')

# Garantir que o modelo para o portugu√™s est√° dispon√≠vel
try:
    nltk.data.find('tokenizers/punkt/portuguese.pickle')
except LookupError:
    # Tenta baixar o pacote espec√≠fico para portugu√™s
    nltk.download('punkt', download_dir='/root/nltk_data')

    # Caso ainda ocorra erro, usaremos o tokenizador b√°sico
    print("Aviso: Usando tokenizador b√°sico para portugu√™s.")

# Classe SerperSearchAPI implementada anteriormente
class SerperSearchAPI:
    """Classe para realizar buscas na internet usando a API Serper."""

    def __init__(self, api_key=None):
        """
        Inicializa a API Serper.

        Args:
            api_key (str, optional): Chave da API Serper.
        """
        self.api_key = api_key
        self.base_url = "https://google.serper.dev/search"
        self.headers = None

    def configure_api(self):
        """Configura a API do Serper."""
        if not self.api_key:
            # Verifica se estamos no Google Colab e tenta obter a chave do userdata
            if IN_COLAB:
                try:
                    self.api_key = userdata.get('SERPER_API_KEY')
                    print("‚úÖ Chave API Serper obtida com sucesso do armazenamento seguro do Colab.")
                except Exception as e:
                    print(f"‚ö†Ô∏è N√£o foi poss√≠vel obter a chave Serper API do armazenamento seguro: {str(e)}")
                    print("Para configurar uma chave secreta no Google Colab:")
                    print("1. No menu lateral, clique em 'üîë' (Secrets)")
                    print("2. Adicione uma nova chave secreta com nome 'SERPER_API_KEY' e seu valor")
                    self.api_key = input("Digite sua chave de API Serper manualmente: ")
            else:
                self.api_key = input("Digite sua chave de API Serper: ")

        self.headers = {
            "X-API-KEY": self.api_key,
            "Content-Type": "application/json"
        }

    def search(self, query, num_results=5):
        """
        Realiza uma busca com a query fornecida.

        Args:
            query (str): Query de busca
            num_results (int): N√∫mero de resultados a retornar

        Returns:
            dict: Resultados da busca ou erro
        """
        if not self.headers:
            self.configure_api()

        payload = {
            "q": query,
            "num": num_results
        }

        try:
            response = requests.post(
                self.base_url,
                headers=self.headers,
                json=payload
            )

            if response.status_code == 200:
                return response.json()
            else:
                return {
                    "error": f"Erro na busca: {response.status_code}",
                    "details": response.text
                }

        except Exception as e:
            return {"error": f"Erro ao realizar a busca: {str(e)}"}

    def extract_search_results(self, results):
      """
      Extrai informa√ß√µes relevantes dos resultados de busca.

      Args:
          results (dict): Resultados da busca

      Returns:
          list: Lista com informa√ß√µes relevantes extra√≠das
      """
      if isinstance(results, dict) and "error" in results:
          return [{"title": "Erro na busca", "snippet": results["error"], "type": "error"}]

      extracted = []

      # Resultados org√¢nicos
      if isinstance(results, dict) and "organic" in results:
          for item in results["organic"]:
              extracted.append({
                  "title": item.get("title", ""),
                  "link": item.get("link", ""),
                  "snippet": item.get("snippet", ""),
                  "type": "organic"
              })

      # Knowledge graph
      if isinstance(results, dict) and "knowledgeGraph" in results:
          kg = results["knowledgeGraph"]
          extracted.append({
              "title": kg.get("title", ""),
              "type": kg.get("type", "Informa√ß√£o"),
              "description": kg.get("description", ""),
              "type": "knowledge"
          })

      # Resultados de not√≠cias
      if isinstance(results, dict) and "news" in results:
          for item in results["news"]:
              extracted.append({
                  "title": item.get("title", ""),
                  "link": item.get("link", ""),
                  "snippet": item.get("snippet", ""),
                  "date": item.get("date", ""),
                  "type": "news"
              })

      return extracted

    def format_search_results_for_openai(self, results, max_results=5):
      """
      Formata os resultados da busca para uso com a OpenAI.

      Args:
          results (list): Lista de resultados extra√≠dos
          max_results (int): N√∫mero m√°ximo de resultados a formatar

      Returns:
          str: Texto formatado com os resultados
      """
      if not results:
          return "Nenhum resultado encontrado."

      if isinstance(results, list) and len(results) > 0 and "type" in results[0] and results[0]["type"] == "error":
          return f"Erro na busca: {results[0]['snippet']}"

      formatted = "### Resultados da pesquisa\n\n"

      # Limitando o n√∫mero de resultados
      results = results[:max_results]

      for i, item in enumerate(results, 1):
          if item["type"] == "organic" or item["type"] == "news":
              formatted += f"{i}. **{item['title']}**\n"
              formatted += f"   - Link: {item.get('link', 'N/A')}\n"
              formatted += f"   - Snippet: {item.get('snippet', 'N/A')}\n"
              if "date" in item and item["date"]:
                  formatted += f"   - Data: {item['date']}\n"
              formatted += "\n"
          elif item["type"] == "knowledge":
              formatted += f"{i}. **{item['title']}** ({item.get('type', 'N/A')})\n"
              formatted += f"   - Descri√ß√£o: {item.get('description', 'N/A')}\n\n"

      formatted += f"Resultados obtidos em {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}\n"

      return formatted

class BlogArticleGenerator:
    def __init__(self, openai_api_key=None, serper_api_key=None, model="gpt-3.5-turbo"):
        """
        Inicializa o gerador de artigos para blog.

        Args:
            openai_api_key (str, optional): Chave da API OpenAI.
            serper_api_key (str, optional): Chave da API Serper para busca na internet.
            model (str): Modelo da OpenAI a ser usado.
        """
        self.openai_api_key = openai_api_key
        self.serper_api_key = serper_api_key
        self.min_word_count = 2000
        self.model = model
        self.client = None
        self.search_api = None
        self.use_internet_search = False
        self.article = None
        self.metadata = {
            "title": "",
            "keywords": [],
            "word_count": 0,
            "seo_score": 0,
            "readability_score": 0
        }
        self.configure_api()

    def configure_api(self):
        """Configura a API do OpenAI."""
        if not self.openai_api_key:
            # Verifica se estamos no Google Colab e tenta obter a chave do userdata
            if IN_COLAB:
                try:
                    self.openai_api_key = userdata.get('OPENAI_API_KEY')
                    print("‚úÖ Chave API OpenAI obtida com sucesso do armazenamento seguro do Colab.")
                except Exception as e:
                    print(f"‚ö†Ô∏è N√£o foi poss√≠vel obter a chave API do armazenamento seguro: {str(e)}")
                    print("Para configurar uma chave secreta no Google Colab:")
                    print("1. No menu lateral, clique em 'üîë' (Secrets)")
                    print("2. Adicione uma nova chave secreta com nome 'OPENAI_API_KEY' e seu valor")
                    self.openai_api_key = input("Digite sua chave de API OpenAI manualmente: ")
            else:
                self.openai_api_key = input("Digite sua chave de API OpenAI: ")

        self.client = OpenAI(api_key=self.openai_api_key)

        # Configura√ß√£o da API Serper se dispon√≠vel
        if self.serper_api_key or self.use_internet_search:
            self.search_api = SerperSearchAPI(api_key=self.serper_api_key)
            self.use_internet_search = True

    def enable_internet_search(self, serper_api_key=None):
        """
        Habilita a busca na internet usando a API Serper.

        Args:
            serper_api_key (str, optional): Chave da API Serper.
        """
        if serper_api_key:
            self.serper_api_key = serper_api_key

        self.search_api = SerperSearchAPI(api_key=self.serper_api_key)
        self.use_internet_search = True
        print("‚úÖ Busca na internet habilitada usando API Serper.")

    def search_for_topic(self, topic, keywords, num_results=5):
        """
        Realiza uma busca na internet sobre o t√≥pico e palavras-chave.

        Args:
            topic (str): T√≥pico principal do artigo.
            keywords (list): Lista de palavras-chave.
            num_results (int): N√∫mero de resultados a retornar.

        Returns:
            str: Texto formatado com os resultados da busca.
        """
        if not self.use_internet_search or not self.search_api:
            return "Busca na internet n√£o habilitada."

        # Cria uma query de busca combinando o t√≥pico e palavras-chave
        search_query = f"{topic} {' '.join(keywords)}"

        # Realiza a busca
        print(f"üîç Buscando informa√ß√µes sobre: '{search_query}'")
        results = self.search_api.search(search_query, num_results)

        # Extrai e formata os resultados
        extracted_results = self.search_api.extract_search_results(results)
        formatted_results = self.search_api.format_search_results_for_openai(extracted_results)

        return formatted_results

    def create_outline(self, topic, keywords, tone="informative", use_search=True):
        """
        Cria um esbo√ßo detalhado para o artigo.

        Args:
            topic (str): T√≥pico principal do artigo.
            keywords (list): Lista de palavras-chave para SEO.
            tone (str): Tom do artigo (informativo, persuasivo, etc).
            use_search (bool): Se deve usar busca na internet para enriquecer o conte√∫do.

        Returns:
            dict: Estrutura do artigo com t√≠tulo e se√ß√µes.
        """
        # Busca informa√ß√µes na internet se habilitado
        search_results = ""
        if use_search and self.use_internet_search:
            search_results = self.search_for_topic(topic, keywords)

        prompt = f"""
        Voc√™ √© um especialista em cria√ß√£o de conte√∫do para blogs otimizados para SEO.

        Crie um esbo√ßo detalhado para um artigo de blog sobre "{topic}" com tom {tone}.

        O artigo deve ter pelo menos 2000 palavras e incorporar as seguintes palavras-chave de forma natural:
        {', '.join(keywords)}

        O esbo√ßo deve incluir:
        1. Um t√≠tulo atraente e otimizado para SEO (menos de 70 caracteres)
        2. Uma meta-descri√ß√£o atraente (150-160 caracteres)
        3. Uma introdu√ß√£o convincente
        4. Pelo menos 5-7 se√ß√µes principais com subt√≠tulos descritivos e otimizados para SEO
        5. Para cada se√ß√£o principal, liste 3-5 pontos-chave a serem abordados
        6. Uma conclus√£o forte
        7. Uma chamada para a√ß√£o eficaz

        {search_results if search_results else ""}

        Formate sua resposta como um JSON com a seguinte estrutura:
        {{
            "title": "T√≠tulo do Artigo",
            "meta_description": "Meta descri√ß√£o atrativa para SEO",
            "sections": [
                {{
                    "heading": "Introdu√ß√£o",
                    "points": ["ponto 1", "ponto 2", "ponto 3"]
                }},
                {{
                    "heading": "Se√ß√£o 1",
                    "points": ["ponto 1", "ponto 2", "ponto 3"]
                }},
                ...
            ]
        }}
        """

        try:
            # Adiciona uma pausa de 1 segundo para evitar rate limiting
            time.sleep(1)

            response = self.client.chat.completions.create(
                model=self.model,
                messages=[{"role": "user", "content": prompt}],
                temperature=0.7
            )

            outline_text = response.choices[0].message.content
            # Extrair apenas o JSON da resposta
            outline_json = re.search(r'({.*})', outline_text, re.DOTALL)
            if outline_json:
                try:
                    outline = json.loads(outline_json.group(1))
                except json.JSONDecodeError:
                    # Tenta limpar o texto para torn√°-lo um JSON v√°lido
                    cleaned_json = outline_json.group(1).replace("'", '"').replace("\\", "\\\\")
                    try:
                        outline = json.loads(cleaned_json)
                    except:
                        print(f"Erro ao processar a resposta como JSON. Resposta recebida:\n{outline_text}")
                        return None
            else:
                try:
                    outline = json.loads(outline_text)
                except json.JSONDecodeError:
                    # Se n√£o for poss√≠vel extrair o JSON, tenta criar um esbo√ßo manualmente
                    print(f"N√£o foi poss√≠vel extrair o JSON da resposta. Criando esbo√ßo manualmente.")
                    # Procura por um t√≠tulo
                    title_match = re.search(r'[tT]√≠tulo:?\s*(.+?)[\n\r]', outline_text)
                    title = title_match.group(1) if title_match else "Artigo sobre " + topic

                    # Cria se√ß√µes a partir de marcadores ou n√∫meros
                    sections_text = re.split(r'[\n\r]+\d+\.|\*\*|##', outline_text)
                    sections = []

                    for section in sections_text:
                        if len(section.strip()) > 10:  # Ignora se√ß√µes muito curtas
                            parts = section.split('\n', 1)
                            heading = parts[0].strip().replace('*', '').replace('#', '')
                            content = parts[1] if len(parts) > 1 else ""

                            # Extrai pontos de marcadores
                            points = re.findall(r'[\n\r]+[‚Ä¢\-\*]\s*(.+?)[\n\r]', content)
                            if not points:
                                # Se n√£o encontrar marcadores, divide por frases
                                sentences = re.findall(r'([^.!?]+[.!?])', content)
                                points = sentences[:3] if sentences else ["Detalhes sobre " + heading]

                            sections.append({
                                "heading": heading,
                                "points": points
                            })

                    outline = {
                        "title": title,
                        "meta_description": "Artigo informativo sobre " + topic,
                        "sections": sections
                    }

            self.metadata["title"] = outline["title"]
            self.metadata["keywords"] = keywords

            return outline

        except Exception as e:
            print(f"Erro ao criar o esbo√ßo: {e}")
            return None

    def generate_section(self, heading, points, keywords, previous_content="", use_search=True):
        """
        Gera o conte√∫do de uma se√ß√£o espec√≠fica do artigo.

        Args:
            heading (str): T√≠tulo da se√ß√£o.
            points (list): Pontos chave a serem abordados na se√ß√£o.
            keywords (list): Palavras-chave para SEO.
            previous_content (str): Conte√∫do j√° gerado, para manter consist√™ncia.
            use_search (bool): Se deve usar busca na internet para enriquecer o conte√∫do.

        Returns:
            str: Conte√∫do da se√ß√£o.
        """
        # Busca informa√ß√µes na internet se habilitado
        search_results = ""
        if use_search and self.use_internet_search:
            # Cria uma query de busca espec√≠fica para a se√ß√£o
            search_query = f"{heading} {' '.join(points[:2])} {' '.join(keywords[:2])}"
            results = self.search_api.search(search_query, 3)
            extracted_results = self.search_api.extract_search_results(results)
            search_results = self.search_api.format_search_results_for_openai(extracted_results)

        prompt = f"""
        Voc√™ √© um redator especializado em conte√∫do para blogs otimizados para SEO.

        Escreva uma se√ß√£o detalhada para um artigo de blog com o t√≠tulo "{heading}".

        Aborde os seguintes pontos de forma abrangente e envolvente:
        {', '.join(points)}

        Incorpore naturalmente as seguintes palavras-chave quando for apropriado:
        {', '.join(keywords)}

        {search_results if search_results else ""}

        Algumas orienta√ß√µes:
        - Escreva em portugu√™s brasileiro formal, mas conversacional
        - Use par√°grafos curtos (3-4 frases)
        - Use subt√≠tulos H3 quando necess√°rio para dividir se√ß√µes longas
        - Inclua exemplos concretos e espec√≠ficos
        - Use linguagem ativa e envolvente
        - Evite jarg√µes desnecess√°rios
        - Certifique-se de que o conte√∫do flua naturalmente e seja f√°cil de ler
        - No m√≠nimo 300-400 palavras para esta se√ß√£o

        {f"Mantenha consist√™ncia com o conte√∫do anterior: {previous_content[:300]}..." if previous_content else ""}
        """

        try:
            # Adiciona uma pausa de 1 segundo para evitar rate limiting
            time.sleep(1)

            response = self.client.chat.completions.create(
                model=self.model,
                messages=[{"role": "user", "content": prompt}],
                temperature=0.7
            )

            section_content = response.choices[0].message.content
            return section_content

        except Exception as e:
            print(f"Erro ao gerar a se√ß√£o '{heading}': {e}")
            return ""

    def generate_full_article(self, outline, use_search=True):
        """
        Gera o artigo completo baseado no esbo√ßo.

        Args:
            outline (dict): Esbo√ßo estruturado do artigo.
            use_search (bool): Se deve usar busca na internet para enriquecer o conte√∫do.

        Returns:
            str: Artigo completo formatado.
        """
        full_article = f"# {outline['title']}\n\n"
        previous_content = ""

        print("Gerando artigo completo...")
        for section in tqdm(outline['sections']):
            heading = section['heading']
            points = section['points']

            # Determina o n√≠vel de cabe√ßalho (Introdu√ß√£o e Conclus√£o s√£o H2, o resto H2 tamb√©m)
            header_level = "##"

            section_content = self.generate_section(
                heading,
                points,
                self.metadata["keywords"],
                previous_content,
                use_search
            )

            full_article += f"{header_level} {heading}\n\n{section_content}\n\n"
            previous_content += section_content

        self.article = full_article
        self.count_words()

        # Verifica se o tamanho m√≠nimo foi atingido
        if self.metadata["word_count"] < self.min_word_count:
            print(f"O artigo tem apenas {self.metadata['word_count']} palavras. Expandindo para atingir o m√≠nimo de {self.min_word_count}...")
            self.expand_article(use_search)

        return self.article

    def expand_article(self, use_search=True):
        """
        Expande o artigo para atingir o n√∫mero m√≠nimo de palavras.

        Args:
            use_search (bool): Se deve usar busca na internet para enriquecer o conte√∫do.
        """
        words_needed = self.min_word_count - self.metadata["word_count"]
        sections = self.article.split("##")

        # Identifica as se√ß√µes mais curtas para expandir
        section_lengths = [(i, len(section.split())) for i, section in enumerate(sections[1:])]
        section_lengths.sort(key=lambda x: x[1])

        # Expande as se√ß√µes mais curtas
        for idx, _ in section_lengths[:3]:
            if words_needed <= 0:
                break

            # Extrai t√≠tulo e conte√∫do da se√ß√£o
            section = sections[idx + 1]
            section_parts = section.split("\n\n", 1)
            if len(section_parts) < 2:
                continue

            heading = section_parts[0].strip()
            content = section_parts[1]

            # Busca informa√ß√µes adicionais na internet se habilitado
            search_results = ""
            if use_search and self.use_internet_search:
                search_query = f"{heading} detalhado {' '.join(self.metadata['keywords'][:2])}"
                results = self.search_api.search(search_query, 3)
                extracted_results = self.search_api.extract_search_results(results)
                search_results = self.search_api.format_search_results_for_openai(extracted_results)

            # Gera conte√∫do adicional
            prompt = f"""
            Expanda o seguinte conte√∫do de blog para adicionar mais detalhes, exemplos e informa√ß√µes √∫teis.
            Adicione pelo menos 300 palavras de conte√∫do relevante, mantendo o estilo e tom do texto original.
            Incorpore naturalmente as palavras-chave: {', '.join(self.metadata["keywords"])}

            {search_results if search_results else ""}

            Se√ß√£o: {heading}

            Conte√∫do atual:
            {content}
            """

            try:
                # Adiciona uma pausa de 1 segundo para evitar rate limiting
                time.sleep(1)

                response = self.client.chat.completions.create(
                    model=self.model,
                    messages=[{"role": "user", "content": prompt}],
                    temperature=0.7
                )

                expanded_content = response.choices[0].message.content
                sections[idx + 1] = f"{heading}\n\n{expanded_content}"
                words_needed -= 300  # Estimativa de palavras adicionadas

            except Exception as e:
                print(f"Erro ao expandir a se√ß√£o: {e}")

        # Re√∫ne o artigo expandido
        self.article = sections[0] + "##".join(sections[1:])
        self.count_words()

    def count_words(self):
        """Conta o n√∫mero de palavras no artigo."""
        if self.article:
            # Usa um m√©todo mais simples para contar palavras, evitando erros de tokeniza√ß√£o
            try:
                words = word_tokenize(self.article, language='portuguese')
            except LookupError:
                # M√©todo alternativo de contagem de palavras
                words = self.article.split()

            # Remove pontua√ß√£o e outros caracteres n√£o-palavras
            words = [word for word in words if re.match(r'\w+', word)]
            self.metadata["word_count"] = len(words)

    def calculate_seo_score(self):
        """
        Calcula uma pontua√ß√£o de SEO para o artigo.

        Returns:
            float: Pontua√ß√£o de SEO entre 0 e 100.
        """
        if not self.article:
            return 0

        score = 0
        text_lower = self.article.lower()

        # Verifica o uso de palavras-chave
        for keyword in self.metadata["keywords"]:
            keyword_lower = keyword.lower()
            count = text_lower.count(keyword_lower)

            # Densidade de palavras-chave ideal (0.5% - 2%)
            density = count / self.metadata["word_count"] * 100
            if 0.5 <= density <= 2.0:
                score += 20 / len(self.metadata["keywords"])
            elif density > 0:
                score += 10 / len(self.metadata["keywords"])

        # Verifica presen√ßa de palavras-chave em t√≠tulos
        title_score = 0
        title_lines = re.findall(r'#{1,3}\s+(.+)', self.article)
        for title in title_lines:
            title_lower = title.lower()
            for keyword in self.metadata["keywords"]:
                if keyword.lower() in title_lower:
                    title_score += 1

        # Normaliza a pontua√ß√£o de t√≠tulos (max 20 pontos)
        title_score = min(title_score, 20)
        score += title_score

        # Verifica tamanho do artigo
        if self.metadata["word_count"] >= self.min_word_count:
            score += 20
        elif self.metadata["word_count"] >= self.min_word_count * 0.8:
            score += 10

        # Verifica estrutura do artigo (presen√ßa de H2, H3)
        if len(re.findall(r'##\s+', self.article)) >= 4:
            score += 20
        else:
            h2_count = len(re.findall(r'##\s+', self.article))
            score += h2_count * 5

        # Verifica presen√ßa de links (n√£o implementado aqui, precisaria de mais contexto)
        # Para uma implementa√ß√£o completa, voc√™ poderia adicionar verifica√ß√£o de links

        # Verifica comprimento dos par√°grafos (ideal: 3-4 frases)
        paragraphs = re.findall(r'\n\n(.+?)\n\n', self.article, re.DOTALL)
        short_paragraphs = 0
        for para in paragraphs:
            sentences = re.findall(r'[.!?]+', para)
            if 1 <= len(sentences) <= 4:
                short_paragraphs += 1

        if len(paragraphs) > 0:
            paragraph_score = short_paragraphs / len(paragraphs) * 20
            score += paragraph_score

        self.metadata["seo_score"] = round(score, 2)
        return self.metadata["seo_score"]

    def calculate_readability_score(self):
        """
        Calcula uma pontua√ß√£o de legibilidade para o artigo.

        Returns:
            float: Pontua√ß√£o de legibilidade entre 0 e 100.
        """
        if not self.article:
            return 0

        # Tokeniza o texto de maneira segura
        try:
            tokens = word_tokenize(self.article, language='portuguese')
        except LookupError:
            # M√©todo alternativo de tokeniza√ß√£o
            tokens = [word for word in self.article.split() if re.match(r'\w+', word)]

        if not tokens:
            return 0

        # Calcula o comprimento m√©dio das palavras
        avg_word_length = sum(len(word) for word in tokens) / len(tokens)

        # Estima o n√∫mero de frases usando regex
        sentences = re.findall(r'[^.!?]+[.!?]', self.article)
        num_sentences = len(sentences) if sentences else 1

        # Calcula palavras por frase (m√©dia)
        words_per_sentence = self.metadata["word_count"] / max(num_sentences, 1)

        # Pontua√ß√£o baseada em simplicidade de palavras (quanto menor o comprimento m√©dio, melhor, at√© certo ponto)
        word_length_score = 50 - (abs(avg_word_length - 5) * 10)
        word_length_score = max(0, min(50, word_length_score))

        # Pontua√ß√£o baseada no comprimento das frases (ideal: 15-20 palavras por frase)
        sentence_length_score = 50 - (abs(words_per_sentence - 17.5) * 2)
        sentence_length_score = max(0, min(50, sentence_length_score))

        readability_score = word_length_score + sentence_length_score
        self.metadata["readability_score"] = round(readability_score, 2)

        # Para refer√™ncias nas sugest√µes de melhoria
        self.avg_word_length = avg_word_length
        self.words_per_sentence = words_per_sentence

        return self.metadata["readability_score"]

    def analyze_article(self):
        """
        Analisa o artigo e retorna m√©tricas.

        Returns:
            dict: Metadados e pontua√ß√µes do artigo.
        """
        if not self.article:
            return {"error": "Nenhum artigo gerado ainda."}

        self.count_words()
        seo_score = self.calculate_seo_score()
        readability_score = self.calculate_readability_score()

        # An√°lise de densidade de palavras-chave
        keyword_density = {}
        text_lower = self.article.lower()
        for keyword in self.metadata["keywords"]:
            keyword_lower = keyword.lower()
            count = text_lower.count(keyword_lower)
            density = count / self.metadata["word_count"] * 100
            keyword_density[keyword] = {
                "count": count,
                "density": round(density, 2)
            }

        # Prepara sugest√µes de melhoria
        suggestions = []
        if seo_score < 70:
            if len(re.findall(r'##\s+', self.article)) < 4:
                suggestions.append("Adicione mais se√ß√µes com subt√≠tulos H2 para melhorar a estrutura do artigo.")

            low_density_keywords = [k for k, v in keyword_density.items() if v["density"] < 0.5]
            if low_density_keywords:
                suggestions.append(f"Aumente a frequ√™ncia das seguintes palavras-chave: {', '.join(low_density_keywords)}")

            high_density_keywords = [k for k, v in keyword_density.items() if v["density"] > 2.0]
            if high_density_keywords:
                suggestions.append(f"Reduza a frequ√™ncia das seguintes palavras-chave (poss√≠vel keyword stuffing): {', '.join(high_density_keywords)}")

        if readability_score < 70:
            if self.avg_word_length > 6:
                suggestions.append("Use palavras mais simples e curtas para melhorar a legibilidade.")
            if self.words_per_sentence > 20:
                suggestions.append("Reduza o comprimento das frases para melhorar a legibilidade.")

        return {
            "title": self.metadata["title"],
            "word_count": self.metadata["word_count"],
            "seo_score": self.metadata["seo_score"],
            "readability_score": self.metadata["readability_score"],
            "keyword_density": keyword_density,
            "improvement_suggestions": suggestions
        }

    def save_article(self, format="markdown"):
        """
        Salva o artigo no formato especificado.

        Args:
            format (str): Formato de sa√≠da ('markdown', 'html', 'text')

        Returns:
            str: Caminho do arquivo salvo.
        """
        if not self.article:
            return {"error": "Nenhum artigo gerado ainda."}

        filename = re.sub(r'[^\w\s]', '', self.metadata["title"])
        filename = re.sub(r'\s+', '_', filename.lower())

        if format == "markdown":
            filename = f"{filename}.md"
            with open(filename, "w", encoding="utf-8") as f:
                f.write(self.article)

        elif format == "html":
            filename = f"{filename}.html"

            # Convers√£o b√°sica de Markdown para HTML
            html = self.article
            html = re.sub(r'# (.*?)\n', r'<h1>\1</h1>\n', html)
            html = re.sub(r'## (.*?)\n', r'<h2>\1</h2>\n', html)
            html = re.sub(r'### (.*?)\n', r'<h3>\1</h3>\n', html)
            html = re.sub(r'\n\n(.*?)\n\n', r'<p>\1</p>\n', html)

            with open(filename, "w", encoding="utf-8") as f:
                f.write(f"""<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>{self.metadata["title"]}</title>
    <style>
        body {{ font-family: Arial, sans-serif; line-height: 1.6; max-width: 800px; margin: 0 auto; padding: 20px; }}
        h1 {{ color: #333; }}
        h2 {{ color: #444; margin-top: 30px; }}
        h3 {{ color: #555; }}
        p {{ margin-bottom: 20px; }}
    </style>
</head>
<body>
{html}
</body>
</html>""")

        elif format == "text":
            filename = f"{filename}.txt"
            # Remove marcadores de Markdown
            text = re.sub(r'#+ ', '', self.article)
            with open(filename, "w", encoding="utf-8") as f:
                f.write(text)

        # Para uso no Google Colab, permitir download do arquivo
        if IN_COLAB:
            try:
                from google.colab import files
                files.download(filename)
                return {"message": f"Arquivo '{filename}' criado e dispon√≠vel para download."}
            except Exception as e:
                return {"message": f"Arquivo '{filename}' criado, mas ocorreu um erro ao tentar o download: {str(e)}"}
        else:
            return {"message": f"Arquivo '{filename}' criado com sucesso."}

# Adiciona c√≥digo para configurar as chaves API no Colab (adicione no in√≠cio do notebook)
def setup_api_keys():
    """Configura as chaves API da OpenAI e Serper no Google Colab usando userdata."""
    if not IN_COLAB:
        print("Esta fun√ß√£o s√≥ funciona no ambiente Google Colab.")
        return

    print("\n===== üîë CONFIGURA√á√ÉO DAS CHAVES API =====\n")

    # Configura√ß√£o da chave OpenAI
    print("=== Configura√ß√£o da chave OpenAI ===")
    print("Esta fun√ß√£o ir√° configurar sua chave API da OpenAI de forma segura no Google Colab.")
    print("Sua chave ser√° armazenada nas vari√°veis secretas (Secrets) e n√£o ficar√° vis√≠vel no notebook.")

    # Verifica se j√° existe uma chave configurada
    try:
        existing_key = userdata.get('OPENAI_API_KEY')
        if existing_key:
            print("‚úÖ J√° existe uma chave API OpenAI configurada.")
            replace = input("Deseja substituir a chave existente? (s/n): ").lower()
            if replace != 's':
                print("Mantendo a chave existente.")
            else:
                setup_openai_key()
        else:
            setup_openai_key()
    except:
        setup_openai_key()

    # Configura√ß√£o da chave Serper
    print("\n=== Configura√ß√£o da chave Serper para busca na web ===")
    print("Esta fun√ß√£o ir√° configurar sua chave API Serper de forma segura no Google Colab.")
    print("Sua chave ser√° armazenada nas vari√°veis secretas (Secrets) e n√£o ficar√° vis√≠vel no notebook.")

    use_serper = input("Deseja configurar uma chave API Serper para busca na web? (s/n): ").lower()
    if use_serper == 's':
        # Verifica se j√° existe uma chave configurada
        try:
            existing_key = userdata.get('SERPER_API_KEY')
            if existing_key:
                print("‚úÖ J√° existe uma chave API Serper configurada.")
                replace = input("Deseja substituir a chave existente? (s/n): ").lower()
                if replace != 's':
                    print("Mantendo a chave existente.")
                else:
                    setup_serper_key()
            else:
                setup_serper_key()
        except:
            setup_serper_key()

    print("\nConfigura√ß√µes conclu√≠das.")
    print("Agora voc√™ pode executar o gerador de artigos de blog com as chaves armazenadas de forma segura.")

def setup_openai_key():
    """Configura a chave API da OpenAI."""
    new_key = input("\nDigite sua chave API da OpenAI (come√ßando com 'sk-'): ")

    if not new_key.startswith('sk-'):
        print("‚ö†Ô∏è Aviso: A chave n√£o come√ßa com 'sk-', o que √© o padr√£o para chaves OpenAI.")
        confirm = input("Tem certeza de que esta √© uma chave v√°lida? (s/n): ").lower()
        if confirm != 's':
            print("Opera√ß√£o cancelada.")
            return

    print("\nPara salvar a chave no Google Colab:")
    print("1. No menu lateral, clique em 'üîë' (Secrets)")
    print("2. Adicione uma nova chave secreta com:")
    print("   - Nome: OPENAI_API_KEY")
    print(f"   - Valor: {new_key}")
    print("3. Clique em 'Adicionar'")

    # Testa a chave (opcional)
    test = input("\nDeseja testar a chave agora? (s/n): ").lower()
    if test == 's':
        try:
            client = OpenAI(api_key=new_key)
            response = client.chat.completions.create(
                model="gpt-3.5-turbo",
                messages=[{"role": "user", "content": "Responda apenas com 'OK' se voc√™ pode me ver."}],
                max_tokens=10
            )
            result = response.choices[0].message.content
            if "ok" in result.lower():
                print("‚úÖ Teste bem-sucedido! A chave API est√° funcionando.")
            else:
                print(f"‚ö†Ô∏è A API respondeu com: {result}")
        except Exception as e:
            print(f"‚ùå Erro ao testar a chave: {str(e)}")

def setup_serper_key():
    """Configura a chave API da Serper."""
    new_key = input("\nDigite sua chave API da Serper: ")

    print("\nPara salvar a chave no Google Colab:")
    print("1. No menu lateral, clique em 'üîë' (Secrets)")
    print("2. Adicione uma nova chave secreta com:")
    print("   - Nome: SERPER_API_KEY")
    print(f"   - Valor: {new_key}")
    print("3. Clique em 'Adicionar'")

    # Testa a chave (opcional)
    test = input("\nDeseja testar a chave agora? (s/n): ").lower()
    if test == 's':
        try:
            headers = {
                "X-API-KEY": new_key,
                "Content-Type": "application/json"
            }
            payload = {
                "q": "teste serper api",
                "num": 1
            }
            response = requests.post(
                "https://google.serper.dev/search",
                headers=headers,
                json=payload
            )

            if response.status_code == 200:
                print("‚úÖ Teste bem-sucedido! A chave API Serper est√° funcionando.")
            else:
                print(f"‚ùå Erro: {response.status_code}")
                print(response.text)
        except Exception as e:
            print(f"‚ùå Erro ao testar a chave: {str(e)}")

# Interface principal para uso no Google Colab
def run_blog_article_generator():
    """Interface principal para o gerador de artigos de blog."""
    print("\n===== üìù GERADOR DE ARTIGOS DE BLOG OTIMIZADOS PARA SEO =====\n")

    # Obt√©m a chave API da OpenAI
    openai_api_key = None
    if IN_COLAB:
        try:
            openai_api_key = userdata.get('OPENAI_API_KEY')
            print("‚úÖ Chave API OpenAI obtida com sucesso do armazenamento seguro do Colab.")
        except Exception as e:
            print(f"‚ö†Ô∏è N√£o foi poss√≠vel obter a chave API do armazenamento seguro: {str(e)}")
            print("\nPara configurar uma chave secreta no Google Colab:")
            print("1. No menu lateral, clique em 'üîë' (Secrets)")
            print("2. Adicione uma nova chave secreta com nome 'OPENAI_API_KEY' e seu valor")
            openai_api_key = input("\nDigite sua chave de API OpenAI: ")
    else:
        openai_api_key = input("Digite sua chave de API OpenAI: ")

    # Verifica se deseja usar a busca na internet
    use_internet_search = input("\nDeseja usar a busca na internet para enriquecer o conte√∫do? (s/n): ").lower() == 's'

    serper_api_key = None
    if use_internet_search:
        if IN_COLAB:
            try:
                serper_api_key = userdata.get('SERPER_API_KEY')
                print("‚úÖ Chave API Serper obtida com sucesso do armazenamento seguro do Colab.")
            except Exception as e:
                print(f"‚ö†Ô∏è N√£o foi poss√≠vel obter a chave API Serper do armazenamento seguro: {str(e)}")
                print("\nPara configurar uma chave secreta no Google Colab:")
                print("1. No menu lateral, clique em 'üîë' (Secrets)")
                print("2. Adicione uma nova chave secreta com nome 'SERPER_API_KEY' e seu valor")
                serper_api_key = input("\nDigite sua chave de API Serper: ")
        else:
            serper_api_key = input("Digite sua chave de API Serper: ")

    # Seleciona o modelo
    print("\nSelecione o modelo da OpenAI:")
    print("\nReasoning models:")
    print("1. o3-mini - Fast, flexible, intelligent reasoning model")
    print("2. o1 - High-intelligence reasoning model")
    print("3. o1-mini - A faster, more affordable reasoning model than o1")
    print("4. o1-pro - A version of o1 with more compute for better responses")

    print("\nFlagship chat models:")
    print("5. GPT-4.5 Preview - Largest and most capable GPT model")
    print("6. GPT-4o - Fast, intelligent, flexible GPT model")
    print("7. ChatGPT-4o - GPT-4o model used in ChatGPT")

    print("\nCost-optimized models:")
    print("8. GPT-4o mini - Fast, affordable small model for focused tasks")

    print("\nOlder GPT models:")
    print("9. GPT-4 Turbo - An older high-intelligence GPT model")
    print("10. GPT-4 - An older high-intelligence GPT model")
    print("11. GPT-3.5 Turbo - Legacy GPT model for cheaper chat and non-chat tasks")

    model_choice = input("\nEscolha o n√∫mero correspondente (padr√£o: 11): ") or "11"

    models = {
        "1": "o3-mini",
        "2": "o1",
        "3": "o1-mini",
        "4": "o1-pro",
        "5": "gpt-4.5-preview",
        "6": "gpt-4o",
        "7": "gpt-4o",  # ChatGPT-4o usa o mesmo modelo que GPT-4o
        "8": "gpt-4o-mini",
        "9": "gpt-4-turbo",
        "10": "gpt-4",
        "11": "gpt-3.5-turbo"
    }

    selected_model = models.get(model_choice, "gpt-3.5-turbo")
    print(f"Modelo selecionado: {selected_model}")

    # Inicializa o gerador
    generator = BlogArticleGenerator(
        openai_api_key=openai_api_key,
        serper_api_key=serper_api_key,
        model=selected_model
    )

    if use_internet_search:
        generator.enable_internet_search(serper_api_key)

    # Solicita informa√ß√µes b√°sicas
    topic = input("\nQual √© o t√≥pico principal do artigo? ")

    print("\nInsira as palavras-chave para SEO (separadas por v√≠rgula): ")
    keywords_input = input()
    keywords = [k.strip() for k in keywords_input.split(",")]

    tone_options = ["informativo", "persuasivo", "conversacional", "t√©cnico", "inspirador"]
    print("\nSelecione o tom do artigo:")
    for i, tone in enumerate(tone_options):
        print(f"{i+1}. {tone}")

    tone_idx = int(input("Escolha o n√∫mero correspondente: ")) - 1
    tone = tone_options[tone_idx]

    # Cria o esbo√ßo
    print("\nCriando esbo√ßo do artigo...")

    # Tenta at√© 3 vezes com diferentes modelos se falhar
    attempts = 0
    outline = None
    available_models = ["gpt-3.5-turbo", "gpt-4o-mini", "gpt-4o"]

    while attempts < 3 and outline is None:
        try:
            outline = generator.create_outline(topic, keywords, tone, use_search=use_internet_search)
            if outline:
                break
        except Exception as e:
            print(f"Tentativa {attempts+1} falhou: {str(e)}")

        attempts += 1
        if attempts < 3:
            # Tenta com um modelo diferente
            fallback_model = available_models[attempts % len(available_models)]
            print(f"Tentando novamente com o modelo {fallback_model}...")
            generator.model = fallback_model

    if not outline:
        print("‚ùå Erro ao criar o esbo√ßo ap√≥s v√°rias tentativas. Verifique sua chave de API e tente novamente.")
        return

    # Mostra o esbo√ßo
    print("\n===== ESBO√áO DO ARTIGO =====")
    print(f"üìå T√≠tulo: {outline['title']}")
    print(f"üìù Meta Descri√ß√£o: {outline.get('meta_description', 'N√£o dispon√≠vel')}")
    print("\nüìë Se√ß√µes:")
    for i, section in enumerate(outline['sections']):
        print(f"  {i+1}. {section['heading']}")
        for point in section['points']:
            print(f"     ‚Ä¢ {point}")

    # Pergunta se deseja prosseguir
    proceed = input("\nDeseja gerar o artigo completo com base neste esbo√ßo? (s/n): ")
    if proceed.lower() != 's':
        print("Opera√ß√£o cancelada.")
        return

    # Gera o artigo
    article = generator.generate_full_article(outline, use_search=use_internet_search)

    # Mostra estat√≠sticas
    analysis = generator.analyze_article()

    print("\n===== AN√ÅLISE DO ARTIGO =====")
    print(f"üìä Contagem de palavras: {analysis['word_count']} (m√≠nimo: {generator.min_word_count})")
    print(f"üîç Pontua√ß√£o SEO: {analysis['seo_score']}/100")
    print(f"üìñ Pontua√ß√£o de legibilidade: {analysis['readability_score']}/100")

    print("\nüìà Densidade de palavras-chave:")
    for keyword, data in analysis['keyword_density'].items():
        status = "‚úÖ" if 0.5 <= data['density'] <= 2.0 else "‚ö†Ô∏è"
        print(f"  {status} '{keyword}': {data['count']} ocorr√™ncias ({data['density']}%)")

    if analysis['improvement_suggestions']:
        print("\nüõ†Ô∏è Sugest√µes de melhoria:")
        for suggestion in analysis['improvement_suggestions']:
            print(f"  ‚Ä¢ {suggestion}")

    # Exibe uma pr√©via do artigo
    print("\n===== PR√âVIA DO ARTIGO =====")
    preview_lines = article.split("\n")[:20]
    preview = "\n".join(preview_lines)
    print(f"{preview}\n...\n")

    # Op√ß√µes de salvar
    print("Deseja salvar o artigo? Escolha o formato:")
    print("1. Markdown (.md)")
    print("2. HTML (.html)")
    print("3. Texto (.txt)")
    print("4. Mostrar artigo completo na tela")
    print("5. N√£o salvar")

    save_option = int(input("Escolha o n√∫mero correspondente: "))

    if save_option == 1:
        result = generator.save_article("markdown")
        print(result["message"])
    elif save_option == 2:
        result = generator.save_article("html")
        print(result["message"])
    elif save_option == 3:
        result = generator.save_article("text")
        print(result["message"])
    elif save_option == 4:
        display(Markdown(article))
    else:
        print("Artigo n√£o salvo.")

    print("\n‚úÖ Opera√ß√£o conclu√≠da!")

# Para uso direto com o gerador de artigos
if __name__ == "__main__":
    if IN_COLAB:
        print("Detectado ambiente Google Colab.")
        print("Para configurar suas chaves API de forma segura, execute a fun√ß√£o setup_api_keys() primeiro.")

    run_blog_article_generator()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Detectado ambiente Google Colab.
Para configurar suas chaves API de forma segura, execute a fun√ß√£o setup_api_keys() primeiro.

===== üìù GERADOR DE ARTIGOS DE BLOG OTIMIZADOS PARA SEO =====

‚úÖ Chave API OpenAI obtida com sucesso do armazenamento seguro do Colab.

Deseja usar a busca na internet para enriquecer o conte√∫do? (s/n): s
‚úÖ Chave API Serper obtida com sucesso do armazenamento seguro do Colab.

Selecione o modelo da OpenAI:

Reasoning models:
1. o3-mini - Fast, flexible, intelligent reasoning model
2. o1 - High-intelligence reasoning model
3. o1-mini - A faster, more affordable reasoning model than o1
4. o1-pro - A version of o1 with more compute for better responses

Flagship chat models:
5. GPT-4.5 Preview - Largest and most capable GPT model
6. GPT-4o - Fast, intelligent, flexible GPT model
7. ChatGPT-4o - GPT-4o model used in ChatGPT

Cost-optimized models:
8. GPT-4o mini - Fast, affordable small model for focused tasks

Older GPT models:
9. GPT-4 Turbo - An older h

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 9/9 [08:22<00:00, 55.82s/it]



===== AN√ÅLISE DO ARTIGO =====
üìä Contagem de palavras: 4786 (m√≠nimo: 2000)
üîç Pontua√ß√£o SEO: 79.67/100
üìñ Pontua√ß√£o de legibilidade: 77.53/100

üìà Densidade de palavras-chave:
  ‚úÖ 'openai': 27 ocorr√™ncias (0.56%)
  ‚úÖ 'meta': 28 ocorr√™ncias (0.59%)
  ‚úÖ 'google': 24 ocorr√™ncias (0.5%)
  ‚úÖ 'hugging face': 34 ocorr√™ncias (0.71%)
  ‚ö†Ô∏è 'elon musk': 15 ocorr√™ncias (0.31%)

===== PR√âVIA DO ARTIGO =====
# Open Source LLM: O Futuro Aberto da Intelig√™ncia Artificial

## Introdu√ß√£o

## Introdu√ß√£o

Nos √∫ltimos anos, a intelig√™ncia artificial (IA) deu um salto impressionante gra√ßas ao surgimento dos Modelos de Linguagem de Grande Porte, conhecidos como LLM (do ingl√™s, Large Language Models). Esses modelos s√£o sistemas de IA treinados em imensas quantidades de texto para gerar respostas coerentes, realistas e contextualmente relevantes. Exemplos famosos incluem o GPT-4 da OpenAI, LaMDA do Google e LLaMA da Meta, que t√™m transformado significativamente a for

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Arquivo 'open_source_llm_o_futuro_aberto_da_intelig√™ncia_artificial.html' criado e dispon√≠vel para download.

‚úÖ Opera√ß√£o conclu√≠da!
