<a href="https://colab.research.google.com/github/RenanGroh/furia-kyf-solution/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Inicio do projeto
- codigos iniciais

In [38]:
!pip install google-generativeai python-dotenv beautifulsoup4 requests pandas -q

In [39]:
import os
from dotenv import load_dotenv

# Opcional: Verificar o diretório atual
print(f"Diretório atual: {os.getcwd()}") # /content

# ==> Precisa de um .env com gemini key no dir /content <===

# carregar o .env
# load_dotenv() procura no diretório atual ou em diretórios pais
# e retorna True se encontrar e carregar, False caso contrário.
dotenv_loaded = load_dotenv()

# Definir variáveis fora do if para garantir que existam (com valor None se falhar)
gemini_api_key = None
pandascore_api_key = None # talvez use
furia_team_id = None # talvez use

if dotenv_loaded:
    print(".env carregado com sucesso!")

    # ====> CARREGA O ID DA GEMINI 1.5 <====
    gemini_api_key = os.getenv('GEMINI_API_KEY')
    print(f"Chave Gemini carregada: {'Sim' if gemini_api_key else 'Não -> Verifique o nome GEMINI_API_KEY no .env'}")

    # ====> CARREGA A CHAVE PANDASCORE <====
    pandascore_api_key = os.getenv('PANDASCORE_API_KEY')
    print(f"Chave PandaScore carregada: {'Sim' if pandascore_api_key else 'Não -> Verifique o nome PANDASCORE_API_KEY no .env'}")

    # ====> CARREGA O ID DA FURIA <====
    furia_team_id_str = os.getenv('FURIA_CS2_TEAM_ID')
    if furia_team_id_str:
        furia_team_id = int(furia_team_id_str) # Converte para inteiro se existir
        print(f"ID Time FURIA carregado: {furia_team_id}")
    else:
        print("ID Time FURIA (FURIA_CS2_TEAM_ID) não encontrado no .env")


else:
    print("Arquivo .env não foi encontrado ou não pôde ser carregado.")

Diretório atual: /content
.env carregado com sucesso!
Chave Gemini carregada: Sim
Chave PandaScore carregada: Sim
ID Time FURIA carregado: 124530


In [40]:
# --- Instalação OCR (Reconhecimento Ótico de Caracteres) ---
#(Executar uma vez por sessão)
print("Instalando Tesseract OCR...")
!sudo apt-get update -qq
!sudo apt-get install tesseract-ocr tesseract-ocr-por -qq # Instala Tesseract e pacote de linguagem Português
!pip install pytesseract Pillow -q # Instala wrapper Python e Pillow para manipulação de imagem
print("Tesseract e pytesseract instalados.")

# Importar após instalação
import pytesseract
from PIL import Image
import re # Para limpeza de texto

Instalando Tesseract OCR...
W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)
Tesseract e pytesseract instalados.


# Challenge #2: Know Your Fan (FURIA)

Este notebook demonstra uma solução para coletar e analisar informações sobre um fã de e-sports, focando na FURIA, conforme proposto no desafio. Devido à sensibilidade de dados PII e limitações de API, várias etapas serão simuladas.

## Etapa 1: Validação de Links de Perfis E-sports com IA

Nesta seção, vamos implementar a funcionalidade para:
1. Coletar uma URL de perfil de e-sports (ex: Liquipedia).
2. Buscar o conteúdo HTML dessa página (Web Scraping).
3. Extrair texto relevante da página.
4. Enviar o texto extraído para a API do Google Gemini para análise.
5. Verificar se o perfil é relevante para um fã da FURIA / CS.

In [42]:
# --- Bloco de Configuração ---

# 1. Importar bibliotecas
import os
import requests
from bs4 import BeautifulSoup
import time
from dotenv import load_dotenv
import google.generativeai as genai
print("Bibliotecas importadas.")

# 2. Carregar variáveis do .env (API Keys)
# Certifique-se de ter feito upload do seu arquivo .env para esta sessão!
dotenv_loaded = load_dotenv()
gemini_api_key = None
if dotenv_loaded:
    print(".env encontrado e carregado.")
    gemini_api_key = os.getenv('GEMINI_API_KEY')
else:
    print("AVISO: Arquivo .env não encontrado. Faça o upload ou use Colab Secrets.")

# 3. Configurar a API Gemini (só se a chave foi carregada)
gemini_model = None # Define como None inicialmente
if gemini_api_key:
    try:
        genai.configure(api_key=gemini_api_key)
        gemini_model = genai.GenerativeModel('gemini-1.5-flash-latest') # Ou o modelo que preferir
        print("Modelo Gemini configurado com sucesso.")
    except Exception as e:
        print(f"Erro ao configurar Gemini: {e}")
        gemini_api_key = None # Anula a chave se a configuração falhar
else:
    print("Chave API Gemini não encontrada. Análise por IA desativada.")

print("--- Configuração Concluída ---")

Bibliotecas importadas.
.env encontrado e carregado.
Modelo Gemini configurado com sucesso.
--- Configuração Concluída ---


In [43]:
# --- Coleta da URL ---
profile_url = "" # Garante que a variável existe
try:
  profile_url = input("➡️ Cole a URL completa do perfil de e-sports (Ex: uma página da Liquipedia): ")
  if not profile_url.startswith('http'):
      print("⚠️ Aviso: URL parece inválida. Certifique-se de incluir http:// ou https://")
  print(f"\nURL que será analisada: {profile_url}")
except Exception as e:
    print(f"Ocorreu um erro ao ler a URL: {e}")

➡️ Cole a URL completa do perfil de e-sports (Ex: uma página da Liquipedia): https://liquipedia.net/counterstrike/FURIA

URL que será analisada: https://liquipedia.net/counterstrike/FURIA


In [15]:
# --- Web Scraping ---

extracted_text = "" # Variável para guardar o texto extraído
page_title = ""
scrape_success = False # Flag para saber se deu certo

if profile_url: # Só tenta se uma URL foi fornecida
    headers = { # Simula um navegador
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    try:
        print(f"\n⏳ Buscando conteúdo de: {profile_url}")
        time.sleep(1) # Pausa de 1 segundo
        response = requests.get(profile_url, headers=headers, timeout=15) # Timeout aumentado
        response.raise_for_status() # Verifica erros HTTP (4xx, 5xx)

        print("✅ Página buscada com sucesso!")
        soup = BeautifulSoup(response.content, 'html.parser')

        # Tenta pegar o título
        page_title = soup.title.string if soup.title else "Título não encontrado"
        print(f"Título da Página: {page_title}")

        # --- !!! PONTO CRÍTICO: EXTRAÇÃO DE CONTEÚDO !!! ---
        # Esta parte DEPENDE MUITO do site (Liquipedia, HLTV, etc.)
        # Você PRECISA inspecionar o HTML do site alvo com F12 no navegador
        # para achar os seletores corretos (IDs, classes das divs principais)

        # Exemplo para LIQUIPEDIA:
        content_div = soup.find('div', id='bodyContent') # Tenta achar <div id="bodyContent">
        if not content_div:
             content_div = soup.find('div', class_='mw-parser-output') # Outra possibilidade comum em wikis

        # Fallback genérico (pegar o corpo todo)
        if not content_div:
             content_div = soup.find('body')
        # --- FIM DO PONTO CRÍTICO ---

        if content_div:
            # Extrai texto, une as linhas e remove espaços múltiplos
            extracted_text = ' '.join(content_div.get_text(separator=' ', strip=True).split())
            scrape_success = True # Marca que a extração (de algo) deu certo
            print(f"\nTexto extraído (primeiros 1500 chars): \n'{extracted_text[:1500]}...'")
        else:
            extracted_text = "❌ Erro: Não foi possível encontrar um container de conteúdo principal na página."
            print(extracted_text)

    except requests.exceptions.Timeout:
        print(f"❌ Erro: Timeout ao tentar conectar a {profile_url}")
        extracted_text = f"Erro: Timeout ao buscar a URL."
    except requests.exceptions.RequestException as e:
        print(f"❌ Erro ao buscar a URL: {e}")
        extracted_text = f"Erro ao buscar a URL: {e}"
    except Exception as e:
        print(f"❌ Erro inesperado durante o scraping: {e}")
        extracted_text = f"Erro inesperado durante o scraping: {e}"

    # Limita o tamanho para enviar à IA
    max_length = 5000
    if len(extracted_text) > max_length:
        print(f"\n✂️ Aviso: Texto extraído truncado em {max_length} caracteres.")
        extracted_text = extracted_text[:max_length]
else:
    print("Nenhuma URL fornecida para fazer scraping.")

print("\n--- Scraping Concluído ---")


⏳ Buscando conteúdo de: https://liquipedia.net/counterstrike/FURIA
✅ Página buscada com sucesso!
Título da Página: FURIA - Liquipedia Counter-Strike Wiki

Texto extraído (primeiros 1500 chars): 
'From Liquipedia Counter-Strike Wiki FURIA FURIA Academy FURIA Female Overview Results Matches [ e ][ h ] FURIA Team Information Location: Brazil Region: South America Founders: Jaime Pádua André Akkari Cristian Guedes Nicholas Nogueira CEO: Jaime Pádua André Akkari Manager: guerri Alexia Midori In-Game Leader: FalleN Coaches: sidde Hepa KrizzeN Approx. Total Winnings: $2,044,173 Games: Global Offensive Counter-Strike 2 Links History Created: : 2017-08-10 : 2017-08-10 Upcoming Tournaments PGL Astana 2025 2025-05-10 00:00:00 UTC May 10 - 18 Intel Extreme Masters Dallas 2025 2025-05-19 00:00:00 UTC May 19 - 25 BLAST.tv Austin Major 2025 2025-06-02 00:00:00 UTC Jun 02 - 22 FURIA (formerly stylized as FURIA Esports ) is a Brazilian esports organization that was founded in August 2017. Contents 1 T

In [44]:
# --- Análise com IA (Gemini) ---

analysis_result = "Análise não realizada." # Mensagem padrão

# Verifica se o scraping teve algum sucesso E se a API Gemini está pronta
if scrape_success and gemini_model:
    print("\n🤖 Enviando texto para análise do Gemini...")
    try:
        prompt = f"""
        **Tarefa:** Analisar a relevância do conteúdo web extraído abaixo para um fã brasileiro de Counter-Strike (CS2/CS:GO), com foco especial na equipe FURIA.

        **Título da Página:** "{page_title}"

        **Texto Extraído:**
        ---
        {extracted_text}
        ---

        **Por favor, responda:**
        1.  **Relevância Geral (E-sports/CS):** O conteúdo é sobre e-sports? Especificamente sobre Counter-Strike? (Sim/Não/Parcialmente, Justifique brevemente)
        2.  **Relevância (FURIA):** Há menções diretas à equipe FURIA ou a jogadores notórios associados a ela? (Sim/Não/Possivelmente, Liste exemplos se Sim)
        3.  **Conclusão para Fã da FURIA:** Qual a relevância deste perfil/página especificamente para um torcedor da FURIA? (Ex: Alta, Média, Baixa, Nenhuma. Explique o porquê)
        4.  **Informações atuais:** Qual é a line-up atual do time, quem são os novos integrantes?

        **Observação:** Se o texto parecer incompleto ou indicar um erro de scraping, leve isso em consideração na sua análise.
        """

        # Fazer a chamada para a API
        response_gemini = gemini_model.generate_content(prompt)

        print("\n--- ✅ Análise do Gemini Recebida ---")
        # Tratamento da resposta (lidando com possíveis bloqueios)
        try:
             analysis_result = response_gemini.text
             print(analysis_result)
        except ValueError:
             # Se não houver 'text', verificar 'prompt_feedback'
             if response_gemini.prompt_feedback.block_reason:
                   analysis_result = f"❌ Análise bloqueada pelo filtro de segurança: {response_gemini.prompt_feedback.block_reason}"
                   print(analysis_result)
             else:
                   analysis_result = "❌ Erro: Gemini retornou uma resposta inesperada (sem texto ou bloqueio claro)."
                   print(analysis_result)
        except Exception as e_resp:
            analysis_result = f"❌ Erro ao processar resposta do Gemini: {e_resp}"
            print(analysis_result)


    except Exception as e:
        print(f"\n❌ Erro ao chamar a API Gemini: {e}")
        analysis_result = f"Erro ao chamar a API Gemini: {e}"
elif not scrape_success:
    analysis_result = "Análise não realizada devido a erro no scraping ou falta de conteúdo."
    print(f"\n{analysis_result}")
elif not gemini_model:
    analysis_result = "Análise não realizada: API Gemini não configurada."
    print(f"\n{analysis_result}")

print("\n--- Validação por IA Concluída ---")


🤖 Enviando texto para análise do Gemini...

--- ✅ Análise do Gemini Recebida ---
1. **Relevância Geral (E-sports/CS):** Sim. O conteúdo é explicitamente sobre a organização de e-sports FURIA e sua participação em Counter-Strike: Global Offensive (CS:GO) e, mais recentemente, CS2.  A página é uma entrada de uma wiki dedicada a Counter-Strike, fornecendo um histórico detalhado da equipe.

2. **Relevância (FURIA):** Sim.  O texto inteiro é sobre a FURIA.  Menciona diversos jogadores que fizeram parte da equipe ao longo dos anos, incluindo os atuais, como KSCERATO, yuurih, FalleN, e molodoy.  Além disso, lista informações sobre a organização, incluindo fundadores, gerência, e histórico de resultados.

3. **Conclusão para Fã da FURIA:** Alta. Este perfil da Liquipedia é uma fonte inestimável de informação para um fã da FURIA.  Ele fornece um histórico completo da equipe, desde sua fundação, incluindo mudanças na line-up, contratações e dispensas de jogadores, além da data de entrada e saíd

## Etapa 2: Coleta de Dados Básicos

Nesta seção, coletamos informações básicas do fã.
**Importante:** Dados Pessoais Identificáveis (PII) como nome completo, CPF e endereço residencial são **extremamente sensíveis** e não devem ser coletados ou armazenados em projetos como este por razões de privacidade e segurança (LGPD). **Portanto, esses dados serão representados por valores FICTÍCIOS apenas para fins de demonstração.**

Coletaremos interativamente alguns interesses não sensíveis.


In [45]:
# --- Coleta de Dados Básicos ---

print("--- Iniciando Coleta de Dados Básicos ---")

# Dicionário para armazenar os dados do fã
fan_data = {}

# ** DADOS PII FICTÍCIOS **
fan_data['nome_completo'] = "Alex Silva (Fictício)" # Nome Fictício
fan_data['cidade_estado'] = "São Paulo, SP (Fictício)" # Apenas Cidade/Estado
fan_data['cpf'] = "Omitido/Fictício (Não Coletado)" # Indicar que não é real/coletado

print(f"\nDados Pessoais (Fictícios):")
print(f"  Nome: {fan_data['nome_completo']}")
print(f"  Localização: {fan_data['cidade_estado']}")
print(f"  CPF: {fan_data['cpf']}")

print("\n--- Coleta de Interesses ---")

# Coleta de dados não sensíveis via input()
try:
  fan_data['jogo_favorito'] = input("➡️ Qual seu jogo de e-sport favorito? (Ex: CS2, LoL, Valorant): ")
  fan_data['jogador_furia_fav'] = input("➡️ Qual seu jogador favorito da FURIA (CS2)? (Ex: FalleN, KSCERATO): ")
  fan_data['assistiu_evento_ano'] = input("➡️ Assistiu a algum evento presencial de e-sports no último ano? (Sim/Não): ")
  fan_data['comprou_item_ano'] = input("➡️ Comprou algum item relacionado a e-sports (jogo, skin, camisa de time) no último ano? (Sim/Não): ")
  fan_data['tempo_acompanha_furia'] = input("➡️ Há quanto tempo você acompanha a FURIA? (Ex: 1 ano, desde 2020): ")
except Exception as e:
    print(f"Ocorreu um erro durante a coleta de interesses: {e}")

print("\n--- Coleta de Interesses Concluída ---")

--- Iniciando Coleta de Dados Básicos ---

Dados Pessoais (Fictícios):
  Nome: Alex Silva (Fictício)
  Localização: São Paulo, SP (Fictício)
  CPF: Omitido/Fictício (Não Coletado)

--- Coleta de Interesses ---
➡️ Qual seu jogo de e-sport favorito? (Ex: CS2, LoL, Valorant): c2
➡️ Qual seu jogador favorito da FURIA (CS2)? (Ex: FalleN, KSCERATO): fallen
➡️ Assistiu a algum evento presencial de e-sports no último ano? (Sim/Não): nao
➡️ Comprou algum item relacionado a e-sports (jogo, skin, camisa de time) no último ano? (Sim/Não): sim
➡️ Há quanto tempo você acompanha a FURIA? (Ex: 1 ano, desde 2020): 4anos

--- Coleta de Interesses Concluída ---


## Etapa 2.1: Verificação de Identidade (SIMULADA)

A verificação de identidade real envolveria o upload seguro de um documento (RG/CNH) e o uso de IA (OCR para ler dados, análise de imagem para segurança, possivelmente reconhecimento facial). Isso requer APIs especializadas e pagas (ex: AWS Rekognition, Sumsub, etc.) e lida com dados **extremamente sensíveis**.

**Para este desafio, apenas SIMULAREMOS o resultado desse processo.** Assumiremos que o usuário fez o upload e a IA validou com sucesso.

In [46]:
# --- Simulação de Verificação de ID com OCR ---

id_verified_status = False # Status final da verificação
extracted_ocr_text = ""
structured_data_from_ocr = {} # Dicionário para dados estruturados pela IA

# --- 1. Simular Upload e Ler Imagem com OCR ---
uploaded_file_path = 'doc_exemplo.jpeg' # <<< Coloque o nome EXATO do arquivo que você fez upload

print("\n--- Iniciando Simulação de Verificação de ID ---")
if os.path.exists(uploaded_file_path):
    print(f"  Arquivo '{uploaded_file_path}' encontrado (simulando upload).")
    try:
        print("  Tentando ler texto da imagem com Tesseract OCR (pode levar um momento)...")
        # Usa pytesseract para extrair texto em português ('por')
        extracted_ocr_text = pytesseract.image_to_string(Image.open(uploaded_file_path), lang='por')

        if extracted_ocr_text.strip(): # Verifica se algum texto foi extraído
             print("✅ OCR concluído. Texto extraído:")
             print("-"*25)
             print(extracted_ocr_text)
             print("-"*25)

             # Marca como "parcialmente verificado" baseado no OCR
             id_verified_status = True # Consideramos sucesso se OCR leu algo
        else:
             print("⚠️ Aviso: OCR não conseguiu extrair texto significativo da imagem.")
             extracted_ocr_text = "OCR não extraiu texto."


    except pytesseract.TesseractNotFoundError:
        print("❌ Erro: Tesseract OCR não está instalado ou não encontrado no PATH.")
        print("    Certifique-se de ter executado a célula de instalação do Tesseract.")
        extracted_ocr_text = "Erro na instalação do Tesseract."
    except Exception as e:
        print(f"❌ Erro ao processar imagem com OCR: {e}")
        extracted_ocr_text = f"Erro no OCR: {e}"

else:
  print(f"❌ Falha: Arquivo de exemplo '{uploaded_file_path}' não encontrado.")
  print("    Faça o upload da imagem de exemplo.")
  extracted_ocr_text = "Arquivo de exemplo não encontrado."


# --- 2. (Opcional) Usar Gemini para Estruturar Dados do OCR ---
if id_verified_status and gemini_model and extracted_ocr_text.strip() and extracted_ocr_text != "OCR não extraiu texto.":
     print("\n🤖 Tentando estruturar dados do OCR com Gemini...")
     try:
          prompt_structure = f"""
          Dado o seguinte texto extraído por OCR de uma imagem de documento de identidade (pode conter erros de leitura),
          tente extrair e estruturar as seguintes informações em formato JSON (use "N/A" se não encontrar):
          - nome_completo
          - numero_cpf (se houver)
          - numero_rg (se houver)
          - data_nascimento (formato DD/MM/AAAA se possível)
          - nome_mae (se houver)
          - nome_pai (se houver)

          **Texto OCR:**
          ---
          {extracted_ocr_text}
          ---

          **JSON Estruturado:**
          """
          response_structure = gemini_model.generate_content(prompt_structure)

          print("\n--- Estruturação IA (Tentativa) ---")
          try:
                structured_text = response_structure.text
                print(structured_text)
                # Tentar extrair o JSON da resposta da IA (pode precisar de limpeza/regex)
                # Esta parte é mais complexa e pode falhar
                try:
                     # Tenta encontrar algo que se pareça com um JSON
                     import json
                     json_match = re.search(r'\{.*\}', structured_text, re.DOTALL)
                     if json_match:
                          structured_data_from_ocr = json.loads(json_match.group())
                          print("\nJSON Extraído:")
                          print(structured_data_from_ocr)
                     else:
                          print("\nNão foi possível extrair JSON da resposta da IA.")
                          structured_data_from_ocr = {"erro": "Não foi possível extrair JSON."}
                except json.JSONDecodeError:
                     print("\nErro ao decodificar JSON da resposta da IA.")
                     structured_data_from_ocr = {"erro": "JSON inválido na resposta."}
                except Exception as json_e:
                     print(f"\nErro inesperado ao processar JSON: {json_e}")
                     structured_data_from_ocr = {"erro": "Erro ao processar JSON."}

          except ValueError: # Trata bloqueio de segurança
               if response_structure.prompt_feedback.block_reason:
                   structured_text = f"❌ Bloqueado: {response_structure.prompt_feedback.block_reason}"
                   print(structured_text)
               else:
                   structured_text = "❌ Erro: Resposta inesperada."
                   print(structured_text)
               structured_data_from_ocr = {"erro": structured_text}
          except Exception as e_resp:
                structured_data_from_ocr = {"erro": f"Erro processando resposta: {e_resp}"}
                print(f"❌ Erro ao processar resposta Gemini: {e_resp}")

     except Exception as e:
          print(f"\n❌ Erro ao chamar API Gemini para estruturação: {e}")
          structured_data_from_ocr = {"erro": f"Erro API Gemini: {e}"}

elif not gemini_model:
    print("\nAPI Gemini não configurada, pulando estruturação de dados.")
    structured_data_from_ocr = {"aviso": "IA não disponível para estruturação."}
elif not id_verified_status:
     structured_data_from_ocr = {"aviso": "OCR falhou, sem dados para estruturar."}
# Armazena os resultados
fan_data['id_verificado'] = id_verified_status # Se OCR leu algo
fan_data['id_ocr_text'] = extracted_ocr_text # O texto bruto lido
fan_data['id_structured_data'] = structured_data_from_ocr # Dados estruturados (tentativa)

print("\n--- Simulação Concluída ---")


--- Iniciando Simulação de Verificação de ID ---
  Arquivo 'doc_exemplo.jpeg' encontrado (simulando upload).
  Tentando ler texto da imagem com Tesseract OCR (pode levar um momento)...
✅ OCR concluído. Texto extraído:
-------------------------
REPÚBLICA FEDERATIVA DO BRASIL
GOVERNO FEDERAL

Estado do Distrito Federal
Secretaria de Segurança do Distrito Federal

CARTEIRA DE IDENTIDADE

Nome / Name.
Maria Joana Ribeiro

Nome Social / Social Name.

 

Registro Geral - CPF / Personal Number Sexo / Sex

088.794.450-73 F a

 

Data de Nascimento / Date of Birth. Nacionalidade / Nationality
01/01/1971 BRASILEIRA
Naturalidade / Place of Birth Data de Validade / Date of Expiry
Brasília 31/12/2024

 
   

“Assinatura do Titular / Cardholder's S)

-------------------------

🤖 Tentando estruturar dados do OCR com Gemini...

--- Estruturação IA (Tentativa) ---
```json
{
  "nome_completo": "Maria Joana Ribeiro",
  "numero_cpf": "088.794.450-73",
  "numero_rg": "N/A",
  "data_nascimento": "01/01/19

## Etapa 2.3: Vinculação de Redes Sociais (SIMULADA/LIMITADA)

A vinculação real exigiria autenticação OAuth com cada plataforma (Twitter/X, Instagram, Twitch, etc.). As APIs para leitura de dados de atividades, interações e páginas seguidas são muitas vezes restritas ou requerem aprovação especial e podem ter custos associados. Fazer web scraping direto pode violar Termos de Serviço.

**Portanto, SIMULAREMOS a obtenção de dados agregados** como times seguidos ou interações recentes. Poderíamos opcionalmente adicionar uma análise de IA sobre um texto de post fornecido pelo usuário.

In [59]:
# Célula da Etapa 3 - Vinculação Social (Revisada com Instagram)

import requests
from bs4 import BeautifulSoup
import time
import google.generativeai as genai
import os
import re # Importar regex se não estiver importado ainda
import json # Importar json se não estiver importado ainda

# --- FUNÇÕES AUXILIARES (Manter as mesmas: basic_scrape, analyze_text_with_gemini) ---
def basic_scrape(url):
    # ... (código da função basic_scrape exatamente como antes) ...
    if not url or not url.startswith('http'):
        return None, "URL inválida fornecida."
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    try:
        print(f"  -> Tentando scraping básico de: {url}")
        time.sleep(1)
        response = requests.get(url, headers=headers, timeout=10) # Timeout 10s
        response.raise_for_status()
        soup = BeautifulSoup(response.content, 'html.parser')
        bio_text = None
        meta_desc = soup.find('meta', attrs={'name': 'description'}) # Tentar Meta Desc.
        og_desc = soup.find('meta', property='og:description')  # Tentar OG Desc.

        if meta_desc and meta_desc.get('content'):
            bio_text = meta_desc['content']
        elif og_desc and og_desc.get('content'):
            bio_text = og_desc['content']
        else: # Plano B: pegar texto do body (geralmente muito ruído no insta)
            # body = soup.find('body')
            # if body:
            #     bio_text = ' '.join(body.get_text(separator=' ', strip=True).split())[:1000]
             pass # Desativar fallback para body no instagram, muito ineficaz


        print(f"  -> Scraping básico retornou algum texto de Meta Tag: {'Sim' if bio_text else 'Não'}")
        return bio_text, "Scraping de Meta Tags OK" if bio_text else "Não foi possível extrair Bio/Descrição das Meta Tags via scraping."

    except requests.exceptions.Timeout:
        return None, "Erro: Timeout no scraping."
    except requests.exceptions.RequestException as e:
        if e.response is not None and 400 <= e.response.status_code < 500:
             return None, f"Erro: Falha ao buscar ({e.response.status_code}) - Provavelmente requer login." # Mais específico p/ Instagram
        return None, f"Erro: Falha na requisição de scraping ({e})."
    except Exception as e:
        return None, f"Erro inesperado no scraping: {e}"


def analyze_text_with_gemini(text_to_analyze, platform):
     # ... (código da função analyze_text_with_gemini exatamente como antes) ...
    if not text_to_analyze or not gemini_model:
        return "Análise IA não realizada (sem texto ou modelo).", []

    print(f"  -> Analisando texto ({platform}) com Gemini...")
    prompt = f"""
    Analise o seguinte texto (bio, descrição ou posts de {platform})
    para identificar afinidades com e-sports, Counter-Strike (CS2/CS:GO) e a equipe FURIA.

    Texto Fornecido:
    ---
    {text_to_analyze}
    ---

    Responda concisamente:
    1.  O texto sugere interesse em e-sports/CS? (Sim/Não/Incerto)
    2.  Há menções diretas ou indiretas à FURIA ou seus jogadores? (Sim/Não/Incerto)
    3.  Liste até 5 palavras-chave ou termos relevantes para e-sports/CS/FURIA encontrados no texto. Se nada for relevante, retorne uma lista vazia.
    """
    try:
        response = gemini_model.generate_content(prompt)
        analysis = "Erro: Resposta inesperada da IA." # Default
        keywords = []
        # Tratamento Robusto da Resposta
        try:
            analysis = response.text # Tenta acessar o texto diretamente
            # Tentar extrair palavras-chave (regex simples)
            lines = analysis.splitlines()
            for line in lines:
                if line.strip().startswith('3.'): # Se encontrar a linha 3
                    potential_keys = re.findall(r'["\']?\b([A-Za-zÀ-ÖØ-öø-ÿ0-9 #@_]+)\b["\']?', line) # Regex melhorado
                    keywords.extend([k.strip() for k in potential_keys if k.strip().lower() not in ['sim', 'não', 'incerto', 'n/a'] and len(k.strip()) > 1])
                    keywords = list(set(keywords))[:5]
                    break
        except ValueError: # Provavelmente bloqueio de segurança
            if hasattr(response, 'prompt_feedback') and response.prompt_feedback.block_reason:
               analysis = f"❌ Análise bloqueada pelo filtro de segurança: {response.prompt_feedback.block_reason}"
            else:
               analysis = "❌ Erro: Gemini retornou uma resposta bloqueada ou inesperada."
        except Exception as e_inner: # Qualquer outro erro acessando .text
            analysis = f"❌ Erro ao acessar texto da resposta Gemini: {e_inner}"

        print("  -> Análise IA concluída.")
        return analysis, keywords

    except Exception as e:
        print(f"  -> Erro durante análise IA: {e}")
        return f"Erro na análise IA: {e}", []

# --- VINCULAÇÃO SOCIAL (AGORA COM INSTAGRAM) ---

print("\n" + "="*40)
print("      Etapa 3: Vinculação Social (Simulada/Aprimorada)")
print("="*40)

# -- 1. Twitter/X --
print("\n--- Twitter/X ---")
twitter_url = input("➡️ (Opcional) Cole a URL do seu perfil PÚBLICO no Twitter/X: ")
twitter_bio_scraped, scrape_msg_twitter = basic_scrape(twitter_url)
print(f"   Resultado Scraping: {scrape_msg_twitter}")
twitter_desc = input("➡️ Descreva brevemente seus interesses ou cole 1-2 tweets seus sobre e-sports/FURIA: ")
twitter_text_to_analyze = f"Bio/Scraped (Twitter): {twitter_bio_scraped if twitter_bio_scraped else 'N/A'}\n\nDescrição/Posts (Twitter): {twitter_desc}"
twitter_analysis, twitter_keywords = analyze_text_with_gemini(twitter_text_to_analyze, "Twitter")
simulated_twitter_follows = ["FURIA"]
if "Gaules" in twitter_keywords: simulated_twitter_follows.append("Gaules")
if "Valorant" in twitter_keywords: simulated_twitter_follows.append("Valorant Brasil") # Exemplo

fan_data['social_twitter_processed'] = {
    "profile_url_provided": twitter_url if twitter_url else "Não fornecida",
    "scraping_result": scrape_msg_twitter,
    "user_description": twitter_desc if twitter_desc else "Não fornecida",
    "ai_analysis": twitter_analysis,
    "derived_keywords": twitter_keywords,
    "simulated_followed_orgs": list(set(simulated_twitter_follows)),
    "link_status": "Partially Processed (IA + Simulation)"
}
print("\nAnálise e Dados Simulados para Twitter armazenados.")

# -- 2. Twitch --
print("\n--- Twitch ---")
twitch_url = input("➡️ (Opcional) Cole a URL do seu canal na Twitch: ")
twitch_bio_scraped, scrape_msg_twitch = basic_scrape(twitch_url)
print(f"   Resultado Scraping: {scrape_msg_twitch}")
# Para Twitch, talvez analisar a descrição raspada seja suficiente se houver
twitch_text_to_analyze = twitch_bio_scraped if twitch_bio_scraped else "" # Usa só o scraping
# Opcional: Pedir descrição separada também:
# twitch_desc = input("➡️ (Opcional) Descreva seus streams ou jogos favoritos na Twitch: ")
# twitch_text_to_analyze += f"\n\nDescrição Usuário: {twitch_desc}"
twitch_analysis, twitch_keywords = analyze_text_with_gemini(twitch_text_to_analyze, "Twitch")
simulated_twitch_follows = ["FURIA", "BLASTPremier"]
if "Gaules" in twitch_keywords or "Tribo" in twitch_keywords : simulated_twitch_follows.append("Gaules") # Exemplo
if any(k in ["Streamer", "CS Stream"] for k in twitch_keywords): simulated_twitch_follows.append("Outro Streamer CS")

fan_data['social_twitch_processed'] = {
    "profile_url_provided": twitch_url if twitch_url else "Não fornecida",
    "scraping_result": scrape_msg_twitch,
    # "user_description": twitch_desc if twitch_desc else "Não fornecida", # Se pedir
    "ai_analysis": twitch_analysis,
    "derived_keywords": twitch_keywords,
    "simulated_followed_channels": list(set(simulated_twitch_follows)),
     "link_status": "Partially Processed (Scraping Attempt + IA + Simulation)"
}
print("\nAnálise e Dados Simulados para Twitch armazenados.")


# -- 3. Instagram --
print("\n--- Instagram ---")
instagram_url = input("➡️ Cole a URL do perfil PÚBLICO no Instagram: ")
# Tentar scraping (provavelmente retornará pouco ou nada útil além de meta tags)
insta_bio_scraped, scrape_msg_insta = basic_scrape(instagram_url)
print(f"   Resultado Scraping: {scrape_msg_insta}")
# Pedir descrição/bio pois scraping é muito limitado
instagram_desc = input("➡️ Descreva a bio do Instagram ou tipos de posts que você faz/vê sobre e-sports/FURIA: ")

# A análise IA dependerá principalmente da descrição do usuário
insta_text_to_analyze = f"Bio/Scraped (Instagram): {insta_bio_scraped if insta_bio_scraped else 'N/A'}\n\nDescrição Usuário (Instagram): {instagram_desc}"
instagram_analysis, instagram_keywords = analyze_text_with_gemini(insta_text_to_analyze, "Instagram")

# Simular seguidos baseado nas keywords
simulated_instagram_follows = ["furia"] # Nome geralmente em minúsculas no Insta
if "fallen" in instagram_keywords: simulated_instagram_follows.append("fallen")
if "kscerato" in instagram_keywords: simulated_instagram_follows.append("kscerato")
if "cs" in instagram_keywords or "counterstrike" in instagram_keywords: simulated_instagram_follows.append("csgo_dev") # Exemplo

fan_data['social_instagram_processed'] = {
    "profile_url_provided": instagram_url if instagram_url else "Não fornecida",
    "scraping_result": scrape_msg_insta,
    "user_description": instagram_desc if instagram_desc else "Não fornecida",
    "ai_analysis": instagram_analysis,
    "derived_keywords": instagram_keywords,
    "simulated_followed_accounts": list(set(simulated_instagram_follows)), # Ex: Contas, não canais
     "link_status": "Processed (User Input + IA)" # Indica que depende mais do input
}
print("\nAnálise e Dados Simulados para Instagram armazenados.")


print("\n--- Vinculação Social (Simulada/Aprimorada) Concluída ---")

# Não esqueça de atualizar a célula do SUMÁRIO FINAL para exibir os dados
# de fan_data['social_instagram_processed'] de forma similar às outras redes.


      Etapa 3: Vinculação Social (Simulada/Aprimorada)

--- Twitter/X ---
➡️ (Opcional) Cole a URL do seu perfil PÚBLICO no Twitter/X: https://x.com/gaules/
  -> Tentando scraping básico de: https://x.com/gaules/
  -> Scraping básico retornou algum texto de Meta Tag: Não
   Resultado Scraping: Não foi possível extrair Bio/Descrição das Meta Tags via scraping.
➡️ Descreva brevemente seus interesses ou cole 1-2 tweets seus sobre e-sports/FURIA: 
  -> Analisando texto (Twitter) com Gemini...
  -> Análise IA concluída.

Análise e Dados Simulados para Twitter armazenados.

--- Twitch ---
➡️ (Opcional) Cole a URL do seu canal na Twitch: https://www.twitch.tv/gaules
  -> Tentando scraping básico de: https://www.twitch.tv/gaules
  -> Scraping básico retornou algum texto de Meta Tag: Sim
   Resultado Scraping: Scraping de Meta Tags OK
  -> Analisando texto (Twitch) com Gemini...
  -> Análise IA concluída.

Análise e Dados Simulados para Twitch armazenados.

--- Instagram ---
➡️ Cole a URL do p

## Etapa 2.4: Sumário do Perfil do Fã

Abaixo está um resumo das informações coletadas e simuladas, formando o perfil "Know Your Fan".

In [60]:
# --- Sumário do Perfil (Apresentação Refinada) ---

from IPython.display import HTML, display
import json # Para formatar o dicionário de dados estruturados

print("Gerando Sumário do Perfil Formatado...")

# Função auxiliar para formatar valores (evita erros com None)
def format_value(value, default="N/A"):
    if value is None or value == '':
        return default
    if isinstance(value, bool):
         return 'Sim (Simulado)' if value else 'Não (Simulado)' # Adaptado para o contexto
    return str(value)

# Iniciar a construção da string HTML
html_output = """
<style>
    /* === Container Principal === */
    .profile-summary {
        font-family: sans-serif;
        border: 1px solid #e0e0e0; /* Borda cinza mais suave */
        border-radius: 8px;
        padding: 25px; /* Mais padding */
        background-color: #ffffff; /* Fundo branco limpo */
        margin-bottom: 20px;
        box-shadow: 0 4px 15px rgba(0, 0, 0, 0.05); /* Sombra sutil */
    }

    /* === Títulos === */
    .profile-summary h2 { /* Título Principal */
        text-align: center;
        color: #1a1a1a; /* Preto bem escuro */
        border-bottom: 2px solid #FFC200; /* Amarelo Furia */
        padding-bottom: 12px;
        margin-top: 0;
        margin-bottom: 25px; /* Mais espaço abaixo */
        font-size: 1.6em; /* Pouco maior */
    }
    .profile-summary h3 { /* Títulos de Seção */
        color: #333333; /* Cinza escuro */
        border-bottom: 1px solid #e0e0e0; /* Borda suave */
        padding-bottom: 6px;
        margin-top: 30px; /* Mais espaço acima */
        margin-bottom: 15px; /* Espaço abaixo */
        font-size: 1.3em;
    }

     /* === Listas e Itens === */
    .profile-summary ul {
        list-style: none;
        padding-left: 0;
    }
    .profile-summary li {
        margin-bottom: 10px; /* Pouco mais de espaço */
        line-height: 1.6;
        color: #333; /* Cor padrão do texto dos itens */
    }
    /* Rótulos (ex: "Nome Completo:") */
    .profile-summary strong {
        color: #000000; /* Preto */
        font-weight: 600; /* Semi-bold */
        min-width: 190px; /* Ajustar largura se necessário */
        display: inline-block;
        margin-right: 5px; /* Pequeno espaço antes do valor */
    }

     /* === Subseções (Social) === */
    .profile-summary .sub-section {
        margin-left: 0; /* Remover indentação para simplicidade? */
        border-left: 3px solid #FFC200; /* Borda lateral Amarela */
        padding: 10px 15px; /* Padding interno */
        margin-top: 15px;
        margin-bottom: 15px; /* Espaço abaixo */
        background-color: #f7f7f7; /* Fundo levemente diferente */
        border-radius: 0 4px 4px 0; /* Cantos arredondados à direita */
    }
     .profile-summary .sub-section h4 { /* Título da subseção (Twitter/Twitch) */
          margin-top: 0;
          margin-bottom: 10px;
          color: #444;
          font-size: 1.1em;
      }
       .profile-summary .sub-section ul { /* Listas dentro da subseção */
            margin-bottom: 0;
        }
       .profile-summary .sub-section li {
            margin-bottom: 5px;
            font-size: 0.95em;
        }

    /* === Blocos de Texto Pré-formatado (IMPORTANTE PARA CONTRASTE) === */
    .profile-summary pre {
        background-color: #e9ecef; /* Cinza MUITO CLARO para fundo */
        color: #212529;          /* Texto QUASE PRETO para alto contraste */
        padding: 12px;           /* Mais padding */
        border-radius: 5px;      /* Cantos suaves */
        white-space: pre-wrap;   /* Mantém quebras de linha e espaços */
        word-wrap: break-word;   /* Quebra palavras longas */
        font-size: 0.9em;        /* Tamanho de fonte legível */
        border: 1px solid #ced4da; /* Borda sutil */
        line-height: 1.4;        /* Espaçamento entre linhas */
        max-height: 250px;       /* Altura máxima com scroll */
        overflow-y: auto;        /* Adiciona scroll se exceder */
    }

    /* Bloco específico da Prévia do OCR */
    .profile-summary .ocr-preview {
        background-color: #f8f9fa; /* Fundo um pouco diferente, ainda claro */
        color: #495057;          /* Cinza escuro, mas não preto total */
        font-style: italic;       /* Mantém itálico */
        max-height: 150px;       /* Altura para a prévia */
        overflow-y: auto;
        display: block;
        padding: 8px 12px;
        border: 1px dashed #adb5bd; /* Borda tracejada para indicar prévia/imperfeição */
        border-radius: 4px;
        /* As outras propriedades (line-height, etc) vêm do .profile-summary pre geral */
    }
</style>

<div class="profile-summary">
    <h2>Perfil do Fã (Know Your Fan)</h2>

    <h3>Dados Pessoais (Fictícios)</h3>
    <ul>
"""
# Adicionar Dados Pessoais
html_output += f"<li><strong>Nome Completo:</strong> {format_value(fan_data.get('nome_completo'))}</li>"
html_output += f"<li><strong>Localização:</strong> {format_value(fan_data.get('cidade_estado'))}</li>"
html_output += f"<li><strong>CPF:</strong> {format_value(fan_data.get('cpf'))}</li>"

html_output += """
    </ul>

    <h3>Interesses em E-sports</h3>
    <ul>
"""
# Adicionar Interesses
html_output += f"<li><strong>Jogo Favorito:</strong> {format_value(fan_data.get('jogo_favorito'))}</li>"
html_output += f"<li><strong>Jogador FURIA Favorito:</strong> {format_value(fan_data.get('jogador_furia_fav'))}</li>"
html_output += f"<li><strong>Assistiu Evento Presencial (Últ. Ano):</strong> {format_value(fan_data.get('assistiu_evento_ano'))}</li>"
html_output += f"<li><strong>Comprou Item E-sports (Últ. Ano):</strong> {format_value(fan_data.get('comprou_item_ano'))}</li>"
html_output += f"<li><strong>Tempo Acompanhando FURIA:</strong> {format_value(fan_data.get('tempo_acompanha_furia'))}</li>"

html_output += """
    </ul>

    <h3>Verificação de Identidade (OCR)</h3>
    <ul>
"""
# Adicionar Status da Verificação e Resultados OCR
html_output += f"<li><strong>Identidade Verificada:</strong> {format_value(fan_data.get('id_verificado'))}</li>"
ocr_preview = fan_data.get('id_ocr_text', 'N/A')
if len(ocr_preview) > 200: # Limita prévia
    ocr_preview = ocr_preview[:200] + '...'
html_output += f"<li><strong>Texto OCR (Prévia):</strong> <pre class='ocr-preview'>{ocr_preview}</pre></li>"
# Formatar o dicionário de dados estruturados como JSON para melhor visualização
structured_data = fan_data.get('id_structured_data', {})
formatted_json = json.dumps(structured_data, indent=2, ensure_ascii=False) # Pretty print JSON
html_output += f"<li><strong>Dados Estruturados (IA):</strong> <pre>{formatted_json}</pre></li>"


# --- Bloco para Redes Sociais Processadas ---

html_output += """
    <h3>Vinculação Social (Processada/Simulada)</h3>
"""

# --- Twitter ---
twitter_data = fan_data.get('social_twitter_processed') # Busca a chave correta
if twitter_data:
  html_output += """
      <div class="sub-section">
          <h4>Twitter/X</h4>
          <ul>
  """
  html_output += f"<li><strong>URL Fornecida:</strong> {format_value(twitter_data.get('profile_url_provided'))}</li>"
  html_output += f"<li><strong>Resultado Scraping:</strong> {format_value(twitter_data.get('scraping_result'))}</li>"
  html_output += f"<li><strong>Descrição Usuário:</strong> {format_value(twitter_data.get('user_description'))}</li>"
  keywords_tw_list = twitter_data.get('derived_keywords', [])
  keywords_tw_str = ', '.join(keywords_tw_list) if keywords_tw_list else 'Nenhuma'
  html_output += f"<li><strong>Palavras-Chave (IA):</strong> {format_value(keywords_tw_str)}</li>"
  follows_tw_list = twitter_data.get('simulated_followed_orgs', [])
  follows_tw_str = ', '.join(follows_tw_list) if follows_tw_list else 'Nenhuma'
  html_output += f"<li><strong>Organizações Seguidas:</strong> {format_value(follows_tw_str)}</li>"
  html_output += f"<li><strong>Análise IA:</strong><pre>{format_value(twitter_data.get('ai_analysis'))}</pre></li>"
  html_output += "</ul></div>"

# --- Twitch ---
twitch_data = fan_data.get('social_twitch_processed') # Busca a chave correta
if twitch_data:
  html_output += """
      <div class="sub-section">
          <h4>Twitch</h4>
          <ul>
  """
  html_output += f"<li><strong>URL Fornecida:</strong> {format_value(twitch_data.get('profile_url_provided'))}</li>"
  html_output += f"<li><strong>Resultado Scraping:</strong> {format_value(twitch_data.get('scraping_result'))}</li>"
  keywords_ttv_list = twitch_data.get('derived_keywords', [])
  keywords_ttv_str = ', '.join(keywords_ttv_list) if keywords_ttv_list else 'Nenhuma'
  html_output += f"<li><strong>Palavras-Chave (IA):</strong> {format_value(keywords_ttv_str)}</li>"
  follows_ttv_list = twitch_data.get('simulated_followed_channels', [])
  follows_ttv_str = ', '.join(follows_ttv_list) if follows_ttv_list else 'Nenhuma'
  html_output += f"<li><strong>Canais Seguidos:</strong> {format_value(follows_ttv_str)}</li>"
  html_output += f"<li><strong>Análise IA (Scraping):</strong><pre>{format_value(twitch_data.get('ai_analysis'))}</pre></li>"
  html_output += "</ul></div>"


# --- Instagram ---
instagram_data = fan_data.get('social_instagram_processed') # Busca a chave correta
if instagram_data:
  html_output += """
      <div class="sub-section">
          <h4>Instagram</h4>
          <ul>
  """
  html_output += f"<li><strong>URL Fornecida:</strong> {format_value(instagram_data.get('profile_url_provided'))}</li>"
  html_output += f"<li><strong>Resultado Scraping (Meta Tags):</strong> {format_value(instagram_data.get('scraping_result'))}</li>"
  html_output += f"<li><strong>Descrição Usuário:</strong> {format_value(instagram_data.get('user_description'))}</li>"
  keywords_ig_list = instagram_data.get('derived_keywords', [])
  keywords_ig_str = ', '.join(keywords_ig_list) if keywords_ig_list else 'Nenhuma'
  html_output += f"<li><strong>Palavras-Chave (IA):</strong> {format_value(keywords_ig_str)}</li>"
  follows_ig_list = instagram_data.get('simulated_followed_accounts', [])
  follows_ig_str = ', '.join(follows_ig_list) if follows_ig_list else 'Nenhuma'
  html_output += f"<li><strong>Contas Seguidas:</strong> {format_value(follows_ig_str)}</li>"
  html_output += f"<li><strong>Análise IA (Descrição/Scraping):</strong><pre>{format_value(instagram_data.get('ai_analysis'))}</pre></li>"
  html_output += "</ul></div>"

# --- FIM do Bloco social ---



# Exibe o HTML renderizado na célula de saída
display(HTML(html_output))

print("\n--- FIM DO SUMÁRIO ---")

Gerando Sumário do Perfil Formatado...



--- FIM DO SUMÁRIO ---
