In [1]:
# Análise de Artigos Científicos com Gemini AI

## Escopo: Nanorevestimentos e Tintas (Nanocoatings and Paints)

Este notebook realiza análise automatizada de artigos científicos para identificar trabalhos relevantes ao escopo de nanorevestimentos e tintas usando a API do Google Gemini.

### Funcionalidades:
1. **Instalação de dependências**
2. **Configuração da API Gemini**
3. **Definição de palavras-chave específicas**
4. **Busca e filtro de artigos**
5. **Análise individual de abstracts**
6. **Processamento em lote com rate limiting**
7. **Sistema de checkpoint para recuperação**





SyntaxError: invalid syntax (3739530835.py, line 5)

In [7]:
!pip install google.generativeai

Collecting google.generativeai
  Downloading google_generativeai-0.8.5-py3-none-any.whl.metadata (3.9 kB)
Collecting google-ai-generativelanguage==0.6.15 (from google.generativeai)
  Downloading google_ai_generativelanguage-0.6.15-py3-none-any.whl.metadata (5.7 kB)
Collecting google-api-python-client (from google.generativeai)
  Downloading google_api_python_client-2.170.0-py3-none-any.whl.metadata (6.7 kB)
Collecting httplib2<1.0.0,>=0.19.0 (from google-api-python-client->google.generativeai)
  Downloading httplib2-0.22.0-py3-none-any.whl.metadata (2.6 kB)
Collecting google-auth-httplib2<1.0.0,>=0.2.0 (from google-api-python-client->google.generativeai)
  Downloading google_auth_httplib2-0.2.0-py2.py3-none-any.whl.metadata (2.2 kB)
Collecting uritemplate<5,>=3.0.1 (from google-api-python-client->google.generativeai)
  Downloading uritemplate-4.1.1-py2.py3-none-any.whl.metadata (2.9 kB)
Downloading google_generativeai-0.8.5-py3-none-any.whl (155 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━

In [4]:
# Instalação das dependências necessárias
!pip install google-generativeai pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [7]:
# Imports necessários
import pandas as pd
import google.generativeai as genai
import time
import random
from typing import List, Optional

# Configuração da API do Gemini
genai.configure(api_key='AIzaSyAcQicBEj8s2NvvCBORlQCgPUrPchR-vCQ')

print("✅ Dependências carregadas e API configurada")

✅ Dependências carregadas e API configurada
  from .autonotebook import tqdm as notebook_tqdm


## 1. Configuração de Parâmetros

Definição dos parâmetros principais para análise e rate limiting da API.

In [10]:
# Configurações principais
CONFIG = {
    'modelo_gemini': 'gemini-2.0-flash-exp',  # Flash-Lite para rate limits melhores
    'max_requests_per_minute': 30,              # Limite de requisições por minuto
    'max_requests_per_day': 1400,               # Limite diário recomendado
    'delay_between_requests': 2.1,              # Delay entre requisições (segundos)
    'arquivo_entrada': '/home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv',
    'checkpoint_file': 'analise_escopo_checkpoint.csv',
    'arquivo_saida': 'df_com_analise_escopo_completo.csv'
}

print("📋 Configurações carregadas:")
for key, value in CONFIG.items():
    print(f"  {key}: {value}")

📋 Configurações carregadas:
  modelo_gemini: gemini-2.0-flash-exp
  max_requests_per_minute: 30
  max_requests_per_day: 1400
  delay_between_requests: 2.1
  arquivo_entrada: /home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv
  checkpoint_file: analise_escopo_checkpoint.csv
  arquivo_saida: df_com_analise_escopo_completo.csv


## 2. Definição de Palavras-Chave

Conjunto abrangente de termos relacionados ao escopo de nanorevestimentos e tintas.

In [13]:
# Palavras-chave organizadas por categoria
PALAVRAS_CHAVE = {
    'termos_principais': [
        "nanocoating", "nanocoatings", "nano coating", "nano coatings",
        "nanorevestimento", "nanorevestimentos", "nanocomposite coating"
    ],
    
    'materiais_nano': [
        "TiO2", "titanium dioxide", "zinc oxide", "ZnO", 
        "silica nanoparticle", "alumina nanoparticle", "Al2O3",
        "carbon nanotube", "CNT", "graphene", "iron oxide", "Fe2O3",
        "cerium oxide", "CeO2", "clay nanoparticles"
    ],
    
    'propriedades_funcionais': [
        "anticorrosive coating", "anti-corrosion coating",
        "antimicrobial coating", "antibacterial coating",
        "self-cleaning coating", "superhydrophobic coating",
        "photocatalytic coating", "UV resistant coating",
        "scratch resistant coating", "wear resistant coating"
    ],
    
    'tecnicas_preparacao': [
        "sol-gel coating", "layer-by-layer", "dip coating",
        "spin coating", "spray coating", "electrodeposition",
        "CVD coating", "PVD coating", "plasma treatment"
    ],
    
    'aplicacoes': [
        "protective coating", "functional coating",
        "smart coating", "intelligent coating", "automotive coating",
        "marine coating", "architectural coating", "biomedical coating"
    ]
}

# Criar lista única de todas as palavras-chave
todas_palavras_chave = []
for categoria, palavras in PALAVRAS_CHAVE.items():
    todas_palavras_chave.extend(palavras)

print(f"🔍 Total de palavras-chave definidas: {len(todas_palavras_chave)}")
print(f"📂 Categorias: {list(PALAVRAS_CHAVE.keys())}")

🔍 Total de palavras-chave definidas: 49
📂 Categorias: ['termos_principais', 'materiais_nano', 'propriedades_funcionais', 'tecnicas_preparacao', 'aplicacoes']


## 3. Funções Utilitárias

Funções para filtro, busca e manipulação de dados.

In [16]:
def filtrar_coluna(df, coluna, palavra, tipo="contem"):
    """
    Função auxiliar para filtrar uma dataframe com base em uma palavra-chave específica.

    Parâmetros:
    - df (DataFrame): DataFrame Pandas com os dados
    - coluna (str): Nome da coluna a ser filtrada
    - palavra (str): Palavra-chave usada para filtrar
    - tipo (str): Método de filtro, opções: 'contem', 'igual'. Default é 'contem'.

    Retorno:
    - DataFrame contendo as linhas que correspondem ao filtro
    """
    if tipo == "contem":
        resultado = df[df[coluna].str.contains(palavra, case=False, na=False)]
    elif tipo == "igual":
        resultado = df[df[coluna].str.lower() == palavra.lower()]
    else:
        raise ValueError("Tipo de filtro não suportado. Use 'contem' ou 'igual'.")

    return resultado

Informações do DataFrame:
Total de linhas: 525
Colunas disponíveis: ['Publication Type', 'Authors', 'Book Authors', 'Book Editors', 'Book Group Authors', 'Author Full Names', 'Book Author Full Names', 'Group Authors', 'Article Title', 'Source Title', 'Book Series Title', 'Book Series Subtitle', 'Language', 'Document Type', 'Conference Title', 'Conference Date', 'Conference Location', 'Conference Sponsor', 'Conference Host', 'Author Keywords', 'Keywords Plus', 'Abstract', 'Addresses', 'Affiliations', 'Reprint Addresses', 'Email Addresses', 'Researcher Ids', 'ORCIDs', 'Funding Orgs', 'Funding Name Preferred', 'Funding Text', 'Cited References', 'Cited Reference Count', 'Times Cited, WoS Core', 'Times Cited, All Databases', '180 Day Usage Count', 'Since 2013 Usage Count', 'Publisher', 'Publisher City', 'Publisher Address', 'ISSN', 'eISSN', 'ISBN', 'Journal Abbreviation', 'Journal ISO Abbreviation', 'Publication Date', 'Publication Year', 'Volume', 'Issue', 'Part Number', 'Supplement', 'Sp

NameError: name 'filtrar_coluna' is not defined

## 4. Análise com Gemini AI

Funções para análise automática de abstracts usando a API do Gemini.

In [None]:
# ...existing code...

def analisar_escopo_abstract(abstract_text):
    """
    Analisa um abstract individual para determinar se se adequa ao escopo de nanorevestimentos e tintas
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "Não se adequa - Abstract vazio ou não disponível"
    
    model = genai.GenerativeModel('gemini-2.0-flash')
    
    prompt = f"""
    Analise o seguinte abstract científico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".

    Abstract: {abstract_text}

    Critérios para adequação ao escopo:
    - Estudos sobre nanomateriais aplicados em revestimentos ou tintas
    - Propriedades funcionais de nanocoatings (anticorrosão, antimicrobiano, autolimpante, etc.)
    - Técnicas de preparação ou caracterização de nanorevestimentos
    - Aplicações industriais de tintas nanoestruturadas
    - Materiais nanoestruturados para proteção de superfícies

    Responda APENAS uma das opções:
    1. "Sim - [breve justificativa]"
    2. "Não - [breve justificativa explicando por que não se adequa]"

    Mantenha a justificativa concisa (máximo 100 palavras).
    """
    
    try:
        response = model.generate_content(prompt)
        return response.text.strip()
    except Exception as e:
        return f"Erro na análise - {str(e)}"

def processar_dataframe_escopo(df, coluna_abstract='Abstract', batch_size=10):
    """
    Processa todo o DataFrame adicionando a coluna de adequação ao escopo
    """
    # Verificar se a coluna Abstract existe
    if coluna_abstract not in df.columns:
        print(f"Coluna '{coluna_abstract}' não encontrada no DataFrame")
        return df
    
    # Criar uma cópia do DataFrame
    df_processado = df.copy()
    
    # Inicializar a nova coluna
    df_processado['Se adequa ao escopo?'] = ''
    
    total_linhas = len(df_processado)
    print(f"Processando {total_linhas} abstracts...")
    
    # Processar em lotes para evitar sobrecarga da API
    for i in range(0, total_linhas, batch_size):
        batch_end = min(i + batch_size, total_linhas)
        print(f"Processando linhas {i+1} a {batch_end}...")
        
        for idx in range(i, batch_end):
            abstract = df_processado.iloc[idx][coluna_abstract]
            resultado = analisar_escopo_abstract(abstract)
            df_processado.iloc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultado
            
            # Mostrar progresso
            if (idx + 1) % 5 == 0:
                print(f"  Processado: {idx + 1}/{total_linhas}")
        
        # Pequena pausa entre lotes para não sobrecarregar a API
        import time
        time.sleep(2)
    
    return df_processado

# Carregar o DataFrame
df = pd.read_csv('/work/ExtensaoemCienciadeDadosUece/Imersão - CenanoInk/Alan Delon.csv')

print("Informações do DataFrame:")
print(f"Total de linhas: {len(df)}")
print(f"Colunas disponíveis: {list(df.columns)}")

# Verificar se existe coluna Abstract
if 'Abstract' in df.columns:
    print(f"Abstracts não vazios: {df['Abstract'].notna().sum()}")
    
    # Processar apenas uma amostra primeiro (para teste)
    print("\n=== PROCESSAMENTO DE TESTE (primeiras 5 linhas) ===")
    df_teste = df.head(5).copy()
    df_teste_processado = processar_dataframe_escopo(df_teste, batch_size=1)
    
    print("\nResultados do teste:")
    for idx, row in df_teste_processado.iterrows():
        print(f"\nLinha {idx + 1}:")
        print(f"Título: {row.get('Article Title', 'N/A')[:100]}...")
        print(f"Adequação: {row['Se adequa ao escopo?']}")
    
    # Perguntar se deseja processar todo o DataFrame
    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")
    if resposta.lower() == 's':
        print("\n=== PROCESSANDO TODO O DATAFRAME ===")
        df_completo = processar_dataframe_escopo(df)
        
        # Salvar resultado
        arquivo_saida = 'df_com_analise_escopo.csv'
        df_completo.to_csv(arquivo_saida, index=False)
        print(f"\nResultados salvos em: {arquivo_saida}")
        
        # Mostrar estatísticas
        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()
        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('Não', case=False, na=False).sum()
        
        print(f"\n=== ESTATÍSTICAS FINAIS ===")
        print(f"Adequados ao escopo: {adequados}")
        print(f"Não adequados ao escopo: {nao_adequados}")
        print(f"Total processado: {adequados + nao_adequados}")
        
else:
    print("Coluna 'Abstract' não encontrada no DataFrame")
    print("Colunas disponíveis:", list(df.columns))

Informações do DataFrame:
Total de linhas: 525
Colunas disponíveis: ['Publication Type', 'Authors', 'Book Authors', 'Book Editors', 'Book Group Authors', 'Author Full Names', 'Book Author Full Names', 'Group Authors', 'Article Title', 'Source Title', 'Book Series Title', 'Book Series Subtitle', 'Language', 'Document Type', 'Conference Title', 'Conference Date', 'Conference Location', 'Conference Sponsor', 'Conference Host', 'Author Keywords', 'Keywords Plus', 'Abstract', 'Addresses', 'Affiliations', 'Reprint Addresses', 'Email Addresses', 'Researcher Ids', 'ORCIDs', 'Funding Orgs', 'Funding Name Preferred', 'Funding Text', 'Cited References', 'Cited Reference Count', 'Times Cited, WoS Core', 'Times Cited, All Databases', '180 Day Usage Count', 'Since 2013 Usage Count', 'Publisher', 'Publisher City', 'Publisher Address', 'ISSN', 'eISSN', 'ISBN', 'Journal Abbreviation', 'Journal ISO Abbreviation', 'Publication Date', 'Publication Year', 'Volume', 'Issue', 'Part Number', 'Supplement', 'Sp

## 5. Processamento em Lote

Funções para processar grandes volumes de dados respeitando rate limits.

In [None]:
import pandas as pd
import genaiimport random
as as pd
import time
import randomfrom typing import List

def analisar_escopo_abstract(abstract_text: str, retry_count: int = 3) -> str:lisar_escopo_abstract(abstract_text, retry_count=3):
    """
    Analisa um abstract individual para adequação ao escopoal para determinar se se adequa ao escopo de nanorevestimentos e tintas
    ndo Gemini 2.0 Flash-Lite
    Args:
        abstract_text: Texto do abstract:
        retry_count: Número de tentativas em caso de erro    return "Não se adequa - Abstract vazio ou não disponível"
    
    Returns:
        String com resultado da análisemodel = genai.GenerativeModel('gemini-2.0-flash-exp')
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "Não se adequa - Abstract vazio ou não disponível"    Analise o seguinte abstract científico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".
    
    model = genai.GenerativeModel(CONFIG['modelo_gemini'])    Abstract: {abstract_text}
    
    prompt = f"""
    Analise o seguinte abstract científico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".
crobiano, autolimpante, etc.)
    Abstract: {abstract_text}evestimentos

    Critérios para adequação ao escopo:    - Materiais nanoestruturados para proteção de superfícies
    - Estudos sobre nanomateriais aplicados em revestimentos ou tintas
    - Propriedades funcionais de nanocoatings (anticorrosão, antimicrobiano, autolimpante, etc.)
    - Técnicas de preparação ou caracterização de nanorevestimentos
    - Aplicações industriais de tintas nanoestruturadas    2. "Não - [breve justificativa explicando por que não se adequa]"
    - Materiais nanoestruturados para proteção de superfícies
tenha a justificativa concisa (máximo 100 palavras).
    Responda APENAS uma das opções:"""
    1. "Sim - [breve justificativa]"
    2. "Não - [breve justificativa explicando por que não se adequa]"mpt in range(retry_count):

    Mantenha a justificativa concisa (máximo 100 palavras).ntent(prompt)
    """xt.strip()
    
    for attempt in range(retry_count):
        try:in error_msg.lower():
            response = model.generate_content(prompt)
            return response.text.strip()ar rate limit
        except Exception as e:
            error_msg = str(e)- aguardando {wait_time}s...")
            if "429" in error_msg or "quota" in error_msg.lower():ep(wait_time)
                if attempt < retry_count - 1:ontinue
                    wait_time = 3 + random.randint(1, 2)
                    print(f"  ⏳ Rate limit - aguardando {wait_time}s...")   return f"Erro - Rate limit excedido após {retry_count} tentativas"
                    time.sleep(wait_time)
                    continue            return f"Erro na análise - {error_msg}"
                else:
                    return f"Erro - Rate limit excedido após {retry_count} tentativas"    return "Erro - Falha após múltiplas tentativas"
            else:
                              coluna_abstract: str = 'Abstract') -> pd.DataFrame:         return f"Erro na análise - {error_msg}"cessar_dataframe_escopo(df, coluna_abstract='Abstract', max_requests_per_day=1400):
    """
    Processa DataFrame completo adicionando análise de escopo" de adequação ao escopo
    Respeitando limites de API: 30 req/min, 1.500 req/diao limites: 30 req/min, 1.500 req/dia
    bstract='Abstract', max_requests_per_day=1400):
    Args:
        df: DataFrame a ser processadoo
        coluna_abstract: Nome da coluna com abstractsimites: 30 req/min, 1.500 req/diaoluna '{coluna_abstract}' não encontrada no DataFrame")
    """    return df
    Returns:ct existe
        DataFrame com nova coluna 'Se adequa ao escopo?' df.columns:Frame
    """    print(f"Coluna '{coluna_abstract}' não encontrada no DataFrame")df_processado = df.copy()
    if coluna_abstract not in df.columns:
        print(f"❌ Coluna '{coluna_abstract}' não encontrada")
        return df# Criar uma cópia do DataFramedf_processado['Se adequa ao escopo?'] = ''
    
    df_processado = df.copy()
    df_processado['Se adequa ao escopo?'] = ''# Inicializar a nova colunaprint(f"Processando {total_linhas} abstracts...")
    '
    total_linhas = len(df_processado)
    print(f"📋 Processando {total_linhas} abstracts...")
    
    # Verificar limite diárioax_requests_per_day} linhas? (s/n): ")
    if total_linhas > CONFIG['max_requests_per_day']:
        print(f"⚠️ Dataset tem {total_linhas} linhas, limite diário: {CONFIG['max_requests_per_day']}")linhas > max_requests_per_day:otal_linhas = max_requests_per_day
        resposta = input(f"Processar apenas as primeiras {CONFIG['max_requests_per_day']} linhas? (s/n): ")inhas} linhas, mas limite diário é {max_requests_per_day}")
        if resposta.lower() == 's':a processar apenas as primeiras {max_requests_per_day} linhas? (s/n): ") cancelado.")
            total_linhas = CONFIG['max_requests_per_day']    if resposta.lower() == 's':        return df_processado
        else:
            print("❌ Processamento cancelado")
            return df_processado        print("Processamento cancelado.")print(f"Tempo estimado: {(total_linhas * 2.5) / 60:.1f} minutos")
    _processado
    tempo_estimado = (total_linhas * CONFIG['delay_between_requests']) / 60
    print(f"⏱️ Tempo estimado: {tempo_estimado:.1f} minutos")print(f"Rate limiting: 30 req/min, processando {total_linhas} abstracts")start_time = time.time()
    print(f"🔄 Rate limiting: {CONFIG['max_requests_per_minute']} req/min")_linhas * 2.5) / 60:.1f} minutos")
    
    requests_made = 0
    start_time = time.time()
    adequados_count = 0
    
    for idx in range(total_linhas): 30 req/min aguardando {wait_time:.1f}s...")
        # Controle de rate limitime() - start_timeime)
        elapsed_time = time.time() - start_timelapsed_time < 60:
        if requests_made >= (CONFIG['max_requests_per_minute'] - 1) and elapsed_time < 60:    wait_time = 60 - elapsed_time + 2  # +2 segundos de margem    start_time = time.time()
            wait_time = 60 - elapsed_time + 2}s...")
            print(f"\n⏳ Rate limit: aguardando {wait_time:.1f}s...")    time.sleep(wait_time)abstract = df_processado.iloc[idx][coluna_abstract]
            time.sleep(wait_time) 0
            requests_made = 0
            start_time = time.time()
        abstract = df_processado.iloc[idx][coluna_abstract]    print(f"Processando {idx + 1}/{total_linhas} ({((idx + 1)/total_linhas)*100:.1f}%)")
        abstract = df_processado.iloc[idx][coluna_abstract]
        
        # Progressoif idx % 10 == 0 or idx == total_linhas - 1:df_processado.iloc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultado
        if idx % 10 == 0 or idx == total_linhas - 1:sando {idx + 1}/{total_linhas} ({((idx + 1)/total_linhas)*100:.1f}%)")
            print(f"📊 Processando {idx + 1}/{total_linhas} ({((idx + 1)/total_linhas)*100:.1f}%)")requests_made += 1
        
        resultado = analisar_escopo_abstract(abstract)entre requisições (2 segundos para 30 req/min)loc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultado
        df_processado.iloc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultadotime.sleep(2.1)
        
        if 'Sim' in resultado:ada 25 processamentos
            adequados_count += 1
        +1].str.contains('Sim', case=False, na=False).sum()
        requests_made += 1        print(f"  Adequados até agora: {adequados_parcial}/{idx + 1}")    
        time.sleep(CONFIG['delay_between_requests'])samentos
            return df_processado        if (idx + 1) % 25 == 0:
        # Estatísticas parciais
        if (idx + 1) % 25 == 0:     print(f"  Adequados até agora: {adequados_parcial}/{idx + 1}")cessar_com_checkpoint(df, coluna_abstract='Abstract', checkpoint_file='checkpoint_analise.csv', start_from=0):
            taxa_atual = (adequados_count / (idx + 1)) * 100
            print(f"  ✅ Adequados até agora: {adequados_count}/{idx + 1} ({taxa_atual:.1f}%)")urn df_processadosão com checkpoint para poder retomar o processamento
    
    return df_processadotract='Abstract', checkpoint_file='checkpoint_analise.csv', start_from=0):
_file and start_from == 0:
def processar_com_checkpoint(df: pd.DataFrame, ento
                           coluna_abstract: str = 'Abstract') -> pd.DataFrame:
    """
    Processamento com sistema de checkpoint para recuperação
    )
    Args:checkpoint_file)s':
        df: DataFrame a ser processadopo?' in df_checkpoint.columns:ckpoint
        coluna_abstract: Nome da coluna com abstractslinhas já processadas")
                resposta = input("Deseja continuar do checkpoint? (s/n): ")        print("Nenhum checkpoint encontrado, iniciando do zero")
    Returns:.lower() == 's':
        DataFrame processado
    """    except FileNotFoundError:df_processado = processar_dataframe_escopo(df, coluna_abstract)
    checkpoint_file = CONFIG['checkpoint_file']um checkpoint encontrado, iniciando do zero")
    
    # Verificar checkpoint existente
    try:a_abstract)e)
        df_checkpoint = pd.read_csv(checkpoint_file)    print(f"Checkpoint salvo em: {checkpoint_file}")
        if 'Se adequa ao escopo?' in df_checkpoint.columns:
            processed_count = df_checkpoint['Se adequa ao escopo?'].ne('').sum()    if checkpoint_file:    return df_processado
            print(f"📂 Checkpoint encontrado: {processed_count} linhas já processadas")to_csv(checkpoint_file, index=False)
            
            resposta = input("Continuar do checkpoint? (s/n): ")        """
            if resposta.lower() == 's': específica
                return df_checkpoint
    except FileNotFoundError:.DataFrame) -> str:
        print("📝 Nenhum checkpoint encontrado, iniciando do zero")    """        df: DataFrame a ser filtrado
    rtigos com Gemini
    # Processar normalmente
    df_processado = processar_dataframe_escopo(df, coluna_abstract)
    s
    # Salvar checkpointReturns:
    df_processado.to_csv(checkpoint_file, index=False)
    print(f"💾 Checkpoint salvo em: {checkpoint_file}")
    
    return df_processadoif len(dados_filtrados) == 0:    print(f"⚠️ Coluna '{coluna}' não encontrada")
aFrame()m dado disponível para análise."
# Carregar o DataFrame
df = pd.read_csv('/home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv')
str.contains(termo, case=False, na=False)filtrados.head(10)
print("Informações do DataFrame:")elif tipo == 'exato':texto_dados = dados_amostra[['Article Title', 'Abstract']].to_string()
print(f"Total de linhas: {len(df)}")
print(f"Colunas disponíveis: {list(df.columns)}")delo_gemini'])
h(termo.lower())
# Verificar se existe coluna Abstract
if 'Abstract' in df.columns:s e tintas:
    abstracts_validos = df['Abstract'].notna().sum()
    print(f"Abstracts não vazios: {abstracts_validos}")return df[mask]{texto_dados}
    
    # Teste com 3 abstracts primeiroataFrame, 
    print("\n=== TESTE INICIAL (3 abstracts) ===")
    df_teste = df.head(3).copy()['Article Title', 'Abstract']) -> pd.DataFrame:
    
    # Processar testeBusca artigos usando múltiplas palavras-chave em múltiplas colunas4. Aplicações industriais identificadas
    start_test = time.time()
    df_teste_processado = processar_dataframe_escopo(df_teste)
    end_test = time.time()
    
    print(f"\nTempo do teste: {end_test - start_test:.1f} segundos")colunas: Colunas onde buscar
    print("\nResultados do teste:")
    for idx, row in df_teste_processado.iterrows():
        print(f"\nLinha {idx + 1}:")
        print(f"Título: {row.get('Article Title', 'N/A')[:80]}...")
        print(f"Adequação: {row['Se adequa ao escopo?']}")ltados = pd.DataFrame()return f"Erro na análise geral: {str(e)}"
    
    # Perguntar sobre processamento completo
    print(f"\n=== PROCESSAMENTO COMPLETO ===")
    print(f"Total de abstracts para processar: {abstracts_validos}")
    print(f"Limite diário recomendado: 1.400 requisições")palavra in palavras_chave:nformações do DataFrame:")
    print(f"Tempo estimado: {(abstracts_validos * 2.5) / 60:.1f} minutos")
    
    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")
    if resposta.lower() == 's':oluna(df, coluna, palavra, tipo='contem')tract
        print("\nIniciando processamento completo com checkpoint...")
        df_completo = processar_com_checkpoint(df, checkpoint_file='analise_escopo_checkpoint.csv')            count_palavra += len(temp)racts_validos = df['Abstract'].notna().sum()
        tados = pd.concat([resultados, temp]) vazios: {abstracts_validos}")
        # Salvar resultado final
        arquivo_saida = 'df_com_analise_escopo_completo.csv'if count_palavra > 0:ste com 3 abstracts primeiro
        df_completo.to_csv(arquivo_saida, index=False)       estatisticas[palavra] = count_palavrarint("\n=== TESTE INICIAL (3 abstracts) ===")
        print(f"\nResultados finais salvos em: {arquivo_saida}")dos")
        

















    print("Colunas disponíveis:", list(df.columns))    print("Coluna 'Abstract' não encontrada no DataFrame")else:                    print(f"Taxa de adequação: {(adequados/(adequados + nao_adequados))*100:.1f}%")        if adequados > 0:                print(f"Total processado: {adequados + nao_adequados + erros}")        print(f"Erros: {erros}")        print(f"Não adequados ao escopo: {nao_adequados}")        print(f"Adequados ao escopo: {adequados}")        print(f"\n=== ESTATÍSTICAS FINAIS ===")                erros = df_completo['Se adequa ao escopo?'].str.contains('Erro', case=False, na=False).sum()        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('Não', case=False, na=False).sum()        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()        # Mostrar estatísticas






































































    print("Colunas disponíveis:", list(df.columns))    print("Coluna 'Abstract' não encontrada no DataFrame")else:                    print(f"Taxa de adequação: {(adequados/(adequados + nao_adequados))*100:.1f}%")        if adequados > 0:                print(f"Total processado: {adequados + nao_adequados + erros}")        print(f"Erros: {erros}")        print(f"Não adequados ao escopo: {nao_adequados}")        print(f"Adequados ao escopo: {adequados}")        print(f"\n=== ESTATÍSTICAS FINAIS ===")                erros = df_completo['Se adequa ao escopo?'].str.contains('Erro', case=False, na=False).sum()        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('Não', case=False, na=False).sum()        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()        # Mostrar estatísticas                print(f"\nResultados finais salvos em: {arquivo_saida}")        df_completo.to_csv(arquivo_saida, index=False)        arquivo_saida = 'df_com_analise_escopo_completo.csv'        # Salvar resultado final                df_completo = processar_com_checkpoint(df, checkpoint_file='analise_escopo_checkpoint.csv')        print("\nIniciando processamento completo com checkpoint...")    if resposta.lower() == 's':    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")        print(f"Tempo estimado: {(abstracts_validos * 2.5) / 60:.1f} minutos")    print(f"Limite diário recomendado: 1.400 requisições")    print(f"Total de abstracts para processar: {abstracts_validos}")    print(f"\n=== PROCESSAMENTO COMPLETO ===")    # Perguntar sobre processamento completo            print(f"Adequação: {row['Se adequa ao escopo?']}")        print(f"Título: {row.get('Article Title', 'N/A')[:80]}...")        print(f"\nLinha {idx + 1}:")    for idx, row in df_teste_processado.iterrows():    print("\nResultados do teste:")    print(f"\nTempo do teste: {end_test - start_test:.1f} segundos")        end_test = time.time()    df_teste_processado = processar_dataframe_escopo(df_teste)    start_test = time.time()    # Processar teste        df_teste = df.head(3).copy()    print("\n=== TESTE INICIAL (3 abstracts) ===")    # Teste com 3 abstracts primeiro        print(f"Abstracts não vazios: {abstracts_validos}")    abstracts_validos = df['Abstract'].notna().sum()if 'Abstract' in df.columns:# Verificar se existe coluna Abstractprint(f"Colunas disponíveis: {list(df.columns)}")print(f"Total de linhas: {len(df)}")print("Informações do DataFrame:")df = pd.read_csv('/home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv')# Carregar o DataFrame    return resultados            print("\n❌ Nenhum artigo encontrado")    else:        print(f"📊 Palavras-chave com resultados: {len(estatisticas)}")        print(f"\n✅ Total de artigos únicos encontrados: {len(resultados)}")        resultados = resultados.drop_duplicates()    if len(resultados) > 0:    # Remover duplicatas    # Processar teste
    start_test = time.time()
    df_teste_processado = processar_dataframe_escopo(df_teste)
    end_test = time.time()
    
    print(f"\nTempo do teste: {end_test - start_test:.1f} segundos")
    print("\nResultados do teste:")
    for idx, row in df_teste_processado.iterrows():
        print(f"\nLinha {idx + 1}:")
        print(f"Título: {row.get('Article Title', 'N/A')[:80]}...")
        print(f"Adequação: {row['Se adequa ao escopo?']}")
    
    # Perguntar sobre processamento completo
    print(f"\n=== PROCESSAMENTO COMPLETO ===")
    print(f"Total de abstracts para processar: {abstracts_validos}")
    print(f"Limite diário recomendado: 1.400 requisições")
    print(f"Tempo estimado: {(abstracts_validos * 2.5) / 60:.1f} minutos")
    
    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")
    if resposta.lower() == 's':
        print("\nIniciando processamento completo com checkpoint...")
        df_completo = processar_com_checkpoint(df, checkpoint_file='analise_escopo_checkpoint.csv')
        
        # Salvar resultado final
        arquivo_saida = 'df_com_analise_escopo_completo.csv'
        df_completo.to_csv(arquivo_saida, index=False)
        print(f"\nResultados finais salvos em: {arquivo_saida}")
        
        # Mostrar estatísticas
        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()
        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('Não', case=False, na=False).sum()
        erros = df_completo['Se adequa ao escopo?'].str.contains('Erro', case=False, na=False).sum()
        
        print(f"\n=== ESTATÍSTICAS FINAIS ===")
        print(f"Adequados ao escopo: {adequados}")
        print(f"Não adequados ao escopo: {nao_adequados}")
        print(f"Erros: {erros}")
        print(f"Total processado: {adequados + nao_adequados + erros}")
        
        if adequados > 0:
            print(f"Taxa de adequação: {(adequados/(adequados + nao_adequados))*100:.1f}%")
        
else:
    print("Coluna 'Abstract' não encontrada no DataFrame")
    print("Colunas disponíveis:", list(df.columns))

## 6. Execução Principal

Script principal para carregar dados e executar análises.

In [None]:
# Carregar e explorar os dados
print("📂 Carregando dados...")

try:
    df = pd.read_csv(CONFIG['arquivo_entrada'])
    print(f"✅ Dados carregados com sucesso")
    print(f"📊 Total de linhas: {len(df):,}")
    print(f"📊 Total de colunas: {len(df.columns)}")
    print(f"📋 Colunas disponíveis: {list(df.columns)}")
    
    # Verificar colunas essenciais
    colunas_essenciais = ['Article Title', 'Abstract']
    colunas_encontradas = [col for col in colunas_essenciais if col in df.columns]
    colunas_faltantes = [col for col in colunas_essenciais if col not in df.columns]
    
    print(f"\n✅ Colunas encontradas: {colunas_encontradas}")
    if colunas_faltantes:
        print(f"⚠️ Colunas faltantes: {colunas_faltantes}")
    
    # Estatísticas dos abstracts
    if 'Abstract' in df.columns:
        abstracts_validos = df['Abstract'].notna().sum()
        abstracts_vazios = df['Abstract'].isna().sum()
        print(f"\n📄 Abstracts disponíveis: {abstracts_validos:,}")
        print(f"📄 Abstracts vazios: {abstracts_vazios:,}")
        print(f"📄 Taxa de completude: {(abstracts_validos/len(df))*100:.1f}%")
    
except FileNotFoundError:
    print(f"❌ Arquivo não encontrado: {CONFIG['arquivo_entrada']}")
    df = None
except Exception as e:
    print(f"❌ Erro ao carregar dados: {e}")
    df = None

In [None]:
# Buscar artigos relevantes por palavras-chave
if df is not None:
    print("\n" + "="*50)
    print("🔍 BUSCA POR PALAVRAS-CHAVE")
    print("="*50)
    
    # Buscar artigos usando todas as palavras-chave
    artigos_encontrados = buscar_artigos_por_palavras_chave(df, todas_palavras_chave)
    
    if len(artigos_encontrados) > 0:
        print(f"\n📋 RESULTADOS DA BUSCA:")
        print(f"  Total de artigos encontrados: {len(artigos_encontrados):,}")
        print(f"  Percentual do dataset: {(len(artigos_encontrados)/len(df))*100:.2f}%")
        
        # Mostrar amostra dos títulos
        print(f"\n📑 Primeiros 10 títulos encontrados:")
        for i, titulo in enumerate(artigos_encontrados['Article Title'].head(10), 1):
            print(f"  {i:2d}. {titulo[:80]}{'...' if len(titulo) > 80 else ''}")
        
        # Salvar artigos encontrados
        arquivo_filtrados = 'artigos_nanorevestimentos_encontrados.csv'
        artigos_encontrados.to_csv(arquivo_filtrados, index=False)
        print(f"\n💾 Artigos filtrados salvos em: {arquivo_filtrados}")
        
        # Análise geral com Gemini
        print(f"\n🤖 Realizando análise geral com Gemini...")
        analise_geral = analisar_com_gemini_geral(artigos_encontrados)
        print("\n" + "="*50)
        print("📊 ANÁLISE GERAL - GEMINI AI")
        print("="*50)
        print(analise_geral)
        
    else:
        print("\n❌ Nenhum artigo encontrado com as palavras-chave especificadas")
        print("💡 Sugestão: Verificar se o dataset contém artigos da área")
else:
    print("❌ Não foi possível carregar os dados")

In [None]:
# Análise detalhada de escopo (opcional)
if df is not None and len(artigos_encontrados) > 0:
    print("\n" + "="*50)
    print("🔬 ANÁLISE DETALHADA DE ESCOPO")
    print("="*50)
    
    if 'Abstract' in artigos_encontrados.columns:
        abstracts_disponiveis = artigos_encontrados['Abstract'].notna().sum()
        print(f"📄 Artigos com abstract: {abstracts_disponiveis:,}")
        
        if abstracts_disponiveis > 0:
            print(f"⚠️ ATENÇÃO: Esta análise usa a API do Gemini")
            print(f"   Limite: {CONFIG['max_requests_per_day']} requisições/dia")
            print(f"   Tempo estimado: {(abstracts_disponiveis * CONFIG['delay_between_requests'])/60:.1f} minutos")
            
            resposta = input("\nRealizar análise detalhada de todos os abstracts? (s/n): ")
            
            if resposta.lower() == 's':
                print("\n🚀 Iniciando análise detalhada com checkpoint...")
                
                # Usar apenas artigos encontrados para análise
                df_analisado = processar_com_checkpoint(artigos_encontrados)
                
                # Salvar resultado final
                df_analisado.to_csv(CONFIG['arquivo_saida'], index=False)
                print(f"\n💾 Análise completa salva em: {CONFIG['arquivo_saida']}")
                
                # Estatísticas finais
                print("\n" + "="*50)
                print("📊 ESTATÍSTICAS FINAIS")
                print("="*50)
                
                adequados = df_analisado['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()
                nao_adequados = df_analisado['Se adequa ao escopo?'].str.contains('Não', case=False, na=False).sum()
                erros = df_analisado['Se adequa ao escopo?'].str.contains('Erro', case=False, na=False).sum()
                total_analisado = adequados + nao_adequados + erros
                
                print(f"✅ Adequados ao escopo: {adequados:,}")
                print(f"❌ Não adequados: {nao_adequados:,}")
                print(f"⚠️ Erros: {erros:,}")
                print(f"📊 Total analisado: {total_analisado:,}")
                
                if adequados + nao_adequados > 0:
                    taxa_adequacao = (adequados / (adequados + nao_adequados)) * 100
                    print(f"📈 Taxa de adequação: {taxa_adequacao:.1f}%")
                
                # Mostrar alguns exemplos
                if adequados > 0:
                    print(f"\n📑 Exemplos de artigos adequados:")
                    adequados_df = df_analisado[df_analisado['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False)]
                    for i, row in adequados_df.head(3).iterrows():
                        print(f"\n{i+1}. {row['Article Title'][:80]}...")
                        print(f"   Adequação: {row['Se adequa ao escopo?']}")
            
            else:
                print("\n⏭️ Análise detalhada pulada")
                
                # Fazer teste com 3 abstracts
                print("\n🧪 Realizando teste com 3 abstracts...")
                amostra_teste = artigos_encontrados.head(3)
                df_teste = processar_dataframe_escopo(amostra_teste)
                
                print("\n📋 Resultados do teste:")
                for idx, row in df_teste.iterrows():
                    print(f"\n{idx+1}. {row['Article Title'][:60]}...")
                    print(f"   Adequação: {row['Se adequa ao escopo?']}")
        else:
            print("❌ Nenhum abstract disponível para análise")
    else:
        print("❌ Coluna 'Abstract' não encontrada")

## 7. Conclusão

### Funcionalidades implementadas:

1. ✅ **Busca por palavras-chave**: Sistema robusto de filtro com múltiplas categorias
2. ✅ **Análise com Gemini AI**: Análise automática de relevância dos abstracts
3. ✅ **Rate limiting**: Respeita limites da API (30 req/min, 1.500 req/dia)
4. ✅ **Sistema de checkpoint**: Permite retomar análises interrompidas
5. ✅ **Estatísticas detalhadas**: Métricas de adequação e performance
6. ✅ **Exportação de dados**: Salva resultados em formato CSV

### Arquivos gerados:
- `artigos_nanorevestimentos_encontrados.csv`: Artigos filtrados por palavras-chave
- `analise_escopo_checkpoint.csv`: Checkpoint do processamento
- `df_com_analise_escopo_completo.csv`: Análise completa com Gemini

### Próximos passos:
- Refinar palavras-chave com base nos resultados
- Implementar análise de trends temporais
- Adicionar análise de colaborações e redes
- Desenvolver dashboard interativo

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d35fdc8b-8543-45dc-ae25-3ba609dd01b9' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>