In [1]:
# An√°lise de Artigos Cient√≠ficos com Gemini AI

## Escopo: Nanorevestimentos e Tintas (Nanocoatings and Paints)

Este notebook realiza an√°lise automatizada de artigos cient√≠ficos para identificar trabalhos relevantes ao escopo de nanorevestimentos e tintas usando a API do Google Gemini.

### Funcionalidades:
1. **Instala√ß√£o de depend√™ncias**
2. **Configura√ß√£o da API Gemini**
3. **Defini√ß√£o de palavras-chave espec√≠ficas**
4. **Busca e filtro de artigos**
5. **An√°lise individual de abstracts**
6. **Processamento em lote com rate limiting**
7. **Sistema de checkpoint para recupera√ß√£o**





SyntaxError: invalid syntax (3739530835.py, line 5)

In [7]:
!pip install google.generativeai

Collecting google.generativeai
  Downloading google_generativeai-0.8.5-py3-none-any.whl.metadata (3.9 kB)
Collecting google-ai-generativelanguage==0.6.15 (from google.generativeai)
  Downloading google_ai_generativelanguage-0.6.15-py3-none-any.whl.metadata (5.7 kB)
Collecting google-api-python-client (from google.generativeai)
  Downloading google_api_python_client-2.170.0-py3-none-any.whl.metadata (6.7 kB)
Collecting httplib2<1.0.0,>=0.19.0 (from google-api-python-client->google.generativeai)
  Downloading httplib2-0.22.0-py3-none-any.whl.metadata (2.6 kB)
Collecting google-auth-httplib2<1.0.0,>=0.2.0 (from google-api-python-client->google.generativeai)
  Downloading google_auth_httplib2-0.2.0-py2.py3-none-any.whl.metadata (2.2 kB)
Collecting uritemplate<5,>=3.0.1 (from google-api-python-client->google.generativeai)
  Downloading uritemplate-4.1.1-py2.py3-none-any.whl.metadata (2.9 kB)
Downloading google_generativeai-0.8.5-py3-none-any.whl (155 kB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

In [4]:
# Instala√ß√£o das depend√™ncias necess√°rias
!pip install google-generativeai pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [7]:
# Imports necess√°rios
import pandas as pd
import google.generativeai as genai
import time
import random
from typing import List, Optional

# Configura√ß√£o da API do Gemini
genai.configure(api_key='AIzaSyAcQicBEj8s2NvvCBORlQCgPUrPchR-vCQ')

print("‚úÖ Depend√™ncias carregadas e API configurada")

‚úÖ Depend√™ncias carregadas e API configurada
  from .autonotebook import tqdm as notebook_tqdm


## 1. Configura√ß√£o de Par√¢metros

Defini√ß√£o dos par√¢metros principais para an√°lise e rate limiting da API.

In [10]:
# Configura√ß√µes principais
CONFIG = {
    'modelo_gemini': 'gemini-2.0-flash-exp',  # Flash-Lite para rate limits melhores
    'max_requests_per_minute': 30,              # Limite de requisi√ß√µes por minuto
    'max_requests_per_day': 1400,               # Limite di√°rio recomendado
    'delay_between_requests': 2.1,              # Delay entre requisi√ß√µes (segundos)
    'arquivo_entrada': '/home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv',
    'checkpoint_file': 'analise_escopo_checkpoint.csv',
    'arquivo_saida': 'df_com_analise_escopo_completo.csv'
}

print("üìã Configura√ß√µes carregadas:")
for key, value in CONFIG.items():
    print(f"  {key}: {value}")

üìã Configura√ß√µes carregadas:
  modelo_gemini: gemini-2.0-flash-exp
  max_requests_per_minute: 30
  max_requests_per_day: 1400
  delay_between_requests: 2.1
  arquivo_entrada: /home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv
  checkpoint_file: analise_escopo_checkpoint.csv
  arquivo_saida: df_com_analise_escopo_completo.csv


## 2. Defini√ß√£o de Palavras-Chave

Conjunto abrangente de termos relacionados ao escopo de nanorevestimentos e tintas.

In [13]:
# Palavras-chave organizadas por categoria
PALAVRAS_CHAVE = {
    'termos_principais': [
        "nanocoating", "nanocoatings", "nano coating", "nano coatings",
        "nanorevestimento", "nanorevestimentos", "nanocomposite coating"
    ],
    
    'materiais_nano': [
        "TiO2", "titanium dioxide", "zinc oxide", "ZnO", 
        "silica nanoparticle", "alumina nanoparticle", "Al2O3",
        "carbon nanotube", "CNT", "graphene", "iron oxide", "Fe2O3",
        "cerium oxide", "CeO2", "clay nanoparticles"
    ],
    
    'propriedades_funcionais': [
        "anticorrosive coating", "anti-corrosion coating",
        "antimicrobial coating", "antibacterial coating",
        "self-cleaning coating", "superhydrophobic coating",
        "photocatalytic coating", "UV resistant coating",
        "scratch resistant coating", "wear resistant coating"
    ],
    
    'tecnicas_preparacao': [
        "sol-gel coating", "layer-by-layer", "dip coating",
        "spin coating", "spray coating", "electrodeposition",
        "CVD coating", "PVD coating", "plasma treatment"
    ],
    
    'aplicacoes': [
        "protective coating", "functional coating",
        "smart coating", "intelligent coating", "automotive coating",
        "marine coating", "architectural coating", "biomedical coating"
    ]
}

# Criar lista √∫nica de todas as palavras-chave
todas_palavras_chave = []
for categoria, palavras in PALAVRAS_CHAVE.items():
    todas_palavras_chave.extend(palavras)

print(f"üîç Total de palavras-chave definidas: {len(todas_palavras_chave)}")
print(f"üìÇ Categorias: {list(PALAVRAS_CHAVE.keys())}")

üîç Total de palavras-chave definidas: 49
üìÇ Categorias: ['termos_principais', 'materiais_nano', 'propriedades_funcionais', 'tecnicas_preparacao', 'aplicacoes']


## 3. Fun√ß√µes Utilit√°rias

Fun√ß√µes para filtro, busca e manipula√ß√£o de dados.

In [16]:
def filtrar_coluna(df, coluna, palavra, tipo="contem"):
    """
    Fun√ß√£o auxiliar para filtrar uma dataframe com base em uma palavra-chave espec√≠fica.

    Par√¢metros:
    - df (DataFrame): DataFrame Pandas com os dados
    - coluna (str): Nome da coluna a ser filtrada
    - palavra (str): Palavra-chave usada para filtrar
    - tipo (str): M√©todo de filtro, op√ß√µes: 'contem', 'igual'. Default √© 'contem'.

    Retorno:
    - DataFrame contendo as linhas que correspondem ao filtro
    """
    if tipo == "contem":
        resultado = df[df[coluna].str.contains(palavra, case=False, na=False)]
    elif tipo == "igual":
        resultado = df[df[coluna].str.lower() == palavra.lower()]
    else:
        raise ValueError("Tipo de filtro n√£o suportado. Use 'contem' ou 'igual'.")

    return resultado

Informa√ß√µes do DataFrame:
Total de linhas: 525
Colunas dispon√≠veis: ['Publication Type', 'Authors', 'Book Authors', 'Book Editors', 'Book Group Authors', 'Author Full Names', 'Book Author Full Names', 'Group Authors', 'Article Title', 'Source Title', 'Book Series Title', 'Book Series Subtitle', 'Language', 'Document Type', 'Conference Title', 'Conference Date', 'Conference Location', 'Conference Sponsor', 'Conference Host', 'Author Keywords', 'Keywords Plus', 'Abstract', 'Addresses', 'Affiliations', 'Reprint Addresses', 'Email Addresses', 'Researcher Ids', 'ORCIDs', 'Funding Orgs', 'Funding Name Preferred', 'Funding Text', 'Cited References', 'Cited Reference Count', 'Times Cited, WoS Core', 'Times Cited, All Databases', '180 Day Usage Count', 'Since 2013 Usage Count', 'Publisher', 'Publisher City', 'Publisher Address', 'ISSN', 'eISSN', 'ISBN', 'Journal Abbreviation', 'Journal ISO Abbreviation', 'Publication Date', 'Publication Year', 'Volume', 'Issue', 'Part Number', 'Supplement', 

NameError: name 'filtrar_coluna' is not defined

## 4. An√°lise com Gemini AI

Fun√ß√µes para an√°lise autom√°tica de abstracts usando a API do Gemini.

In [None]:
# ...existing code...

def analisar_escopo_abstract(abstract_text):
    """
    Analisa um abstract individual para determinar se se adequa ao escopo de nanorevestimentos e tintas
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "N√£o se adequa - Abstract vazio ou n√£o dispon√≠vel"
    
    model = genai.GenerativeModel('gemini-2.0-flash')
    
    prompt = f"""
    Analise o seguinte abstract cient√≠fico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".

    Abstract: {abstract_text}

    Crit√©rios para adequa√ß√£o ao escopo:
    - Estudos sobre nanomateriais aplicados em revestimentos ou tintas
    - Propriedades funcionais de nanocoatings (anticorros√£o, antimicrobiano, autolimpante, etc.)
    - T√©cnicas de prepara√ß√£o ou caracteriza√ß√£o de nanorevestimentos
    - Aplica√ß√µes industriais de tintas nanoestruturadas
    - Materiais nanoestruturados para prote√ß√£o de superf√≠cies

    Responda APENAS uma das op√ß√µes:
    1. "Sim - [breve justificativa]"
    2. "N√£o - [breve justificativa explicando por que n√£o se adequa]"

    Mantenha a justificativa concisa (m√°ximo 100 palavras).
    """
    
    try:
        response = model.generate_content(prompt)
        return response.text.strip()
    except Exception as e:
        return f"Erro na an√°lise - {str(e)}"

def processar_dataframe_escopo(df, coluna_abstract='Abstract', batch_size=10):
    """
    Processa todo o DataFrame adicionando a coluna de adequa√ß√£o ao escopo
    """
    # Verificar se a coluna Abstract existe
    if coluna_abstract not in df.columns:
        print(f"Coluna '{coluna_abstract}' n√£o encontrada no DataFrame")
        return df
    
    # Criar uma c√≥pia do DataFrame
    df_processado = df.copy()
    
    # Inicializar a nova coluna
    df_processado['Se adequa ao escopo?'] = ''
    
    total_linhas = len(df_processado)
    print(f"Processando {total_linhas} abstracts...")
    
    # Processar em lotes para evitar sobrecarga da API
    for i in range(0, total_linhas, batch_size):
        batch_end = min(i + batch_size, total_linhas)
        print(f"Processando linhas {i+1} a {batch_end}...")
        
        for idx in range(i, batch_end):
            abstract = df_processado.iloc[idx][coluna_abstract]
            resultado = analisar_escopo_abstract(abstract)
            df_processado.iloc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultado
            
            # Mostrar progresso
            if (idx + 1) % 5 == 0:
                print(f"  Processado: {idx + 1}/{total_linhas}")
        
        # Pequena pausa entre lotes para n√£o sobrecarregar a API
        import time
        time.sleep(2)
    
    return df_processado

# Carregar o DataFrame
df = pd.read_csv('/work/ExtensaoemCienciadeDadosUece/Imers√£o - CenanoInk/Alan Delon.csv')

print("Informa√ß√µes do DataFrame:")
print(f"Total de linhas: {len(df)}")
print(f"Colunas dispon√≠veis: {list(df.columns)}")

# Verificar se existe coluna Abstract
if 'Abstract' in df.columns:
    print(f"Abstracts n√£o vazios: {df['Abstract'].notna().sum()}")
    
    # Processar apenas uma amostra primeiro (para teste)
    print("\n=== PROCESSAMENTO DE TESTE (primeiras 5 linhas) ===")
    df_teste = df.head(5).copy()
    df_teste_processado = processar_dataframe_escopo(df_teste, batch_size=1)
    
    print("\nResultados do teste:")
    for idx, row in df_teste_processado.iterrows():
        print(f"\nLinha {idx + 1}:")
        print(f"T√≠tulo: {row.get('Article Title', 'N/A')[:100]}...")
        print(f"Adequa√ß√£o: {row['Se adequa ao escopo?']}")
    
    # Perguntar se deseja processar todo o DataFrame
    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")
    if resposta.lower() == 's':
        print("\n=== PROCESSANDO TODO O DATAFRAME ===")
        df_completo = processar_dataframe_escopo(df)
        
        # Salvar resultado
        arquivo_saida = 'df_com_analise_escopo.csv'
        df_completo.to_csv(arquivo_saida, index=False)
        print(f"\nResultados salvos em: {arquivo_saida}")
        
        # Mostrar estat√≠sticas
        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()
        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('N√£o', case=False, na=False).sum()
        
        print(f"\n=== ESTAT√çSTICAS FINAIS ===")
        print(f"Adequados ao escopo: {adequados}")
        print(f"N√£o adequados ao escopo: {nao_adequados}")
        print(f"Total processado: {adequados + nao_adequados}")
        
else:
    print("Coluna 'Abstract' n√£o encontrada no DataFrame")
    print("Colunas dispon√≠veis:", list(df.columns))

Informa√ß√µes do DataFrame:
Total de linhas: 525
Colunas dispon√≠veis: ['Publication Type', 'Authors', 'Book Authors', 'Book Editors', 'Book Group Authors', 'Author Full Names', 'Book Author Full Names', 'Group Authors', 'Article Title', 'Source Title', 'Book Series Title', 'Book Series Subtitle', 'Language', 'Document Type', 'Conference Title', 'Conference Date', 'Conference Location', 'Conference Sponsor', 'Conference Host', 'Author Keywords', 'Keywords Plus', 'Abstract', 'Addresses', 'Affiliations', 'Reprint Addresses', 'Email Addresses', 'Researcher Ids', 'ORCIDs', 'Funding Orgs', 'Funding Name Preferred', 'Funding Text', 'Cited References', 'Cited Reference Count', 'Times Cited, WoS Core', 'Times Cited, All Databases', '180 Day Usage Count', 'Since 2013 Usage Count', 'Publisher', 'Publisher City', 'Publisher Address', 'ISSN', 'eISSN', 'ISBN', 'Journal Abbreviation', 'Journal ISO Abbreviation', 'Publication Date', 'Publication Year', 'Volume', 'Issue', 'Part Number', 'Supplement', 

## 5. Processamento em Lote

Fun√ß√µes para processar grandes volumes de dados respeitando rate limits.

In [None]:
import pandas as pd
import genaiimport random
as as pd
import time
import randomfrom typing import List

def analisar_escopo_abstract(abstract_text: str, retry_count: int = 3) -> str:lisar_escopo_abstract(abstract_text, retry_count=3):
    """
    Analisa um abstract individual para adequa√ß√£o ao escopoal para determinar se se adequa ao escopo de nanorevestimentos e tintas
    ndo Gemini 2.0 Flash-Lite
    Args:
        abstract_text: Texto do abstract:
        retry_count: N√∫mero de tentativas em caso de erro    return "N√£o se adequa - Abstract vazio ou n√£o dispon√≠vel"
    
    Returns:
        String com resultado da an√°lisemodel = genai.GenerativeModel('gemini-2.0-flash-exp')
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "N√£o se adequa - Abstract vazio ou n√£o dispon√≠vel"    Analise o seguinte abstract cient√≠fico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".
    
    model = genai.GenerativeModel(CONFIG['modelo_gemini'])    Abstract: {abstract_text}
    
    prompt = f"""
    Analise o seguinte abstract cient√≠fico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".
crobiano, autolimpante, etc.)
    Abstract: {abstract_text}evestimentos

    Crit√©rios para adequa√ß√£o ao escopo:    - Materiais nanoestruturados para prote√ß√£o de superf√≠cies
    - Estudos sobre nanomateriais aplicados em revestimentos ou tintas
    - Propriedades funcionais de nanocoatings (anticorros√£o, antimicrobiano, autolimpante, etc.)
    - T√©cnicas de prepara√ß√£o ou caracteriza√ß√£o de nanorevestimentos
    - Aplica√ß√µes industriais de tintas nanoestruturadas    2. "N√£o - [breve justificativa explicando por que n√£o se adequa]"
    - Materiais nanoestruturados para prote√ß√£o de superf√≠cies
tenha a justificativa concisa (m√°ximo 100 palavras).
    Responda APENAS uma das op√ß√µes:"""
    1. "Sim - [breve justificativa]"
    2. "N√£o - [breve justificativa explicando por que n√£o se adequa]"mpt in range(retry_count):

    Mantenha a justificativa concisa (m√°ximo 100 palavras).ntent(prompt)
    """xt.strip()
    
    for attempt in range(retry_count):
        try:in error_msg.lower():
            response = model.generate_content(prompt)
            return response.text.strip()ar rate limit
        except Exception as e:
            error_msg = str(e)- aguardando {wait_time}s...")
            if "429" in error_msg or "quota" in error_msg.lower():ep(wait_time)
                if attempt < retry_count - 1:ontinue
                    wait_time = 3 + random.randint(1, 2)
                    print(f"  ‚è≥ Rate limit - aguardando {wait_time}s...")   return f"Erro - Rate limit excedido ap√≥s {retry_count} tentativas"
                    time.sleep(wait_time)
                    continue            return f"Erro na an√°lise - {error_msg}"
                else:
                    return f"Erro - Rate limit excedido ap√≥s {retry_count} tentativas"    return "Erro - Falha ap√≥s m√∫ltiplas tentativas"
            else:
                              coluna_abstract: str = 'Abstract') -> pd.DataFrame:         return f"Erro na an√°lise - {error_msg}"cessar_dataframe_escopo(df, coluna_abstract='Abstract', max_requests_per_day=1400):
    """
    Processa DataFrame completo adicionando an√°lise de escopo" de adequa√ß√£o ao escopo
    Respeitando limites de API: 30 req/min, 1.500 req/diao limites: 30 req/min, 1.500 req/dia
    bstract='Abstract', max_requests_per_day=1400):
    Args:
        df: DataFrame a ser processadoo
        coluna_abstract: Nome da coluna com abstractsimites: 30 req/min, 1.500 req/diaoluna '{coluna_abstract}' n√£o encontrada no DataFrame")
    """    return df
    Returns:ct existe
        DataFrame com nova coluna 'Se adequa ao escopo?' df.columns:Frame
    """    print(f"Coluna '{coluna_abstract}' n√£o encontrada no DataFrame")df_processado = df.copy()
    if coluna_abstract not in df.columns:
        print(f"‚ùå Coluna '{coluna_abstract}' n√£o encontrada")
        return df# Criar uma c√≥pia do DataFramedf_processado['Se adequa ao escopo?'] = ''
    
    df_processado = df.copy()
    df_processado['Se adequa ao escopo?'] = ''# Inicializar a nova colunaprint(f"Processando {total_linhas} abstracts...")
    '
    total_linhas = len(df_processado)
    print(f"üìã Processando {total_linhas} abstracts...")
    
    # Verificar limite di√°rioax_requests_per_day} linhas? (s/n): ")
    if total_linhas > CONFIG['max_requests_per_day']:
        print(f"‚ö†Ô∏è Dataset tem {total_linhas} linhas, limite di√°rio: {CONFIG['max_requests_per_day']}")linhas > max_requests_per_day:otal_linhas = max_requests_per_day
        resposta = input(f"Processar apenas as primeiras {CONFIG['max_requests_per_day']} linhas? (s/n): ")inhas} linhas, mas limite di√°rio √© {max_requests_per_day}")
        if resposta.lower() == 's':a processar apenas as primeiras {max_requests_per_day} linhas? (s/n): ") cancelado.")
            total_linhas = CONFIG['max_requests_per_day']    if resposta.lower() == 's':        return df_processado
        else:
            print("‚ùå Processamento cancelado")
            return df_processado        print("Processamento cancelado.")print(f"Tempo estimado: {(total_linhas * 2.5) / 60:.1f} minutos")
    _processado
    tempo_estimado = (total_linhas * CONFIG['delay_between_requests']) / 60
    print(f"‚è±Ô∏è Tempo estimado: {tempo_estimado:.1f} minutos")print(f"Rate limiting: 30 req/min, processando {total_linhas} abstracts")start_time = time.time()
    print(f"üîÑ Rate limiting: {CONFIG['max_requests_per_minute']} req/min")_linhas * 2.5) / 60:.1f} minutos")
    
    requests_made = 0
    start_time = time.time()
    adequados_count = 0
    
    for idx in range(total_linhas): 30 req/min aguardando {wait_time:.1f}s...")
        # Controle de rate limitime() - start_timeime)
        elapsed_time = time.time() - start_timelapsed_time < 60:
        if requests_made >= (CONFIG['max_requests_per_minute'] - 1) and elapsed_time < 60:    wait_time = 60 - elapsed_time + 2  # +2 segundos de margem    start_time = time.time()
            wait_time = 60 - elapsed_time + 2}s...")
            print(f"\n‚è≥ Rate limit: aguardando {wait_time:.1f}s...")    time.sleep(wait_time)abstract = df_processado.iloc[idx][coluna_abstract]
            time.sleep(wait_time) 0
            requests_made = 0
            start_time = time.time()
        abstract = df_processado.iloc[idx][coluna_abstract]    print(f"Processando {idx + 1}/{total_linhas} ({((idx + 1)/total_linhas)*100:.1f}%)")
        abstract = df_processado.iloc[idx][coluna_abstract]
        
        # Progressoif idx % 10 == 0 or idx == total_linhas - 1:df_processado.iloc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultado
        if idx % 10 == 0 or idx == total_linhas - 1:sando {idx + 1}/{total_linhas} ({((idx + 1)/total_linhas)*100:.1f}%)")
            print(f"üìä Processando {idx + 1}/{total_linhas} ({((idx + 1)/total_linhas)*100:.1f}%)")requests_made += 1
        
        resultado = analisar_escopo_abstract(abstract)entre requisi√ß√µes (2 segundos para 30 req/min)loc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultado
        df_processado.iloc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultadotime.sleep(2.1)
        
        if 'Sim' in resultado:ada 25 processamentos
            adequados_count += 1
        +1].str.contains('Sim', case=False, na=False).sum()
        requests_made += 1        print(f"  Adequados at√© agora: {adequados_parcial}/{idx + 1}")    
        time.sleep(CONFIG['delay_between_requests'])samentos
            return df_processado        if (idx + 1) % 25 == 0:
        # Estat√≠sticas parciais
        if (idx + 1) % 25 == 0:     print(f"  Adequados at√© agora: {adequados_parcial}/{idx + 1}")cessar_com_checkpoint(df, coluna_abstract='Abstract', checkpoint_file='checkpoint_analise.csv', start_from=0):
            taxa_atual = (adequados_count / (idx + 1)) * 100
            print(f"  ‚úÖ Adequados at√© agora: {adequados_count}/{idx + 1} ({taxa_atual:.1f}%)")urn df_processados√£o com checkpoint para poder retomar o processamento
    
    return df_processadotract='Abstract', checkpoint_file='checkpoint_analise.csv', start_from=0):
_file and start_from == 0:
def processar_com_checkpoint(df: pd.DataFrame, ento
                           coluna_abstract: str = 'Abstract') -> pd.DataFrame:
    """
    Processamento com sistema de checkpoint para recupera√ß√£o
    )
    Args:checkpoint_file)s':
        df: DataFrame a ser processadopo?' in df_checkpoint.columns:ckpoint
        coluna_abstract: Nome da coluna com abstractslinhas j√° processadas")
                resposta = input("Deseja continuar do checkpoint? (s/n): ")        print("Nenhum checkpoint encontrado, iniciando do zero")
    Returns:.lower() == 's':
        DataFrame processado
    """    except FileNotFoundError:df_processado = processar_dataframe_escopo(df, coluna_abstract)
    checkpoint_file = CONFIG['checkpoint_file']um checkpoint encontrado, iniciando do zero")
    
    # Verificar checkpoint existente
    try:a_abstract)e)
        df_checkpoint = pd.read_csv(checkpoint_file)    print(f"Checkpoint salvo em: {checkpoint_file}")
        if 'Se adequa ao escopo?' in df_checkpoint.columns:
            processed_count = df_checkpoint['Se adequa ao escopo?'].ne('').sum()    if checkpoint_file:    return df_processado
            print(f"üìÇ Checkpoint encontrado: {processed_count} linhas j√° processadas")to_csv(checkpoint_file, index=False)
            
            resposta = input("Continuar do checkpoint? (s/n): ")        """
            if resposta.lower() == 's': espec√≠fica
                return df_checkpoint
    except FileNotFoundError:.DataFrame) -> str:
        print("üìù Nenhum checkpoint encontrado, iniciando do zero")    """        df: DataFrame a ser filtrado
    rtigos com Gemini
    # Processar normalmente
    df_processado = processar_dataframe_escopo(df, coluna_abstract)
    s
    # Salvar checkpointReturns:
    df_processado.to_csv(checkpoint_file, index=False)
    print(f"üíæ Checkpoint salvo em: {checkpoint_file}")
    
    return df_processadoif len(dados_filtrados) == 0:    print(f"‚ö†Ô∏è Coluna '{coluna}' n√£o encontrada")
aFrame()m dado dispon√≠vel para an√°lise."
# Carregar o DataFrame
df = pd.read_csv('/home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv')
str.contains(termo, case=False, na=False)filtrados.head(10)
print("Informa√ß√µes do DataFrame:")elif tipo == 'exato':texto_dados = dados_amostra[['Article Title', 'Abstract']].to_string()
print(f"Total de linhas: {len(df)}")
print(f"Colunas dispon√≠veis: {list(df.columns)}")delo_gemini'])
h(termo.lower())
# Verificar se existe coluna Abstract
if 'Abstract' in df.columns:s e tintas:
    abstracts_validos = df['Abstract'].notna().sum()
    print(f"Abstracts n√£o vazios: {abstracts_validos}")return df[mask]{texto_dados}
    
    # Teste com 3 abstracts primeiroataFrame, 
    print("\n=== TESTE INICIAL (3 abstracts) ===")
    df_teste = df.head(3).copy()['Article Title', 'Abstract']) -> pd.DataFrame:
    
    # Processar testeBusca artigos usando m√∫ltiplas palavras-chave em m√∫ltiplas colunas4. Aplica√ß√µes industriais identificadas
    start_test = time.time()
    df_teste_processado = processar_dataframe_escopo(df_teste)
    end_test = time.time()
    
    print(f"\nTempo do teste: {end_test - start_test:.1f} segundos")colunas: Colunas onde buscar
    print("\nResultados do teste:")
    for idx, row in df_teste_processado.iterrows():
        print(f"\nLinha {idx + 1}:")
        print(f"T√≠tulo: {row.get('Article Title', 'N/A')[:80]}...")
        print(f"Adequa√ß√£o: {row['Se adequa ao escopo?']}")ltados = pd.DataFrame()return f"Erro na an√°lise geral: {str(e)}"
    
    # Perguntar sobre processamento completo
    print(f"\n=== PROCESSAMENTO COMPLETO ===")
    print(f"Total de abstracts para processar: {abstracts_validos}")
    print(f"Limite di√°rio recomendado: 1.400 requisi√ß√µes")palavra in palavras_chave:nforma√ß√µes do DataFrame:")
    print(f"Tempo estimado: {(abstracts_validos * 2.5) / 60:.1f} minutos")
    
    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")
    if resposta.lower() == 's':oluna(df, coluna, palavra, tipo='contem')tract
        print("\nIniciando processamento completo com checkpoint...")
        df_completo = processar_com_checkpoint(df, checkpoint_file='analise_escopo_checkpoint.csv')            count_palavra += len(temp)racts_validos = df['Abstract'].notna().sum()
        tados = pd.concat([resultados, temp]) vazios: {abstracts_validos}")
        # Salvar resultado final
        arquivo_saida = 'df_com_analise_escopo_completo.csv'if count_palavra > 0:ste com 3 abstracts primeiro
        df_completo.to_csv(arquivo_saida, index=False)       estatisticas[palavra] = count_palavrarint("\n=== TESTE INICIAL (3 abstracts) ===")
        print(f"\nResultados finais salvos em: {arquivo_saida}")dos")
        

















    print("Colunas dispon√≠veis:", list(df.columns))    print("Coluna 'Abstract' n√£o encontrada no DataFrame")else:                    print(f"Taxa de adequa√ß√£o: {(adequados/(adequados + nao_adequados))*100:.1f}%")        if adequados > 0:                print(f"Total processado: {adequados + nao_adequados + erros}")        print(f"Erros: {erros}")        print(f"N√£o adequados ao escopo: {nao_adequados}")        print(f"Adequados ao escopo: {adequados}")        print(f"\n=== ESTAT√çSTICAS FINAIS ===")                erros = df_completo['Se adequa ao escopo?'].str.contains('Erro', case=False, na=False).sum()        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('N√£o', case=False, na=False).sum()        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()        # Mostrar estat√≠sticas






































































    print("Colunas dispon√≠veis:", list(df.columns))    print("Coluna 'Abstract' n√£o encontrada no DataFrame")else:                    print(f"Taxa de adequa√ß√£o: {(adequados/(adequados + nao_adequados))*100:.1f}%")        if adequados > 0:                print(f"Total processado: {adequados + nao_adequados + erros}")        print(f"Erros: {erros}")        print(f"N√£o adequados ao escopo: {nao_adequados}")        print(f"Adequados ao escopo: {adequados}")        print(f"\n=== ESTAT√çSTICAS FINAIS ===")                erros = df_completo['Se adequa ao escopo?'].str.contains('Erro', case=False, na=False).sum()        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('N√£o', case=False, na=False).sum()        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()        # Mostrar estat√≠sticas                print(f"\nResultados finais salvos em: {arquivo_saida}")        df_completo.to_csv(arquivo_saida, index=False)        arquivo_saida = 'df_com_analise_escopo_completo.csv'        # Salvar resultado final                df_completo = processar_com_checkpoint(df, checkpoint_file='analise_escopo_checkpoint.csv')        print("\nIniciando processamento completo com checkpoint...")    if resposta.lower() == 's':    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")        print(f"Tempo estimado: {(abstracts_validos * 2.5) / 60:.1f} minutos")    print(f"Limite di√°rio recomendado: 1.400 requisi√ß√µes")    print(f"Total de abstracts para processar: {abstracts_validos}")    print(f"\n=== PROCESSAMENTO COMPLETO ===")    # Perguntar sobre processamento completo            print(f"Adequa√ß√£o: {row['Se adequa ao escopo?']}")        print(f"T√≠tulo: {row.get('Article Title', 'N/A')[:80]}...")        print(f"\nLinha {idx + 1}:")    for idx, row in df_teste_processado.iterrows():    print("\nResultados do teste:")    print(f"\nTempo do teste: {end_test - start_test:.1f} segundos")        end_test = time.time()    df_teste_processado = processar_dataframe_escopo(df_teste)    start_test = time.time()    # Processar teste        df_teste = df.head(3).copy()    print("\n=== TESTE INICIAL (3 abstracts) ===")    # Teste com 3 abstracts primeiro        print(f"Abstracts n√£o vazios: {abstracts_validos}")    abstracts_validos = df['Abstract'].notna().sum()if 'Abstract' in df.columns:# Verificar se existe coluna Abstractprint(f"Colunas dispon√≠veis: {list(df.columns)}")print(f"Total de linhas: {len(df)}")print("Informa√ß√µes do DataFrame:")df = pd.read_csv('/home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv')# Carregar o DataFrame    return resultados            print("\n‚ùå Nenhum artigo encontrado")    else:        print(f"üìä Palavras-chave com resultados: {len(estatisticas)}")        print(f"\n‚úÖ Total de artigos √∫nicos encontrados: {len(resultados)}")        resultados = resultados.drop_duplicates()    if len(resultados) > 0:    # Remover duplicatas    # Processar teste
    start_test = time.time()
    df_teste_processado = processar_dataframe_escopo(df_teste)
    end_test = time.time()
    
    print(f"\nTempo do teste: {end_test - start_test:.1f} segundos")
    print("\nResultados do teste:")
    for idx, row in df_teste_processado.iterrows():
        print(f"\nLinha {idx + 1}:")
        print(f"T√≠tulo: {row.get('Article Title', 'N/A')[:80]}...")
        print(f"Adequa√ß√£o: {row['Se adequa ao escopo?']}")
    
    # Perguntar sobre processamento completo
    print(f"\n=== PROCESSAMENTO COMPLETO ===")
    print(f"Total de abstracts para processar: {abstracts_validos}")
    print(f"Limite di√°rio recomendado: 1.400 requisi√ß√µes")
    print(f"Tempo estimado: {(abstracts_validos * 2.5) / 60:.1f} minutos")
    
    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")
    if resposta.lower() == 's':
        print("\nIniciando processamento completo com checkpoint...")
        df_completo = processar_com_checkpoint(df, checkpoint_file='analise_escopo_checkpoint.csv')
        
        # Salvar resultado final
        arquivo_saida = 'df_com_analise_escopo_completo.csv'
        df_completo.to_csv(arquivo_saida, index=False)
        print(f"\nResultados finais salvos em: {arquivo_saida}")
        
        # Mostrar estat√≠sticas
        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()
        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('N√£o', case=False, na=False).sum()
        erros = df_completo['Se adequa ao escopo?'].str.contains('Erro', case=False, na=False).sum()
        
        print(f"\n=== ESTAT√çSTICAS FINAIS ===")
        print(f"Adequados ao escopo: {adequados}")
        print(f"N√£o adequados ao escopo: {nao_adequados}")
        print(f"Erros: {erros}")
        print(f"Total processado: {adequados + nao_adequados + erros}")
        
        if adequados > 0:
            print(f"Taxa de adequa√ß√£o: {(adequados/(adequados + nao_adequados))*100:.1f}%")
        
else:
    print("Coluna 'Abstract' n√£o encontrada no DataFrame")
    print("Colunas dispon√≠veis:", list(df.columns))

## 6. Execu√ß√£o Principal

Script principal para carregar dados e executar an√°lises.

In [None]:
# Carregar e explorar os dados
print("üìÇ Carregando dados...")

try:
    df = pd.read_csv(CONFIG['arquivo_entrada'])
    print(f"‚úÖ Dados carregados com sucesso")
    print(f"üìä Total de linhas: {len(df):,}")
    print(f"üìä Total de colunas: {len(df.columns)}")
    print(f"üìã Colunas dispon√≠veis: {list(df.columns)}")
    
    # Verificar colunas essenciais
    colunas_essenciais = ['Article Title', 'Abstract']
    colunas_encontradas = [col for col in colunas_essenciais if col in df.columns]
    colunas_faltantes = [col for col in colunas_essenciais if col not in df.columns]
    
    print(f"\n‚úÖ Colunas encontradas: {colunas_encontradas}")
    if colunas_faltantes:
        print(f"‚ö†Ô∏è Colunas faltantes: {colunas_faltantes}")
    
    # Estat√≠sticas dos abstracts
    if 'Abstract' in df.columns:
        abstracts_validos = df['Abstract'].notna().sum()
        abstracts_vazios = df['Abstract'].isna().sum()
        print(f"\nüìÑ Abstracts dispon√≠veis: {abstracts_validos:,}")
        print(f"üìÑ Abstracts vazios: {abstracts_vazios:,}")
        print(f"üìÑ Taxa de completude: {(abstracts_validos/len(df))*100:.1f}%")
    
except FileNotFoundError:
    print(f"‚ùå Arquivo n√£o encontrado: {CONFIG['arquivo_entrada']}")
    df = None
except Exception as e:
    print(f"‚ùå Erro ao carregar dados: {e}")
    df = None

In [None]:
# Buscar artigos relevantes por palavras-chave
if df is not None:
    print("\n" + "="*50)
    print("üîç BUSCA POR PALAVRAS-CHAVE")
    print("="*50)
    
    # Buscar artigos usando todas as palavras-chave
    artigos_encontrados = buscar_artigos_por_palavras_chave(df, todas_palavras_chave)
    
    if len(artigos_encontrados) > 0:
        print(f"\nüìã RESULTADOS DA BUSCA:")
        print(f"  Total de artigos encontrados: {len(artigos_encontrados):,}")
        print(f"  Percentual do dataset: {(len(artigos_encontrados)/len(df))*100:.2f}%")
        
        # Mostrar amostra dos t√≠tulos
        print(f"\nüìë Primeiros 10 t√≠tulos encontrados:")
        for i, titulo in enumerate(artigos_encontrados['Article Title'].head(10), 1):
            print(f"  {i:2d}. {titulo[:80]}{'...' if len(titulo) > 80 else ''}")
        
        # Salvar artigos encontrados
        arquivo_filtrados = 'artigos_nanorevestimentos_encontrados.csv'
        artigos_encontrados.to_csv(arquivo_filtrados, index=False)
        print(f"\nüíæ Artigos filtrados salvos em: {arquivo_filtrados}")
        
        # An√°lise geral com Gemini
        print(f"\nü§ñ Realizando an√°lise geral com Gemini...")
        analise_geral = analisar_com_gemini_geral(artigos_encontrados)
        print("\n" + "="*50)
        print("üìä AN√ÅLISE GERAL - GEMINI AI")
        print("="*50)
        print(analise_geral)
        
    else:
        print("\n‚ùå Nenhum artigo encontrado com as palavras-chave especificadas")
        print("üí° Sugest√£o: Verificar se o dataset cont√©m artigos da √°rea")
else:
    print("‚ùå N√£o foi poss√≠vel carregar os dados")

In [None]:
# An√°lise detalhada de escopo (opcional)
if df is not None and len(artigos_encontrados) > 0:
    print("\n" + "="*50)
    print("üî¨ AN√ÅLISE DETALHADA DE ESCOPO")
    print("="*50)
    
    if 'Abstract' in artigos_encontrados.columns:
        abstracts_disponiveis = artigos_encontrados['Abstract'].notna().sum()
        print(f"üìÑ Artigos com abstract: {abstracts_disponiveis:,}")
        
        if abstracts_disponiveis > 0:
            print(f"‚ö†Ô∏è ATEN√á√ÉO: Esta an√°lise usa a API do Gemini")
            print(f"   Limite: {CONFIG['max_requests_per_day']} requisi√ß√µes/dia")
            print(f"   Tempo estimado: {(abstracts_disponiveis * CONFIG['delay_between_requests'])/60:.1f} minutos")
            
            resposta = input("\nRealizar an√°lise detalhada de todos os abstracts? (s/n): ")
            
            if resposta.lower() == 's':
                print("\nüöÄ Iniciando an√°lise detalhada com checkpoint...")
                
                # Usar apenas artigos encontrados para an√°lise
                df_analisado = processar_com_checkpoint(artigos_encontrados)
                
                # Salvar resultado final
                df_analisado.to_csv(CONFIG['arquivo_saida'], index=False)
                print(f"\nüíæ An√°lise completa salva em: {CONFIG['arquivo_saida']}")
                
                # Estat√≠sticas finais
                print("\n" + "="*50)
                print("üìä ESTAT√çSTICAS FINAIS")
                print("="*50)
                
                adequados = df_analisado['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()
                nao_adequados = df_analisado['Se adequa ao escopo?'].str.contains('N√£o', case=False, na=False).sum()
                erros = df_analisado['Se adequa ao escopo?'].str.contains('Erro', case=False, na=False).sum()
                total_analisado = adequados + nao_adequados + erros
                
                print(f"‚úÖ Adequados ao escopo: {adequados:,}")
                print(f"‚ùå N√£o adequados: {nao_adequados:,}")
                print(f"‚ö†Ô∏è Erros: {erros:,}")
                print(f"üìä Total analisado: {total_analisado:,}")
                
                if adequados + nao_adequados > 0:
                    taxa_adequacao = (adequados / (adequados + nao_adequados)) * 100
                    print(f"üìà Taxa de adequa√ß√£o: {taxa_adequacao:.1f}%")
                
                # Mostrar alguns exemplos
                if adequados > 0:
                    print(f"\nüìë Exemplos de artigos adequados:")
                    adequados_df = df_analisado[df_analisado['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False)]
                    for i, row in adequados_df.head(3).iterrows():
                        print(f"\n{i+1}. {row['Article Title'][:80]}...")
                        print(f"   Adequa√ß√£o: {row['Se adequa ao escopo?']}")
            
            else:
                print("\n‚è≠Ô∏è An√°lise detalhada pulada")
                
                # Fazer teste com 3 abstracts
                print("\nüß™ Realizando teste com 3 abstracts...")
                amostra_teste = artigos_encontrados.head(3)
                df_teste = processar_dataframe_escopo(amostra_teste)
                
                print("\nüìã Resultados do teste:")
                for idx, row in df_teste.iterrows():
                    print(f"\n{idx+1}. {row['Article Title'][:60]}...")
                    print(f"   Adequa√ß√£o: {row['Se adequa ao escopo?']}")
        else:
            print("‚ùå Nenhum abstract dispon√≠vel para an√°lise")
    else:
        print("‚ùå Coluna 'Abstract' n√£o encontrada")

## 7. Conclus√£o

### Funcionalidades implementadas:

1. ‚úÖ **Busca por palavras-chave**: Sistema robusto de filtro com m√∫ltiplas categorias
2. ‚úÖ **An√°lise com Gemini AI**: An√°lise autom√°tica de relev√¢ncia dos abstracts
3. ‚úÖ **Rate limiting**: Respeita limites da API (30 req/min, 1.500 req/dia)
4. ‚úÖ **Sistema de checkpoint**: Permite retomar an√°lises interrompidas
5. ‚úÖ **Estat√≠sticas detalhadas**: M√©tricas de adequa√ß√£o e performance
6. ‚úÖ **Exporta√ß√£o de dados**: Salva resultados em formato CSV

### Arquivos gerados:
- `artigos_nanorevestimentos_encontrados.csv`: Artigos filtrados por palavras-chave
- `analise_escopo_checkpoint.csv`: Checkpoint do processamento
- `df_com_analise_escopo_completo.csv`: An√°lise completa com Gemini

### Pr√≥ximos passos:
- Refinar palavras-chave com base nos resultados
- Implementar an√°lise de trends temporais
- Adicionar an√°lise de colabora√ß√µes e redes
- Desenvolver dashboard interativo

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d35fdc8b-8543-45dc-ae25-3ba609dd01b9' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>