# An√°lise de Artigos Cient√≠ficos com Gemini AI

## Escopo: Nanorevestimentos e Tintas (Nanocoatings and Paints)

Este notebook realiza an√°lise automatizada de artigos cient√≠ficos para identificar trabalhos relevantes ao escopo de nanorevestimentos e tintas usando a API do Google Gemini.

### Funcionalidades:
1. **Instala√ß√£o de depend√™ncias**
2. **Configura√ß√£o da API Gemini**
3. **Defini√ß√£o de palavras-chave espec√≠ficas**
4. **Busca e filtro de artigos**
5. **An√°lise individual de abstracts**
6. **Processamento em lote com rate limiting**
7. **Sistema de checkpoint para recupera√ß√£o**





In [17]:
!pip install google.generativeai


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [18]:
# Instala√ß√£o das depend√™ncias necess√°rias
!pip install google-generativeai pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [19]:
# Imports necess√°rios
import pandas as pd
import google.generativeai as genai
import time
import random
from typing import List, Optional

# Configura√ß√£o da API do Gemini
genai.configure(api_key='AIzaSyAcQicBEj8s2NvvCBORlQCgPUrPchR-vCQ')

print("‚úÖ Depend√™ncias carregadas e API configurada")

‚úÖ Depend√™ncias carregadas e API configurada


## 1. Configura√ß√£o de Par√¢metros

Defini√ß√£o dos par√¢metros principais para an√°lise e rate limiting da API.

In [22]:
# Configura√ß√µes principais
CONFIG = {
    'modelo_gemini': 'gemini-2.0-flash-exp',  # Flash-Lite para rate limits melhores
    'max_requests_per_minute': 30,              # Limite de requisi√ß√µes por minuto
    'max_requests_per_day': 1400,               # Limite di√°rio recomendado
    'delay_between_requests': 2.1,              # Delay entre requisi√ß√µes (segundos)
    'arquivo_entrada': '/home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv',
    'checkpoint_file': 'analise_escopo_checkpoint.csv',
    'arquivo_saida': 'df_com_analise_escopo_completo.csv'
}

print("üìã Configura√ß√µes carregadas:")
for key, value in CONFIG.items():
    print(f"  {key}: {value}")

üìã Configura√ß√µes carregadas:
  modelo_gemini: gemini-2.0-flash-exp
  max_requests_per_minute: 30
  max_requests_per_day: 1400
  delay_between_requests: 2.1
  arquivo_entrada: /home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv
  checkpoint_file: analise_escopo_checkpoint.csv
  arquivo_saida: df_com_analise_escopo_completo.csv


## 2. Defini√ß√£o de Palavras-Chave

Conjunto abrangente de termos relacionados ao escopo de nanorevestimentos e tintas.

In [25]:
# Palavras-chave organizadas por categoria
PALAVRAS_CHAVE = {
    'termos_principais': [
        "nanocoating", "nanocoatings", "nano coating", "nano coatings",
        "nanorevestimento", "nanorevestimentos", "nanocomposite coating"
    ],
    
    'materiais_nano': [
        "TiO2", "titanium dioxide", "zinc oxide", "ZnO", 
        "silica nanoparticle", "alumina nanoparticle", "Al2O3",
        "carbon nanotube", "CNT", "graphene", "iron oxide", "Fe2O3",
        "cerium oxide", "CeO2", "clay nanoparticles"
    ],
    
    'propriedades_funcionais': [
        "anticorrosive coating", "anti-corrosion coating",
        "antimicrobial coating", "antibacterial coating",
        "self-cleaning coating", "superhydrophobic coating",
        "photocatalytic coating", "UV resistant coating",
        "scratch resistant coating", "wear resistant coating"
    ],
    
    'tecnicas_preparacao': [
        "sol-gel coating", "layer-by-layer", "dip coating",
        "spin coating", "spray coating", "electrodeposition",
        "CVD coating", "PVD coating", "plasma treatment"
    ],
    
    'aplicacoes': [
        "protective coating", "functional coating",
        "smart coating", "intelligent coating", "automotive coating",
        "marine coating", "architectural coating", "biomedical coating"
    ]
}

# Criar lista √∫nica de todas as palavras-chave
todas_palavras_chave = []
for categoria, palavras in PALAVRAS_CHAVE.items():
    todas_palavras_chave.extend(palavras)

print(f"üîç Total de palavras-chave definidas: {len(todas_palavras_chave)}")
print(f"üìÇ Categorias: {list(PALAVRAS_CHAVE.keys())}")

üîç Total de palavras-chave definidas: 49
üìÇ Categorias: ['termos_principais', 'materiais_nano', 'propriedades_funcionais', 'tecnicas_preparacao', 'aplicacoes']


## 3. Fun√ß√µes Utilit√°rias

Fun√ß√µes para filtro, busca e manipula√ß√£o de dados.

In [28]:
def filtrar_coluna(df, coluna, palavra, tipo="contem"):
    """
    Fun√ß√£o auxiliar para filtrar uma dataframe com base em uma palavra-chave espec√≠fica.

    Par√¢metros:
    - df (DataFrame): DataFrame Pandas com os dados
    - coluna (str): Nome da coluna a ser filtrada
    - palavra (str): Palavra-chave usada para filtrar
    - tipo (str): M√©todo de filtro, op√ß√µes: 'contem', 'igual'. Default √© 'contem'.

    Retorno:
    - DataFrame contendo as linhas que correspondem ao filtro
    """
    if tipo == "contem":
        resultado = df[df[coluna].str.contains(palavra, case=False, na=False)]
    elif tipo == "igual":
        resultado = df[df[coluna].str.lower() == palavra.lower()]
    else:
        raise ValueError("Tipo de filtro n√£o suportado. Use 'contem' ou 'igual'.")

    return resultado

## 4. An√°lise com Gemini AI

Fun√ß√µes para an√°lise autom√°tica de abstracts usando a API do Gemini.

In [31]:
# ...existing code...

def analisar_escopo_abstract(abstract_text):
    """
    Analisa um abstract individual para determinar se se adequa ao escopo de nanorevestimentos e tintas
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "N√£o se adequa - Abstract vazio ou n√£o dispon√≠vel"
    
    model = genai.GenerativeModel('gemini-2.0-flash')
    
    prompt = f"""
    Analise o seguinte abstract cient√≠fico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".

    Abstract: {abstract_text}

    Crit√©rios para adequa√ß√£o ao escopo:
    - Estudos sobre nanomateriais aplicados em revestimentos ou tintas
    - Propriedades funcionais de nanocoatings (anticorros√£o, antimicrobiano, autolimpante, etc.)
    - T√©cnicas de prepara√ß√£o ou caracteriza√ß√£o de nanorevestimentos
    - Aplica√ß√µes industriais de tintas nanoestruturadas
    - Materiais nanoestruturados para prote√ß√£o de superf√≠cies

    Responda APENAS uma das op√ß√µes:
    1. "Sim - [breve justificativa]"
    2. "N√£o - [breve justificativa explicando por que n√£o se adequa]"

    Mantenha a justificativa concisa (m√°ximo 100 palavras).
    """
    
    try:
        response = model.generate_content(prompt)
        return response.text.strip()
    except Exception as e:
        return f"Erro na an√°lise - {str(e)}"

def processar_dataframe_escopo(df, coluna_abstract='Abstract', batch_size=10):
    """
    Processa todo o DataFrame adicionando a coluna de adequa√ß√£o ao escopo
    """
    # Verificar se a coluna Abstract existe
    if coluna_abstract not in df.columns:
        print(f"Coluna '{coluna_abstract}' n√£o encontrada no DataFrame")
        return df
    
    # Criar uma c√≥pia do DataFrame
    df_processado = df.copy()
    
    # Inicializar a nova coluna
    df_processado['Se adequa ao escopo?'] = ''
    
    total_linhas = len(df_processado)
    print(f"Processando {total_linhas} abstracts...")
    
    # Processar em lotes para evitar sobrecarga da API
    for i in range(0, total_linhas, batch_size):
        batch_end = min(i + batch_size, total_linhas)
        print(f"Processando linhas {i+1} a {batch_end}...")
        
        for idx in range(i, batch_end):
            abstract = df_processado.iloc[idx][coluna_abstract]
            resultado = analisar_escopo_abstract(abstract)
            df_processado.iloc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultado
            
            # Mostrar progresso
            if (idx + 1) % 5 == 0:
                print(f"  Processado: {idx + 1}/{total_linhas}")
        
        # Pequena pausa entre lotes para n√£o sobrecarregar a API
        import time
        time.sleep(2)
    
    return df_processado

# Carregar o DataFrame
df = pd.read_csv('/work/ExtensaoemCienciadeDadosUece/Imers√£o - CenanoInk/Alan Delon.csv')

print("Informa√ß√µes do DataFrame:")
print(f"Total de linhas: {len(df)}")
print(f"Colunas dispon√≠veis: {list(df.columns)}")

# Verificar se existe coluna Abstract
if 'Abstract' in df.columns:
    print(f"Abstracts n√£o vazios: {df['Abstract'].notna().sum()}")
    
    # Processar apenas uma amostra primeiro (para teste)
    print("\n=== PROCESSAMENTO DE TESTE (primeiras 5 linhas) ===")
    df_teste = df.head(5).copy()
    df_teste_processado = processar_dataframe_escopo(df_teste, batch_size=1)
    
    print("\nResultados do teste:")
    for idx, row in df_teste_processado.iterrows():
        print(f"\nLinha {idx + 1}:")
        print(f"T√≠tulo: {row.get('Article Title', 'N/A')[:100]}...")
        print(f"Adequa√ß√£o: {row['Se adequa ao escopo?']}")
    
    # Perguntar se deseja processar todo o DataFrame
    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")
    if resposta.lower() == 's':
        print("\n=== PROCESSANDO TODO O DATAFRAME ===")
        df_completo = processar_dataframe_escopo(df)
        
        # Salvar resultado
        arquivo_saida = 'df_com_analise_escopo.csv'
        df_completo.to_csv(arquivo_saida, index=False)
        print(f"\nResultados salvos em: {arquivo_saida}")
        
        # Mostrar estat√≠sticas
        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()
        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('N√£o', case=False, na=False).sum()
        
        print(f"\n=== ESTAT√çSTICAS FINAIS ===")
        print(f"Adequados ao escopo: {adequados}")
        print(f"N√£o adequados ao escopo: {nao_adequados}")
        print(f"Total processado: {adequados + nao_adequados}")
        
else:
    print("Coluna 'Abstract' n√£o encontrada no DataFrame")
    print("Colunas dispon√≠veis:", list(df.columns))

Informa√ß√µes do DataFrame:
Total de linhas: 525
Colunas dispon√≠veis: ['Publication Type', 'Authors', 'Book Authors', 'Book Editors', 'Book Group Authors', 'Author Full Names', 'Book Author Full Names', 'Group Authors', 'Article Title', 'Source Title', 'Book Series Title', 'Book Series Subtitle', 'Language', 'Document Type', 'Conference Title', 'Conference Date', 'Conference Location', 'Conference Sponsor', 'Conference Host', 'Author Keywords', 'Keywords Plus', 'Abstract', 'Addresses', 'Affiliations', 'Reprint Addresses', 'Email Addresses', 'Researcher Ids', 'ORCIDs', 'Funding Orgs', 'Funding Name Preferred', 'Funding Text', 'Cited References', 'Cited Reference Count', 'Times Cited, WoS Core', 'Times Cited, All Databases', '180 Day Usage Count', 'Since 2013 Usage Count', 'Publisher', 'Publisher City', 'Publisher Address', 'ISSN', 'eISSN', 'ISBN', 'Journal Abbreviation', 'Journal ISO Abbreviation', 'Publication Date', 'Publication Year', 'Volume', 'Issue', 'Part Number', 'Supplement', 

## 5. Processamento em Lote

Fun√ß√µes para processar grandes volumes de dados respeitando rate limits.

In [34]:
import pandas as pd
import random
import time
from typing import List

# Fixing imports and cleaning up erroneous duplicated or corrupted lines in the code.
def analisar_escopo_abstract(abstract_text: str, retry_count: int = 3) -> str:
    """
    Analisa um abstract individual para determinar se se adequa ao escopo de nanorevestimentos e tintas usando Gemini 2.0 Flash-Lite.

    Args:
        abstract_text: Texto do abstract.
        retry_count: N√∫mero de tentativas em caso de erro.

    Returns:
        String com resultado da an√°lise.
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "N√£o se adequa - Abstract vazio ou n√£o dispon√≠vel"

    # Placeholder for initializing the model
    try:
        model = genai.GenerativeModel(CONFIG['modelo_gemini'])
    except NameError:
        raise Exception("CONFIG or genai module not properly configured")

    prompt = f"""
    Analise o seguinte abstract cient√≠fico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".

    Abstract: {abstract_text}

    Crit√©rios para adequa√ß√£o ao escopo:
        - Materiais nanoestruturados para prote√ß√£o de superf√≠cies
        - Estudos sobre nanomateriais aplicados em revestimentos ou tintas
        - Propriedades funcionais de nanocoatings (anticorros√£o, antimicrobiano, autolimpante, etc.)
        - T√©cnicas de prepara√ß√£o ou caracteriza√ß√£o de nanorevestimentos
        - Aplica√ß√µes industriais de tintas nanoestruturadas

    Responda APENAS uma das op√ß√µes:
        1. "Sim - [breve justificativa]"
        2. "N√£o - [breve justificativa explicando por que n√£o se adequa]"

    Mantenha a justificativa concisa (m√°ximo 100 palavras).
    """

    for attempt in range(retry_count):
        try:
            response = model.generate_content(prompt)
            return response.text.strip()
        except Exception as e:
            error_msg = str(e)
            if "429" in error_msg or "quota" in error_msg.lower():
                if attempt < retry_count - 1:
                    wait_time = 3 + random.randint(1, 2)
                    print(f"  ‚è≥ Rate limit - aguardando {wait_time}s...")
                    time.sleep(wait_time)
                    continue
                else:
                    return f"Erro - Rate limit excedido ap√≥s {retry_count} tentativas"
            return f"Erro na an√°lise - {error_msg}"

    return "Erro - Falha ap√≥s m√∫ltiplas tentativas"

## 6. Execu√ß√£o Principal

Script principal para carregar dados e executar an√°lises.

In [37]:
# Carregar e explorar os dados
print("üìÇ Carregando dados...")

try:
    df = pd.read_csv("/work/ExtensaoemCienciadeDadosUece/Imers√£o - CenanoInk/Alan Delon.csv")
    print(f"‚úÖ Dados carregados com sucesso")
    print(f"üìä Total de linhas: {len(df):,}")
    print(f"üìä Total de colunas: {len(df.columns)}")
    print(f"üìã Colunas dispon√≠veis: {list(df.columns)}")
    
    # Verificar colunas essenciais
    colunas_essenciais = ['Article Title', 'Abstract']
    colunas_encontradas = [col for col in colunas_essenciais if col in df.columns]
    colunas_faltantes = [col for col in colunas_essenciais if col not in df.columns]
    
    print(f"\n‚úÖ Colunas encontradas: {colunas_encontradas}")
    if colunas_faltantes:
        print(f"‚ö†Ô∏è Colunas faltantes: {colunas_faltantes}")
    
    # Estat√≠sticas dos abstracts
    if 'Abstract' in df.columns:
        abstracts_validos = df['Abstract'].notna().sum()
        abstracts_vazios = df['Abstract'].isna().sum()
        print(f"\nüìÑ Abstracts dispon√≠veis: {abstracts_validos:,}")
        print(f"üìÑ Abstracts vazios: {abstracts_vazios:,}")
        print(f"üìÑ Taxa de completude: {(abstracts_validos/len(df))*100:.1f}%")
    
except FileNotFoundError:
    print(f"‚ùå Arquivo n√£o encontrado: {CONFIG['arquivo_entrada']}")
    df = None
except Exception as e:
    print(f"‚ùå Erro ao carregar dados: {e}")
    df = None

üìÇ Carregando dados...
‚úÖ Dados carregados com sucesso
üìä Total de linhas: 525
üìä Total de colunas: 73
üìã Colunas dispon√≠veis: ['Publication Type', 'Authors', 'Book Authors', 'Book Editors', 'Book Group Authors', 'Author Full Names', 'Book Author Full Names', 'Group Authors', 'Article Title', 'Source Title', 'Book Series Title', 'Book Series Subtitle', 'Language', 'Document Type', 'Conference Title', 'Conference Date', 'Conference Location', 'Conference Sponsor', 'Conference Host', 'Author Keywords', 'Keywords Plus', 'Abstract', 'Addresses', 'Affiliations', 'Reprint Addresses', 'Email Addresses', 'Researcher Ids', 'ORCIDs', 'Funding Orgs', 'Funding Name Preferred', 'Funding Text', 'Cited References', 'Cited Reference Count', 'Times Cited, WoS Core', 'Times Cited, All Databases', '180 Day Usage Count', 'Since 2013 Usage Count', 'Publisher', 'Publisher City', 'Publisher Address', 'ISSN', 'eISSN', 'ISBN', 'Journal Abbreviation', 'Journal ISO Abbreviation', 'Publication Date', 'P

In [43]:
def buscar_artigos_por_palavras_chave(df, palavras_chave):
    """
    Filtra os artigos em um DataFrame com base em uma lista de palavras-chave.

    Args:
        df (pd.DataFrame): DataFrame contendo os artigos.
        palavras_chave (List[str]): Lista de palavras-chave para buscar nos abstracts ou t√≠tulos.

    Returns:
        pd.DataFrame: DataFrame com os artigos que cont√™m as palavras-chave.
    """
    if 'Abstract' not in df.columns or 'Article Title' not in df.columns:
        raise ValueError("O DataFrame deve conter as colunas 'Abstract' e 'Article Title'")

    # Criar um filtro para verificar se as palavras-chave aparecem no t√≠tulo ou resumo
    filtro = (df['Abstract'].str.contains('|'.join(palavras_chave), case=False, na=False) |
              df['Article Title'].str.contains('|'.join(palavras_chave), case=False, na=False))

    # Aplicar o filtro ao DataFrame
    return df[filtro].copy()

In [52]:
def processar_com_checkpoint(df, checkpoint_file='checkpoint.csv', batch_size=10):
    """
    Processa o DataFrame em lotes e salva checkpoints em um arquivo CSV intermedi√°rio para recupera√ß√£o.

    Args:
        df (pd.DataFrame): DataFrame a ser processado.
        checkpoint_file (str): Nome do arquivo de checkpoint.
        batch_size (int): N√∫mero de linhas a serem processadas por lote.

    Returns:
        pd.DataFrame: DataFrame com os resultados do processamento.
    """
    import os
    import pandas as pd

    # Carregar checkpoint se j√° existir
    if os.path.exists(checkpoint_file):
        df_checkpoint = pd.read_csv(checkpoint_file)
        processed_ids = set(df_checkpoint['ID'])
        print(f"üîÑ Checkpoint encontrado. {len(processed_ids):,} linhas j√° processadas.")
    else:
        df_checkpoint = pd.DataFrame()
        processed_ids = set()

    # Identificar IDs a processar
    df['ID'] = df.index  # Garantir uma coluna ID √∫nica
    to_process = df[~df['ID'].isin(processed_ids)]

    print(f"üöÄ Iniciando processamento com checkpoint...")
    total = len(to_process)

    for start in range(0, total, batch_size):
        end = min(start + batch_size, total)
        batch = to_process.iloc[start:end]
        print(f"üî¨ Processando linhas {start + 1} a {end}/{total}...")

        # Executar an√°lise lotes
        batch['Se adequa ao escopo?'] = batch['Abstract'].apply(analisar_escopo_abstract)

        # Adicionar ao checkpoint
        df_checkpoint = pd.concat([df_checkpoint, batch], ignore_index=True)

        # Salvar checkpoint
        df_checkpoint.to_csv(checkpoint_file, index=False)

        print(f"‚úîÔ∏è Checkpoint salvo: {checkpoint_file}")

    print("‚úÖ Processamento conclu√≠do.")
    return df_checkpoint

## 7. Conclus√£o

### Funcionalidades implementadas:

1. ‚úÖ **Busca por palavras-chave**: Sistema robusto de filtro com m√∫ltiplas categorias
2. ‚úÖ **An√°lise com Gemini AI**: An√°lise autom√°tica de relev√¢ncia dos abstracts
3. ‚úÖ **Rate limiting**: Respeita limites da API (30 req/min, 1.500 req/dia)
4. ‚úÖ **Sistema de checkpoint**: Permite retomar an√°lises interrompidas
5. ‚úÖ **Estat√≠sticas detalhadas**: M√©tricas de adequa√ß√£o e performance
6. ‚úÖ **Exporta√ß√£o de dados**: Salva resultados em formato CSV

### Arquivos gerados:
- `artigos_nanorevestimentos_encontrados.csv`: Artigos filtrados por palavras-chave
- `analise_escopo_checkpoint.csv`: Checkpoint do processamento
- `df_com_analise_escopo_completo.csv`: An√°lise completa com Gemini

### Pr√≥ximos passos:
- Refinar palavras-chave com base nos resultados
- Implementar an√°lise de trends temporais
- Adicionar an√°lise de colabora√ß√µes e redes
- Desenvolver dashboard interativo

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d35fdc8b-8543-45dc-ae25-3ba609dd01b9' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>