# Análise de Artigos Científicos com Gemini AI

## Escopo: Nanorevestimentos e Tintas (Nanocoatings and Paints)

Este notebook realiza análise automatizada de artigos científicos para identificar trabalhos relevantes ao escopo de nanorevestimentos e tintas usando a API do Google Gemini.

### Funcionalidades:
1. **Instalação de dependências**
2. **Configuração da API Gemini**
3. **Definição de palavras-chave específicas**
4. **Busca e filtro de artigos**
5. **Análise individual de abstracts**
6. **Processamento em lote com rate limiting**
7. **Sistema de checkpoint para recuperação**





In [17]:
!pip install google.generativeai


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [91]:
# Instalação das dependências necessárias
!pip install google-generativeai pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [94]:
# Imports necessários
import pandas as pd
import google.generativeai as genai
import time
import random
from typing import List, Optional

# Configuração da API do Gemini
genai.configure(api_key='AIzaSyA_wEQ0XgcJNy9Yw58sH94VBeI14mpH9b0')

print("✅ Dependências carregadas e API configurada")

✅ Dependências carregadas e API configurada


## 1. Configuração de Parâmetros

Definição dos parâmetros principais para análise e rate limiting da API.

In [103]:
# Configurações principais
CONFIG = {
    'modelo_gemini': 'Gemini 2.0 Flash-Lite',  # Flash-Lite para rate limits melhores
    'max_requests_per_minute': 10,              # Limite de requisições por minuto
    'max_requests_per_day': 1400,               # Limite diário recomendado
    'delay_between_requests': 2.1,              # Delay entre requisições (segundos)
    'arquivo_entrada': '/home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv',
    'checkpoint_file': 'analise_escopo_checkpoint.csv',
    'arquivo_saida': 'df_com_analise_escopo_completo.csv'
}

print("📋 Configurações carregadas:")
for key, value in CONFIG.items():
    print(f"  {key}: {value}")

📋 Configurações carregadas:
  modelo_gemini: Gemini 2.0 Flash-Lite
  max_requests_per_minute: 10
  max_requests_per_day: 1400
  delay_between_requests: 2.1
  arquivo_entrada: /home/delon/Modelos/cenanoink/Projeto-CENanoInk/Alan Delon.csv
  checkpoint_file: analise_escopo_checkpoint.csv
  arquivo_saida: df_com_analise_escopo_completo.csv


## 2. Definição de Palavras-Chave

Conjunto abrangente de termos relacionados ao escopo de nanorevestimentos e tintas.

In [106]:
# Palavras-chave organizadas por categoria



PALAVRAS_CHAVE = {
    'main_terms': [
        "nanocoating", "nanocoatings", "nano coating", "nano coatings",
        "nanocomposite coating",
        "nanoparticle coating", "nanostructured coating", "thin film coating",
        "nanopaint", "nanopaints", "nano paint", "nano paints",
        "nanotechnological paint", "nanotechnological paints",
        "nanotechnological coating", "nanotechnological coatings",
        "nanocomposite paint", "nanoparticle enhanced paint"
    ],
    
    'nano_materials': [
        "TiO2", "titanium dioxide",
        "zinc oxide", "ZnO",
        "silica nanoparticle", "SiO2",
        "alumina nanoparticle", "Al2O3",
        "carbon nanotube", "CNT",
        "graphene", "graphene oxide",
        "iron oxide", "Fe2O3", "Fe3O4",
        "cerium oxide", "CeO2",
        "silver nanoparticles", "AgNPs",
        "gold nanoparticles", "AuNPs",
        "quantum dots",
        "nanoclays", "clay nanoparticles", "montmorillonite",
        "polymeric nanoparticles",
        "nanocellulose", "cellulose nanocrystals"
    ],
    
    'functional_properties': [
        "anticorrosive coating", "anti-corrosion coating",
        "antimicrobial coating", "antibacterial coating", "antifungal coating", "antiviral coating",
        "self-healing coating", "self-repairing coating",
        "self-cleaning coating", "superhydrophobic coating", "hydrophobic coating", "oleophobic coating",
        "photocatalytic coating",
        "UV resistant coating", "UV protection", "UV blocker",
        "scratch resistant coating", "anti-scratch",
        "wear resistant coating", "abrasion resistant coating",
        "thermal barrier coating", "thermal insulation",
        "flame retardant coating", "fire retardant",
        "anti-fouling coating",
        "conductive coating",
        "anti-static coating",
        "barrier coating (gas, moisture)",
        "easy-to-clean",
        "enhanced adhesion",
        "corrosion inhibitor",
        "biocidal properties"
    ],
    
    'preparation_techniques': [
        "sol-gel coating", "sol-gel process",
        "layer-by-layer assembly", "LbL",
        "dip coating",
        "spin coating",
        "spray coating", "air-spray", "electrostatic spray",
        "electrodeposition", "electrophoretic deposition (EPD)",
        "chemical vapor deposition", "CVD coating",
        "physical vapor deposition", "PVD coating", "sputtering", "evaporation",
        "plasma treatment", "plasma polymerization",
        "atomic layer deposition", "ALD",
        "inkjet printing",
        "roll-to-roll coating",
        "microemulsion polymerization",
        "in-situ polymerization",
        "ultrasonic spray pyrolysis"
    ],
    
    'applications': [
        "protective coating",
        "functional coating",
        "smart coating", "intelligent coating",
        "automotive coating", "automotive paint", "automotive sector",
        "marine coating", "marine paint", "marine anti-fouling",
        "architectural coating", "architectural paint", "civil construction", "building sector",
        "aerospace coating", "aerospace sector",
        "biomedical coating", "biomedical implants", "medical devices",
        "electronic coating", "coating for electronics", "displays",
        "textile coating", "smart textiles",
        "packaging coating", "active packaging",
        "optical coating", "lenses",
        "energy applications", "solar cells", "batteries", "energy storage",
        "catalysis", "catalysts",
        "environmental remediation", "water purification",
        "pipeline coating",
        "wood coating",
        "glass coating"
    ]
}


# Criar lista única de todas as palavras-chave
todas_palavras_chave = []
for categoria, palavras in PALAVRAS_CHAVE.items():
    todas_palavras_chave.extend(palavras)

print(f"🔍 Total de palavras-chave definidas: {len(todas_palavras_chave)}")
print(f"📂 Categorias: {list(PALAVRAS_CHAVE.keys())}")

🔍 Total de palavras-chave definidas: 143
📂 Categorias: ['main_terms', 'nano_materials', 'functional_properties', 'preparation_techniques', 'applications']


## 3. Funções Utilitárias

Funções para filtro, busca e manipulação de dados.

In [109]:
def filtrar_coluna(df, coluna, palavra, tipo="contem"):
    """
    Função auxiliar para filtrar uma dataframe com base em uma palavra-chave específica.

    Parâmetros:
    - df (DataFrame): DataFrame Pandas com os dados
    - coluna (str): Nome da coluna a ser filtrada
    - palavra (str): Palavra-chave usada para filtrar
    - tipo (str): Método de filtro, opções: 'contem', 'igual'. Default é 'contem'.

    Retorno:
    - DataFrame contendo as linhas que correspondem ao filtro
    """
    if tipo == "contem":
        resultado = df[df[coluna].str.contains(palavra, case=False, na=False)]
    elif tipo == "igual":
        resultado = df[df[coluna].str.lower() == palavra.lower()]
    else:
        raise ValueError("Tipo de filtro não suportado. Use 'contem' ou 'igual'.")

    return resultado

## 4. Análise com Gemini AI

Funções para análise automática de abstracts usando a API do Gemini.

In [112]:
# ...existing code...

def analisar_escopo_abstract(abstract_text):
    """
    Analisa um abstract individual para determinar se se adequa ao escopo de nanorevestimentos e tintas
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "Não se adequa - Abstract vazio ou não disponível"
    
    model = genai.GenerativeModel('gemini-2.0-flash')
    
    prompt = f"""
    Analise o seguinte abstract científico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".

    Abstract: {abstract_text}

    Critérios para adequação ao escopo:
    - Estudos sobre nanomateriais aplicados em revestimentos ou tintas
    - Propriedades funcionais de nanocoatings (anticorrosão, antimicrobiano, autolimpante, etc.)
    - Técnicas de preparação ou caracterização de nanorevestimentos
    - Aplicações industriais de tintas nanoestruturadas
    - Materiais nanoestruturados para proteção de superfícies

    Responda APENAS uma das opções:
    1. "Sim - [breve justificativa]"
    2. "Não - [breve justificativa explicando por que não se adequa]"

    Mantenha a justificativa concisa (máximo 100 palavras).
    """
    
    try:
        response = model.generate_content(prompt)
        return response.text.strip()
    except Exception as e:
        return f"Erro na análise - {str(e)}"

def processar_dataframe_escopo(df, coluna_abstract='Abstract', batch_size=10):
    """
    Processa todo o DataFrame adicionando a coluna de adequação ao escopo
    """
    # Verificar se a coluna Abstract existe
    if coluna_abstract not in df.columns:
        print(f"Coluna '{coluna_abstract}' não encontrada no DataFrame")
        return df
    
    # Criar uma cópia do DataFrame
    df_processado = df.copy()
    
    # Inicializar a nova coluna
    df_processado['Se adequa ao escopo?'] = ''
    
    total_linhas = len(df_processado)
    print(f"Processando {total_linhas} abstracts...")
    
    # Processar em lotes para evitar sobrecarga da API
    for i in range(0, total_linhas, batch_size):
        batch_end = min(i + batch_size, total_linhas)
        print(f"Processando linhas {i+1} a {batch_end}...")
        
        for idx in range(i, batch_end):
            abstract = df_processado.iloc[idx][coluna_abstract]
            resultado = analisar_escopo_abstract(abstract)
            df_processado.iloc[idx, df_processado.columns.get_loc('Se adequa ao escopo?')] = resultado
            
            # Mostrar progresso
            if (idx + 1) % 5 == 0:
                print(f"  Processado: {idx + 1}/{total_linhas}")
        
        # Pequena pausa entre lotes para não sobrecarregar a API
        import time
        time.sleep(2)
    
    return df_processado

# Carregar o DataFrame
df = pd.read_csv('/work/ExtensaoemCienciadeDadosUece/Imersão - CenanoInk/Alan Delon.csv')

print("Informações do DataFrame:")
print(f"Total de linhas: {len(df)}")
print(f"Colunas disponíveis: {list(df.columns)}")

# Verificar se existe coluna Abstract
if 'Abstract' in df.columns:
    print(f"Abstracts não vazios: {df['Abstract'].notna().sum()}")
    
    # Processar apenas uma amostra primeiro (para teste)
    print("\n=== PROCESSAMENTO DE TESTE (primeiras 5 linhas) ===")
    df_teste = df.head(5).copy()
    df_teste_processado = processar_dataframe_escopo(df_teste, batch_size=1)
    
    print("\nResultados do teste:")
    for idx, row in df_teste_processado.iterrows():
        print(f"\nLinha {idx + 1}:")
        print(f"Título: {row.get('Article Title', 'N/A')[:100]}...")
        print(f"Adequação: {row['Se adequa ao escopo?']}")
    
    # Perguntar se deseja processar todo o DataFrame
    resposta = input("\nDeseja processar todo o DataFrame? (s/n): ")
    if resposta.lower() == 's':
        print("\n=== PROCESSANDO TODO O DATAFRAME ===")
        df_completo = processar_dataframe_escopo(df)
        
        # Salvar resultado
        arquivo_saida = 'df_com_analise_escopo.csv'
        df_completo.to_csv(arquivo_saida, index=False)
        print(f"\nResultados salvos em: {arquivo_saida}")
        
        # Mostrar estatísticas
        adequados = df_completo['Se adequa ao escopo?'].str.contains('Sim', case=False, na=False).sum()
        nao_adequados = df_completo['Se adequa ao escopo?'].str.contains('Não', case=False, na=False).sum()
        
        print(f"\n=== ESTATÍSTICAS FINAIS ===")
        print(f"Adequados ao escopo: {adequados}")
        print(f"Não adequados ao escopo: {nao_adequados}")
        print(f"Total processado: {adequados + nao_adequados}")
        
else:
    print("Coluna 'Abstract' não encontrada no DataFrame")
    print("Colunas disponíveis:", list(df.columns))

Informações do DataFrame:
Total de linhas: 525
Colunas disponíveis: ['Publication Type', 'Authors', 'Book Authors', 'Book Editors', 'Book Group Authors', 'Author Full Names', 'Book Author Full Names', 'Group Authors', 'Article Title', 'Source Title', 'Book Series Title', 'Book Series Subtitle', 'Language', 'Document Type', 'Conference Title', 'Conference Date', 'Conference Location', 'Conference Sponsor', 'Conference Host', 'Author Keywords', 'Keywords Plus', 'Abstract', 'Addresses', 'Affiliations', 'Reprint Addresses', 'Email Addresses', 'Researcher Ids', 'ORCIDs', 'Funding Orgs', 'Funding Name Preferred', 'Funding Text', 'Cited References', 'Cited Reference Count', 'Times Cited, WoS Core', 'Times Cited, All Databases', '180 Day Usage Count', 'Since 2013 Usage Count', 'Publisher', 'Publisher City', 'Publisher Address', 'ISSN', 'eISSN', 'ISBN', 'Journal Abbreviation', 'Journal ISO Abbreviation', 'Publication Date', 'Publication Year', 'Volume', 'Issue', 'Part Number', 'Supplement', 'Sp

## 5. Processamento em Lote

Funções para processar grandes volumes de dados respeitando rate limits.

In [1]:
import pandas as pd
import random
import time
from typing import List

# Fixing imports and cleaning up erroneous duplicated or corrupted lines in the code.
def analisar_escopo_abstract(abstract_text: str, retry_count: int = 3) -> str:
    """
    Analisa um abstract individual para determinar se se adequa ao escopo de nanorevestimentos e tintas usando Gemini 2.0 Flash-Lite.

    Args:
        abstract_text: Texto do abstract.
        retry_count: Número de tentativas em caso de erro.

    Returns:
        String com resultado da análise.
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "Não se adequa - Abstract vazio ou não disponível"

    # Placeholder for initializing the model
    try:
        model = genai.GenerativeModel(CONFIG['modelo_gemini'])
    except NameError:
        raise Exception("CONFIG or genai module not properly configured")

    prompt = f"""
    Analise o seguinte abstract científico e determine se ele se adequa ao escopo de pesquisa sobre "nanorevestimentos e tintas (nanocoatings and paints)".

    Abstract: {abstract_text}

    Critérios para adequação ao escopo:
        - Materiais nanoestruturados para proteção de superfícies
        - Estudos sobre nanomateriais aplicados em revestimentos ou tintas
        - Propriedades funcionais de nanocoatings (anticorrosão, antimicrobiano, autolimpante, etc.)
        - Técnicas de preparação ou caracterização de nanorevestimentos
        - Aplicações industriais de tintas nanoestruturadas

    Responda APENAS uma das opções:
        1. "Sim - [breve justificativa]"
        2. "Não - [breve justificativa explicando por que não se adequa]"

    Mantenha a justificativa concisa (máximo 100 palavras).
    """

    for attempt in range(retry_count):
        try:
            response = model.generate_content(prompt)
            return response.text.strip()
        except Exception as e:
            error_msg = str(e)
            if "429" in error_msg or "quota" in error_msg.lower():
                if attempt < retry_count - 1:
                    wait_time = 3 + random.randint(1, 2)
                    print(f"  ⏳ Rate limit - aguardando {wait_time}s...")
                    time.sleep(wait_time)
                    continue
                else:
                    return f"Erro - Rate limit excedido após {retry_count} tentativas"
            return f"Erro na análise - {error_msg}"

    return "Erro - Falha após múltiplas tentativas"

## 6. Execução Principal

Script principal para carregar dados e executar análises.

In [82]:
# Carregar e explorar os dados
print("📂 Carregando dados...")

try:
    df = pd.read_csv("/work/ExtensaoemCienciadeDadosUece/Imersão - CenanoInk/Alan Delon.csv")
    print(f"✅ Dados carregados com sucesso")
    print(f"📊 Total de linhas: {len(df):,}")
    print(f"📊 Total de colunas: {len(df.columns)}")
    print(f"📋 Colunas disponíveis: {list(df.columns)}")
    
    # Verificar colunas essenciais
    colunas_essenciais = ['Article Title', 'Abstract']
    colunas_encontradas = [col for col in colunas_essenciais if col in df.columns]
    colunas_faltantes = [col for col in colunas_essenciais if col not in df.columns]
    
    print(f"\n✅ Colunas encontradas: {colunas_encontradas}")
    if colunas_faltantes:
        print(f"⚠️ Colunas faltantes: {colunas_faltantes}")
    
    # Estatísticas dos abstracts
    if 'Abstract' in df.columns:
        abstracts_validos = df['Abstract'].notna().sum()
        abstracts_vazios = df['Abstract'].isna().sum()
        print(f"\n📄 Abstracts disponíveis: {abstracts_validos:,}")
        print(f"📄 Abstracts vazios: {abstracts_vazios:,}")
        print(f"📄 Taxa de completude: {(abstracts_validos/len(df))*100:.1f}%")
    
except FileNotFoundError:
    print(f"❌ Arquivo não encontrado: {CONFIG['arquivo_entrada']}")
    df = None
except Exception as e:
    print(f"❌ Erro ao carregar dados: {e}")
    df = None

📂 Carregando dados...
✅ Dados carregados com sucesso
📊 Total de linhas: 525
📊 Total de colunas: 73
📋 Colunas disponíveis: ['Publication Type', 'Authors', 'Book Authors', 'Book Editors', 'Book Group Authors', 'Author Full Names', 'Book Author Full Names', 'Group Authors', 'Article Title', 'Source Title', 'Book Series Title', 'Book Series Subtitle', 'Language', 'Document Type', 'Conference Title', 'Conference Date', 'Conference Location', 'Conference Sponsor', 'Conference Host', 'Author Keywords', 'Keywords Plus', 'Abstract', 'Addresses', 'Affiliations', 'Reprint Addresses', 'Email Addresses', 'Researcher Ids', 'ORCIDs', 'Funding Orgs', 'Funding Name Preferred', 'Funding Text', 'Cited References', 'Cited Reference Count', 'Times Cited, WoS Core', 'Times Cited, All Databases', '180 Day Usage Count', 'Since 2013 Usage Count', 'Publisher', 'Publisher City', 'Publisher Address', 'ISSN', 'eISSN', 'ISBN', 'Journal Abbreviation', 'Journal ISO Abbreviation', 'Publication Date', 'Publication Year

In [4]:
def buscar_artigos_por_palavras_chave(df, palavras_chave):
    """
    Filtra os artigos em um DataFrame com base em uma lista de palavras-chave.

    Args:
        df (pd.DataFrame): DataFrame contendo os artigos.
        palavras_chave (List[str]): Lista de palavras-chave para buscar nos abstracts ou títulos.

    Returns:
        pd.DataFrame: DataFrame com os artigos que contêm as palavras-chave.
    """
    if 'Abstract' not in df.columns or 'Article Title' not in df.columns:
        raise ValueError("O DataFrame deve conter as colunas 'Abstract' e 'Article Title'")

    # Criar um filtro para verificar se as palavras-chave aparecem no título ou resumo
    filtro = (df['Abstract'].str.contains('|'.join(palavras_chave), case=False, na=False) |
              df['Article Title'].str.contains('|'.join(palavras_chave), case=False, na=False))

    # Aplicar o filtro ao DataFrame
    return df[filtro].copy()

In [5]:
def processar_com_checkpoint(df, checkpoint_file='checkpoint.csv', batch_size=10):
    """
    Processa o DataFrame em lotes e salva checkpoints em um arquivo CSV intermediário para recuperação.

    Args:
        df (pd.DataFrame): DataFrame a ser processado.
        checkpoint_file (str): Nome do arquivo de checkpoint.
        batch_size (int): Número de linhas a serem processadas por lote.

    Returns:
        pd.DataFrame: DataFrame com os resultados do processamento.
    """
    import os
    import pandas as pd

    # Carregar checkpoint se já existir
    if os.path.exists(checkpoint_file):
        df_checkpoint = pd.read_csv(checkpoint_file)
        processed_ids = set(df_checkpoint['ID'])
        print(f"🔄 Checkpoint encontrado. {len(processed_ids):,} linhas já processadas.")
    else:
        df_checkpoint = pd.DataFrame()
        processed_ids = set()

    # Identificar IDs a processar
    df['ID'] = df.index  # Garantir uma coluna ID única
    to_process = df[~df['ID'].isin(processed_ids)]

    print(f"🚀 Iniciando processamento com checkpoint...")
    total = len(to_process)

    for start in range(0, total, batch_size):
        end = min(start + batch_size, total)
        batch = to_process.iloc[start:end]
        print(f"🔬 Processando linhas {start + 1} a {end}/{total}...")

        # Executar análise lotes
        batch['Se adequa ao escopo?'] = batch['Abstract'].apply(analisar_escopo_abstract)

        # Adicionar ao checkpoint
        df_checkpoint = pd.concat([df_checkpoint, batch], ignore_index=True)

        # Salvar checkpoint
        df_checkpoint.to_csv(checkpoint_file, index=False)

        print(f"✔️ Checkpoint salvo: {checkpoint_file}")

    print("✅ Processamento concluído.")
    return df_checkpoint

## 7. Conclusão

### Funcionalidades implementadas:

1. ✅ **Busca por palavras-chave**: Sistema robusto de filtro com múltiplas categorias
2. ✅ **Análise com Gemini AI**: Análise automática de relevância dos abstracts
3. ✅ **Rate limiting**: Respeita limites da API (30 req/min, 1.500 req/dia)
4. ✅ **Sistema de checkpoint**: Permite retomar análises interrompidas
5. ✅ **Estatísticas detalhadas**: Métricas de adequação e performance
6. ✅ **Exportação de dados**: Salva resultados em formato CSV

### Arquivos gerados:
- `artigos_nanorevestimentos_encontrados.csv`: Artigos filtrados por palavras-chave
- `analise_escopo_checkpoint.csv`: Checkpoint do processamento
- `df_com_analise_escopo_completo.csv`: Análise completa com Gemini

### Próximos passos:
- Refinar palavras-chave com base nos resultados
- Implementar análise de trends temporais
- Adicionar análise de colaborações e redes
- Desenvolver dashboard interativo

In [None]:
# Adicionar ao final da célula de configurações (após CONFIG)
# Configuração da API do Gemini
genai.configure(api_key='AIzaSyA_wEQ0XgcJNy9Yw58sH94VBeI14mpH9b0')

print("✅ Dependências carregadas e API configurada")
# Dicionário de nanomateriais organizados por categoria
NANOMATERIAIS = {
    'oxidos_metalicos': [
        'TiO2', 'titanium dioxide', 'titanium oxide',
        'ZnO', 'zinc oxide',
        'Al2O3', 'alumina', 'aluminum oxide', 'aluminium oxide',
        'Fe2O3', 'iron oxide', 'ferric oxide',
        'CeO2', 'cerium oxide', 'ceria',
        'SiO2', 'silica', 'silicon dioxide',
        'Cr2O3', 'chromium oxide',
        'NiO', 'nickel oxide',
        'CuO', 'copper oxide',
        'MgO', 'magnesium oxide',
        'SnO2', 'tin oxide'
    ],
    
    'nanoparticulas_metalicas': [
        'silver nanoparticle', 'Ag nanoparticle', 'nano-Ag', 'AgNP',
        'gold nanoparticle', 'Au nanoparticle', 'nano-Au', 'AuNP',
        'copper nanoparticle', 'Cu nanoparticle', 'nano-Cu', 'CuNP',
        'zinc nanoparticle', 'Zn nanoparticle', 'nano-Zn', 'ZnNP',
        'iron nanoparticle', 'Fe nanoparticle', 'nano-Fe', 'FeNP'
    ],
    
    'nanomateriais_carbono': [
        'carbon nanotube', 'CNT', 'MWCNT', 'SWCNT',
        'multi-walled carbon nanotube', 'single-walled carbon nanotube',
        'graphene', 'graphene oxide', 'GO', 'reduced graphene oxide', 'rGO',
        'carbon nanofiber', 'CNF',
        'fullerene', 'C60', 'carbon black',
        'graphene nanoplatelets', 'GNP'
    ],
    
    'nanoclay_silicatos': [
        'montmorillonite', 'MMT',
        'halloysite nanotube', 'HNT',
        'laponite', 'bentonite',
        'kaolinite', 'vermiculite',
        'clay nanoparticle', 'nanoclay',
        'organoclay', 'modified clay'
    ],
    
    'nanocompositos_polimericos': [
        'polymer nanocomposite', 'nanocomposite polymer',
        'PMMA nanocomposite', 'epoxy nanocomposite',
        'polyurethane nanocomposite', 'PU nanocomposite',
        'acrylic nanocomposite', 'latex nanocomposite'
    ],
    
    'quantum_dots': [
        'quantum dot', 'QD', 'CdSe', 'CdS', 'ZnS',
        'InAs', 'InP', 'PbS', 'PbSe',
        'semiconductor nanocrystal'
    ],
    
    'outros_nanomateriais': [
        'mesoporous silica', 'MCM-41', 'SBA-15',
        'hydroxyapatite', 'HAp', 'nano-HAp',
        'calcium carbonate', 'CaCO3', 'nano-CaCO3',
        'boehmite', 'gibbsite',
        'cellulose nanofiber', 'CNF', 'nanocellulose',
        'chitin nanoparticle', 'chitosan nanoparticle'
    ]
}

# Criar lista única de todos os nanomateriais
todos_nanomateriais = []
for categoria, materiais in NANOMATERIAIS.items():
    todos_nanomateriais.extend(materiais)

print(f"🔬 Total de nanomateriais catalogados: {len(todos_nanomateriais)}")
print(f"📂 Categorias de nanomateriais: {list(NANOMATERIAIS.keys())}")

def identificar_nanomateriais_abstract(abstract_text: str, use_gemini: bool = True) -> str:
    """
    Identifica nanomateriais mencionados no abstract usando busca por palavras-chave + Gemini AI
    
    Args:
        abstract_text: Texto do abstract
        use_gemini: Se True, usa Gemini para confirmação e extração adicional
    
    Returns:
        String com nanomateriais identificados separados por vírgula
    """
    if pd.isna(abstract_text) or str(abstract_text).strip() == '':
        return "Não identificado - Abstract vazio"
    
    abstract_lower = str(abstract_text).lower()
    materiais_encontrados = set()
    
    # Busca por palavras-chave
    print("🔍 Buscando por palavras-chave...")
    for categoria, materiais in NANOMATERIAIS.items():
        for material in materiais:
            if material.lower() in abstract_lower:
                materiais_encontrados.add(material)
                print(f"  ✓ Encontrado: {material} (categoria: {categoria})")
    
    # Se usar Gemini para confirmação e busca adicional
    if use_gemini:
        try:
            model = genai.GenerativeModel(CONFIG['modelo_gemini'])
            
            prompt = f"""
            Analise o seguinte abstract científico e identifique TODOS os nanomateriais mencionados.

            Abstract: {abstract_text}

            Instruções:
            1. Identifique nanomateriais, nanopartículas, nanoestruturas mencionadas
            2. Inclua óxidos metálicos (TiO2, ZnO, etc.), nanopartículas metálicas, nanomateriais de carbono
            3. Inclua materiais com prefixo "nano-" ou sufixo "nanoparticle"
            4. Liste APENAS os nomes dos materiais, separados por vírgula
            5. Use nomenclatura padrão (ex: TiO2, não "dióxido de titânio")
            6. Se não encontrar nanomateriais, responda "Nenhum nanomaterial específico identificado"

            Exemplos de resposta:
            - "TiO2, ZnO, silver nanoparticles"
            - "graphene oxide, carbon nanotubes"
            - "Nenhum nanomaterial específico identificado"

            Resposta:
            """
            
            response = model.generate_content(prompt)
            gemini_result = response.text.strip()
            
            # Processar resultado do Gemini
            if "nenhum" not in gemini_result.lower():
                gemini_materiais = [m.strip() for m in gemini_result.split(',')]
                materiais_encontrados.update(gemini_materiais)
                print(f"  🤖 Gemini encontrou: {gemini_materiais}")
            
        except Exception as e:
            print(f"  ⚠️ Erro no Gemini: {e}")
    
    # Preparar resultado final
    if materiais_encontrados:
        resultado = ', '.join(sorted(materiais_encontrados))
        print(f"  📋 Resultado final: {resultado}")
        return resultado
    else:
        return "Nenhum nanomaterial específico identificado"

def processar_nanomateriais_dataframe(df: pd.DataFrame, 
                                     coluna_abstract: str = 'Abstract',
                                     use_gemini: bool = True,
                                     batch_size: int = 10) -> pd.DataFrame:
    """
    Processa DataFrame completo identificando nanomateriais
    
    Args:
        df: DataFrame a ser processado
        coluna_abstract: Nome da coluna com abstracts
        use_gemini: Se usar Gemini AI para análise
        batch_size: Tamanho do lote para processamento
    
    Returns:
        DataFrame com nova coluna 'Nanomaterial Citado'
    """
    if coluna_abstract not in df.columns:
        print(f"❌ Coluna '{coluna_abstract}' não encontrada")
        return df
    
    df_processado = df.copy()
    df_processado['Nanomaterial Citado'] = ''
    
    total_linhas = len(df_processado)
    print(f"📋 Processando {total_linhas} abstracts para identificação de nanomateriais...")
    
    if use_gemini:
        print(f"⚠️ Usando Gemini AI - Limite: {CONFIG['max_requests_per_day']} req/dia")
        if total_linhas > CONFIG['max_requests_per_day']:
            print(f"⚠️ Dataset tem {total_linhas} linhas, limite diário: {CONFIG['max_requests_per_day']}")
            resposta = input(f"Processar apenas as primeiras {CONFIG['max_requests_per_day']} linhas? (s/n): ")
            if resposta.lower() == 's':
                total_linhas = CONFIG['max_requests_per_day']
            else:
                print("❌ Processamento cancelado")
                return df_processado
    
    requests_made = 0
    start_time = time.time()
    
    for idx in range(total_linhas):
        # Controle de rate limit se usando Gemini
        if use_gemini:
            elapsed_time = time.time() - start_time
            if requests_made >= (CONFIG['max_requests_per_minute'] - 1) and elapsed_time < 60:
                wait_time = 60 - elapsed_time + 2
                print(f"\n⏳ Rate limit: aguardando {wait_time:.1f}s...")
                time.sleep(wait_time)
                requests_made = 0
                start_time = time.time()
        
        abstract = df_processado.iloc[idx][coluna_abstract]
        
        # Progresso
        if idx % 10 == 0 or idx == total_linhas - 1:
            print(f"📊 Processando {idx + 1}/{total_linhas} ({((idx + 1)/total_linhas)*100:.1f}%)")
        
        resultado = identificar_nanomateriais_abstract(abstract, use_gemini=use_gemini)
        df_processado.iloc[idx, df_processado.columns.get_loc('Nanomaterial Citado')] = resultado
        
        if use_gemini:
            requests_made += 1
            time.sleep(CONFIG['delay_between_requests'])
    
    return df_processado

def analisar_nanomateriais_com_estatisticas(df: pd.DataFrame) -> dict:
    """
    Analisa os nanomateriais identificados e gera estatísticas
    
    Args:
        df: DataFrame com coluna 'Nanomaterial Citado'
    
    Returns:
        Dicionário com estatísticas dos nanomateriais
    """
    if 'Nanomaterial Citado' not in df.columns:
        return {"erro": "Coluna 'Nanomaterial Citado' não encontrada"}
    
    # Coletar todos os nanomateriais mencionados
    todos_materiais = []
    for materiais_str in df['Nanomaterial Citado'].dropna():
        if materiais_str and "nenhum" not in materiais_str.lower():
            materiais = [m.strip() for m in materiais_str.split(',')]
            todos_materiais.extend(materiais)
    
    # Contar frequências
    from collections import Counter
    contador_materiais = Counter(todos_materiais)
    
    # Categorizar materiais
    materiais_por_categoria = {}
    for categoria, lista_materiais in NANOMATERIAIS.items():
        materiais_categoria = []
        for material in contador_materiais:
            if any(mat.lower() in material.lower() for mat in lista_materiais):
                materiais_categoria.append((material, contador_materiais[material]))
        if materiais_categoria:
            materiais_por_categoria[categoria] = sorted(materiais_categoria, key=lambda x: x[1], reverse=True)
    
    # Estatísticas gerais
    total_artigos = len(df)
    artigos_com_nanomateriais = len(df[df['Nanomaterial Citado'].str.contains('TiO2|ZnO|graphene|nanotube|nanoparticle', case=False, na=False)])
    
    return {
        'total_artigos': total_artigos,
        'artigos_com_nanomateriais': artigos_com_nanomateriais,
        'taxa_identificacao': (artigos_com_nanomateriais / total_artigos) * 100,
        'materiais_mais_citados': contador_materiais.most_common(10),
        'materiais_por_categoria': materiais_por_categoria,
        'total_materiais_unicos': len(contador_materiais)
    }

# Exemplo de uso
print("\n" + "="*60)
print("🔬 IDENTIFICAÇÃO DE NANOMATERIAIS")
print("="*60)

# Carregar dados se ainda não carregado
if 'df' not in locals() or df is None:
    try:
        df = pd.read_csv(CONFIG['arquivo_entrada'])
        print(f"📂 Dados carregados: {len(df)} artigos")
    except:
        print("❌ Erro ao carregar dados")
        df = None

if df is not None and 'Abstract' in df.columns:
    # Teste com poucos abstracts primeiro
    print(f"\n🧪 TESTE DE IDENTIFICAÇÃO (primeiros 3 abstracts)")
    df_teste = df.head(3).copy()
    
    # Testar sem Gemini primeiro (mais rápido)
    print("\n📋 Teste 1: Apenas busca por palavras-chave")
    for idx, row in df_teste.iterrows():
        abstract = row['Abstract']
        resultado = identificar_nanomateriais_abstract(abstract, use_gemini=False)
        print(f"\nArtigo {idx+1}:")
        print(f"Título: {row['Article Title'][:60]}...")
        print(f"Nanomateriais: {resultado}")
    
    # Perguntar se deseja usar Gemini
    resposta_gemini = input("\nUsar Gemini AI para análise mais precisa? (s/n): ")
    use_gemini = resposta_gemini.lower() == 's'
    
    if use_gemini:
        print(f"\n🤖 Teste 2: Com Gemini AI")
        for idx, row in df_teste.iterrows():
            abstract = row['Abstract']
            resultado = identificar_nanomateriais_abstract(abstract, use_gemini=True)
            print(f"\nArtigo {idx+1} (com Gemini):")
            print(f"Nanomateriais: {resultado}")
    
    # Perguntar sobre processamento completo
    resposta_completo = input(f"\nProcessar todo o dataset ({len(df)} artigos)? (s/n): ")
    
    if resposta_completo.lower() == 's':
        print(f"\n🚀 Processando dataset completo...")
        df_com_nanomateriais = processar_nanomateriais_dataframe(df, use_gemini=use_gemini)
        
        # Salvar resultado
        arquivo_nanomateriais = 'df_com_nanomateriais_identificados.csv'
        df_com_nanomateriais.to_csv(arquivo_nanomateriais, index=False)
        print(f"\n💾 Resultado salvo em: {arquivo_nanomateriais}")
        
        # Gerar estatísticas
        print(f"\n📊 Gerando estatísticas...")
        stats = analisar_nanomateriais_com_estatisticas(df_com_nanomateriais)
        
        print(f"\n" + "="*50)
        print("📈 ESTATÍSTICAS DE NANOMATERIAIS")
        print("="*50)
        print(f"Total de artigos: {stats['total_artigos']:,}")
        print(f"Artigos com nanomateriais: {stats['artigos_com_nanomateriais']:,}")
        print(f"Taxa de identificação: {stats['taxa_identificacao']:.1f}%")
        print(f"Nanomateriais únicos: {stats['total_materiais_unicos']}")
        
        print(f"\n🏆 Top 10 nanomateriais mais citados:")
        for i, (material, count) in enumerate(stats['materiais_mais_citados'], 1):
            print(f"  {i:2d}. {material}: {count} menções")
        
        print(f"\n📂 Nanomateriais por categoria:")
        for categoria, materiais in stats['materiais_por_categoria'].items():
            print(f"\n{categoria.replace('_', ' ').title()}:")
            for material, count in materiais[:3]:  # Top 3 por categoria
                print(f"  • {material}: {count} menções")
    
else:
    print("❌ Dados não disponíveis ou coluna 'Abstract' não encontrada")

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d35fdc8b-8543-45dc-ae25-3ba609dd01b9' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>