# üîß 01 - Configura√ß√£o e Setup do Sistema

## üìñ Vis√£o Geral

Este notebook cont√©m as configura√ß√µes essenciais para o sistema de an√°lise de nanorevestimentos e tintas. √â o primeiro notebook a ser executado no pipeline.

### üéØ Responsabilidades

- ‚úÖ Configura√ß√£o da API do Google Gemini
- ‚úÖ Defini√ß√£o de padr√µes e bases de conhecimento
- ‚úÖ Configura√ß√£o de rate limiting e checkpoints
- ‚úÖ Valida√ß√£o do ambiente e depend√™ncias
- ‚úÖ Inicializa√ß√£o de vari√°veis globais

### üì¶ Depend√™ncias

- google-generativeai
- pandas
- pathlib
- os

### üîó Pr√≥ximo Notebook

Ap√≥s configurar este notebook, execute: `02_carregamento_dados.ipynb`

In [1]:
# üì¶ Instala√ß√£o e imports das depend√™ncias
!pip install google-generativeai pandas numpy matplotlib seaborn -q

import pandas as pd
import google.generativeai as genai
import time
import random
import os
import json
from pathlib import Path
from typing import List, Optional, Dict, Any
from datetime import datetime

print("‚úÖ Depend√™ncias carregadas com sucesso!")

‚úÖ Depend√™ncias carregadas com sucesso!


In [2]:
# Helper functions para carregar e salvar config_sistema.json

def load_config(file_path: str) -> Dict[str, Any]:
    """Carrega o arquivo de configura√ß√£o JSON."""
    if Path(file_path).exists():
        try:
            with open(file_path, 'r', encoding='utf-8') as f:
                config_data = json.load(f)
            print(f"‚úÖ Configura√ß√£o carregada de: {file_path}")
            return config_data
        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao carregar {file_path}: {e}. Usando configura√ß√£o padr√£o.")
            return {}
    else:
        print(f"‚ÑπÔ∏è Arquivo de configura√ß√£o n√£o encontrado em {file_path}. Uma nova configura√ß√£o ser√° criada.")
        return {}

def save_config(config_data: Dict[str, Any], file_path: str):
    """Salva o dicion√°rio de configura√ß√£o em um arquivo JSON."""
    try:
        with open(file_path, 'w', encoding='utf-8') as f:
            json.dump(config_data, f, indent=2, ensure_ascii=False)
        print(f"üíæ Configura√ß√£o salva com sucesso em: {file_path}")
    except Exception as e:
        print(f"‚ùå Erro ao salvar configura√ß√£o em {file_path}: {e}")

In [3]:
# üîë Configura√ß√£o da API do Google Gemini

def validar_api_key(api_key: str) -> bool:
    """Valida formato b√°sico da API key do Gemini"""
    if not api_key or len(api_key.strip()) < 20:
        return False
    if not api_key.startswith('AIza'):
        return False
    return True

def carregar_api_key() -> Optional[str]:
    """Carrega API key de diferentes fontes com valida√ß√£o robusta"""
    
    print("üîë Carregando API key...")
    
    # Tentar carregar de diferentes arquivos
    caminhos_possiveis = ['api_key', 'api_key.txt', '.api_key', 'gemini_api_key']
    
    for caminho in caminhos_possiveis:
        if os.path.exists(caminho):
            try:
                with open(caminho, 'r', encoding='utf-8') as f:
                    api_key = f.read().strip()
                if validar_api_key(api_key):
                    print(f"‚úÖ API key carregada de: {caminho}")
                    return api_key
                else:
                    print(f"‚ùå API key inv√°lida em: {caminho}")
            except Exception as e:
                print(f"‚ö†Ô∏è Erro ao ler {caminho}: {e}")
    
    # Se n√£o encontrou, orientar o usu√°rio
    print("\nüîë API key n√£o encontrada. Vamos configur√°-la agora!")
    print("\nüìã Para obter sua API key GRATUITA:")
    print("   1. Acesse: https://makersuite.google.com/app/apikey")
    print("   2. Fa√ßa login com sua conta Google")
    print("   3. Clique em 'Create API Key'")
    print("   4. Copie a chave gerada (come√ßa com AIza...)")
    
    api_key = input("\nüîë Cole sua API key aqui: ").strip()
    
    if validar_api_key(api_key):
        try:
            with open('api_key', 'w', encoding='utf-8') as f:
                f.write(api_key)
            print("‚úÖ API key salva em 'api_key'")
            return api_key
        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao salvar: {e}")
            return api_key
    else:
        print("‚ùå API key inv√°lida")
        return None

def testar_conexao_gemini(api_key: str) -> bool:
    """Testa conex√£o com API do Gemini"""
    print("üß™ Testando conex√£o com Gemini AI...")
    
    try:
        genai.configure(api_key=api_key)
        model = genai.GenerativeModel('gemini-2.0-flash-exp')
        
        # Teste simples
        response = model.generate_content("Teste de conex√£o")
        
        if response and response.text:
            print("‚úÖ Conex√£o com Gemini AI estabelecida com sucesso!")
            return True
        else:
            print("‚ùå Resposta vazia da API")
            return False
            
    except Exception as e:
        print(f"‚ùå Erro na conex√£o: {str(e)}")
        return False

# Executar configura√ß√£o da API
api_key = carregar_api_key()

if api_key:
    conexao_ok = testar_conexao_gemini(api_key)
    if conexao_ok:
        print("üéâ API configurada e funcional!")
        API_CONFIGURADA = True
    else:
        print("‚ö†Ô∏è API configurada mas com problemas de conex√£o")
        API_CONFIGURADA = False
else:
    print("‚ùå N√£o foi poss√≠vel configurar a API")
    API_CONFIGURADA = False

üîë Carregando API key...
‚úÖ API key carregada de: api_key.txt
üß™ Testando conex√£o com Gemini AI...
‚úÖ Conex√£o com Gemini AI estabelecida com sucesso!
üéâ API configurada e funcional!
‚úÖ Conex√£o com Gemini AI estabelecida com sucesso!
üéâ API configurada e funcional!


In [4]:
# üß¨ Base de Conhecimento - Nanomateriais Especializados

# Padr√µes regex para identifica√ß√£o de nanomateriais
PATTERNS_NANOMATERIAIS = {
    'oxidos_metalicos': [
        'TiO2', 'ZnO', 'Al2O3', 'SiO2', 'Fe2O3', 'CeO2', 'Cr2O3',
        'titanium dioxide', 'zinc oxide', 'aluminum oxide', 'silica',
        'iron oxide', 'cerium oxide', 'chromium oxide'
    ],
    'carbono': [
        'graphene', 'grafeno', 'CNT', 'carbon nanotube', 'carbon fiber',
        'fullerene', 'carbon black', 'carbon dot', 'graphene oxide',
        'reduced graphene oxide', 'rGO', 'MWCNT', 'SWCNT'
    ],
    'metais_nobres': [
        'Ag', 'Au', 'Pt', 'Pd', 'silver', 'gold', 'platinum', 'palladium',
        'silver nanoparticle', 'gold nanoparticle', 'AgNP', 'AuNP'
    ],
    'polimeros': [
        'PMMA', 'PVA', 'PVP', 'PEG', 'chitosan', 'alginate',
        'polyurethane', 'epoxy', 'acrylic', 'polyethylene',
        'polypropylene', 'nylon'
    ],
    'ceramicos': [
        'hydroxyapatite', 'zirconia', 'alumina', 'silicon carbide',
        'silicon nitride', 'boron nitride', 'titanium carbide'
    ],
    'compositos': [
        'nanocomposite', 'hybrid material', 'core-shell',
        'layered material', 'intercalated', 'exfoliated'
    ]
}

# Padr√µes para palavras-chave funcionais
PATTERNS_PALAVRAS_CHAVE = {
    'coating_terms': [
        'coating', 'paint', 'revestimento', 'tinta', 'surface treatment',
        'protective coating', 'functional coating', 'thin film'
    ],
    'propriedades_funcionais': [
        'anticorrosive', 'antimicrobial', 'self-cleaning', 'superhydrophobic',
        'UV protection', 'thermal barrier', 'electrical conductivity',
        'magnetic', 'photocatalytic', 'antifouling'
    ],
    'aplicacoes': [
        'automotive', 'marine', 'aerospace', 'biomedical', 'electronics',
        'construction', 'textile', 'packaging', 'energy storage'
    ],
    'tecnicas_preparacao': [
        'sol-gel', 'spray coating', 'dip coating', 'spin coating',
        'electrodeposition', 'plasma spraying', 'CVD', 'PVD',
        'layer-by-layer', 'self-assembly'
    ]
}

print("üß¨ Base de conhecimento carregada:")
print(f"  üìä {len(PATTERNS_NANOMATERIAIS)} categorias de nanomateriais")
print(f"  üîë {len(PATTERNS_PALAVRAS_CHAVE)} categorias de palavras-chave")

# Contar total de termos
total_nano_terms = sum(len(terms) for terms in PATTERNS_NANOMATERIAIS.values())
total_keyword_terms = sum(len(terms) for terms in PATTERNS_PALAVRAS_CHAVE.values())

print(f"  üéØ {total_nano_terms} termos de nanomateriais espec√≠ficos")
print(f"  üéØ {total_keyword_terms} palavras-chave funcionais")

üß¨ Base de conhecimento carregada:
  üìä 6 categorias de nanomateriais
  üîë 4 categorias de palavras-chave
  üéØ 64 termos de nanomateriais espec√≠ficos
  üéØ 37 palavras-chave funcionais


In [5]:
# ‚öôÔ∏è Configura√ß√µes do Sistema

# Configura√ß√µes de rate limiting para API
CONFIG = {
    'delay_between_requests': 2.5,  # segundos entre requisi√ß√µes
    'max_requests_per_minute': 25,  # limite seguro
    'max_requests_per_day': 1400,   # limite di√°rio
    'timeout_request': 30,          # timeout por requisi√ß√£o
    'max_retries': 3,              # tentativas em caso de erro
    'backoff_factor': 2,           # fator de backoff exponencial
}

# Configura√ß√µes de checkpoint
CHECKPOINT_CONFIG = {
    'interval': 25,                # salvar checkpoint a cada N artigos
    'directory': 'checkpoints/',   # diret√≥rio para checkpoints
    'prefix': 'checkpoint_',       # prefixo dos arquivos
    'max_files': 10,              # m√°ximo de arquivos de checkpoint
}

# Configura√ß√µes de caminhos
PATHS = {
    'data_raw': '/home/delon/Modelos/modeloCenanoInk/data/raw/',
    'excel_files': '/home/delon/Modelos/modeloCenanoInk/data/raw/arquivos_excel_artigo_cienciometrico/',
    'processed': '/home/delon/Modelos/modeloCenanoInk/data/processed/',
    'results': '/home/delon/Modelos/modeloCenanoInk/results/',
    'notebooks': '/home/delon/Modelos/modeloCenanoInk/notebooks/'
}

# Criar diret√≥rios se n√£o existirem
for path_name, path_value in PATHS.items():
    Path(path_value).mkdir(parents=True, exist_ok=True)

# Configura√ß√µes de an√°lise
ANALYSIS_CONFIG = {
    'min_abstract_length': 50,     # tamanho m√≠nimo do abstract
    'score_threshold_high': 5,     # threshold para relev√¢ncia alta
    'score_threshold_medium': 2,   # threshold para relev√¢ncia m√©dia
    'use_title_boost': True,       # dar peso extra para palavras no t√≠tulo
    'title_boost_factor': 2,       # fator de multiplica√ß√£o para t√≠tulo
}

print("‚öôÔ∏è Configura√ß√µes do sistema carregadas:")
print(f"  üîÑ Rate limiting: {CONFIG['delay_between_requests']}s entre requisi√ß√µes")
print(f"  üíæ Checkpoints: a cada {CHECKPOINT_CONFIG['interval']} artigos")
print(f"  üìÅ Diret√≥rios: {len(PATHS)} caminhos configurados")
print(f"  üéØ An√°lise: thresholds {ANALYSIS_CONFIG['score_threshold_medium']}/{ANALYSIS_CONFIG['score_threshold_high']}")

‚öôÔ∏è Configura√ß√µes do sistema carregadas:
  üîÑ Rate limiting: 2.5s entre requisi√ß√µes
  üíæ Checkpoints: a cada 25 artigos
  üìÅ Diret√≥rios: 5 caminhos configurados
  üéØ An√°lise: thresholds 2/5


In [6]:
# ‚öôÔ∏è Configura√ß√µes do Sistema

config_file_path = PATHS['notebooks'] + 'config_sistema.json'

# Tenta carregar configura√ß√£o existente primeiro
loaded_config_data = load_config(config_file_path)

# Configura√ß√µes de rate limiting para API (usa valores carregados ou define novos)
CONFIG = loaded_config_data.get('config', {}).get('rate_limiting', {
    'delay_between_requests': 2.5,  # segundos entre requisi√ß√µes
    'max_requests_per_minute': 25,  # limite seguro
    'max_requests_per_day': 1400,   # limite di√°rio
    'timeout_request': 30,          # timeout por requisi√ß√£o
    'max_retries': 3,              # tentativas em caso de erro
    'backoff_factor': 2,           # fator de backoff exponencial
})

# Configura√ß√µes de checkpoint (usa valores carregados ou define novos)
CHECKPOINT_CONFIG = loaded_config_data.get('config', {}).get('checkpoint', {
    'interval': 25,                # salvar checkpoint a cada N artigos
    'directory': 'checkpoints/',   # diret√≥rio para checkpoints
    'prefix': 'checkpoint_',       # prefixo dos arquivos
    'max_files': 10,              # m√°ximo de arquivos de checkpoint
})

# Configura√ß√µes de caminhos (usa valores carregados ou define novos, mas estes s√£o mais fixos)
PATHS = loaded_config_data.get('paths', {
    'data_raw': '/home/delon/Modelos/modeloCenanoInk/data/raw/',
    'excel_files': '/home/delon/Modelos/modeloCenanoInk/data/raw/arquivos_excel_artigo_cienciometrico/',
    'processed': '/home/delon/Modelos/modeloCenanoInk/data/processed/',
    'results': '/home/delon/Modelos/modeloCenanoInk/results/',
    'notebooks': '/home/delon/Modelos/modeloCenanoInk/notebooks/'
})

# Criar diret√≥rios se n√£o existirem (importante garantir que PATHS esteja definido)
for path_name, path_value in PATHS.items():
    Path(path_value).mkdir(parents=True, exist_ok=True)

# Configura√ß√µes de an√°lise (usa valores carregados ou define novos)
ANALYSIS_CONFIG = loaded_config_data.get('config', {}).get('analysis', {
    'min_abstract_length': 50,     # tamanho m√≠nimo do abstract
    'score_threshold_high': 5,     # threshold para relev√¢ncia alta
    'score_threshold_medium': 2,   # threshold para relev√¢ncia m√©dia
    'use_title_boost': True,       # dar peso extra para palavras no t√≠tulo
    'title_boost_factor': 2,       # fator de multiplica√ß√£o para t√≠tulo
})

print("‚öôÔ∏è Configura√ß√µes do sistema processadas (carregadas ou definidas):")
print(f"  üîÑ Rate limiting: {CONFIG.get('delay_between_requests', 'N/A')}s entre requisi√ß√µes")
print(f"  üíæ Checkpoints: a cada {CHECKPOINT_CONFIG.get('interval', 'N/A')} artigos")
print(f"  üìÅ Diret√≥rios: {len(PATHS)} caminhos configurados")
print(f"  üéØ An√°lise: thresholds {ANALYSIS_CONFIG.get('score_threshold_medium', 'N/A')}/{ANALYSIS_CONFIG.get('score_threshold_high', 'N/A')}")

# üß™ Valida√ß√£o do Ambiente

def validar_ambiente() -> Dict[str, bool]:
    """Valida se o ambiente est√° pronto para execu√ß√£o"""
    
    print("üß™ Validando ambiente do sistema...")
    
    validacao = {
        'api_configurada': False,
        'diretorios_existem': False,
        'excel_files_encontrados': False,
        'dependencias_instaladas': False,
        'espaco_disco_suficiente': False
    }
    
    # 1. Verificar API
    validacao['api_configurada'] = API_CONFIGURADA
    status_api = "‚úÖ" if API_CONFIGURADA else "‚ùå"
    print(f"  {status_api} API Gemini: {'Configurada' if API_CONFIGURADA else 'N√£o configurada'}")
    
    # 2. Verificar diret√≥rios
    dirs_ok = all(os.path.exists(path) for path in PATHS.values())
    validacao['diretorios_existem'] = dirs_ok
    status_dirs = "‚úÖ" if dirs_ok else "‚ùå"
    print(f"  {status_dirs} Diret√≥rios: {'Todos existem' if dirs_ok else 'Alguns faltando'}")
    
    # 3. Verificar arquivos Excel
    try:
        excel_files = list(Path(PATHS['excel_files']).glob('*.xls'))
        validacao['excel_files_encontrados'] = len(excel_files) > 0
        status_excel = "‚úÖ" if len(excel_files) > 0 else "‚ùå"
        print(f"  {status_excel} Arquivos Excel: {len(excel_files)} arquivos encontrados")
    except Exception as e:
        print(f"  ‚ùå Arquivos Excel: Erro ao verificar - {e}")
    
    # 4. Verificar depend√™ncias
    try:
        import pandas, google.generativeai, matplotlib, seaborn
        validacao['dependencias_instaladas'] = True
        print(f"  ‚úÖ Depend√™ncias: Todas instaladas")
    except ImportError as e:
        print(f"  ‚ùå Depend√™ncias: Faltando - {e}")
    
    # 5. Verificar espa√ßo em disco (simplificado)
    try:
        import shutil
        total, used, free = shutil.disk_usage(PATHS['data_raw'])
        free_gb = free // (1024**3)
        validacao['espaco_disco_suficiente'] = free_gb > 1  # pelo menos 1GB
        status_disk = "‚úÖ" if free_gb > 1 else "‚ùå"
        print(f"  {status_disk} Espa√ßo em disco: {free_gb:.1f}GB dispon√≠vel")
    except Exception as e:
        print(f"  ‚ö†Ô∏è Espa√ßo em disco: N√£o foi poss√≠vel verificar")
        validacao['espaco_disco_suficiente'] = True  # assumir ok
    
    # Resumo
    total_checks = len(validacao)
    passed_checks = sum(validacao.values())
    
    print(f"\nüìä Resultado da valida√ß√£o: {passed_checks}/{total_checks} verifica√ß√µes aprovadas")
    
    if passed_checks == total_checks:
        print("üéâ Ambiente completamente pronto!")
    elif passed_checks >= total_checks - 1:
        print("‚ö†Ô∏è Ambiente quase pronto - algumas configura√ß√µes opcionais faltando")
    else:
        print("‚ùå Ambiente com problemas - configura√ß√µes necess√°rias")
    
    return validacao

# Executar valida√ß√£o
validacao_resultado = validar_ambiente()

‚úÖ Configura√ß√£o carregada de: /home/delon/Modelos/modeloCenanoInk/notebooks/config_sistema.json
‚öôÔ∏è Configura√ß√µes do sistema processadas (carregadas ou definidas):
  üîÑ Rate limiting: 2.5s entre requisi√ß√µes
  üíæ Checkpoints: a cada 25 artigos
  üìÅ Diret√≥rios: 5 caminhos configurados
  üéØ An√°lise: thresholds 2/5
üß™ Validando ambiente do sistema...
  ‚úÖ API Gemini: Configurada
  ‚úÖ Diret√≥rios: Todos existem
  ‚úÖ Arquivos Excel: 39 arquivos encontrados


  ‚úÖ Depend√™ncias: Todas instaladas
  ‚úÖ Espa√ßo em disco: 3.0GB dispon√≠vel

üìä Resultado da valida√ß√£o: 5/5 verifica√ß√µes aprovadas
üéâ Ambiente completamente pronto!


In [7]:
# üèÅ Finaliza√ß√£o da Configura√ß√£o

# Marcar sistema como configurado
SISTEMA_CONFIGURADO = True

# Preparar dados para salvar
config_data_to_save = {
    'sistema_configurado': SISTEMA_CONFIGURADO,
    'api_configurada': API_CONFIGURADA,
    'timestamp_configuracao': datetime.now().isoformat(),
    'validacao': validacao_resultado,
    'config': { # Agrupando as sub-configura√ß√µes
        'rate_limiting': CONFIG,
        'checkpoint': CHECKPOINT_CONFIG,
        'analysis': ANALYSIS_CONFIG
    },
    'paths': PATHS,
    'nanomateriais': PATTERNS_NANOMATERIAIS, 
    'palavras_chave': PATTERNS_PALAVRAS_CHAVE 
}

# Salvar configura√ß√£o usando a nova fun√ß√£o helper
config_file_final_path = PATHS['notebooks'] + 'config_sistema.json'
save_config(config_data_to_save, config_file_final_path)

print("üèÅ Configura√ß√£o finalizada!")
# A mensagem de sucesso do save_config j√° informa o caminho
# print(f"üíæ Configura√ß√£o salva em: {config_file_final_path}") 

print("\nüìã Vari√°veis globais dispon√≠veis:")
print("  - SISTEMA_CONFIGURADO:", SISTEMA_CONFIGURADO)
print("  - API_CONFIGURADA:", API_CONFIGURADA)
print("  - PATTERNS_NANOMATERIAIS: Base de nanomateriais (inclu√≠da no JSON)")
print("  - PATTERNS_PALAVRAS_CHAVE: Palavras-chave funcionais (inclu√≠das no JSON)")
print("  - CONFIG: Configura√ß√µes de rate limiting")
print("  - CHECKPOINT_CONFIG: Configura√ß√µes de checkpoint")
print("  - ANALYSIS_CONFIG: Configura√ß√µes de an√°lise")
print("  - PATHS: Caminhos do projeto")

print("\nüöÄ Pr√≥ximo passo: Execute o notebook '02_carregamento_dados.ipynb'")

# Criar arquivo .gitignore se n√£o existir
gitignore_content = '''
# API Keys e arquivos sens√≠veis
api_key
api_key.txt
*.key
.env

# Arquivos de checkpoint e resultados tempor√°rios
checkpoints/
*checkpoint*.csv
temp_*.csv

# Configura√ß√µes locais
# config_sistema.json # Comentado para permitir versionamento se desejado, mas geralmente √© melhor ignorar

# Jupyter
.ipynb_checkpoints/
'''

gitignore_path = Path(PATHS.get('notebooks', '.')).parent / '.gitignore' # Usar .get com fallback
if not gitignore_path.exists() and PATHS.get('notebooks'): # Adicionar verifica√ß√£o se PATHS['notebooks'] existe
    try:
        with open(gitignore_path, 'w', encoding='utf-8') as f:
            f.write(gitignore_content)
        print("üîí Arquivo .gitignore criado/atualizado para proteger dados sens√≠veis")
    except Exception as e:
        print(f"‚ö†Ô∏è N√£o foi poss√≠vel criar/atualizar .gitignore: {e}")
else:
    if gitignore_path.exists():
        print("‚ÑπÔ∏è Arquivo .gitignore j√° existe.")
    else:
        print("‚ö†Ô∏è N√£o foi poss√≠vel determinar o local para .gitignore pois PATHS['notebooks'] n√£o est√° definido.")

üíæ Configura√ß√£o salva com sucesso em: /home/delon/Modelos/modeloCenanoInk/notebooks/config_sistema.json
üèÅ Configura√ß√£o finalizada!

üìã Vari√°veis globais dispon√≠veis:
  - SISTEMA_CONFIGURADO: True
  - API_CONFIGURADA: True
  - PATTERNS_NANOMATERIAIS: Base de nanomateriais (inclu√≠da no JSON)
  - PATTERNS_PALAVRAS_CHAVE: Palavras-chave funcionais (inclu√≠das no JSON)
  - CONFIG: Configura√ß√µes de rate limiting
  - CHECKPOINT_CONFIG: Configura√ß√µes de checkpoint
  - ANALYSIS_CONFIG: Configura√ß√µes de an√°lise
  - PATHS: Caminhos do projeto

üöÄ Pr√≥ximo passo: Execute o notebook '02_carregamento_dados.ipynb'
‚ÑπÔ∏è Arquivo .gitignore j√° existe.
