# üìå **01 - Pinecone: Base Vetorial**

## üéØ **Objetivo:**
Configurar e popular o Pinecone com dados tur√≠sticos para Rio e Paris.

## üìã **O que faremos:**
1. ‚öôÔ∏è Setup do Pinecone
2. üìä Cria√ß√£o do √≠ndice vetorial  
3. üìù Indexa√ß√£o dos dados tur√≠sticos
4. ‚úÖ Testes de conectividade

---

## 1Ô∏è‚É£ **Setup e Configura√ß√£o**

In [None]:
# Instala√ß√£o das depend√™ncias
!pip install -q pinecone-client langchain-huggingface sentence-transformers langchain-groq python-dotenv

In [None]:
# Imports necess√°rios
from pinecone import Pinecone, ServerlessSpec
from langchain_huggingface import HuggingFaceEmbeddings
import os
from dotenv import load_dotenv
import time

# Carregar vari√°veis de ambiente
load_dotenv()

print("‚úÖ Bibliotecas importadas com sucesso!")

## 2Ô∏è‚É£ **Configura√ß√£o do Pinecone**

In [None]:
# Configura√ß√£o das credenciais
PINECONE_API_KEY = os.getenv('PINECONE_API_KEY')
PINECONE_ENVIRONMENT = os.getenv('PINECONE_ENVIRONMENT', 'us-east-1')
INDEX_NAME = "turismo-inteligente"

if not PINECONE_API_KEY:
    print("‚ö†Ô∏è Configure PINECONE_API_KEY no arquivo .env")
else:
    print("‚úÖ Credenciais carregadas!")

In [None]:
# Inicializar cliente Pinecone
pc = Pinecone(api_key=PINECONE_API_KEY)

# Verificar √≠ndices existentes
print("üìã √çndices existentes:")
for index in pc.list_indexes().names():
    print(f"  - {index}")

In [None]:
# Criar √≠ndice se n√£o existir
if INDEX_NAME not in pc.list_indexes().names():
    print(f"üî® Criando √≠ndice '{INDEX_NAME}'...")
    
    pc.create_index(
        name=INDEX_NAME,
        dimension=384,  # Para sentence-transformers/all-MiniLM-L6-v2
        metric='cosine',
        spec=ServerlessSpec(
            cloud='aws',
            region=PINECONE_ENVIRONMENT
        )
    )
    
    # Aguardar inicializa√ß√£o
    while not pc.describe_index(INDEX_NAME).status['ready']:
        time.sleep(1)
        print("‚è≥ Aguardando inicializa√ß√£o...")
    
    print("‚úÖ √çndice criado com sucesso!")
else:
    print(f"‚úÖ √çndice '{INDEX_NAME}' j√° existe!")

# Conectar ao √≠ndice
index = pc.Index(INDEX_NAME)
print(f"üîó Conectado ao √≠ndice: {INDEX_NAME}")

## 3Ô∏è‚É£ **Setup dos Embeddings**

In [None]:
# Inicializar modelo de embeddings
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2",
    model_kwargs={'device': 'cpu'}
)

print("üß† Modelo de embeddings carregado!")
print(f"üìè Dimens√£o: {len(embeddings.embed_query('teste'))}")

## 4Ô∏è‚É£ **Dados Tur√≠sticos**

In [None]:
# Base de conhecimento tur√≠stico
dados_turismo = {
    "rio_roteiros": [
        "Cristo Redentor: Uma das Sete Maravilhas do Mundo Moderno, localizado no Corcovado.",
        "P√£o de A√ß√∫car: Bondinho famoso com vista panor√¢mica da cidade e praias.",
        "Praia de Copacabana: 4km de areia branca, cal√ßad√£o famoso, hot√©is luxuosos.",
        "Praia de Ipanema: Bairro sofisticado, praia das celebridades, p√¥r do sol inesquec√≠vel.",
        "Santa Teresa: Bairro bo√™mio, casar√µes coloniais, ateli√™s de artistas."
    ],
    "rio_logistica": [
        "Aeroporto Gale√£o: Principal aeroporto internacional, 20km do centro.",
        "Metro Rio: Linhas 1, 2 e 4 conectam principais pontos tur√≠sticos.",
        "Uber/99: Dispon√≠vel 24h, mais seguro que t√°xi comum.",
        "BRT: √înibus r√°pido conecta Barra da Tijuca ao centro.",
        "Hospedagem Copacabana: Hot√©is de todas as categorias na orla."
    ],
    "paris_roteiros": [
        "Torre Eiffel: S√≠mbolo de Paris, 324m de altura, ilumina√ß√£o noturna espetacular.",
        "Museu do Louvre: Maior museu do mundo, Mona Lisa, arte cl√°ssica.",
        "Notre-Dame: Catedral g√≥tica, arquitetura medieval, Ile de la Cit√©.",
        "Champs-√âlys√©es: Avenida mais famosa, compras, caf√©s, Arc de Triomphe.",
        "Montmartre: Bairro art√≠stico, Sacr√©-C≈ìur, cabar√©s, vista panor√¢mica."
    ],
    "paris_logistica": [
        "Charles de Gaulle: Principal aeroporto, RER B conecta ao centro em 45min.",
        "Metro Paris: 14 linhas, passe Navigo, funciona at√© 1h15 (2h15 sexta/s√°bado).",
        "Uber/Taxi: Dispon√≠vel, mas metro √© mais r√°pido no centro.",
        "Hotel Le Marais: Bairro hist√≥rico, walking distance de atra√ß√µes.",
        "Velib: Sistema de bikes compartilhadas, ideal para curtas dist√¢ncias."
    ]
}

print("üìö Base de conhecimento preparada!")
total_docs = sum(len(docs) for docs in dados_turismo.values())
print(f"üìä Total de documentos: {total_docs}")

## 5Ô∏è‚É£ **Indexa√ß√£o no Pinecone**

In [None]:
# Verificar se j√° temos dados
stats = index.describe_index_stats()
print(f"üìä Vetores j√° indexados: {stats['total_vector_count']}")

if stats['total_vector_count'] == 0:
    print("üîÑ Iniciando indexa√ß√£o...")
    
    vectors_to_upsert = []
    
    for categoria, documentos in dados_turismo.items():
        for i, doc in enumerate(documentos):
            # Gerar embedding
            embedding = embeddings.embed_query(doc)
            
            # Criar ID √∫nico
            vector_id = f"{categoria}_{i}"
            
            # Preparar vetor com metadados
            vector_data = {
                "id": vector_id,
                "values": embedding,
                "metadata": {
                    "text": doc,
                    "categoria": categoria,
                    "cidade": "rio" if "rio" in categoria else "paris",
                    "tipo": "roteiros" if "roteiros" in categoria else "logistica"
                }
            }
            
            vectors_to_upsert.append(vector_data)
            print(f"üìù Preparado: {vector_id}")
    
    # Fazer upsert em lote
    print(f"üöÄ Inserindo {len(vectors_to_upsert)} vetores...")
    index.upsert(vectors=vectors_to_upsert)
    
    print("‚úÖ Indexa√ß√£o completa!")
else:
    print("‚úÖ Dados j√° indexados!")

## 6Ô∏è‚É£ **Teste de Conectividade**

In [None]:
# Aguardar propaga√ß√£o dos dados
time.sleep(2)

# Verificar estat√≠sticas finais
stats = index.describe_index_stats()
print("üìä **ESTAT√çSTICAS DO √çNDICE:**")
print(f"   üìà Total de vetores: {stats['total_vector_count']}")
print(f"   üè∑Ô∏è Namespaces: {list(stats.get('namespaces', {}).keys()) if stats.get('namespaces') else 'default'}")
print(f"   üíæ Dimens√£o: {stats.get('dimension', 'N/A')}")

In [None]:
# Teste de busca simples
query = "pontos tur√≠sticos famosos"
query_embedding = embeddings.embed_query(query)

# Buscar documentos similares
results = index.query(
    vector=query_embedding,
    top_k=3,
    include_metadata=True
)

print(f"üîç **TESTE DE BUSCA:** '{query}'")
print("\nüìã **RESULTADOS:**")
for i, match in enumerate(results['matches'], 1):
    score = match['score']
    text = match['metadata']['text']
    cidade = match['metadata']['cidade']
    
    print(f"\n{i}. **{cidade.upper()}** (Score: {score:.3f})")
    print(f"   {text}")

## ‚úÖ **Resumo do Notebook 01:**

### üéØ **O que fizemos:**
- ‚öôÔ∏è Configuramos o Pinecone Cloud
- üóÑÔ∏è Criamos √≠ndice vetorial "turismo-inteligente"
- üìö Indexamos 20 documentos tur√≠sticos (Rio + Paris)
- üß† Usamos embeddings sentence-transformers
- ‚úÖ Testamos busca por similaridade

### üìä **Dados Indexados:**
- üáßüá∑ **Rio**: 10 docs (5 roteiros + 5 log√≠stica)
- üá´üá∑ **Paris**: 10 docs (5 roteiros + 5 log√≠stica)
- üìè **Dimens√£o**: 384 (all-MiniLM-L6-v2)

### ‚û°Ô∏è **Pr√≥ximo Passo:**
**02-RAG.ipynb** ‚Üí Sistema de recupera√ß√£o inteligente

---
‚ú® **Base vetorial pronta para uso!**