In [1]:
import sys, pandas as pd, numpy as np
sys.path.append('..')
from src.task2_config import DATA_PATH
from src.loader import load_real_data
from src.chunker import chunk_all_complaints
from src.embedder import generate_all_embeddings
from src.vectorstore import create_vectorstore, search
from src.task2_reporter import create_final_summary
print("‚úÖ Setup complete - Processing ALL your real data")

‚úÖ Config loaded - Data path: d:\10 acadamy\Intelligent Complaint Analysis for Financial Services\notebooks\..\data\processed\filtered_complaints.csv


  from .autonotebook import tqdm as notebook_tqdm


‚úÖ Setup complete - Processing ALL your real data


In [2]:
# Cell 2: Load YOUR processed data from Task 1
from pathlib import Path

processed_file = Path('../data/processed/filtered_complaints.csv')
print(f"üìÇ Loading from: {processed_file}")
df = pd.read_csv(processed_file)
print(f"‚úÖ Loaded {len(df):,} processed complaints")
print(f"üìä Products:\n{df['Product_Category'].value_counts()}")

üìÇ Loading from: ..\data\processed\filtered_complaints.csv


‚úÖ Loaded 265,694 processed complaints
üìä Products:
Product_Category
Mortgage        130134
Credit Card      80620
Student Loan     53194
Payday Loan       1746
Name: count, dtype: int64


In [3]:
df = load_real_data()
print(f"\nüìä Processing ALL {len(df):,} complaints")
print(f"üìã Columns: {df.columns.tolist()}")

üìÇ Loading YOUR real data: d:\10 acadamy\Intelligent Complaint Analysis for Financial Services\notebooks\..\data\processed\filtered_complaints.csv


‚úÖ Loaded 265,694 complaints
üìã Columns: ['Complaint ID', 'Date received', 'Product', 'Product_Category', 'Issue', 'Company', 'State', 'Consumer complaint narrative', 'Cleaned_Narrative']

üìä Processing ALL 265,694 complaints
üìã Columns: ['Complaint ID', 'Date received', 'Product', 'Product_Category', 'Issue', 'Company', 'State', 'Consumer complaint narrative', 'Cleaned_Narrative']


In [4]:
import sys, pandas as pd
sys.path.append('..')
from src.task2_config import DATA_PATH

# Load and inspect
df = pd.read_csv(DATA_PATH)
print(f"‚úÖ Loaded {len(df):,} complaints")
print(f"\nüìã COLUMNS:")
for col in df.columns:
    print(f"  ‚Ä¢ '{col}'")
    
# Check the narrative column
narrative_col = 'Consumer complaint narrative'
if narrative_col in df.columns:
    print(f"\nüìù Sample narrative (first 100 chars):")
    print(df[narrative_col].iloc[0][:100] if pd.notna(df[narrative_col].iloc[0]) else "EMPTY")
    
    # Count non-empty narratives
    non_empty = df[narrative_col].notna().sum()
    print(f"\nüìä Complaints with narratives: {non_empty:,}/{len(df):,} ({(non_empty/len(df)*100):.1f}%)")

‚úÖ Loaded 265,694 complaints

üìã COLUMNS:
  ‚Ä¢ 'Complaint ID'
  ‚Ä¢ 'Date received'
  ‚Ä¢ 'Product'
  ‚Ä¢ 'Product_Category'
  ‚Ä¢ 'Issue'
  ‚Ä¢ 'Company'
  ‚Ä¢ 'State'
  ‚Ä¢ 'Consumer complaint narrative'
  ‚Ä¢ 'Cleaned_Narrative'

üìù Sample narrative (first 100 chars):
I signed a purchase agreement with Lennar Corporation on XX/XX/year>, for a new construction home in

üìä Complaints with narratives: 265,694/265,694 (100.0%)


In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from tqdm import tqdm



splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = []

for idx, row in tqdm(df.iterrows(), total=len(df), desc="Chunking"):
    text = str(row['Consumer complaint narrative'])
    if len(text) < 10: continue
    for i, chunk in enumerate(splitter.split_text(text)):
        chunks.append({
            'chunk_id': len(chunks),
            'complaint_id': idx,
            'product': row['Product_Category'],
            'chunk_index': i,
            'total_chunks': len(splitter.split_text(text)),
            'chunk_text': chunk,
            'chunk_length': len(chunk)
        })

chunks_df = pd.DataFrame(chunks)
chunks_df.to_parquet('../data/chunks/all_chunks.parquet')
print(f"‚úÖ Created {len(chunks_df):,} chunks")

Chunking: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 265694/265694 [1:02:49<00:00, 70.48it/s] 


‚úÖ Created 1,051,455 chunks


In [6]:
from collections import Counter
import time
import os

class SimpleEmbedder:
    def __init__(self, vocab_size=500): 
        self.vocab_size = vocab_size
        self.word_to_idx = {}
    
    def fit(self, texts):
        word_counts = Counter()
        for text in texts[:10000]:
            word_counts.update(str(text).lower().split())
        for i, (w, _) in enumerate(word_counts.most_common(self.vocab_size)):
            self.word_to_idx[w] = i
        return self
    
    def encode(self, texts):
        embeddings = []
        for text in tqdm(texts, desc="Embedding"):
            vec = np.zeros(self.vocab_size)
            for w in str(text).lower().split():
                if w in self.word_to_idx:
                    vec[self.word_to_idx[w]] += 1
            norm = np.linalg.norm(vec)
            embeddings.append(vec/norm if norm > 0 else vec)
        return np.array(embeddings)

# Now chunks_df exists from Cell 3
texts = chunks_df['chunk_text'].tolist()
embedder = SimpleEmbedder(500).fit(texts)

# Save in batches
os.makedirs('simple_embeddings', exist_ok=True)
start = time.time()
for i in range(0, len(texts), 10000):
    batch = texts[i:i+10000]
    np.save(f'simple_embeddings/batch_{i//10000:04d}.npy', embedder.encode(batch))
    print(f"Batch {i//10000+1}: {min(i+10000, len(texts)):,}/{len(texts):,} - {(time.time()-start)/60:.1f} min")

print(f"\n‚úÖ Done: {len(texts):,} embeddings in {(time.time()-start)/60:.1f} min")

Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3342.53it/s]


Batch 1: 10,000/1,051,455 - 0.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4536.41it/s]


Batch 2: 20,000/1,051,455 - 0.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4585.62it/s]


Batch 3: 30,000/1,051,455 - 0.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4308.88it/s]


Batch 4: 40,000/1,051,455 - 0.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4799.96it/s]


Batch 5: 50,000/1,051,455 - 0.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4869.67it/s]


Batch 6: 60,000/1,051,455 - 0.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3705.34it/s]


Batch 7: 70,000/1,051,455 - 0.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4205.47it/s]


Batch 8: 80,000/1,051,455 - 0.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3512.65it/s]


Batch 9: 90,000/1,051,455 - 0.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3432.50it/s]


Batch 10: 100,000/1,051,455 - 0.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4042.97it/s]


Batch 11: 110,000/1,051,455 - 0.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3686.85it/s]


Batch 12: 120,000/1,051,455 - 0.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3478.86it/s]


Batch 13: 130,000/1,051,455 - 0.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4022.66it/s]


Batch 14: 140,000/1,051,455 - 0.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:04<00:00, 2177.18it/s]


Batch 15: 150,000/1,051,455 - 0.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3614.41it/s]


Batch 16: 160,000/1,051,455 - 0.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1897.01it/s]


Batch 17: 170,000/1,051,455 - 1.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3400.01it/s]


Batch 18: 180,000/1,051,455 - 1.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3894.84it/s]


Batch 19: 190,000/1,051,455 - 1.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4552.55it/s]


Batch 20: 200,000/1,051,455 - 1.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4162.51it/s]


Batch 21: 210,000/1,051,455 - 1.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2707.79it/s]


Batch 22: 220,000/1,051,455 - 1.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4862.52it/s]


Batch 23: 230,000/1,051,455 - 1.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:04<00:00, 2231.57it/s]


Batch 24: 240,000/1,051,455 - 1.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:04<00:00, 2331.46it/s]


Batch 25: 250,000/1,051,455 - 1.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2824.71it/s]


Batch 26: 260,000/1,051,455 - 1.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2844.05it/s]


Batch 27: 270,000/1,051,455 - 1.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2999.59it/s]


Batch 28: 280,000/1,051,455 - 1.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3604.56it/s]


Batch 29: 290,000/1,051,455 - 1.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1963.77it/s]


Batch 30: 300,000/1,051,455 - 1.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:04<00:00, 2189.14it/s]


Batch 31: 310,000/1,051,455 - 1.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1670.73it/s]


Batch 32: 320,000/1,051,455 - 2.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:08<00:00, 1118.05it/s]


Batch 33: 330,000/1,051,455 - 2.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:04<00:00, 2097.68it/s]


Batch 34: 340,000/1,051,455 - 2.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4502.55it/s]


Batch 35: 350,000/1,051,455 - 2.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4256.77it/s]


Batch 36: 360,000/1,051,455 - 2.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:04<00:00, 2077.56it/s]


Batch 37: 370,000/1,051,455 - 2.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:07<00:00, 1264.39it/s]


Batch 38: 380,000/1,051,455 - 2.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1952.91it/s]


Batch 39: 390,000/1,051,455 - 2.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:06<00:00, 1596.46it/s]


Batch 40: 400,000/1,051,455 - 2.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1756.64it/s]


Batch 41: 410,000/1,051,455 - 3.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:06<00:00, 1545.01it/s]


Batch 42: 420,000/1,051,455 - 3.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2654.70it/s]


Batch 43: 430,000/1,051,455 - 3.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4034.89it/s]


Batch 44: 440,000/1,051,455 - 3.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1899.17it/s]


Batch 45: 450,000/1,051,455 - 3.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4011.54it/s]


Batch 46: 460,000/1,051,455 - 3.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3847.58it/s]


Batch 47: 470,000/1,051,455 - 3.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3797.25it/s]


Batch 48: 480,000/1,051,455 - 3.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4430.30it/s]


Batch 49: 490,000/1,051,455 - 3.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1713.32it/s]


Batch 50: 500,000/1,051,455 - 3.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3992.91it/s]


Batch 51: 510,000/1,051,455 - 3.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 3162.84it/s]


Batch 52: 520,000/1,051,455 - 4.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2750.48it/s]


Batch 53: 530,000/1,051,455 - 4.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1710.25it/s]


Batch 54: 540,000/1,051,455 - 4.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2774.23it/s]


Batch 55: 550,000/1,051,455 - 4.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2566.04it/s]


Batch 56: 560,000/1,051,455 - 4.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:04<00:00, 2038.00it/s]


Batch 57: 570,000/1,051,455 - 4.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3968.21it/s]


Batch 58: 580,000/1,051,455 - 4.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:06<00:00, 1559.15it/s]


Batch 59: 590,000/1,051,455 - 4.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2714.31it/s]


Batch 60: 600,000/1,051,455 - 4.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:06<00:00, 1642.42it/s]


Batch 61: 610,000/1,051,455 - 4.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 6335.75it/s]


Batch 62: 620,000/1,051,455 - 4.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4328.63it/s]


Batch 63: 630,000/1,051,455 - 4.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3884.23it/s]


Batch 64: 640,000/1,051,455 - 4.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 3238.88it/s]


Batch 65: 650,000/1,051,455 - 5.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1761.97it/s]


Batch 66: 660,000/1,051,455 - 5.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1669.24it/s]


Batch 67: 670,000/1,051,455 - 5.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1732.95it/s]


Batch 68: 680,000/1,051,455 - 5.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 3060.53it/s]


Batch 69: 690,000/1,051,455 - 5.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 3131.18it/s]


Batch 70: 700,000/1,051,455 - 5.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2961.39it/s]


Batch 71: 710,000/1,051,455 - 5.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2543.54it/s]


Batch 72: 720,000/1,051,455 - 5.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2929.94it/s]


Batch 73: 730,000/1,051,455 - 5.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3482.54it/s]


Batch 74: 740,000/1,051,455 - 5.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2684.46it/s]


Batch 75: 750,000/1,051,455 - 6.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:04<00:00, 2440.04it/s]


Batch 76: 760,000/1,051,455 - 6.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4329.65it/s]


Batch 77: 770,000/1,051,455 - 6.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4296.05it/s]


Batch 78: 780,000/1,051,455 - 6.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:06<00:00, 1603.57it/s]


Batch 79: 790,000/1,051,455 - 6.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3881.75it/s]


Batch 80: 800,000/1,051,455 - 6.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 5966.17it/s]


Batch 81: 810,000/1,051,455 - 6.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 5317.25it/s]


Batch 82: 820,000/1,051,455 - 6.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4703.60it/s]


Batch 83: 830,000/1,051,455 - 6.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 5013.26it/s]


Batch 84: 840,000/1,051,455 - 6.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 7099.17it/s]


Batch 85: 850,000/1,051,455 - 6.7 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 5628.23it/s]


Batch 86: 860,000/1,051,455 - 6.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 5869.51it/s]


Batch 87: 870,000/1,051,455 - 6.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 6033.96it/s]


Batch 88: 880,000/1,051,455 - 6.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4658.49it/s]


Batch 89: 890,000/1,051,455 - 6.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 5564.93it/s]


Batch 90: 900,000/1,051,455 - 6.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 6159.83it/s]


Batch 91: 910,000/1,051,455 - 7.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 6974.16it/s]


Batch 92: 920,000/1,051,455 - 7.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 7447.77it/s]


Batch 93: 930,000/1,051,455 - 7.0 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1943.99it/s]


Batch 94: 940,000/1,051,455 - 7.1 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:05<00:00, 1931.35it/s]


Batch 95: 950,000/1,051,455 - 7.2 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 5414.77it/s]


Batch 96: 960,000/1,051,455 - 7.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3900.39it/s]


Batch 97: 970,000/1,051,455 - 7.3 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3519.96it/s]


Batch 98: 980,000/1,051,455 - 7.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3727.83it/s]


Batch 99: 990,000/1,051,455 - 7.4 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4901.78it/s]


Batch 100: 1,000,000/1,051,455 - 7.5 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4579.62it/s]


Batch 101: 1,010,000/1,051,455 - 7.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 3590.53it/s]


Batch 102: 1,020,000/1,051,455 - 7.6 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:03<00:00, 2932.97it/s]


Batch 103: 1,030,000/1,051,455 - 7.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:02<00:00, 4290.97it/s]


Batch 104: 1,040,000/1,051,455 - 7.8 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10000/10000 [00:01<00:00, 5763.63it/s]


Batch 105: 1,050,000/1,051,455 - 7.9 min


Embedding: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1455/1455 [00:00<00:00, 4196.19it/s]


Batch 106: 1,051,455/1,051,455 - 7.9 min

‚úÖ Done: 1,051,455 embeddings in 7.9 min


In [7]:
import faiss, numpy as np, pickle, pandas as pd
from pathlib import Path

# CREATE INDEX DIRECTLY FROM BATCHES (NO LOADING ALL)
print("üîß Creating FAISS index...")
index = faiss.IndexFlatIP(500)
for f in sorted(Path('simple_embeddings').glob('batch_*.npy')):
    batch = np.load(f).astype('float32')
    faiss.normalize_L2(batch)  # Normalize batch by batch
    index.add(batch)
print(f"‚úÖ Added {index.ntotal:,} vectors")

# SAVE INDEX
os.makedirs('vector_store', exist_ok=True)
faiss.write_index(index, 'vector_store/faiss_index.idx')

# MINIMAL METADATA (NO TEXT)
df = pd.read_parquet('../data/chunks/all_chunks.parquet')
meta = [{'id':r.chunk_id, 'cid':r.complaint_id, 'p':r.product} for _,r in df.iterrows()]
pickle.dump(meta, open('vector_store/metadata.pkl', 'wb'))

print(f"‚úÖ FAISS: {index.ntotal:,} | Metadata: {len(meta):,}")

üîß Creating FAISS index...
‚úÖ Added 1,051,455 vectors
‚úÖ FAISS: 1,051,455 | Metadata: 1,051,455
