In [2]:
import json
import random

def analyze_text(context, question, answer, answer_start, window_size=12):
    """
    Analyzes text and prints in the specified format
    """
    print(f"Question: {question}")
    print(f"Answer: {answer}")
    print(f"Start position: {answer_start}")
    print("Neighboring characters:", end=" ")
    
    text_to_analyze = context[answer_start:answer_start + window_size]
    chars = []
    
    for i in range(window_size):
        current_pos = answer_start + i
        if i < len(text_to_analyze):
            char = text_to_analyze[i]
            if char == ' ':
                chars.append(f"{current_pos}: ")
            else:
                chars.append(f"{current_pos}: {char}")
        else:
            chars.append(f"{current_pos}:")
    
    print(" ".join(chars))
    
    start_idx = max(0, answer_start - 5)
    end_idx = min(len(context), answer_start + len(answer) + 5)
    snippet = context[start_idx:end_idx]
    print(f"Context snippet: {snippet}")
    print("-" * 47)

def process_squad_dataset(file_path):
    """
    Processes the dataset with exactly one question per article
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        for idx, article in enumerate(data['data'], 1):
            title = article.get('title', 'Untitled')
            print(f"{idx}. {title}:")
            
            # Collect all QAs from all paragraphs in the article
            all_qas = []
            for paragraph in article['paragraphs']:
                all_qas.extend([(qa, paragraph['context']) for qa in paragraph['qas']])
            
            if all_qas:
                # Select one random QA pair from all QAs in the article
                qa, context = random.choice(all_qas)
                question = qa.get('question', 'Unknown question')
                
                # Check if this is an impossible answer case
                is_impossible = qa.get('is_impossible', False)
                
                if is_impossible:
                    plausible_answers = qa.get('plausible_answers', [])
                    if plausible_answers:
                        ans = plausible_answers[0]  # Take first plausible answer
                        print(f"Question: {question}")
                        print(f"Plausible Answer: {ans.get('text', 'No text')}")
                        print(f"Start position: {ans.get('answer_start', 'N/A')}")
                        
                        answer_start = ans['answer_start']
                        text_to_analyze = context[answer_start:answer_start + 12]
                        chars = []
                        print("Neighboring characters:", end=" ")
                        for i in range(12):
                            current_pos = answer_start + i
                            if i < len(text_to_analyze):
                                char = text_to_analyze[i]
                                if char == ' ':
                                    chars.append(f"{current_pos}: ")
                                else:
                                    chars.append(f"{current_pos}: {char}")
                            else:
                                chars.append(f"{current_pos}:")
                        print(" ".join(chars))
                        
                        start_idx = max(0, answer_start - 5)
                        end_idx = min(len(context), answer_start + len(ans['text']) + 5)
                        snippet = context[start_idx:end_idx]
                        print(f"Context snippet: {snippet}")
                else:
                    if 'answers' in qa and qa['answers']:
                        answer_info = qa['answers'][0]
                        analyze_text(
                            context=context,
                            question=question,
                            answer=answer_info['text'],
                            answer_start=answer_info['answer_start']
                        )
                    else:
                        print(f"Question: {question}")
                        print("Answer: No answer provided")
                print("-" * 47)

    except FileNotFoundError:
        print(f"Error: Could not find file at {file_path}")
    except json.JSONDecodeError:
        print(f"Error: File at {file_path} is not valid JSON")
    except Exception as e:
        print(f"An error occurred: {str(e)}")


In [2]:
    
# Example usage
if __name__ == "__main__":
    # Replace with your dataset path
    #dataset_path = "../alpha 2.0/valid_og_nums.json"
    dataset_path = "/Users/santhoshrishimarkonda/Downloads/SQUAD TEL DATA/squad2.0_telugu_train.json"
    process_squad_dataset(dataset_path)

1. బియాన్స్ :
Question: పెప్సి ప్రపంచ ప్రచారంలో చేరడానికి నిక్కీ మినాజ్ను ఏది ప్రభావితం చేసింది? 
Answer: బియాన్స్ యొక్క పెప్సి వాణిజ్య ప్రకటనను
Start position: 561
Neighboring characters: 561: బ 562: ి 563: య 564: ా 565: న 566: ్ 567: స 568: ్ 569:  570: య 571: ొ 572: క
Context snippet: ంది. బియాన్స్ యొక్క పెప్సి వాణిజ్య ప్రకటనను చూడట
-----------------------------------------------
-----------------------------------------------
2. ఫ్రెడెరిక్ _ చోపిన్ :
Question: ఆయన ఎక్కువగా ఏ వాయిద్యం కోసం స్వరపరిచారు? 
Answer: సోలో పియానో
Start position: 324
Neighboring characters: 324: స 325: ో 326: ల 327: ో 328:  329: ప 330: ి 331: య 332: ా 333: న 334: ో 335: 
Context snippet: నంగా సోలో పియానో కోసం
-----------------------------------------------
-----------------------------------------------
3. మింగ్ రాజవంశం సమయంలో చైనా-టిబెటన్ సంబంధాలు :
Question: హాంగ్వు చక్రవర్తిగా ఎవరు పాలించారు? 
Answer: జు యువాన్జాంగ్
Start position: 115
Neighboring characters: 115: జ 116: ు 117:  118: య 119: ు 120: వ 121:

In [3]:
    
# Example usage
if __name__ == "__main__":
    # Replace with your dataset path
    #dataset_path = "../alpha 2.0/valid_og_nums.json"
    dataset_path = "/Users/santhoshrishimarkonda/Downloads/SQUAD TEL DATA/squad2.0_telugu_val.json"
    process_squad_dataset(dataset_path)

1. బియాన్స్ :
Question: శ్రీమతి కార్టర్ షో లిమిటెడ్ ఎడిషన్ ఏ సంవత్సరంలో విడుదలైంది? 
Answer: 2013లో,
Start position: 592
Neighboring characters: 592: 2 593: 0 594: 1 595: 3 596: ల 597: ో 598: , 599:  600: హ 601: ీ 602: ట 603: ్
Context snippet: ంది. 2013లో, హీట్
-----------------------------------------------
-----------------------------------------------
2. ఫ్రెడెరిక్ _ చోపిన్ :
Question: చోపిన్ తన సంగీతాన్ని ప్రపంచానికి తీసుకెళ్లడం ప్రారంభించినప్పుడు, అతనితో ఆస్ట్రియాకు వెళ్ళిన వ్యక్తి చివరి పేరు ఏమిటి? 
Answer: వోయ్సెచోవ్స్కీ
Start position: 255
Neighboring characters: 255: వ 256: ో 257: య 258: ్ 259: స 260: ె 261: చ 262: ో 263: వ 264: ్ 265: స 266: ్
Context snippet: డు". వోయ్సెచోవ్స్కీతో, అ
-----------------------------------------------
-----------------------------------------------
3. మింగ్ రాజవంశం సమయంలో చైనా-టిబెటన్ సంబంధాలు :
Question: టిబెట్పై మింగ్ రాజసభకు పూర్తి సార్వభౌమాధికారం ఉందని ఎవరు విశ్వసించారు? 
Answer: వాంగ్ మరియు నైమా
Start position: 90
Neighboring characters: 