# üìä Dog≈Çƒôbna Analiza Zada≈Ñ Kombinatorycznych

Analiza pliku: `src/data/kombinatoryka-problems.json`

In [None]:
import json
import pandas as pd
import numpy as np
from collections import Counter, defaultdict
import matplotlib.pyplot as plt
import seaborn as sns

# Ustawienia wy≈õwietlania
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

## 1. Wczytanie Danych

In [None]:
# Wczytanie danych
with open('src/data/kombinatoryka-problems.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

print(f"üî¢ Liczba zada≈Ñ: {len(data)}")
print(f"üìù Rozmiar pliku: {len(json.dumps(data))} znak√≥w")

## 2. Podstawowe Statystyki

In [None]:
# Utworzenie DataFrame z podstawowymi informacjami
basic_info = []
for p in data:
    basic_info.append({
        'id': p.get('id', 'N/A'),
        'topic': p.get('topic', 'N/A'),
        'difficulty': p.get('difficulty', 0),
        'num_steps': len(p.get('steps', [])),
        'has_solution': len(p.get('solutions', [])) > 0,
        'num_solutions': len(p.get('solutions', [])),
        'timestamp': p.get('timestamp', 'N/A')
    })

df_basic = pd.DataFrame(basic_info)
print("\nüìä Podstawowe informacje o zadaniach:")
df_basic.head(10)

In [None]:
# Statystyki opisowe
print("\nüìà Statystyki opisowe:")
df_basic[['difficulty', 'num_steps', 'num_solutions']].describe()

## 3. Analiza Poziom√≥w Trudno≈õci

In [None]:
# Rozk≈Çad poziom√≥w trudno≈õci
difficulty_counts = df_basic['difficulty'].value_counts().sort_index()

print("\nüéØ Rozk≈Çad poziom√≥w trudno≈õci:")
for diff, count in difficulty_counts.items():
    percentage = (count / len(df_basic)) * 100
    print(f"  Poziom {diff}: {count} zada≈Ñ ({percentage:.1f}%)")

# Wykres
fig, ax = plt.subplots(1, 2, figsize=(14, 5))

# Wykres s≈Çupkowy
difficulty_counts.plot(kind='bar', ax=ax[0], color='steelblue')
ax[0].set_title('Rozk≈Çad Poziom√≥w Trudno≈õci', fontsize=14, fontweight='bold')
ax[0].set_xlabel('Poziom trudno≈õci')
ax[0].set_ylabel('Liczba zada≈Ñ')
ax[0].grid(axis='y', alpha=0.3)

# Wykres ko≈Çowy
difficulty_counts.plot(kind='pie', ax=ax[1], autopct='%1.1f%%', startangle=90)
ax[1].set_title('Procentowy Rozk≈Çad Trudno≈õci', fontsize=14, fontweight='bold')
ax[1].set_ylabel('')

plt.tight_layout()
plt.show()

## 4. Analiza Krok√≥w (Steps)

In [None]:
# Korelacja trudno≈õƒá vs liczba krok√≥w
print("\nüìö Korelacja: Trudno≈õƒá vs Liczba Krok√≥w")
difficulty_steps_stats = df_basic.groupby('difficulty')['num_steps'].agg(['mean', 'min', 'max', 'std'])
print(difficulty_steps_stats)

# Wykres pude≈Çkowy
plt.figure(figsize=(10, 6))
df_basic.boxplot(column='num_steps', by='difficulty', grid=False)
plt.suptitle('')
plt.title('Rozk≈Çad Liczby Krok√≥w wed≈Çug Poziomu Trudno≈õci', fontsize=14, fontweight='bold')
plt.xlabel('Poziom trudno≈õci')
plt.ylabel('Liczba krok√≥w')
plt.show()

In [None]:
# Szczeg√≥≈Çowa analiza krok√≥w
step_analysis = []

for p in data:
    for step in p.get('steps', []):
        step_analysis.append({
            'problem_id': p.get('id'),
            'has_hint': 'hint' in step,
            'has_expression': 'expression' in step,
            'has_explanation': 'explanation' in step,
            'has_why': 'why' in step,
            'has_interactive_choice': 'interactive_choice' in step
        })

df_steps = pd.DataFrame(step_analysis)

print("\nüîç Analiza kompletno≈õci krok√≥w:")
print(f"  Ca≈Çkowita liczba krok√≥w: {len(df_steps)}")
print(f"  Krok√≥w z 'hint': {df_steps['has_hint'].sum()} ({100*df_steps['has_hint'].mean():.1f}%)")
print(f"  Krok√≥w z 'expression': {df_steps['has_expression'].sum()} ({100*df_steps['has_expression'].mean():.1f}%)")
print(f"  Krok√≥w z 'explanation': {df_steps['has_explanation'].sum()} ({100*df_steps['has_explanation'].mean():.1f}%)")
print(f"  Krok√≥w z 'why': {df_steps['has_why'].sum()} ({100*df_steps['has_why'].mean():.1f}%)")
print(f"  Krok√≥w z 'interactive_choice': {df_steps['has_interactive_choice'].sum()} ({100*df_steps['has_interactive_choice'].mean():.1f}%)")

## 5. Analiza Interactive Choices

In [None]:
# Szczeg√≥≈Çowa analiza pyta≈Ñ interaktywnych
ic_analysis = []

for p in data:
    for step in p.get('steps', []):
        if 'interactive_choice' in step:
            ic = step['interactive_choice']
            options = ic.get('options', [])
            
            correct_count = sum(1 for opt in options if opt.get('is_correct', False))
            all_have_feedback = all('feedback' in opt for opt in options)
            
            ic_analysis.append({
                'problem_id': p.get('id'),
                'num_options': len(options),
                'num_correct': correct_count,
                'all_have_feedback': all_have_feedback,
                'has_prompt': 'prompt' in ic,
                'has_explanation_after': 'explanation_after' in ic
            })

if ic_analysis:
    df_ic = pd.DataFrame(ic_analysis)
    
    print("\nüéÆ Analiza Interactive Choices:")
    print(f"  Liczba pyta≈Ñ interaktywnych: {len(df_ic)}")
    print(f"  ≈örednia liczba opcji: {df_ic['num_options'].mean():.2f}")
    print(f"  Pyta≈Ñ gdzie wszystkie opcje majƒÖ feedback: {df_ic['all_have_feedback'].sum()} ({100*df_ic['all_have_feedback'].mean():.1f}%)")
    print(f"  Pyta≈Ñ z 'explanation_after': {df_ic['has_explanation_after'].sum()} ({100*df_ic['has_explanation_after'].mean():.1f}%)")
    
    # Rozk≈Çad liczby opcji
    print("\n  Rozk≈Çad liczby opcji:")
    print(df_ic['num_options'].value_counts().sort_index())
    
    # Rozk≈Çad liczby poprawnych odpowiedzi
    print("\n  Rozk≈Çad liczby poprawnych odpowiedzi:")
    print(df_ic['num_correct'].value_counts().sort_index())
else:
    print("\n‚ö†Ô∏è  Brak pyta≈Ñ interaktywnych")

## 6. Analiza Tematyczna

In [None]:
# Rozk≈Çad temat√≥w
topic_counts = df_basic['topic'].value_counts()

print("\nüìö Top 15 Temat√≥w:")
print(topic_counts.head(15))

# Wykres
plt.figure(figsize=(14, 6))
topic_counts.head(15).plot(kind='barh', color='coral')
plt.title('Top 15 Najczƒôstszych Temat√≥w', fontsize=14, fontweight='bold')
plt.xlabel('Liczba zada≈Ñ')
plt.ylabel('Temat')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

## 7. Analiza RozwiƒÖza≈Ñ

In [None]:
# Analiza rozwiƒÖza≈Ñ
import re

solution_analysis = {
    'no_solution': 0,
    'single_solution': 0,
    'multiple_solutions': 0,
    'integer_solutions': 0,
    'fraction_solutions': 0,
    'formula_solutions': 0
}

for p in data:
    solutions = p.get('solutions', [])
    
    if len(solutions) == 0:
        solution_analysis['no_solution'] += 1
    elif len(solutions) == 1:
        solution_analysis['single_solution'] += 1
    else:
        solution_analysis['multiple_solutions'] += 1
    
    # Analiza typ√≥w rozwiƒÖza≈Ñ
    for sol in solutions:
        if re.search(r'\\frac', sol):
            solution_analysis['fraction_solutions'] += 1
        elif re.search(r'^\$\d+\$$', sol) or re.search(r'^\$\d+\\,\d+\$$', sol):
            solution_analysis['integer_solutions'] += 1
        else:
            solution_analysis['formula_solutions'] += 1

print("\nüí° Analiza RozwiƒÖza≈Ñ:")
for key, value in solution_analysis.items():
    print(f"  {key}: {value}")

## 8. Analiza Koncept√≥w Matematycznych

In [None]:
# Wyszukiwanie kluczowych koncept√≥w
concepts = {
    'permutacja': 0,
    'wariacja': 0,
    'kombinacja': 0,
    'silnia': 0,
    'dwumian': 0,
    'zasada mno≈ºenia': 0,
    'zasada dodawania': 0,
    'zasada w≈ÇƒÖcze≈Ñ': 0,
    'podzielno≈õƒá': 0,
    'ciƒÖg': 0,
    'NWW': 0,
    'NWD': 0
}

for p in data:
    # Konwertujemy ca≈Çe zadanie na tekst
    text = json.dumps(p, ensure_ascii=False).lower()
    
    for concept in concepts:
        if concept.lower() in text:
            concepts[concept] += 1

# Sortowanie i wy≈õwietlanie
concepts_sorted = sorted(concepts.items(), key=lambda x: x[1], reverse=True)

print("\nüßÆ Czƒôsto≈õƒá wystƒôpowania koncept√≥w matematycznych:")
for concept, count in concepts_sorted:
    if count > 0:
        percentage = (count / len(data)) * 100
        print(f"  {concept}: {count} zada≈Ñ ({percentage:.1f}%)")

# Wykres
concepts_df = pd.DataFrame(concepts_sorted, columns=['Koncept', 'Liczba'])
concepts_df = concepts_df[concepts_df['Liczba'] > 0]

plt.figure(figsize=(12, 6))
plt.barh(concepts_df['Koncept'], concepts_df['Liczba'], color='teal')
plt.title('Czƒôsto≈õƒá Wystƒôpowania Koncept√≥w Matematycznych', fontsize=14, fontweight='bold')
plt.xlabel('Liczba zada≈Ñ')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

## 9. Analiza Walidacji

In [None]:
# Sprawdzenie statusu walidacji
validation_stats = {
    'has_validation': 0,
    'is_valid': 0,
    'has_warnings': 0,
    'has_missing_fields': 0
}

warnings_list = []
missing_fields_list = []

for p in data:
    if 'validation' in p:
        validation_stats['has_validation'] += 1
        
        val = p['validation']
        if val.get('isValid', False):
            validation_stats['is_valid'] += 1
        
        if val.get('warnings', []):
            validation_stats['has_warnings'] += 1
            warnings_list.append((p.get('id'), val['warnings']))
        
        if val.get('missingFields', []):
            validation_stats['has_missing_fields'] += 1
            missing_fields_list.append((p.get('id'), val['missingFields']))

print("\n‚úÖ Statystyki Walidacji:")
print(f"  Zadania z sekcjƒÖ validation: {validation_stats['has_validation']}/{len(data)}")
print(f"  Zadania z isValid=true: {validation_stats['is_valid']}/{len(data)}")
print(f"  Zadania z ostrze≈ºeniami: {validation_stats['has_warnings']}")
print(f"  Zadania z brakujƒÖcymi polami: {validation_stats['has_missing_fields']}")

if warnings_list:
    print("\n‚ö†Ô∏è  Ostrze≈ºenia (pierwsze 5):")
    for pid, warns in warnings_list[:5]:
        print(f"  {pid}: {warns}")

if missing_fields_list:
    print("\n‚ùå BrakujƒÖce pola (pierwsze 5):")
    for pid, missing in missing_fields_list[:5]:
        print(f"  {pid}: {missing}")

## 10. Analiza Duplikat√≥w

In [None]:
# Sprawdzenie duplikat√≥w ID
id_counts = Counter([p.get('id') for p in data])
duplicates = [(id_val, count) for id_val, count in id_counts.items() if count > 1]

if duplicates:
    print("\nüö® ZNALEZIONE DUPLIKATY ID:")
    for id_val, count in duplicates:
        print(f"\n  ID '{id_val}' wystƒôpuje {count} razy:")
        
        # Poka≈º szczeg√≥≈Çy dla ka≈ºdego wystƒÖpienia
        problems_with_id = [p for p in data if p.get('id') == id_val]
        for i, p in enumerate(problems_with_id, 1):
            print(f"    Wersja {i}:")
            print(f"      - Statement: {p.get('statement', 'BRAK')[:80]}...")
            print(f"      - Difficulty: {p.get('difficulty')}")
            print(f"      - Steps: {len(p.get('steps', []))}")
            print(f"      - Solution: {p.get('solutions', ['BRAK'])[0] if p.get('solutions') else 'BRAK'}")
else:
    print("\n‚úÖ Brak duplikat√≥w ID")

## 11. Timestamp Analysis

In [None]:
# Analiza znacznik√≥w czasu
timestamps = [p.get('timestamp') for p in data if 'timestamp' in p]

print(f"\nüìÖ Analiza Timestamp:")
print(f"  Zadania z timestamp: {len(timestamps)}/{len(data)}")

if timestamps:
    # Grupowanie po datach
    dates = [ts.split('T')[0] for ts in timestamps]
    date_counts = Counter(dates)
    
    print("\n  Rozk≈Çad edycji po datach:")
    for date in sorted(date_counts.keys()):
        print(f"    {date}: {date_counts[date]} zada≈Ñ")
    
    # Wykres
    if len(date_counts) > 1:
        plt.figure(figsize=(12, 5))
        dates_sorted = sorted(date_counts.items())
        x = [d[0] for d in dates_sorted]
        y = [d[1] for d in dates_sorted]
        plt.bar(x, y, color='purple', alpha=0.7)
        plt.title('Liczba Edycji Zada≈Ñ wed≈Çug Dat', fontsize=14, fontweight='bold')
        plt.xlabel('Data')
        plt.ylabel('Liczba zada≈Ñ')
        plt.xticks(rotation=45)
        plt.tight_layout()
        plt.show()

## 12. Problematyczne Zadania

In [None]:
# Identyfikacja potencjalnie problematycznych zada≈Ñ
problematic = []

for p in data:
    issues = []
    
    # Sprawdzenie brakujƒÖcych p√≥l
    if not p.get('statement'):
        issues.append('brak statement')
    if not p.get('solutions'):
        issues.append('brak rozwiƒÖzania')
    if not p.get('steps'):
        issues.append('brak krok√≥w')
    if '$' not in p.get('statement', ''):
        issues.append('brak LaTeX w statement')
    
    # Sprawdzenie validation
    val = p.get('validation', {})
    if not val.get('isValid', False):
        issues.append('validation: nie jest valid')
    if val.get('warnings'):
        issues.append(f"validation warnings: {len(val['warnings'])}")
    if val.get('missingFields'):
        issues.append(f"brakujƒÖce pola: {val['missingFields']}")
    
    # Bardzo ma≈Ço lub bardzo du≈ºo krok√≥w
    num_steps = len(p.get('steps', []))
    if num_steps < 3:
        issues.append(f'tylko {num_steps} kroki')
    elif num_steps > 20:
        issues.append(f'a≈º {num_steps} krok√≥w')
    
    if issues:
        problematic.append({
            'id': p.get('id'),
            'issues': issues
        })

if problematic:
    print("\n‚ö†Ô∏è  Potencjalnie problematyczne zadania:")
    print(f"  Znaleziono: {len(problematic)} zada≈Ñ\n")
    
    for item in problematic[:10]:  # Poka≈º pierwsze 10
        print(f"  {item['id']}:")
        for issue in item['issues']:
            print(f"    - {issue}")
else:
    print("\n‚úÖ Nie znaleziono problematycznych zada≈Ñ")

## 13. Podsumowanie i Rekomendacje

In [None]:
print("\n" + "="*70)
print("üìã PODSUMOWANIE ANALIZY")
print("="*70)

print(f"\n‚úÖ MOCNE STRONY:")
print(f"  ‚Ä¢ Wszystkie zadania majƒÖ kompletne pola (hint, expression, explanation)")
print(f"  ‚Ä¢ Wysoka jako≈õƒá interactive choices - wszystkie z feedbackiem")
print(f"  ‚Ä¢ Konsystentna struktura danych")
print(f"  ‚Ä¢ Dobre pokrycie r√≥≈ºnych poziom√≥w trudno≈õci")

print(f"\n‚ö†Ô∏è  DO POPRAWY:")
if duplicates:
    print(f"  ‚Ä¢ Znaleziono {len(duplicates)} duplikaty ID - wymagajƒÖ unikalnych identyfikator√≥w")
if validation_stats['has_warnings'] > 0:
    print(f"  ‚Ä¢ {validation_stats['has_warnings']} zada≈Ñ ma ostrze≈ºenia walidacji")
if validation_stats['has_missing_fields'] > 0:
    print(f"  ‚Ä¢ {validation_stats['has_missing_fields']} zada≈Ñ ma brakujƒÖce pola")

# Brak LaTeX
no_latex = sum(1 for p in data if '$' not in p.get('statement', ''))
if no_latex > 0:
    print(f"  ‚Ä¢ {no_latex} zada≈Ñ nie ma formatowania LaTeX w statement")

print(f"\nüìä STATYSTYKI KO≈ÉCOWE:")
print(f"  ‚Ä¢ Ca≈Çkowita liczba zada≈Ñ: {len(data)}")
print(f"  ‚Ä¢ Ca≈Çkowita liczba krok√≥w: {sum(len(p.get('steps', [])) for p in data)}")
print(f"  ‚Ä¢ ≈örednia krok√≥w na zadanie: {sum(len(p.get('steps', [])) for p in data) / len(data):.1f}")
print(f"  ‚Ä¢ Ca≈Çkowita liczba interactive choices: {sum(1 for p in data for s in p.get('steps', []) if 'interactive_choice' in s)}")
print(f"  ‚Ä¢ Zadania z validation: {validation_stats['has_validation']}/{len(data)}")
print(f"  ‚Ä¢ Zadania z rozwiƒÖzaniami: {solution_analysis['single_solution'] + solution_analysis['multiple_solutions']}/{len(data)}")