# استكشاف بيانات تصنيف الحيوانات

هذا الدفتر مخصص لاستكشاف وتحليل مجموعة بيانات Animals-10

In [None]:
# استيراد المكتبات المطلوبة
import sys
sys.path.append('../src')

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from data_processing import load_images, visualize_sample_images, analyze_data_distribution, create_data_summary_report

# إعداد matplotlib للعرض باللغة العربية
plt.rcParams['font.size'] = 12
sns.set_style("whitegrid")

## 1. تحميل البيانات

In [None]:
# تحميل البيانات
train_generator, test_generator, class_names = load_images(
    data_dir="../data/animals10",
    img_size=(128, 128),
    batch_size=32
)

print(f"تم تحميل البيانات بنجاح!")
print(f"فئات الحيوانات: {class_names}")

## 2. عرض عينة من الصور

In [None]:
# عرض عينة من صور التدريب
visualize_sample_images(train_generator, class_names, sample_size=20)

## 3. تحليل توزيع البيانات

In [None]:
# تحليل توزيع البيانات
analyze_data_distribution(train_generator, class_names)

## 4. تقرير شامل للبيانات

In [None]:
# إنشاء تقرير شامل
create_data_summary_report(train_generator, test_generator, class_names)

## 5. تحليل خصائص الصور

In [None]:
# الحصول على دفعة من الصور لتحليل الخصائص
images, labels = next(train_generator)

print(f"شكل دفعة الصور: {images.shape}")
print(f"شكل دفعة التسميات: {labels.shape}")
print(f"نطاق قيم البكسل: [{images.min():.3f}, {images.max():.3f}]")
print(f"متوسط قيم البكسل: {images.mean():.3f}")
print(f"الانحراف المعياري: {images.std():.3f}")

## 6. تصور توزيع الألوان

In [None]:
# تحليل توزيع الألوان في عينة من الصور
fig, axes = plt.subplots(2, 3, figsize=(15, 10))

# اختيار 6 صور عشوائية
for i in range(6):
    row = i // 3
    col = i % 3
    
    img = images[i]
    
    # عرض الصورة
    axes[row, col].imshow(img)
    
    # الحصول على اسم الفئة
    class_idx = np.argmax(labels[i])
    class_name = class_names[class_idx]
    
    axes[row, col].set_title(f'{class_name}')
    axes[row, col].axis('off')

plt.tight_layout()
plt.show()

## 7. الخلاصة والملاحظات

### الملاحظات الرئيسية:
1. البيانات متوازنة نسبياً بين الفئات المختلفة
2. الصور بجودة جيدة وواضحة
3. هناك تنوع جيد في الزوايا والإضاءة
4. بعض الفئات قد تحتاج إلى مزيد من التحسينات في المعالجة

### التوصيات:
1. استخدام تحسينات البيانات (Data Augmentation) لزيادة التنوع
2. تطبيق تقنيات التطبيع المناسبة
3. مراقبة الأداء على الفئات الأقل تمثيلاً