# الفصل الثالث: أساسيات البرمجة — تطبيق عملي
**لغة Python للمعلوماتية الحيوية**

هذا الدفتر التفاعلي مرافق للفصل الثالث من مقرر أساسيات المعلوماتية الحيوية.  
شغّل كل خلية بالترتيب باستخدام `Shift+Enter`.

---

## 1. المتغيرات وأنواع البيانات
المتغير هو اسم تعطيه لقيمة معينة حتى تستخدمها لاحقاً — مثل `س` في الرياضيات.

In [1]:
# أنواع البيانات الأربعة الأساسية

# نص (str) — لتخزين الأسماء والتسلسلات
gene_name = "BRCA1"
dna_sequence = "ATGCGA"

# عدد صحيح (int) — للعد والفهرسة
sequence_length = 5589
num_exons = 23

# عدد عشري (float) — للقياسات والنسب
gc_content = 55.6
p_value = 0.003

# قيمة منطقية (bool) — للأسئلة بنعم/لا
is_coding = True
has_mutation = False

print(f"الجين: {gene_name}")
print(f"الطول: {sequence_length} bp")
print(f"نسبة GC: {gc_content}%")
print(f"هل يرمّز بروتين؟ {is_coding}")

الجين: BRCA1
الطول: 5589 bp
نسبة GC: 55.6%
هل يرمّز بروتين؟ True


In [2]:
# تجربة: معلومات عن جين TP53
gene_name = "TP53"
chromosome = 17
length_bp = 19149
is_tumor_suppressor = True

print(f"الجين {gene_name} يقع على الكروموسوم {chromosome}")
print(f"الطول: {length_bp:,} bp")
print(f"كابت أورام: {is_tumor_suppressor}")

الجين TP53 يقع على الكروموسوم 17
الطول: 19,149 bp
كابت أورام: True


## 2. النصوص والتسلسلات
تسلسلات DNA و RNA والبروتين هي نصوص بطبيعتها — سلسلة من الحروف.

In [3]:
dna = "ATGCGATCG"

# الطول
print(f"الطول: {len(dna)} bp")

# التقطيع — استخراج الكودون الأول
first_codon = dna[0:3]
print(f"الكودون الأول: {first_codon}")

# آخر 3 حروف
last_codon = dna[-3:]
print(f"آخر كودون: {last_codon}")

# تذكر: الفهرسة تبدأ من الصفر!
print(f"\nالفهرسة:")
for i, base in enumerate(dna):
    print(f"  الفهرس {i}: {base}")

الطول: 9 bp
الكودون الأول: ATG
آخر كودون: TCG

الفهرسة:
  الفهرس 0: A
  الفهرس 1: T
  الفهرس 2: G
  الفهرس 3: C
  الفهرس 4: G
  الفهرس 5: A
  الفهرس 6: T
  الفهرس 7: C
  الفهرس 8: G


In [4]:
# عد النيوكليوتيدات
dna = "ATGCGATCGTAGC"

a_count = dna.count('A')
t_count = dna.count('T')
g_count = dna.count('G')
c_count = dna.count('C')

print(f"التسلسل: {dna}")
print(f"A={a_count}, T={t_count}, G={g_count}, C={c_count}")

التسلسل: ATGCGATCGTAGC
A=3, T=3, G=4, C=3


In [5]:
# النسخ: تحويل DNA إلى RNA
dna = "ATGCGATCG"
rna = dna.replace('T', 'U')

print(f"DNA: {dna}")
print(f"RNA: {rna}")

DNA: ATGCGATCG
RNA: AUGCGAUCG


### تطبيق: حساب نسبة GC
نسبة GC مهمة لأن الروابط بين G و C أقوى (3 روابط هيدروجينية) من الروابط بين A و T (رابطتان).

In [6]:
dna = "ATGCGATCGTAGC"

# الخطوة 1: عد G و C
g_count = dna.count('G')
c_count = dna.count('C')
gc_total = g_count + c_count

# الخطوة 2: حساب النسبة
total_bases = len(dna)
gc_percent = (gc_total / total_bases) * 100

print(f"التسلسل: {dna}")
print(f"عدد G: {g_count}, عدد C: {c_count}")
print(f"GC content: {gc_percent:.1f}%")

التسلسل: ATGCGATCGTAGC
عدد G: 4, عدد C: 3
GC content: 53.8%


## 3. القوائم (Lists)
القائمة تتيح لك تخزين مجموعة مرتبة من القيم في متغير واحد.

In [7]:
# إنشاء قوائم
genes = ["BRCA1", "TP53", "EGFR", "MYC"]
expression_values = [145.3, 523.8, 189.2, 856.1]
seq_lengths = [5589, 19149, 1210, 4857]

# الوصول إلى العناصر
print(f"أول جين: {genes[0]}")
print(f"آخر جين: {genes[-1]}")
print(f"عدد الجينات: {len(genes)}")

أول جين: BRCA1
آخر جين: MYC
عدد الجينات: 4


In [8]:
# تعديل القوائم
genes = ["BRCA1", "TP53", "EGFR"]
print(f"قبل: {genes}")

genes.append("MYC")
genes.append("KRAS")
print(f"بعد الإضافة: {genes}")

genes.sort()
print(f"بعد الترتيب: {genes}")

print(f"\nهل TP53 موجود؟ {'TP53' in genes}")
print(f"هل BRAF موجود؟ {'BRAF' in genes}")

قبل: ['BRCA1', 'TP53', 'EGFR']
بعد الإضافة: ['BRCA1', 'TP53', 'EGFR', 'MYC', 'KRAS']
بعد الترتيب: ['BRCA1', 'EGFR', 'KRAS', 'MYC', 'TP53']

هل TP53 موجود؟ True
هل BRAF موجود؟ False


In [9]:
# إحصائيات بسيطة على بيانات التعبير الجيني
expression = [145.3, 523.8, 189.2, 856.1, 312.5]

print(f"أقل قيمة: {min(expression)}")
print(f"أعلى قيمة: {max(expression)}")

mean_expr = sum(expression) / len(expression)
print(f"المتوسط: {mean_expr:.1f}")

# List Comprehension — تصفية القوائم
high_expr = [val for val in expression if val > 400]
print(f"عدد الجينات عالية التعبير (>400): {len(high_expr)}")
print(f"القيم: {high_expr}")

أقل قيمة: 145.3
أعلى قيمة: 856.1
المتوسط: 405.4
عدد الجينات عالية التعبير (>400): 2
القيم: [523.8, 856.1]


## 4. القواميس (Dictionaries)
القاموس يربط كل مفتاح بقيمة — مثل ربط اسم الجين بقيمة تعبيره.

In [10]:
# ربط كل جين بقيمة تعبيره
gene_expression = {
    "BRCA1": 145.3,
    "TP53": 523.8,
    "EGFR": 189.2,
    "MYC": 856.1
}

# الوصول إلى قيمة
print(f"تعبير BRCA1: {gene_expression['BRCA1']}")

# إضافة إدخال جديد
gene_expression["KRAS"] = 234.5

# الطريقة الآمنة للبحث
braf_expr = gene_expression.get("BRAF", 0)
print(f"تعبير BRAF: {braf_expr} (غير موجود، القيمة الافتراضية)")

# عرض جميع الجينات
print(f"\nجميع الجينات:")
for gene, expr in gene_expression.items():
    print(f"  {gene}: {expr}")

تعبير BRCA1: 145.3
تعبير BRAF: 0 (غير موجود، القيمة الافتراضية)

جميع الجينات:
  BRCA1: 145.3
  TP53: 523.8
  EGFR: 189.2
  MYC: 856.1
  KRAS: 234.5


### تطبيق: جدول الكودونات وترجمة تسلسل

In [11]:
# جدول الكودونات (مختصر)
codon_table = {
    "ATG": "Met",  # كودون البداية
    "TAA": "Stop", "TAG": "Stop", "TGA": "Stop",
    "GCT": "Ala", "GCC": "Ala", "GCA": "Ala",
    "TGT": "Cys", "TGC": "Cys",
    "GAT": "Asp", "GAC": "Asp",
    "TTT": "Phe", "TTC": "Phe",
}

# ترجمة تسلسل (كل 3 حروف)
dna = "ATGGCTGAT"
protein = []

for i in range(0, len(dna), 3):
    codon = dna[i:i+3]
    amino_acid = codon_table.get(codon, "?")
    protein.append(amino_acid)
    print(f"  {codon} → {amino_acid}")

print(f"\nالبروتين: {' - '.join(protein)}")

  ATG → Met
  GCT → Ala
  GAT → Asp

البروتين: Met - Ala - Asp


## 5. الشروط (Conditions)
الشروط تسمح للبرنامج باتخاذ قرارات مختلفة بناءً على البيانات.

In [12]:
gc_percent = 65

if gc_percent > 60:
    print("نسبة GC عالية")
elif gc_percent > 40:
    print("نسبة GC متوسطة")
else:
    print("نسبة GC منخفضة")

# جرّب تغيير قيمة gc_percent وأعد تشغيل الخلية!

نسبة GC عالية


In [13]:
# دالة تصنيف حسب محتوى GC
def classify_gc(sequence):
    """تصنيف تسلسل DNA حسب نسبة GC."""
    gc_count = sequence.count('G') + sequence.count('C')
    gc_percent = (gc_count / len(sequence)) * 100

    if gc_percent < 30:
        return f"AT-rich (منخفض GC) — {gc_percent:.1f}%"
    elif gc_percent < 45:
        return f"AT-leaning (مائل لـ AT) — {gc_percent:.1f}%"
    elif gc_percent < 55:
        return f"Balanced (متوازن) — {gc_percent:.1f}%"
    elif gc_percent < 70:
        return f"GC-leaning (مائل لـ GC) — {gc_percent:.1f}%"
    else:
        return f"GC-rich (عالي GC) — {gc_percent:.1f}%"

# اختبار
test_sequences = {
    "AAATTTAAAT": "تسلسل غني بـ AT",
    "ATGCGATCGA": "تسلسل متوازن",
    "GCGCGCGCGC": "تسلسل غني بـ GC",
}

for seq, description in test_sequences.items():
    print(f"{description}: {classify_gc(seq)}")

تسلسل غني بـ AT: AT-rich (منخفض GC) — 0.0%
تسلسل متوازن: Balanced (متوازن) — 50.0%
تسلسل غني بـ GC: GC-rich (عالي GC) — 100.0%


## 6. الحلقات (Loops)
القوة الحقيقية للبرمجة — تكرار العمليات تلقائياً.

In [14]:
# حلقة for: حساب GC لعدة تسلسلات
sequences = ["ATGCGT", "GCGCGC", "ATATAT"]

for seq in sequences:
    gc = (seq.count('G') + seq.count('C')) / len(seq) * 100
    print(f"{seq}: GC = {gc:.1f}%")

ATGCGT: GC = 50.0%
GCGCGC: GC = 100.0%
ATATAT: GC = 0.0%


In [15]:
# تقطيع تسلسل إلى كودونات
dna = "ATGGCTGATCGA"

print(f"التسلسل: {dna}")
print(f"الطول: {len(dna)} bp")
print(f"\nالكودونات:")

for i in range(0, len(dna), 3):
    codon = dna[i:i+3]
    print(f"  الموقع {i}: {codon}")

التسلسل: ATGGCTGATCGA
الطول: 12 bp

الكودونات:
  الموقع 0: ATG
  الموقع 3: GCT
  الموقع 6: GAT
  الموقع 9: CGA


In [16]:
# البحث عن كودون التوقف
dna = "ATGGCTGATCGATAAGTC"
stop_codons = ["TAA", "TAG", "TGA"]

print(f"التسلسل: {dna}")

position = 0
while position < len(dna) - 2:
    codon = dna[position:position+3]
    if codon in stop_codons:
        print(f"كودون توقف {codon} في الموقع {position}")
        break
    position += 3
else:
    print("لم يُعثر على كودون توقف")

التسلسل: ATGGCTGATCGATAAGTC
كودون توقف TAA في الموقع 12


### تطبيق: تحليل مجموعة تسلسلات

In [17]:
sequences = {
    "sample_01": "ATGCGATCGTAGCTAGCTGATCG",
    "sample_02": "AAATTTAAATTTAAAGGG",
    "sample_03": "GCGCGCGCGCGCATGCGC",
    "sample_04": "ATATATCGCGATATATAT",
    "sample_05": "GGGCCCGGGCCCGGGCCC"
}

print(f"{'العينة':<12} {'الطول':>6} {'GC%':>6} {'التصنيف'}")
print("-" * 55)

for name, seq in sequences.items():
    length = len(seq)
    gc = (seq.count('G') + seq.count('C')) / length * 100
    classification = classify_gc(seq)
    print(f"{name:<12} {length:>6} {gc:>5.1f}% {classification}")

العينة        الطول    GC% التصنيف
-------------------------------------------------------
sample_01        23  52.2% Balanced (متوازن) — 52.2%
sample_02        18  16.7% AT-rich (منخفض GC) — 16.7%
sample_03        18  88.9% GC-rich (عالي GC) — 88.9%
sample_04        18  22.2% AT-rich (منخفض GC) — 22.2%
sample_05        18 100.0% GC-rich (عالي GC) — 100.0%


## 7. الدوال (Functions)
الدوال تجمع الكود المتكرر في وحدة واحدة قابلة لإعادة الاستخدام.

In [18]:
def calculate_gc(sequence):
    """حساب نسبة GC لتسلسل DNA."""
    gc_count = sequence.count('G') + sequence.count('C')
    return (gc_count / len(sequence)) * 100

# اختبار
test_seqs = ["ATGCGATCG", "AAATTTAAA", "GCGCGCGCG"]

for seq in test_seqs:
    result = calculate_gc(seq)
    print(f"{seq}: {result:.1f}%")

ATGCGATCG: 55.6%
AAATTTAAA: 0.0%
GCGCGCGCG: 100.0%


In [19]:
def reverse_complement(dna_seq):
    """
    حساب المتمم العكسي لتسلسل DNA.
    A ↔ T, G ↔ C ثم عكس الاتجاه.
    """
    complement = {'A': 'T', 'T': 'A', 'G': 'C', 'C': 'G'}

    comp_seq = ""
    for base in dna_seq:
        comp_seq = comp_seq + complement[base]

    rev_comp = comp_seq[::-1]
    return rev_comp

# اختبار
original = "ATGCGATCG"
result = reverse_complement(original)

print(f"الأصلي:        5'-{original}-3'")
print(f"المتمم العكسي: 3'-{result}-5'")

الأصلي:        5'-ATGCGATCG-3'
المتمم العكسي: 3'-CGATCGCAT-5'


In [20]:
def sequence_stats(dna_seq):
    """
    حساب إحصائيات شاملة لتسلسل DNA.
    يُرجع قاموساً بالنتائج.
    """
    length = len(dna_seq)

    counts = {
        'A': dna_seq.count('A'),
        'T': dna_seq.count('T'),
        'G': dna_seq.count('G'),
        'C': dna_seq.count('C')
    }

    gc_content = (counts['G'] + counts['C']) / length * 100
    at_content = (counts['A'] + counts['T']) / length * 100

    return {
        'length': length,
        'gc_content': round(gc_content, 2),
        'at_content': round(at_content, 2),
        'nucleotide_counts': counts
    }

# استخدام
stats = sequence_stats("ATGCGATCGTAGCTAGCT")

print(f"الطول: {stats['length']} bp")
print(f"محتوى GC: {stats['gc_content']}%")
print(f"محتوى AT: {stats['at_content']}%")
print(f"عدد النيوكليوتيدات: {stats['nucleotide_counts']}")

الطول: 18 bp
محتوى GC: 50.0%
محتوى AT: 50.0%
عدد النيوكليوتيدات: {'A': 4, 'T': 5, 'G': 5, 'C': 4}


---
## 8. Biopython: أدوات متخصصة
Biopython توفر أدوات جاهزة للتعامل مع البيانات البيولوجية.

In [21]:
# تثبيت Biopython (شغّل هذه الخلية مرة واحدة فقط)
!pip install biopython -q

In [22]:
from Bio.Seq import Seq

# إنشاء كائن Seq
dna_seq = Seq("ATGCGATCG")

# عمليات بيولوجية
rna_seq = dna_seq.transcribe()
rev_comp = dna_seq.reverse_complement()

print(f"DNA:             {dna_seq}")
print(f"RNA (النسخ):     {rna_seq}")
print(f"المتمم العكسي:   {rev_comp}")

# يدعم نفس عمليات النصوص
print(f"\nالطول: {len(dna_seq)}")
print(f"أول كودون: {dna_seq[0:3]}")
print(f"عدد G: {dna_seq.count('G')}")

DNA:             ATGCGATCG
RNA (النسخ):     AUGCGAUCG
المتمم العكسي:   CGATCGCAT

الطول: 9
أول كودون: ATG
عدد G: 3


### central dogma of biology المبدأ المركزي: DNA → RNA → بروتين

In [24]:
from Bio.Seq import Seq

dna = Seq("ATGAAAGCTTGA")

# الخطوة 1: النسخ (DNA → RNA)
rna = dna.transcribe()

# الخطوة 2: الترجمة (RNA → بروتين)
protein = rna.translate()

print(f"DNA:     {dna}")
print(f"RNA:     {rna}")
print(f"Protein: {protein}")
print(f"\n* = كودون التوقف")
print(f"M = ميثيونين (كودون البداية دائماً)")

DNA:     ATGAAAGCTTGA
RNA:     AUGAAAGCUUGA
Protein: MKA*

* = كودون التوقف
M = ميثيونين (كودون البداية دائماً)


### تطبيق: تحليل إطار القراءة المفتوح (ORF)

In [25]:
from Bio.Seq import Seq

dna = Seq("TTTATGAAAGCTGATCGTTGAAACCC")

# البحث عن كودون البداية
start_pos = dna.find("ATG")
print(f"التسلسل الكامل: {dna}")
print(f"كودون البداية في الموقع: {start_pos}")

# استخراج المنطقة بدءاً من ATG
orf_region = dna[start_pos:]
print(f"منطقة ORF: {orf_region}")

# ترجمة كاملة
protein_full = orf_region.translate()
print(f"\nالبروتين (كامل): {protein_full}")

# ترجمة حتى أول كودون توقف
protein_to_stop = orf_region.translate(to_stop=True)
print(f"البروتين (حتى التوقف): {protein_to_stop}")

التسلسل الكامل: TTTATGAAAGCTGATCGTTGAAACCC
كودون البداية في الموقع: 3
منطقة ORF: ATGAAAGCTGATCGTTGAAACCC

البروتين (كامل): MKADR*N
البروتين (حتى التوقف): MKADR




---
## 9. العمل مع ملفات FASTA
لنُنشئ ملف FASTA تجريبي ثم نقرأه ونحلله.

In [29]:
# إنشاء ملف FASTA تجريبي
fasta_content = """>BRCA1_human إنسان - جين مثبط للأورام
ATGGATTTCCTGCAGAGCAGTAGATAAAGGTACTTCTATCACTGATAATGTCAAGAAGCCATTCATTGATATT
CTGATTTCAAAACATCCCGATTTGTAATGTCAGCTGAAGTTGCTCCAGTCAGCAGATGCTCAGTGATACTTG
>TP53_human إنسان - مثبط الأورام
ATGGAGGAGCCGCAGTCAGATCCTAGCGTGAGTTTGCACTGAGACCGGCGCACAGAGGAAGAGAATCTCCGC
AAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCT
>EGFR_human إنسان - مستقبل عامل نمو البشرة
ATGCGACCCTCCGGGACGGCCGGGGCAGCGCTCCTGGCGCTGCTGGCTGCGCTCTGCCCGGCGAGTCGGGCT
>MYC_human إنسان - بروتين منظم للنسخ
ATGCCCCTCAACGTTAGCTTCACCAACAGGAACTATGACCTCGACTACGACTCGGTGCAGCCGTATTTCTACT
GCGACGAGGAGGAGAACTTCTACCAGCAGCAGCAGAGCGAGCTGCAGCCCCCGGCGCCCAGCGAGGATATCTG
GAAGGAAATCGATGATTTTTTTGATGAAGAGGACAACACAAGAGGAGAAATCCTTTTTAAT
"""

with open("sequences.fasta", "w") as f:
    f.write(fasta_content)

print("تم إنشاء ملف sequences.fasta")

تم إنشاء ملف sequences.fasta


In [30]:
from Bio import SeqIO

# قراءة وعرض المعلومات الأساسية
print("محتوى الملف:")
print("=" * 60)

for record in SeqIO.parse("sequences.fasta", "fasta"):
    print(f"المعرف: {record.id}")
    print(f"الوصف: {record.description}")
    print(f"الطول: {len(record)} bp")
    print(f"أول 30 قاعدة: {record.seq[:30]}...")
    print("-" * 40)

محتوى الملف:
المعرف: BRCA1_human
الوصف: BRCA1_human إنسان - جين مثبط للأورام
الطول: 145 bp
أول 30 قاعدة: ATGGATTTCCTGCAGAGCAGTAGATAAAGG...
----------------------------------------
المعرف: TP53_human
الوصف: TP53_human إنسان - مثبط الأورام
الطول: 145 bp
أول 30 قاعدة: ATGGAGGAGCCGCAGTCAGATCCTAGCGTG...
----------------------------------------
المعرف: EGFR_human
الوصف: EGFR_human إنسان - مستقبل عامل نمو البشرة
الطول: 72 bp
أول 30 قاعدة: ATGCGACCCTCCGGGACGGCCGGGGCAGCG...
----------------------------------------
المعرف: MYC_human
الوصف: MYC_human إنسان - بروتين منظم للنسخ
الطول: 207 bp
أول 30 قاعدة: ATGCCCCTCAACGTTAGCTTCACCAACAGG...
----------------------------------------


In [31]:
from Bio import SeqIO

# تحليل شامل لملف FASTA
stats = []

for record in SeqIO.parse("sequences.fasta", "fasta"):
    seq = str(record.seq)
    gc = (seq.count('G') + seq.count('C')) / len(seq) * 100
    stats.append({
        'id': record.id,
        'length': len(seq),
        'gc': gc
    })

# تقرير
print(f"{'=' * 60}")
print(f"  تقرير تحليل: sequences.fasta")
print(f"{'=' * 60}")
print(f"  عدد التسلسلات: {len(stats)}")

lengths = [s['length'] for s in stats]
gc_values = [s['gc'] for s in stats]

print(f"  أقصر تسلسل: {min(lengths)} bp")
print(f"  أطول تسلسل: {max(lengths)} bp")
print(f"  متوسط الطول: {sum(lengths)/len(lengths):.0f} bp")
print(f"  متوسط GC: {sum(gc_values)/len(gc_values):.1f}%")
print(f"{'=' * 60}")

print(f"\n{'المعرف':<20} {'الطول':>8} {'GC%':>8}")
print("-" * 40)
for s in stats:
    print(f"{s['id']:<20} {s['length']:>8} {s['gc']:>7.1f}%")

  تقرير تحليل: sequences.fasta
  عدد التسلسلات: 4
  أقصر تسلسل: 72 bp
  أطول تسلسل: 207 bp
  متوسط الطول: 142 bp
  متوسط GC: 57.0%

المعرف                  الطول      GC%
----------------------------------------
BRCA1_human               145    39.3%
TP53_human                145    60.0%
EGFR_human                 72    77.8%
MYC_human                 207    50.7%


---
## 10. الوصول البرمجي إلى NCBI
استخدام Entrez للبحث في قواعد بيانات NCBI وتنزيل التسلسلات.

> **ملاحظة:** هذه الخلايا تتطلب اتصالاً بالإنترنت.

In [33]:
from Bio import Entrez

# ← ضع بريدك الإلكتروني هنا (مطلوب من NCBI)
Entrez.email = "your.email@example.com"  #### تأكد من تحديث هذا البريد الإلكتروني! 

# البحث في قاعدة النيوكليوتيدات
handle = Entrez.esearch(
    db="nucleotide",
    term="BRCA1[Gene] AND Homo sapiens[Organism] AND mRNA[Filter]",
    retmax=5
)
results = Entrez.read(handle)
handle.close()

print(f"عدد النتائج الإجمالي: {results['Count']}")
print(f"المعرفات المُرجعة: {results['IdList']}")

عدد النتائج الإجمالي: 588
المعرفات المُرجعة: ['3130328914', '3130328912', '3130328910', '3130328908', '3130328906']


In [34]:
from Bio import Entrez, SeqIO

Entrez.email = "your.email@example.com" ## تأكد من تحديث البريد الخاص بك 

# تنزيل تسلسل واحد
handle = Entrez.efetch(
    db="nucleotide",
    id="NM_007294",
    rettype="gb",
    retmode="text"
)

record = SeqIO.read(handle, "genbank")
handle.close()

seq = str(record.seq)
gc = (seq.count('G') + seq.count('C')) / len(seq) * 100

print(f"المعرف: {record.id}")
print(f"الوصف: {record.description}")
print(f"الطول: {len(seq):,} bp")
print(f"الكائن: {record.annotations['organism']}")
print(f"محتوى GC: {gc:.1f}%")

# عد ميزات CDS
cds_count = sum(1 for f in record.features if f.type == "CDS")
print(f"تسلسلات الترميز: {cds_count}")

المعرف: NM_007294.4
الوصف: Homo sapiens BRCA1 DNA repair associated (BRCA1), transcript variant 1, mRNA
الطول: 7,088 bp
الكائن: Homo sapiens
محتوى GC: 41.8%
تسلسلات الترميز: 1


---
## 11. اختبار الكود
لا تثق بكودك حتى تختبره!

In [35]:
def test_gc_content():
    """اختبار حساب محتوى GC بحالات معروفة."""

    # كل الحروف GC — يجب أن تكون 100%
    assert calculate_gc("GCGCGC") == 100.0, "فشل: تسلسل GC كامل"

    # لا يوجد GC — يجب أن تكون 0%
    assert calculate_gc("ATATAT") == 0.0, "فشل: تسلسل AT كامل"

    # نصف ونصف — يجب أن تكون 50%
    assert calculate_gc("ATGC") == 50.0, "فشل: تسلسل متوازن"

    # تسلسل واقعي
    result = calculate_gc("ATGCGATCG")
    assert 55 < result < 56, f"فشل: قيمة غير متوقعة {result}"

    print("جميع الاختبارات نجحت! ✓")

def test_reverse_complement():
    """اختبار المتمم العكسي."""

    assert reverse_complement("ATGC") == "GCAT", "فشل: حالة بسيطة"
    assert reverse_complement("AAAA") == "TTTT", "فشل: تسلسل متجانس"
    assert reverse_complement("A") == "T", "فشل: حرف واحد"

    print("جميع اختبارات المتمم العكسي نجحت! ✓")

# تشغيل الاختبارات
test_gc_content()
test_reverse_complement()

جميع الاختبارات نجحت! ✓
جميع اختبارات المتمم العكسي نجحت! ✓


---
## 12. تمارين
أكمل الخلايا التالية بنفسك.

### تمرين 1: إحصائيات التسلسل
اكتب دالة `my_sequence_stats()` تحسب إحصائيات شاملة لتسلسل DNA.

In [36]:
def my_sequence_stats(dna_seq):
    """
    حساب الإحصائيات لتسلسل DNA.

    يجب أن تُرجع قاموساً يحتوي على:
    - length
    - gc_content (%)
    - at_content (%)
    - nucleotide_counts (dict)
    """
    # اكتب كودك هنا
    pass

# اختبار — يجب أن تطابق هذه النتائج
# seq = "ATGCGATCGTAGCTAGCT"
# stats = my_sequence_stats(seq)
# print(stats)
# المتوقع:
# {'length': 18, 'gc_content': 55.56, 'at_content': 44.44,
#  'nucleotide_counts': {'A': 4, 'T': 4, 'G': 6, 'C': 4}}

### تمرين 2: تصفية التسلسلات حسب الطول
اكتب دالة تقرأ ملف FASTA وتحتفظ فقط بالتسلسلات الأطول من حد معين.

In [37]:
from Bio import SeqIO

def filter_by_length(input_file, min_length):
    """
    قراءة ملف FASTA وإرجاع التسلسلات الأطول من min_length.
    اطبع عدد التسلسلات المحتفظ بها والمزالة.
    """
    # اكتب كودك هنا
    pass

# اختبار باستخدام الملف الذي أنشأناه
# filter_by_length("sequences.fasta", min_length=100)

### تمرين 3: ترجمة تسلسل كامل
اكتب دالة تأخذ تسلسل DNA وتُرجع البروتين المقابل باستخدام Biopython.

In [38]:
from Bio.Seq import Seq

def translate_dna(dna_string):
    """
    ترجمة تسلسل DNA إلى بروتين.
    - ابحث عن أول ATG
    - ترجم حتى أول كودون توقف
    - أرجع البروتين كنص
    """
    # اكتب كودك هنا
    pass

# اختبار
# result = translate_dna("TTTATGAAAGCTTGAACC")
# print(result)  # المتوقع: MKA

---

## تنظيف
حذف الملفات المؤقتة التي أنشأناها.

In [39]:
import os

temp_files = ["sequences.fasta"]
for f in temp_files:
    if os.path.exists(f):
        os.remove(f)
        print(f"تم حذف: {f}")

print("تم التنظيف.")

تم حذف: sequences.fasta
تم التنظيف.
