# Introduction to Prompt Engineering
Prompt engineering is the process of designing and optimizing prompts for natural language processing tasks. It involves selecting the right prompts, tuning their parameters, and evaluating their performance. Prompt engineering is crucial for achieving high accuracy and efficiency in NLP models. In this section, we will explore the basics of prompt engineering using the OpenAI models for exploration.

### Exercise 1: Tokenization
Explore Tokenization using tiktoken, an open-source fast tokenizer from OpenAI
See [OpenAI Cookbook](https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb?WT.mc_id=academic-105485-koreyst) for more examples.

In [None]:
# EXERCISE:
# 1. Run the exercise as is first
# 2. Change the text to any prompt input you want to use & re-run to see tokens

import tiktoken

# Define the prompt you want tokenized
text = f"""
Jupiter is the fifth planet from the Sun and the \
largest in the Solar System. It is a gas giant with \
a mass one-thousandth that of the Sun, but two-and-a-half \
times that of all the other planets in the Solar System combined. \
Jupiter is one of the brightest objects visible to the naked eye \
in the night sky, and has been known to ancient civilizations since \
before recorded history. It is named after the Roman god Jupiter.[19] \
When viewed from Earth, Jupiter can be bright enough for its reflected \
light to cast visible shadows,[20] and is on average the third-brightest \
natural object in the night sky after the Moon and Venus.
"""

# Set the model you want encoding for
encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")

# Encode the text - gives you the tokens in integer form
tokens = encoding.encode(text)
print(tokens);

# Decode the integers to see what the text versions look like
[encoding.decode_single_token_bytes(token) for token in tokens]

In [None]:
# EXERCISE:
# 1. Run the exercise as is first
# 2. Change the text to any prompt input you want to use & re-run to see tokens

# import tiktoken

# Define the prompt you want tokenized
text = f"""
كوكب المشتري هو الكوكب الخامس من الشمس و \
الأكبر في النظام الشمسي. إنه عملاق غازي مع \
كتلتها جزء من ألف من كتلة الشمس، ولكن كتلتها اثنان ونصف \
أضعاف جميع الكواكب الأخرى في النظام الشمسي مجتمعة. \
كوكب المشتري من ألمع الأجسام التي يمكن رؤيتها بالعين المجردة \
في سماء الليل، وقد عرفته الحضارات القديمة منذ \
قبل التاريخ المسجل . سُميت نسبة إلى الإله الروماني جوبيتر.[19] \
عند النظر إلى كوكب المشتري من الأرض، يمكن أن يكون ساطعًا بما يكفي لانعكاسه.
الضوء لإلقاء ظلال مرئية،[20] وهو في المتوسط ثالث ألمع \
كائن طبيعي في سماء الليل بعد القمر والزهرة.
"""

# Set the model you want encoding for
encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")

# Encode the text - gives you the tokens in integer form
tokens = encoding.encode(text)
print(tokens);

# Decode the integers to see what the text versions look like
[encoding.decode_single_token_bytes(token) for token in tokens]

### Exercise 2: Validate OpenAI API Key Setup

Run the code below to verify that your OpenAI endpoint is set up correctly. The code just tries a simple basic prompt and validates the completion. Input `oh say can you see` should complete along the lines of `by the dawn's early light..`


In [1]:
# The OpenAI SDK was updated on Nov 8, 2023 with new guidance for migration
# See: https://github.com/openai/openai-python/discussions/742

## Updated
import os
import openai
from openai import OpenAI
from dotenv import load_dotenv
load_dotenv()

client = OpenAI(
  api_key=os.environ['OPENAI_API_KEY'],  # this is also the default, it can be omitted
)

## Updated
def get_completion(prompt, model="gpt-3.5-turbo", temp=0, token_size=1024):
    messages = [{"role": "user", "content": prompt}]
    response = openai.chat.completions.create(
        model = model,
        messages = messages,
        temperature = temp, # this is the degree of randomness of the model's output
        max_tokens = token_size
    )
    return response.choices[0].message.content



In [2]:
## ---------- Call the helper method

### 1. Set primary content or prompt text
text = f"""
oh say can you see
"""

### 2. Use that in the prompt template below
prompt = f"""
```{text}```
"""

## 3. Run the prompt
response = get_completion(prompt)
print(response)

by the dawn's early light


### Exercise 3: Fabrications
Explore what happens when you ask the LLM to return completions for a prompt about a topic that may not exist, or about topics that it may not know about because it was outside it's pre-trained dataset (more recent). See how the response changes if you try a different prompt, or a different model.

In [3]:
## Set the text for simple prompt or primary content
## Prompt shows a template format with text in it - add cues, commands etc if needed
## Run the completion 
text = f"""
ألف خطة لدرس عن حرب المريخيين عام 2200.

"""

prompt = f"""
```{text}```
"""

response = get_completion(prompt)
print(response)

إليكم خطة لدرس عن حرب المريخيين عام 2200:

1. مقدمة:
   - شرح ما هي حرب المريخيين وما هي أهميتها في تاريخ البشرية.
   - توضيح السبب وراء حدوث الحرب والصراعات التي أدت إليها.

2. الخلفية التاريخية:
   - تعريف بكوكب المريخ واستكشافه من قبل البشر.
   - شرح التطورات العلمية والتكنولوجية التي أتاحت للبشرية الوصول إلى المريخ.
   - توضيح الاستعمار البشري للمريخ وتأثيره على العلاقات بين الأرض والمريخ.

3. أسباب الحرب:
   - تحليل الصراعات الاقتصادية والسياسية التي نشأت بين الأرض والمريخ.
   - شرح الصراعات الثقافية والدينية التي أدت إلى تصاعد التوتر بين الجانبين.
   - توضيح الصراعات الاستعمارية والتوسعية التي دفعت الأرض والمريخ للتصادم.

4. تطورات الحرب:
   - شرح التكنولوجيا المستخدمة في الحرب وتأثيرها على المعارك.
   - توضيح الاستراتيجيات والتكتيكات التي استخدمتها الجانبين في الحرب.
   - تحليل النتائج والتأثيرات السياسية والاقتصادية والاجتماعية للحرب.

5. العبر والدروس المستفادة:
   - توضيح العبر التاريخية والسياسية والاجتماعية التي يمكن استخلاصها من حرب المريخيين.
   - تحليل كيف يمكن تجنب تكرا

In [None]:
## Set the text for simple prompt or primary content
## Prompt shows a template format with text in it - add cues, commands etc if needed
## Run the completion 
text = f"""
ولد خطة لدرس عن حرب المريخيين عام 2076
"""

prompt = f"""
```{text}```
"""

response = get_completion(prompt)
print(response)

### Exercise 4: Instruction Based 
Use the "text" variable to set the primary content 
and the "prompt" variable to provide an instruction related to that primary content.

Here we ask the model to summarize the text for a second-grade student

In [None]:
# Test Example
# https://platform.openai.com/playground/p/default-summarize

## Example text
text = f"""
كوكب المشتري هو الكوكب الخامس من الشمس و \
الأكبر في النظام الشمسي. إنه عملاق غازي مع \
كتلتها جزء من ألف من كتلة الشمس، ولكن كتلتها اثنان ونصف \
أضعاف جميع الكواكب الأخرى في النظام الشمسي مجتمعة. \
كوكب المشتري من ألمع الأجسام التي يمكن رؤيتها بالعين المجردة \
في سماء الليل، وقد عرفته الحضارات القديمة منذ \
قبل التاريخ المسجل . سُميت نسبة إلى الإله الروماني جوبيتر.[19] \
عند النظر إلى كوكب المشتري من الأرض، يمكن أن يكون ساطعًا بما يكفي لانعكاسه.
الضوء لإلقاء ظلال مرئية،[20] وهو في المتوسط ثالث ألمع \
كائن طبيعي في سماء الليل بعد القمر والزهرة.
"""

## Set the prompt
prompt = f"""
تلخيص المحتوى المقدم لك لطالب الصف الثاني.
```{text}```
"""

## Run the prompt
response = get_completion(prompt)
print(response)

### Exercise 5: Complex Prompt 
Try a request that has system, user and assistant messages 
System sets assistant context
User & Assistant messages provide multi-turn conversation context

Note how the assistant personality is set to "sarcastic" in the system context. 
Try using a different personality context. Or try a different series of input/output messages

In [4]:
response = openai.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        # System message setting the context for assistant behavior or personality.
        {"role": "system", "content": "أنت مساعد ساخر"},
        # from chat history
        {"role": "user", "content": "من انتصر في حرب المريخيين عام 2076؟"},
        {"role": "assistant", "content": "اليمن انتصرت في حرب المريخيين عام 2076"},
        # new question
        {"role": "user", "content": "أين وقعت الحرب؟"}
    ]
)
print(response.choices[0].message.content)

الحرب المريخية الوهمية التي ذكرتها لم تحدث في الواقع، فهي مجرد جزء من السياق الخيالي الذي نحاول تصوره في هذا الحوار الساخر. لذا، لا يوجد موقع محدد لوقوع هذه الحرب.


In [None]:
# Note that the system role is not great in Arabic, Try it in English.
response = openai.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        # System message setting the context for assistant behavior or personality.
        {"role": "system", "content": "You are a sarcastic assistant."},
        {"role": "user", "content": "من انتصر في حرب المريخيين عام 2076؟"},
        {"role": "assistant", "content": "اليمن انتصرت في حرب المريخيين عام 2076"},
        {"role": "user", "content": "أين وقعت الحرب؟"}
    ]
)
print(response.choices[0].message.content)

# Advanced prompts
**Few shot prompting**, this is the most basic form of prompting. It's a single prompt with a few examples.

**Chain-of-thought**, this type of prompting tells the LLM how to break down a problem into steps.

**Generated knowledge**, to improve the response of a prompt, you can provide generated facts or knowledge additionally to your prompt.

**Least to most**, like chain-of-thought, this technique is about breaking down a problem into a series of steps and then ask these steps to be performed in order.

**Self-refine**, this technique is about critiquing the LLM's output and then asking it to improve.

**Maieutic prompting**. What you want here is to ensure the LLM answer is correct and you ask it to explain various parts of the answer. This is a form of self-refine.

## Few-shot prompting

In [5]:
# Few-shot prompting
text = f"""
ما هو الجبر؟"""

prompt = f"""
```{text}```
"""

response = get_completion(prompt)
print(response)

الجبر هو فرع من فروع الرياضيات يهتم بدراسة العلاقات والتراكيب الرياضية والعمليات الرياضية المتعلقة بالكميات المجهولة والمتغيرة. يتم استخدام الجبر لحل المعادلات والمسائل الرياضية المعقدة وتحليل النماذج الرياضية. يعتبر الجبر أحد الأساسيات في الرياضيات ويستخدم في العديد من المجالات مثل الفيزياء والهندسة وعلوم الحاسوب والاقتصاد.


## Chain-of-thought
If the answer of your question is incorrect, give the LLM an example.

```
- Prompt: "Alice has 5 apples, throws 3 apples, gives 2 to Bob and Bob gives one back, how many apples does Alice have?"
- Answer: 5
```
then,

```
- Prompt: "Lisa has 7 apples, throws 1 apple, gives 4 apples to Bart and Bart gives one back: 7 -1 = 6 6 -4 = 2 2 +1 = 3
Alice has 5 apples, throws 3 apples, gives 2 to Bob and Bob gives one back, how many apples does Alice have?"
- Answer: 1
```

In [6]:
# Chain-of-thought
text = f"""
لدى أليس 5 تفاحات، ورميت 3 تفاحات، وأعطت 2 لبوب، وأعاد بوب واحدة، كم عدد التفاحات التي تمتلكها أليس؟
"""

prompt = f"""
```{text}```
"""

response = get_completion(prompt)
print(response)

لدى أليس 5 تفاحات.
بعد أن رمت 3 تفاحات، تبقى لديها 5 - 3 = 2 تفاحات.
ثم أعطت 2 تفاحات لبوب، فتبقى لديها 2 - 2 = 0 تفاحات.
لكن بوب أعاد لها تفاحة واحدة، فتصبح لديها 0 + 1 = 1 تفاحة.
إذاً، أليس تمتلك تفاحة واحدة.


In [None]:
## Generated knowledge

In [7]:

# Generated knowledge
text = f"""

شركة التأمين: شركة ACME للتأمين
منتجات التأمين (التكلفة الشهرية):
- سيارة رخيصة الثمن 500 دولار
- سيارة غالية الثمن 1100 دولار
- منزل رخيص 600 دولار
- المنزل، باهظ الثمن، 1200 دولار أمريكي
- الحياة رخيصة 100 دولار

يرجى اقتراح التأمين في ضوء الميزانية والمتطلبات التالية:
الميزانية: 1000 دولار
المتطلبات: سيارة، منزل

"""

prompt = f"""
```{text}```
"""

response = get_completion(prompt)
print(response)

بناءً على الميزانية والمتطلبات المذكورة، يمكن اقتراح التأمين التالي:

1. تأمين سيارة رخيصة الثمن بتكلفة 500 دولار شهريًا.
2. تأمين منزل رخيص بتكلفة 600 دولار شهريًا.

بهذا الاقتراح، ستكون التكلفة الشهرية الإجمالية للتأمين 1100 دولار، وهي تناسب الميزانية المحددة.


In [8]:
# Generated knowledge
text = f"""

شركة التأمين: شركة ACME للتأمين
منتجات التأمين (التكلفة الشهرية):
- النوع: سيارة، رخيصة، التكلفة: 500 دولار أمريكي
- النوع: سيارة، باهظة الثمن، التكلفة: 1100 دولار أمريكي
- النوع: منزل، رخيص، التكلفة: 600 دولار أمريكي
- النوع: منزل، غالي الثمن، التكلفة: 1200 دولار أمريكي
- النوع: حياة، رخيص، التكلفة: 100 دولار أمريكي

يرجى اقتراح التأمين في ضوء الميزانية والمتطلبات التالية:
الميزانية: 1000 دولار يقتصر الاختيار على الأنواع: السيارة، المنزل

"""

prompt = f"""
```{text}```
"""

response = get_completion(prompt)
print(response)

بناءً على الميزانية المحددة والاختيار المقتصر على أنواع التأمين للسيارة والمنزل، يمكن اقتراح الخيارات التالية:

1. التأمين على السيارة الرخيصة بتكلفة 500 دولار أمريكي شهريًا.
2. التأمين على السيارة الباهظة الثمن بتكلفة 1100 دولار أمريكي شهريًا.
3. التأمين على المنزل الرخيص بتكلفة 600 دولار أمريكي شهريًا.
4. التأمين على المنزل الغالي الثمن بتكلفة 1200 دولار أمريكي شهريًا.

وفقًا للميزانية المحددة، يمكن اختيار التأمين على السيارة الرخيصة بتكلفة 500 دولار أمريكي شهريًا والتأمين على المنزل الرخيص بتكلفة 600 دولار أمريكي شهريًا.


## Least-to-most
The idea with Least-to-most prompting is to break down a bigger problem into subproblems. That way, you help guide the LLM on how to "conquer" the bigger problem. A good example could be for data science where you can ask the LLM to divide up a problem like so:

<div style="direction: rtl; font-family: 'Amiri', serif;">
    
الفكرة من الأقل إلى الأكثر تحفيزًا هي تقسيم المشكلة الأكبر إلى مشكلات فرعية. وبهذه الطريقة، يمكنك المساعدة في توجيه LLM حول كيفية "التغلب" على المشكلة الأكبر. من الأمثلة الجيدة على ذلك علم البيانات حيث يمكنك أن تطلب من LLM تقسيم مشكلة مثل:

</div>

In [9]:
# Least-to-most
text = f"""

كيفية أداء علم البيانات في 5 خطوات؟

"""

prompt = f"""
```{text}```
"""

response = get_completion(prompt)
print(response)

لأداء علم البيانات في 5 خطوات، يمكن اتباع الخطوات التالية:

1. تحديد الهدف: قبل البدء في أي تحليل بيانات، يجب تحديد الهدف الذي ترغب في تحقيقه. هل ترغب في فهم النمط العام للبيانات؟ أم ترغب في توقع النتائج المستقبلية؟ أو ربما ترغب في اكتشاف العلاقات بين المتغيرات؟

2. جمع البيانات: بعد تحديد الهدف، يجب جمع البيانات المطلوبة لتحقيق هذا الهدف. يمكن أن تكون هذه البيانات متاحة بالفعل أو يجب جمعها من مصادر مختلفة.

3. تنظيف البيانات: بعد جمع البيانات، يجب تنظيفها من أي أخطاء أو قيم مفقودة. يمكن أن تشمل هذه الخطوة إزالة القيم المفقودة، ومعالجة القيم المتطرفة، وتحويل البيانات إلى تنسيق مناسب للتحليل.

4. تحليل البيانات: بعد تنظيف البيانات، يمكن البدء في تحليلها. يمكن استخدام مجموعة متنوعة من الأدوات والتقنيات لتحليل البيانات، مثل الإحصاءات الوصفية والتحليل الاستكشافي والتحليل التنبؤي.

5. توصيات وتفسير النتائج: بعد الانتهاء من تحليل البيانات، يجب توصيف النتائج وتفسيرها بطريقة يمكن فهمها. يمكن أيضًا توجيه توصيات أو اتخاذ قرارات استراتيجية بناءً على النتائج.

هذه هي خطوات عامة لأداء علم البيانات،

## Self-refine, critique the results
<div style="direction: rtl; font-family: 'Amiri', serif;">

مع الذكاء الاصطناعي التوليدي ومسؤولي إدارة الأعمال، لا يمكنك الوثوق بالمخرجات. تحتاج إلى التحقق من ذلك. بعد كل شيء، فإن LLM تقدم لك فقط ما هو الشيء التالي الذي من المرجح أن تقوله، وليس ما هو صحيح. ولذلك، فمن الجيد أن نطلب من ماجستير القانون أن ينتقد نفسه، وهو ما يقودنا إلى أسلوب التحسين الذاتي.

وطريقة العمل هي أن تتبع الخطوات التالية:

(1)  المطالبة الأولية التي تطلب من LLM حل مشكلة ما

(2)  إجابات LLM

(3)  أنت تنتقد الإجابة وتطلب من الذكاء الاصطناعي التحسين

(4)  تجيب LLM مرة أخرى، هذه المرة مع الأخذ في الاعتبار النقد واقتراح الحلول التي توصلت إليها
يمكنك تكرار هذه العملية عدة مرات كما تريد.

فيما يلي مثال لاستخدام هذه التقنية:

رسالة مطالبة: "إنشاء واجهة برمجة تطبيقات ويب Python مع مسارات المنتجات والعملاء"


</div>

In [17]:
text = f"""

لخص علم البيانات في 5 نقاط

"""

response = openai.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        # System message setting the context for assistant behavior or personality.
        {"role": "system", "content": "Data science expert"},
        {"role": "user", "content": f'{text}'},
        
    ]
)
print(response.choices[0].message.content)

علم البيانات هو مجال تحليل البيانات واستخلاص المعرفة والإبداع منها. وفيما يلي خمس نقاط تلخص علم البيانات:

1. جمع البيانات: يتضمن علم البيانات جمع البيانات من مصادر متعددة مثل قواعد البيانات، والشبكات الاجتماعية، والأجهزة الذكية وغيرها من المصادر.

2. تحليل البيانات: يشمل علم البيانات استخدام أدوات التحليل والتعلم الآلي لفهم البيانات واستخلاص المعلومات القيمة منها. يتضمن ذلك تنظيف البيانات، واكتشاف الانماط والتصنيف، وبناء النماذج التي تتنبأ بالمستقبل وتحلل المشاكل.

3. الرسومات البيانية والتصور: يستخدم علم البيانات تقنيات الرسومات البيانية والتصور لتمثيل البيانات بشكل بصري وفهم أفضل للانماط والترابطات بين البيانات.

4. استغلال البيانات في صنع القرارات: يساعد علم البيانات في تحويل البيانات إلى معلومات قابلة للاستخدام في صنع القرارات الهامة في المؤسسات والشركات وغيرها من المجالات.

5. التحليل التنبؤي: يستخدم علم البيانات النماذج الاحصائية وتقنيات التعلم الآلي للتنبؤ بالمستقبل، مثل توقعات المبيعات، ومشاكل الصحة، وتوجهات السوق وغيرها.


In [18]:

text1 = f"""
ارسل النتيجة بصيغة 
HTML
بتنسيق مناسب للغة العربية
"""

response = openai.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        # System message setting the context for assistant behavior or personality.
        {"role": "system", "content": "Data science expert"},
        {"role": "user", "content": f'{text}'},
        {"role": "assistant", "content": f'{response}'},
        {"role": "user", "content": f'{text1}'}
    ]
)
print(response.choices[0].message.content)

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<style>
	body {
		font-family: Arial, sans-serif;
	}

	h1 {
		color: #273c75;
		text-align: center;
	}

	p {
		color: #4b6584;
		text-align: justify;
	}
</style>
</head>
<body>
	<h1>مختص في علم البيانات</h1>
	<p>علم البيانات هو مجال تحليل البيانات واستخلاص المعرفة والإبداع منها. وفيما يلي خمس نقاط تلخص علم البيانات:</p>
	<ol>
		<li>جمع البيانات: يتضمن علم البيانات جمع البيانات من مصادر متعددة مثل قواعد البيانات، والشبكات الاجتماعية، والأجهزة الذكية وغيرها من المصادر.</li>
		<li>تحليل البيانات: يشمل علم البيانات استخدام أدوات التحليل والتعلم الآلي لفهم البيانات واستخلاص المعلومات القيمة منها. يتضمن ذلك تنظيف البيانات، واكتشاف الانماط والتصنيف، وبناء النماذج التي تتنبأ بالمستقبل وتحلل المشاكل.</li>
		<li>الرسومات البيانية والتصور: يستخدم علم البيانات تقنيات الرسومات البيانية والتصور لتمثيل البيانات بشكل بصري وفهم أفضل للانماط والترابطات بين البيانات.</li>
		<li>استغلال البيانات في صنع القرارات: يساعد علم البيانات في تحويل البيانات إلى 

In [19]:
from IPython.display import display, HTML


# Display the HTML
display(HTML(response.choices[0].message.content))

In [None]:
<div style="direction: rtl; font-family: 'Amiri', serif;">



</div>

## Maieutic prompting
Maieutic prompting is a technique that is similar to self-refine but it's more about asking the LLM to explain itself. The goal is to reduce inconsistencies in the LLM's output so to ensure it arrives at the correct answer. The workflow to follow is:

```
1. Ask the LLM to answer a question
2. For each part of the answer, ask the LLM to explain it more in depth.
3. If there are inconsistencies, discard the parts that are inconsistent.
```
Repeat 2 and 3 until you've gone through all the parts and you're satisfied with the answer.

In [2]:
text = f"""

لخص علم البيانات في 5 نقاط

"""

response = openai.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        # System message setting the context for assistant behavior or personality.
        {"role": "system", "content": "Data science expert"},
        {"role": "user", "content": f'{text}'},
        
    ]
)

text1 = f"""

اشرح خطوة جمع البيانات بالتفصيل

"""

response = openai.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[
        # System message setting the context for assistant behavior or personality.
        {"role": "system", "content": "Data science expert"},
        {"role": "user", "content": f'{text}'},
        {"role": "assistant", "content": f'{response}'},
        {"role": "user", "content": f'{text1}'}
    ]
)

print(response.choices[0].message.content)

خطوة جمع البيانات هي العملية التي تشمل جمع المعلومات والبيانات اللازمة لتحليلها واستخدامها في علم البيانات. يمكن تقسيم هذه الخطوة إلى عدة مراحل:

1. تحديد المصدر: يجب أولاً تحديد المصدر الذي ستأتي منه البيانات. يمكن أن يكون المصدر موقع ويب، قاعدة بيانات، ملفات نصية، أجهزة استشعار، وغيرها.

2. تحديد البيانات المطلوبة: بعد تحديد المصدر، يجب تحديد البيانات التي يجب جمعها. يمكن أن تكون هذه البيانات محددة مسبقاً بناءً على الأهداف المحددة للتحليل أو يمكن أن تتم بناءً على البيانات المتاحة في المصدر.

3. تنفيذ عملية الجمع: تشمل هذه الخطوة استخدام أدوات وتقنيات مختلفة لجمع البيانات من المصدر المحدد. يمكن استخدام أدوات التحليل الاحصائي والبرمجة لاسترجاع البيانات وتخزينها في شكل يمكن التعامل معه.

4. التحقق وتنقيح البيانات: بعد جمع البيانات، يجب التحقق من صحتها واكتمالها. قد يتطلب ذلك التحقق من القيم المفقودة، التعامل مع القيم الغير صحيحة أو غير المنطقية، وتصويب الأخطاء المحتملة.

5. تخزين البيانات: يجب تخزين البيانات المجمعة في مكان يسهل الوصول إليه واستخدامه لاحقاً. يمكن استخدام قواعد البيانات 