In [7]:
import re
import json
import pandas as pd

In [8]:
# خواندن دیتاست
df = pd.read_csv("dataset.csv", encoding="utf-8-sig")


In [9]:
# 1. پیدا کردن تمام تاریخ‌ها
dates_raw = df[df["Category"] == "تاریخ"]["Value"].tolist()

date_pattern = re.compile(
    r"(\d{1,2}/\d{1,2}/\d{4})|"          # فرمت: 25/06/1403
    r"(\d{1,2}/[آ-ی]+/\d{4})|"           # فرمت: 25/شهریور/1403
    r"(\d{4}-\d{2}-\d{2})|"              # فرمت: 1403-06-05
    r"([آ-ی\s]+سال\s\d{4})"              # فرمت: بیست و پنجم شهریور ماه سال 1403
)

dates_clean = []
for d in dates_raw:
    match = date_pattern.search(d)
    if match:
        dates_clean.append(match.group())

print("📌 بخش 1: تاریخ‌ها")
for i, d in enumerate(dates_clean, 1):
    print(f"{i}. {d}")
print("-" * 50)

📌 بخش 1: تاریخ‌ها
1. 25/06/1403
2. 25/شهریور/1403
3. 1403-06-05
4. بیست و پنجم شهریور ماه سال 1403
5. پانزدهم دی ماه سال 1403
6. یکم مرداد ماه سال 1326
--------------------------------------------------


In [10]:
 #2. نشانه‌های اختصاری فارسی
 abbr_raw = df[df["Category"] == "نشانه اختصاری"]["Value"].tolist()
abbr_pattern = re.compile(r"\((ص|س|ق\.م|ره)\)")

abbreviations = []
for a in abbr_raw:
    abbreviations.extend(abbr_pattern.findall(a))

print("📌 بخش 2: نشانه‌های اختصاری فارسی")
for i, ab in enumerate(abbreviations, 1):
    print(f"{i}. {ab}")
print("-" * 50)


📌 بخش 2: نشانه‌های اختصاری فارسی
1. ص
2. ق.م
3. س
--------------------------------------------------


In [11]:
# 3. استخراج ID و Class از HTML
html_raw = df[df["Category"] == "HTML"]["Value"].tolist()

id_pattern = re.compile(r'id="([^"]+)"')
class_pattern = re.compile(r'class="([^"]+)"')

ids, classes = [], []
for tag in html_raw:
    ids.extend(id_pattern.findall(tag))
    classes.extend(class_pattern.findall(tag))

print("📌 بخش 3: آی‌دی‌ها و کلاس‌ها")
print("IDs:")
for i, idv in enumerate(ids, 1):
    print(f"  {i}. {idv}")

print("Classes:")
for i, cl in enumerate(classes, 1):
    print(f"  {i}. {cl}")
print("-" * 50)


📌 بخش 3: آی‌دی‌ها و کلاس‌ها
IDs:
  1. div1
  2. 1dhs
Classes:
  1. text-center
  2. link-primary
--------------------------------------------------


In [12]:
# 4. تشخیص JSON
json_raw = df[df["Category"] == "JSON"]["Value"].tolist()
valid_jsons = []

for js in json_raw:
    try:
        parsed = json.loads(js)
        valid_jsons.append(parsed)
    except json.JSONDecodeError:
        pass

print("📌 بخش 4: JSON معتبر")
for i, js in enumerate(valid_jsons, 1):
    print(f"{i}. {json.dumps(js, ensure_ascii=False)}")
print("-" * 50)

📌 بخش 4: JSON معتبر
1. {"name": "Ali", "age": 25, "city": "Tehran"}
2. {"product": "Laptop", "price": 34000, "currency": "IRR"}
--------------------------------------------------
