<a href="https://colab.research.google.com/github/shazaadel6/ai_/blob/main/Untitled38.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [12]:
!pip install gradio pandas rapidfuzz PyPDF2 python-docx -q

import gradio as gr
import pandas as pd
import re
from rapidfuzz import fuzz
from PyPDF2 import PdfReader
from docx import Document

# --- دوال قراءة الملفات ---
def read_any_file(file):
    """يقرأ CSV, Excel, Word, PDF"""
    if file.name.endswith(".csv"):
        return pd.read_csv(file.name)
    elif file.name.endswith((".xls", ".xlsx")):
        return pd.read_excel(file.name)
    elif file.name.endswith(".pdf"):
        reader = PdfReader(file)
        text = "\n".join(page.extract_text() or "" for page in reader.pages)
        data = [re.split(r"\s{2,}|\t|,|;", line.strip()) for line in text.split("\n") if line.strip()]
        return pd.DataFrame(data)
    elif file.name.endswith(".docx"):
        doc = Document(file)
        lines = [p.text.strip() for p in doc.paragraphs if p.text.strip()]
        data = [re.split(r"\s{2,}|\t|,|;", line) for line in lines]
        return pd.DataFrame(data)
    else:
        raise ValueError(f"⚠️ نوع الملف {file.name} غير مدعوم.")

# --- دالة الفحص الذكي ---
def smart_data_check(files):
    if not files:
        return "❌ لم يتم رفع أي ملف.", None, None

    all_data = []
    for f in files:
        try:
            df = read_any_file(f)
            df["source"] = f.name
            all_data.append(df)
        except Exception as e:
            return f"❌ خطأ أثناء قراءة {f.name}: {e}", None, None

    df = pd.concat(all_data, ignore_index=True)
    df = df.fillna("").astype(str)

    # ✅ التحقق من القيم المكررة تمامًا
    duplicated_rows = df[df.duplicated(keep=False)]

    # ✅ التحقق من القيم المتشابهة (بنسبة تشابه عالية)
    flat_values = df.drop(columns=["source"]).values.flatten()
    similar_pairs = []
    for i in range(len(flat_values)):
        for j in range(i + 1, len(flat_values)):
            score = fuzz.token_sort_ratio(flat_values[i], flat_values[j])
            if score > 90 and flat_values[i] != "" and flat_values[j] != "":
                similar_pairs.append((flat_values[i], flat_values[j], score))

    if duplicated_rows.empty and not similar_pairs:
        return "✅ البيانات سليمة 100% - لا يوجد تكرار أو تشابه.", "", ""

    result_duplicates = (
        "✅ لا توجد صفوف مكررة." if duplicated_rows.empty
        else duplicated_rows.to_markdown(index=False)
    )

    result_similar = (
        "✅ لا توجد أسماء أو قيم متشابهة."
        if not similar_pairs
        else "\n".join([f" - {a} ↔ {b} ({s}%)" for a, b, s in similar_pairs])
    )

    summary = f"""
📊 **تم فحص {len(df)} سجل**
❌ عدد الصفوف المكررة: {len(duplicated_rows)}
⚠️ عدد القيم المتشابهة: {len(similar_pairs)}
"""
    return summary, result_duplicates, result_similar


# --- واجهة Gradio ---
interface = gr.Interface(
    fn=smart_data_check,
    inputs=gr.File(label="📤 ارفع أي ملف بيانات (CSV, Excel, PDF, Word)", file_count="multiple"),
    outputs=[
        gr.Textbox(label="📋 النتيجة العامة"),
        gr.Textbox(label="❌ صفوف مكررة"),
        gr.Textbox(label="⚠️ بيانات متشابهة جدًا"),
    ],
    title="🤖 نظام التحقق الذكي من البيانات",
    description="يراجع أي ملف (CSV, Excel, PDF, Word) لاكتشاف البيانات المكررة أو المتشابهة، ويؤكد إذا كانت سليمة تمامًا ✅",
)

interface.launch(share=False)


Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Note: opening Chrome Inspector may crash demo inside Colab notebooks.
* To create a public link, set `share=True` in `launch()`.


<IPython.core.display.Javascript object>

