In [None]:
# 📊 Dataset Analysis in Jupyter Notebook

# تحميل المكتبات اللازمة
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

# 📌 1️⃣ تحميل البيانات
df = pd.read_csv("data_science_extract.csv")  # استبدلي "data_science_extract.csv" باسم ملفك
display(df.head())  # عرض أول 5 صفوف

# 📌 2️⃣ تحليل القيم المفقودة
missing_values = df.isnull().sum()
print("\n🔍 Missing Values per Column:")
display(missing_values[missing_values > 0])  # عرض الأعمدة التي تحتوي على قيم مفقودة فقط

# 📌 3️⃣ إحصائيات البيانات العددية
print("\n📊 Statistical Summary:")
display(df.describe())  # استخراج الإحصائيات الأساسية مثل المتوسط والتباين

# 📌 4️⃣ توزيع عدد الكلمات في الأعمدة النصية
column_name = "careerjunction_za_courses"  # استبدلي باسم العمود النصي الذي تريدين تحليله
df[column_name] = df[column_name].astype(str)  # تحويل القيم إلى نص لتجنب الأخطاء
df["word_count"] = df[column_name].apply(lambda x: len(x.split()))

plt.figure(figsize=(8, 5))
sns.histplot(df["word_count"], bins=30, kde=True, color="blue")
plt.title(f"Word Count Distribution in {column_name}")
plt.xlabel("Number of Words")
plt.ylabel("Frequency")
plt.show()

# 📌 5️⃣ أكثر القيم شيوعًا في بعض الأعمدة النصية
columns_to_analyze = ["careerjunction_za_primary_jobtitle", "careerjunction_za_recent_jobtitles", "careerjunction_za_skills"]

for col in columns_to_analyze:
    if col in df.columns:
        common_values = df[col].explode().value_counts().head(10)
        
        if not common_values.empty:
            print(f"\n📌 Top 10 Common Values in {col}:")
            display(common_values.to_frame(name="Count"))

            plt.figure(figsize=(8, 5))
            sns.barplot(x=common_values.values, y=common_values.index, palette="viridis")
            plt.title(f"Top 10 Most Common Values in {col}")
            plt.xlabel("Count")
            plt.ylabel(col)
            plt.show()
