In [10]:
# الخطوة 1: استيراد المكتبات الأساسية
import pandas as pd
print("تم استيراد مكتبة pandas بنجاح.")

# الخطوة 2: تحديد مسار ملف البيانات
# بما أن الملف في نفس المجلد، نكتب اسمه فقط
file_path = 'Online Retail.xlsx'

# الخطوة 3: قراءة الملف وعرض النتائج
try:
    # قراءة ملف الإكسل
    df = pd.read_excel(file_path)
    
    print(f"\nتم العثور على ملف '{file_path}' وقراءته بنجاح!")
    
    # عرض أول 5 صفوف من البيانات
    print("\n--- نظرة أولية على البيانات (أول 5 صفوف) ---")
    print(df.head())
    
    # عرض معلومات عامة عن البيانات
    print("\n--- معلومات فنية عن البيانات (الأعمدة والأنواع) ---")
    df.info()

except FileNotFoundError:
    print(f"\n!!! خطأ: لم يتم العثور على الملف '{file_path}'.")
    print("يرجى التأكد من أن اسم الملف مكتوب بشكل صحيح وأنه موجود في نفس المجلد.")
except Exception as e:
    print(f"\n!!! حدث خطأ آخر أثناء قراءة الملف: {e}")



تم استيراد مكتبة pandas بنجاح.

تم العثور على ملف 'Online Retail.xlsx' وقراءته بنجاح!

--- نظرة أولية على البيانات (أول 5 صفوف) ---
  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

          InvoiceDate  UnitPrice  CustomerID         Country  
0 2010-12-01 08:26:00       2.55     17850.0  United Kingdom  
1 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
2 2010-12-01 08:26:00       2.75     17850.0  United Kingdom  
3 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
4 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  

--- معلومات فنية عن البيانات (الأعمدة والأنواع) ---
<cla

In [11]:
# --- مرحلة التنظيف (الجزء الأول) ---

# المهمة 1: التعامل مع القيم المفقودة (Missing Values)

# أولاً، دعنا نحسب النسبة المئوية للقيم المفقودة في كل عمود لنعرف حجم المشكلة
missing_percentage = (df.isnull().sum() / len(df)) * 100
print("--- النسبة المئوية للقيم المفقودة في كل عمود ---")
print(missing_percentage)

# القرار: بما أن تحليل سلوك العملاء هو هدف رئيسي،
# والصفوف التي لا تحتوي على CustomerID (حوالي 25% من البيانات) لا تفيدنا في هذا الهدف،
# سنقوم بحذف هذه الصفوف.
# ملاحظة: هذا قرار شائع في مثل هذه التحليلات.

# df.dropna(subset=['CustomerID'], inplace=True)
# لقد قمت بتعطيل هذا السطر مؤقتاً باستخدام علامة #
# سنقوم بتفعيله وتشغيله في الخطوة التالية بعد أن تتأكد من فهمك للمنطق.

# المهمة 2: التحقق من وجود تكرارات (Duplicates)
duplicate_rows = df.duplicated().sum()
print(f"\n--- عدد الصفوف المكررة في البيانات: {duplicate_rows} ---")

# سنقوم أيضاً بحذف هذه التكرارات في الخطوة التالية.


--- النسبة المئوية للقيم المفقودة في كل عمود ---
InvoiceNo       0.000000
StockCode       0.000000
Description     0.268311
Quantity        0.000000
InvoiceDate     0.000000
UnitPrice       0.000000
CustomerID     24.926694
Country         0.000000
dtype: float64

--- عدد الصفوف المكررة في البيانات: 5268 ---


In [None]:
# --- مرحلة التنظيف (الجزء الثاني - التنفيذ) ---

print(f"الشكل الأصلي للبيانات (قبل التنظيف): {df.shape}")

# المهمة 1: حذف الصفوف التي لا تحتوي على CustomerID
# نزيل علامة # لتفعيل الكود
df.dropna(subset=['CustomerID'], inplace=True)

print(f"شكل البيانات بعد حذف القيم المفقودة في CustomerID: {df.shape}")

# المهمة 2: حذف الصفوف المكررة
# نزيل علامة # لتفعيل الكود
df.drop_duplicates(inplace=True)

print(f"الشكل النهائي للبيانات (بعد حذف التكرارات): {df.shape}")

# --- التحقق النهائي ---
# الآن، دعنا نطلب تقرير df.info() مرة أخرى لنرى كيف أصبحت البيانات
print("\n--- معلومات فنية عن البيانات (بعد التنظيف) ---")
df.info()


In [12]:
# الخطوة 1: حذف الصفوف بدون CustomerID
print(f"عدد الصفوف قبل الحذف: {len(df)}")

df.dropna(subset=['CustomerID'], inplace=True)

print(f"عدد الصفوف بعد الحذف: {len(df)}")


عدد الصفوف قبل الحذف: 541909
عدد الصفوف بعد الحذف: 406829


In [13]:
# الخطوة 2: حذف الصفوف المكررة
print(f"عدد الصفوف قبل حذف التكرارات: {len(df)}")

df.drop_duplicates(inplace=True)

print(f"عدد الصفوف بعد حذف التكرارات: {len(df)}")


عدد الصفوف قبل حذف التكرارات: 406829
عدد الصفوف بعد حذف التكرارات: 401604


In [14]:
# الخطوة 3: الفحص النهائي
print("--- التقرير النهائي للبيانات بعد التنظيف ---")
df.info()


--- التقرير النهائي للبيانات بعد التنظيف ---
<class 'pandas.core.frame.DataFrame'>
Index: 401604 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    401604 non-null  object        
 1   StockCode    401604 non-null  object        
 2   Description  401604 non-null  object        
 3   Quantity     401604 non-null  int64         
 4   InvoiceDate  401604 non-null  datetime64[ns]
 5   UnitPrice    401604 non-null  float64       
 6   CustomerID   401604 non-null  float64       
 7   Country      401604 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 27.6+ MB


In [15]:
# --- مرحلة التحليل الاستكشافي (EDA) ---

# سؤال 1: ما هي أكثر 10 دول تشتري من هذا المتجر؟

# نحسب عدد الطلبات لكل دولة ونرتبها تنازلياً ونأخذ أول 10
top_10_countries = df['Country'].value_counts().head(10)

print("--- أكثر 10 دول من حيث عدد الطلبات ---")
print(top_10_countries)


# سؤال 2: ما هي أكثر 10 منتجات مبيعاً؟

# نحسب عدد المرات التي تم فيها بيع كل منتج
top_10_products = df['Description'].value_counts().head(10)

print("\n--- أكثر 10 منتجات مبيعاً ---")
print(top_10_products)


--- أكثر 10 دول من حيث عدد الطلبات ---
Country
United Kingdom    356728
Germany             9480
France              8475
EIRE                7475
Spain               2528
Netherlands         2371
Belgium             2069
Switzerland         1877
Portugal            1471
Australia           1258
Name: count, dtype: int64

--- أكثر 10 منتجات مبيعاً ---
Description
WHITE HANGING HEART T-LIGHT HOLDER    2058
REGENCY CAKESTAND 3 TIER              1894
JUMBO BAG RED RETROSPOT               1659
PARTY BUNTING                         1409
ASSORTED COLOUR BIRD ORNAMENT         1405
LUNCH BAG RED RETROSPOT               1345
SET OF 3 CAKE TINS PANTRY DESIGN      1224
POSTAGE                               1196
LUNCH BAG  BLACK SKULL.               1099
PACK OF 72 RETROSPOT CAKE CASES       1062
Name: count, dtype: int64


In [16]:
# --- مرحلة التحليل المالي وهندسة الميزات (Feature Engineering) ---

# الخطوة 1: إنشاء عمود جديد "TotalPrice"
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']

print("تم إنشاء عمود 'TotalPrice' بنجاح.")
print(df.head()) # نعرض أول 5 صفوف مرة أخرى لنرى العمود الجديد


# الخطوة 2: الإجابة على سؤال مالي مهم
# سؤال: ما هي أكثر 10 دول مساهمة في الإيرادات (Revenue)؟

# نقوم بتجميع البيانات حسب الدولة وحساب مجموع الإيرادات لكل دولة
top_10_revenue_countries = df.groupby('Country')['TotalPrice'].sum().sort_values(ascending=False).head(10)

print("\n--- أكثر 10 دول من حيث إجمالي الإيرادات ---")
print(top_10_revenue_countries)


تم إنشاء عمود 'TotalPrice' بنجاح.
  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

          InvoiceDate  UnitPrice  CustomerID         Country  TotalPrice  
0 2010-12-01 08:26:00       2.55     17850.0  United Kingdom       15.30  
1 2010-12-01 08:26:00       3.39     17850.0  United Kingdom       20.34  
2 2010-12-01 08:26:00       2.75     17850.0  United Kingdom       22.00  
3 2010-12-01 08:26:00       3.39     17850.0  United Kingdom       20.34  
4 2010-12-01 08:26:00       3.39     17850.0  United Kingdom       20.34  

--- أكثر 10 دول من حيث إجمالي الإيرادات ---
Country
United Kingdom    6747156.154


In [17]:
# --- الخطوة النهائية: إعادة تصدير الملف المحدّث ---

# تحديد اسم الملف
output_file = 'retail_sales.csv'

# حفظ الـ DataFrame (الذي يحتوي الآن على TotalPrice) في ملف CSV
# هذا سيقوم بالكتابة فوق الملف القديم وإنشاء ملف جديد محدّث
df.to_csv(output_file, index=False)

print(f"تم تحديث وحفظ الملف '{output_file}' بنجاح.")
print("الملف الآن يحتوي على 9 أعمدة وجاهز للنقل.")


تم تحديث وحفظ الملف 'retail_sales.csv' بنجاح.
الملف الآن يحتوي على 9 أعمدة وجاهز للنقل.
