# Final Challenge: Dive into Data Science with Python  

Here's a practical project to evaluate your skills in Python programming, data manipulation with Pandas, data visualization with Matplotlib and Seaborn, and basic data analysis. The project is divided into multiple sections and includes questions of increasing complexity.  

> *The optional advanced sections and bonus challenges can be used to challenge more advanced students.*


#### Section 1: Data Loading and Exploration

1. Load the "Stores.csv" dataset using Pandas.  
 (Find this dataset in [Dayche kaggle's profile](https://www.kaggle.com/datasets/rouzbeh/stores-dataset))  
 
2. Check data types for all features.  

3. Display the first few rows of the dataset to get an overview.  
  
4. Describe the basic statistics of all qualitative an quantitative columns.  

Write your interpretation of the obtained outputs in terms of analysis and preparation actions.


بخش ۱: بارگذاری و کاوش داده‌ها

1.مجموعه داده‌ی "Stores.csv" را با استفاده از پنداز بارگذاری کنید. (این مجموعه داده را در پروفایل دایکه در کگل پیدا کنید)

2.نوع داده‌ها را برای تمام ویژگی‌ها بررسی کنید.

3.چند ردیف اول مجموعه داده را نمایش دهید تا نمای کلی از آن بدست آورید.

4.آمارهای پایه‌ی تمام ستون‌های کیفی و کمی را توصیف کنید.

تفسیر خود از خروجی‌های به دست آمده را در مورد تجزیه و تحلیل و اقدامات آماده‌سازی بنویسی

In [None]:
import pandas as pd

df = pd.read_csv('/kaggle/input/stores-dataset/Stores.csv')

#  بررسی نوع و اطلاعاتی در مورد داده ها
print("برسی نوع و اطلاعات در مورد داده ها")
print(df.info())

#نماش چند ردیف اول داده ها 
print('نمایش چند ردیف اول  داده ها')
print(df.head())

# آمارهای پایه‌ی تمام ستون‌ها
print("امار های پایه تمام ستون ها")
print(df.describe())

اقدامات پیشنهادی¶
تبدیل ستون Store Number به نوع int16

تبدیل ستون‌های AreaStore و Checkout Number به نوع بهینه‌تر:

چون این اعداد دارای ارزش‌های اعشاری هستند، می‌توانیم نوع float32 را استفاده کنیم.

بدیل ستون‌های رشته‌ای (object) به دسته‌ای (category):
این کار باعث کاهش حجم حافظه مصرفی و بهبود عملکرد می‌شود.

مدیریت مقادیر گم شده: برای ستون Checkout Number که مقادیر گم شده داره، می‌تونیم از روش‌های مختلفی مثل پر کردن با میانگین، میانه، یا حذف ردیف‌ها استفاده کنیم.

تبدیل ستون Revenue به نوع عددی.

#### Section 2: Data Cleaning and Transformation  

5. Convert the "Revenue" column to a numeric data type.

6. Create a new column "RevToArea" based on the ratio between "Revenue" column and "AreaStore" column.

7. Set "Store Number" column as a lable of rows in data frame.  

8. Check for missing values in the dataset and use an **if-else statement** to handle them by filling in the missing values with Median/Mode values of features.

In [None]:
# تبدیل ستون Store Number به int16
df['Store Number'] = df['Store Number'].astype('int16')

# تبدیل ستون‌های AreaStore و Checkout Number به float32
df['AreaStore'] = df['AreaStore'].astype('float32')
df['Checkout Number'] = df['Checkout Number'].astype('float32')

# تبدیل ستون‌های Property, Type, Old/New به category
df['Property'] = df['Property'].astype('category')
df['Type'] = df['Type'].astype('category')
df['Old/New'] = df['Old/New'].astype('category')
df

📋 چه سوالات تحلیلی میشه از این جدول پرسید؟
آیا فروشگاه‌های بزرگ‌تر درآمد بیشتری دارند؟

* آیا فروشگاه‌های Owned نسبت به Rental درآمد بیشتری دارن؟

* فروشگاه‌های "New" بهتر کار می‌کنند یا "Old"؟

* نسبت درآمد به تعداد صندوق چقدره؟

* مدل پیش‌بینی درآمد فروشگاه چطور میتونه باشه؟

In [None]:
# حذف کاما و تبدیل به عددی
df['Revenue'] = df['Revenue'].str.replace(',', '').astype(float)
# ستون درامد را به یک ستون عددی تبدیل می کنه
df['Revenue'] = pd.to_numeric(df['Revenue'], errors='coerce')
df

🎯 چرا این کار مهمه؟

چون توی تحلیل داده و مخصوصاً مدلسازی (مثل رگرسیون خطی یا مدل‌های یادگیری ماشین)،
➔ مدل‌ها فقط با مقادیر عددی کار می‌کنن.
اگر ستون‌های عددی‌ات متن باشن، هیچ الگوریتمی نمی‌تونه درست روی اون کار کنه.

📊 در مورد دیتای تو:
حالا ستون 'Revenue' آمادست که:

* تحلیل آماری انجام بدی

* روابط بین درآمد و سایر ویژگی‌ها رو مدل کنی

* پیش‌بینی کنی که درآمد یک فروشگاه جدید چقدر میشه

* یا حتی دیتای پرت (outlier) رو کشف کنی



In [None]:
#یک ستون جدید می سازه و نسبت  ستونRevenue وAreaStore  را بهمون رد ستون جدید نشون میده
df['RevToArea'] = df['Revenue'] / df['AreaStore']
df

خروجی جدید شما دارای یک ستون اضافی به نام RevToArea است که نسبت درآمد هر فروشگاه به مساحت آن فروشگاه را نشان می‌دهد. این ستون به ما کمک می‌کند تا بفهمیم هر فروشگاه در ازای هر متر مربع از مساحت خود، چقدر درآمد دارد.

RevToArea: نسبت درآمد به مساحت است. این عدد نشان می‌دهد که هر فروشگاه به ازای هر متر مربع، چه مقدار درآمد تولید کرده است. برای مثال:

فروشگاه شماره 1 با مساحت 2100 متر مربع، درآمد 45,072,000 داشته و نسبت درآمد به مساحت آن 21,462.86 تومان برای هر متر مربع است .

فروشگاه شماره 2 با مساحت 1290 متر مربع، درآمد 7,416,000 داشته و نسبت درآمد به مساحت آن 5,748.84 تومان برای هر متر مربع است .

نکات کلیدی:

فروشگاه‌هایی که نسبت بالاتری از درآمد به مساحت دارند، ممکن است به دلیل وجود کالاها یا خدمات پرفروش‌تر در آن فروشگاه‌ها باشند. این فروشگاه‌ها می‌توانند فضای کمتری اشغال کرده ولی درآمد بیشتری کسب کنند.


فروشگاه‌هایی با نسبت پایین‌تر ممکن است مساحت زیادی داشته باشند ولی به ازای هر متر مربع، درآمد کمتری داشته باشند. این می‌تواند به دلیل فضای خالی، موجودی ناکافی کالا یا مشکلات در بازاریابی باشد.


به طور کلی، ستون RevToArea می‌تواند به مدیران و تحلیلگران کمک کند تا عملکرد فروشگاه‌ها را با توجه به مساحت فروشگاه‌ها مقایسه کنند و مناطقی که نیاز به بهبود دارند را شناسایی کنند.

In [None]:
df.set_index('Store Number', inplace=True)
df.head()

📌 نکات تحلیلی مهم:
ایندکس‌شدن Store Number:

مقدار گمشده (NaN) در ستون Checkout Number برای فروشگاه ۳:

نشان می‌دهد داده ناقص داریم. برای تحلیل دقیق‌تر باید آن را مدیریت کنیم (مثلاً با میانگین جایگزین کنیم یا حذفش کنیم).

In [None]:
#پر کردن مقادیر خالی این ستون با میانگین
df['Checkout Number'] = df['Checkout Number'].fillna(df['Checkout Number'].mean())
df

1_درمان داده گمشده (Missing Value Imputation):

* با جایگزینی مقدار میانگین به‌جای NaN، شما داده‌ی ناقص را به شکل عددی معتبر پر کردید

* این روش نسبت به حذف کامل ردیف، بهتر است، چون داده را نگه می‌دارد

2_تأثیر بر تحلیل‌های آینده:

* حالا که ستون کامل شده، می‌توانید تحلیل‌های آماری، گراف‌ها و مدل‌سازی را بدون خطای NaN انجام دهید.

#### Section 3: Data Visualization  

9. Create a bar chart showing the distribution of store "Type" with matplotlib.

10. Generate a histogram of store "Revenue" with seaborn.

بخش 3: تجسم داده ها

یک نمودار میله ای ایجاد کنید که توزیع فروشگاه "Type" را با matplotlib نشان می دهد.

یک هیستوگرام از فروشگاه "درآمد" با seaborn ایجاد کنید.

In [None]:
import matplotlib.pyplot as plt

# محاسبه تعداد هر نوع فروشگاه
type_counts = df['Type'].value_counts()

# رسم نمودار میله‌ای
plt.figure(figsize=(8, 6))
plt.bar(type_counts.index, type_counts.values, color='skyblue')

# عنوان و برچسب‌ها
plt.title('Distribution of types of stores (Store Type)', fontsize=14)
plt.xlabel('Type of stores', fontsize=12)
plt.ylabel('number', fontsize=12)

# نمایش نمودار
plt.tight_layout()
plt.show()


این نمودار نشان می‌دهد که:

فروشگاه‌های Express بیشترین تعداد را دارند.

فروشگاه‌های Extra در رتبه دوم قرار دارند.

فروشگاه‌های Hyper کمترین تعداد را دارند.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# رسم هیستوگرام درآمد فروشگاه‌ها
plt.figure(figsize=(10, 6))
sns.histplot(data=df, x='Revenue', bins=20, kde=True, color='green')

# عنوان و برچسب‌ها
plt.title('Distribution of store income (Revenue)', fontsize=14)
plt.xlabel('income', fontsize=12)
plt.ylabel('Number of stores', fontsize=12)

# نمایش نمودار
plt.tight_layout()
plt.show()


* عنوان: توزیع درآمد فروشگاه‌ها

* محور X: درآمد (Revenue)

* محور Y: فراوانی (Frequency)

* هیستوگرام: بیشتر فروشگاه‌ها دارای درآمد پایین‌تری هستند، و فراوانی با افزایش درآمد کاهش می‌یابد.

* توزیع skewed راست: نشان می‌دهد که تعداد کمی از فروشگاه‌ها دارای درآمد بسیار بالایی هستند.

#### Section 4: Data Analysis  

12. Compare "AreaStore" values for "Store Numbers" 5 and 117, and print which one is greater than. *(hint: uisng .loc)*

13. Write a **function** to get "Store Numbers" and numeric features name, then compare values and print which one is greater than.

15. Determine the most common "Property" type among the stores.   

14. Identify the store with the highest "Revenue" per square meter of "AreaStore".  

16. Write a **function** to find and return the top N stores with the highest "Revenue" in number K stores. Allow the user to specify the number N and K as an argument. (N <= K)


In [None]:
# مقایسه مقادیر AreaStore برای Store Numbers 5 و 117

area_store_5 = df.loc[5, 'AreaStore']
area_store_117 = df.loc[117, 'AreaStore']

if area_store_5 > area_store_117:
    print('Store Number 5 has a greater AreaStore:', area_store_5)
else:
    print('Store Number 117 has a greater AreaStore:', area_store_117)

print(50 * "=")

In [None]:
def compare_numeric_feature(df, store_num1, store_num2, feature_name):
    try:
        # دریافت مقدار ویژگی برای هر فروشگاه
        value1 = df.loc[store_num1, feature_name]
        value2 = df.loc[store_num2, feature_name]
        
        # چاپ مقدار هر فروشگاه
        print(f"amount '{feature_name}' for the store {store_num1}: {value1}")
        print(f"amount '{feature_name}' for the store {store_num2}: {value2}")
        
        # مقایسه مقادیر
        if value1 > value2:
            print(f"➔ store {store_num1} Much more in the feature '{feature_name}' has.")
        elif value1 < value2:
            print(f"➔ store {store_num2} Much more in the feature '{feature_name}' has.")
        else:
            print(f"➔ attribute value '{feature_name}' It is the same in both stores..")
    
    except KeyError as e:
        print(f"Error: The entered column or store number does not exist! ({e})")


compare_numeric_feature(df, 5, 117, 'AreaStore')


In [None]:
# شمارش تعداد هر نوع Property
property_counts = df['Property'].value_counts()

# استخراج رایج‌ترین نوع
most_common_property = property_counts.idxmax()
most_common_count = property_counts.max()

print(f"The most common type of property among stores: {most_common_property} with the number {most_common_count} store")


In [None]:
# محاسبه نسبت درآمد به مساحت برای هر فروشگاه
df['RevenuePerArea'] = df['Revenue'] / df['AreaStore']

# پیدا کردن ایندکس فروشگاهی که بیشترین مقدار را دارد
store_with_highest_revenue_per_area = df['RevenuePerArea'].idxmax()

# استخراج شماره فروشگاه از ایندکس
store_number = store_with_highest_revenue_per_area

# استخراج مقدار بیشترین درآمد به ازای مساحت
highest_revenue_per_area = df.loc[store_number, 'RevenuePerArea']

print(f"Store number {store_number} The highest income per square meter of 'AreaStore' with the amount {highest_revenue_per_area:.2f} has.")


In [None]:
import pandas as pd

def top_n_stores_by_revenue(df, N, K):
    """
    Function to find and return the top N stores with the highest 'Revenue' 
    from the top K stores.
    
    Parameters:
    - df: DataFrame containing the stores data.
    - N: The number of top stores to return (N <= K).
    - K: The number of stores to consider (K can be more than or equal to N).
    
    Returns:
    - A DataFrame containing the top N stores with the highest 'Revenue'.
    """
    
    if N > K:
        raise ValueError("N must be less than or equal to K.")
    
    # Select the top K stores based on 'Revenue'
    top_k_stores = df.nlargest(K, 'Revenue')
    
    # Get the top N stores from the top K stores
    top_n_stores = top_k_stores.head(N)
    
    return top_n_stores

# Example of usage
# Assuming df is your DataFrame
N = 5  # The number of top stores you want to return
K = 10  # The number of stores to consider
top_stores = top_n_stores_by_revenue(df, N, K)
print(top_stores)


#### Section 5: Bonus Challenge (Advanced) --Optional 

17. Use Scikit-Learn to perform test and trian split dataset.  

18. Use Scikit-Learn to resclale numerical data for modeling. 

19. Use Scikit-Learn to perform linear regression to predict store "Revenue", based on **numerical features**.  

20. Use Scikit-Learn to evaluate model with **R square** metric.

In [None]:
from sklearn.model_selection import train_test_split

# فرض می‌کنیم df دیتافریم شماست

# تقسیم ویژگی‌ها (X) و برچسب‌ها (y)
# به عنوان مثال فرض کنیم می‌خواهیم 'Revenue' را پیش‌بینی کنیم
X = df.drop(columns=['Revenue'])  # همه ستون‌ها به جز Revenue ویژگی‌ها هستند
y = df['Revenue']                 # ستون Revenue برچسب ماست

# تقسیم داده‌ها به داده‌های آموزش و تست
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# نمایش شکل داده‌ها
print("شکل X_train:", X_train.shape)
print("شکل X_test:", X_test.shape)
print("شکل y_train:", y_train.shape)
print("شکل y_test:", y_test.shape)


In [None]:
from sklearn.preprocessing import StandardScaler

# فرض می‌کنیم X همان ویژگی‌های عددی ماست
# اگر همه ستون‌های X عددی نباشند، باید فقط ستون‌های عددی را انتخاب کنیم
numeric_columns = X.select_dtypes(include=['float64', 'int64']).columns

# ایجاد یک شی از StandardScaler
scaler = StandardScaler()

# فیت و ترنسفورم روی داده‌های آموزشی
X_train_scaled = X_train.copy()
X_train_scaled[numeric_columns] = scaler.fit_transform(X_train[numeric_columns])

# فقط ترنسفورم روی داده‌های تست (بدون فیت مجدد)
X_test_scaled = X_test.copy()
X_test_scaled[numeric_columns] = scaler.transform(X_test[numeric_columns])

# مشاهده خروجی
print(X_train_scaled.head())


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

# فرض می‌کنیم df دیتافریم اصلی شماست.

# --- 1. انتخاب ویژگی‌های عددی
numerical_features = ['AreaStore', 'Checkout Number', 'RevToArea', 'RevenuePerArea']

X = df[numerical_features]  # ویژگی‌ها (Features)
y = df['Revenue']           # هدف (Target)

# --- 2. تقسیم داده به داده‌های آموزش و تست
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# --- 3. اعمال استانداردسازی (StandardScaler)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# --- 4. ساخت و آموزش مدل رگرسیون خطی
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# --- 5. پیش‌بینی روی داده‌های تست
y_pred = model.predict(X_test_scaled)

# --- 6. ارزیابی مدل (اختیاری - مثلا محاسبه R^2)
r2_score = model.score(X_test_scaled, y_test)
print(f"The model on the test data has R^2 equal to: {r2_score:.4f}")


In [None]:
from sklearn.metrics import r2_score

# ارزیابی مدل با استفاده از متریک R square
r2 = r2_score(y_test, y_pred)
print('R square:', r2)

# Good luck!