In [None]:
import pandas as pd

# Load the dataset
df = pd.read_csv("avocado.csv")  # Update the path if needed

# Display basic information
df.info()

# Display the first few rows
df.head()

In [None]:
# Rename the 'Unnamed: 0' column to 'Id'
df.rename(columns={"Unnamed: 0": "Id"}, inplace=True)

In [None]:
df["Date"] = pd.to_datetime(df["Date"])

In [None]:
df.info()

In [None]:
print(df.isnull().sum())

In [None]:
df["month"] = df["Date"].dt.month
df["week"] = df["Date"].dt.isocalendar().week
df["year"] = df["Date"].dt.year

In [None]:
df.info()

In [None]:
df["type"] = df["type"].map({"conventional": 0, "organic": 1})

In [None]:
df.info()

In [None]:
df = pd.get_dummies(df, columns=["region"], drop_first=True)

In [None]:
df.info()

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
plt.plot(df["Date"], df["AveragePrice"], label="Average Price", color="blue", alpha=0.4)
plt.xlabel("Date")
plt.ylabel("Average Price (USD)")
plt.title("Avocado Price Trend Over Time")
plt.legend()
plt.grid(True)
plt.show()

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
plt.scatter(df["Date"], df["AveragePrice"], label="Average Price", color="blue", alpha=0.6)
plt.xlabel("Date")
plt.ylabel("Average Price (USD)")
plt.title("Avocado Price Trend Over Time")
plt.legend()
plt.grid(True)
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# تعریف ویژگی‌ها (X) و متغیر هدف (y)
X = df.drop(columns=["Date", "AveragePrice"])  # حذف تاریخ و مقدار هدف
y = df["AveragePrice"]  # مقدار قیمت آووکادو

# تقسیم داده‌ها به دو بخش: آموزش (80٪) و تست (20٪)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# مقداردهی اولیه مدل رگرسیون خطی
lin_reg = LinearRegression()

# آموزش مدل
lin_reg.fit(X_train, y_train)

# پیش‌بینی روی داده‌های تست
y_pred = lin_reg.predict(X_test)

# نمایش R² score برای ارزیابی مدل
print("Linear Regression R² Score:", lin_reg.score(X_test, y_test))

In [None]:
import pandas as pd

# تنظیم ویژگی‌های تاریخ
future_dates = pd.date_range(start="2025-03-01", periods=6, freq="ME")
future_df = pd.DataFrame({"Date": future_dates})
future_df["month"] = future_df["Date"].dt.month
future_df["week"] = future_df["Date"].dt.isocalendar().week
future_df["year"] = future_df["Date"].dt.year

# اضافه کردن سایر ویژگی‌ها (با مقادیر میانگین از X_train)
for col in X_train.columns:
    if col not in future_df.columns:
        future_df[col] = X_train[col].mean()

# اطمینان از ترتیب صحیح ویژگی‌ها
future_X = future_df[X_train.columns]

# پیش‌بینی قیمت‌های آینده با Linear Regression
future_df["PredictedPrice"] = lin_reg.predict(future_X)

# نمایش خروجی
print(future_df[["Date", "PredictedPrice"]])

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Initialize model
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Train the model
model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

# Predictions on test data
y_pred = model.predict(X_test)

# Evaluation metrics
print("R² Score:", r2_score(y_test, y_pred))
print("Mean Absolute Error (MAE):", mean_absolute_error(y_test, y_pred))
print("Root Mean Squared Error (RMSE):", np.sqrt(mean_squared_error(y_test, y_pred)))

In [None]:
# تنظیم ویژگی‌های تاریخ
future_dates = pd.date_range(start="2025-03-01", periods=6, freq="ME")
future_df = pd.DataFrame({"Date": future_dates})
future_df["month"] = future_df["Date"].dt.month
future_df["week"] = future_df["Date"].dt.isocalendar().week
future_df["year"] = future_df["Date"].dt.year

# اضافه کردن سایر ویژگی‌ها (با مقادیر میانگین از X_train)
for col in X_train.columns:  # به جای X.columns از X_train استفاده می‌کنیم
    if col not in future_df.columns:
        future_df[col] = X_train[col].mean()

# اطمینان از ترتیب صحیح ویژگی‌ها
future_X = future_df[X_train.columns]  # تضمین اینکه ترتیب و نام‌ها دقیقاً مثل X_train باشد

# پیش‌بینی قیمت‌های آینده
future_df["PredictedPrice"] = model.predict(future_X)

# نمایش خروجی
print(future_df[["Date", "PredictedPrice"]])