In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
%matplotlib inline

# --------------------     ساخت دیتافریم    -------------------- 

In [None]:
# تنظیم سید تصادفی برای تولید داده ی تکرارپذیر
np.random.seed(42)

# تعداد روزها
n = 100

# ساخت دیتافریم
df = pd.DataFrame({
    "Date": pd.date_range(start="2024-01-01", periods=n, freq="D"),
    "Daily_Production": np.random.normal(loc=1200, scale=150, size=n).round(0),
    "Wellhead_Pressure": np.random.normal(loc=2500, scale=300, size=n).round(0),
    "Temperature": np.random.normal(loc=90, scale=5, size=n).round(1),
    "Operator_Company": np.random.choice(["Oil & Gas West", "NIOC", "Fars"], size=n),
    "Well_Type": np.random.choice(["Production", "Injection"], size=n, p=[0.7, 0.3])
})

# افزودن تولید تجمعی برای نمودارهای خطی یا توزیعی
df["Cumulative_Production"] = df["Daily_Production"].cumsum()

df.head()


# --------------------     نمودارهای توزیعی    -------------------- 

In [None]:
#  matplotترسیم نمودار هیستوگرام با استفاده از کتابخانه ی
plt.figure(figsize=(8, 5))
plt.hist(df["Daily_Production"], bins=15, color="skyblue", edgecolor="black")
plt.title("Distribution of Daily Production")
plt.xlabel("Production Volume (Barrels)")
plt.ylabel("Number of Days")
plt.grid(True, linestyle='--', alpha=0.5)
plt.tight_layout()
plt.show()


In [None]:
#  seabornترسیم نمودار هیستوگرام با استفاده از کتابخانه ی


plt.figure(figsize=(8, 5))
sns.histplot(df["Daily_Production"], bins=15, kde=False, color="lightcoral")
plt.title("Distribution of Daily Production (Seaborn)")
plt.xlabel("Production Volume (Barrels)")
plt.ylabel("Number of Days")
plt.grid(True, linestyle='--', alpha=0.5)
plt.tight_layout()
plt.show()

In [None]:
# ------------------------     رسم نمودار جعبه ای     ------------------------  
# ایجاد نمودار جعبه‌ای با Seaborn
plt.figure(figsize=(8, 6))
sns.boxplot(x='Well_Type', y='Daily_Production', data=df)

# اضافه کردن عنوان و برچسب‌ها
plt.title('Box plot of Daily Production by Well Type')
plt.xlabel('Well Type')
plt.ylabel('Daily Production')

# نمایش نمودار
plt.show()

In [None]:
# ------------------------   seaborn  رسم نمودار ویولن     ------------------------     

# تنظیم اندازه تصویر
plt.figure(figsize=(8, 5))

# رسم نمودار ویولن
sns.violinplot(data=df, x="Well_Type", y="Daily_Production", palette="Set2")

# افزودن عنوان و برچسب محورها
plt.title("Daily Production Distribution by Well Type", fontsize=14)
plt.xlabel("Well Type", fontsize=12)
plt.ylabel("Daily Production (barrels)", fontsize=12)

# نمایش نمودار
plt.tight_layout()
plt.show()


In [None]:
# ------------------------   plotly  رسم نمودار ویولن     ------------------------     


fig = px.violin(df, x="Well_Type", y="Daily_Production", box=True, points="all",
                title="Violin Plot of Daily Production by Well Type")
fig.show()


In [None]:
# ------------------------   seaborn  کد تمرین بخش نمودار ویولن     ------------------------     

# Violin plot: Daily Production by Operating Company
plt.figure(figsize=(9, 5))
sns.violinplot(data=df, x="Operator_Company", y="Daily_Production")
plt.title("Violin Plot of Daily Production by Operator")
plt.xlabel("Operating Company")
plt.ylabel("Daily Production")
plt.grid(True)
plt.show()


In [None]:
# ------------------------    swarm رسم نمودار      ------------------------     

# Swarm plot: Daily Production by Well Type
plt.figure(figsize=(8, 5))
sns.swarmplot(data=df, x="Well_Type", y="Daily_Production")
plt.title("Swarm Plot of Daily Production by Well Type")
plt.xlabel("Well Type")
plt.ylabel("Daily Production")
plt.grid(True)
plt.show()


In [None]:
# ------------------------    KDE رسم نمودار      ------------------------     

plt.figure(figsize=(8, 5))
sns.kdeplot(data=df, x="Daily_Production", fill=True, color="steelblue")
plt.title("Kernel Density Estimation of Daily Production")
plt.xlabel("Daily Production (barrels)")
plt.ylabel("Density")
plt.tight_layout()
plt.show()


In [None]:
# ------------------------    KDE تمرین رسم نمودار      ------------------------     

# نمودار KDE برای Wellhead_Pressure
plt.figure(figsize=(8, 5))
sns.kdeplot(data=df, x="Wellhead_Pressure", fill=True, color="mediumseagreen")
plt.title("KDE of Wellhead Pressure")
plt.xlabel("Wellhead Pressure (psi)")
plt.ylabel("Density")
plt.tight_layout()
plt.show()

# نمودار KDE برای Temperature به تفکیک نوع چاه
plt.figure(figsize=(8, 5))
sns.kdeplot(data=df, x="Temperature", hue="Well_Type", fill=True)
plt.title("KDE of Temperature by Well Type")
plt.xlabel("Temperature (°F)")
plt.ylabel("Density")
plt.tight_layout()
plt.show()


# --------------------     نمودارهای دسته ای    -------------------- 

In [None]:
# ------------------------    Count  رسم نمودار      ------------------------     

plt.figure(figsize=(6, 4))
sns.countplot(data=df, x="Well_Type", palette="Set2")
plt.title("Well Count by Type")
plt.xlabel("Well Type")
plt.ylabel("Count")
plt.tight_layout()
plt.show()


In [None]:
# ------------------------    Bar  رسم نمودار      ------------------------  

plt.figure(figsize=(6, 4))
sns.barplot(data=df, x="Well_Type", y="Wellhead_Pressure", estimator=np.mean, palette="Set3")
plt.title("Average Wellhead Pressure by Well Type")
plt.xlabel("Well Type")
plt.ylabel("Average Pressure")
plt.tight_layout()
plt.show()


In [None]:
# ------------------------     تمرین نمودارهای دسته ای      ------------------------   

# تنظیم اندازه پیش‌فرض نمودارها
plt.figure(figsize=(10, 6))

# ۱. تعداد چاه‌ها به تفکیک شرکت بهره‌بردار (نمودار شمارشی)
plt.subplot(3, 1, 1)
sns.countplot(data=df, x="Operator_Company")
plt.title("Number of Wells by Operator")
plt.xlabel("Operator_Company")
plt.ylabel("Count")

# ۲. میانگین دما به تفکیک نوع چاه (میانگین یک متغیر عددی بر اساس یک متغیر دسته‌ای)
plt.subplot(3, 1, 2)
sns.barplot(data=df, x="Well_Type", y="Temperature", estimator="mean")
plt.title("Average Temperature by Well Type")
plt.xlabel("Well Type")
plt.ylabel("Average Temperature (°F)")

# ۳. مجموع تولید روزانه به تفکیک شرکت بهره‌بردار
# باید ابتدا تجمیع انجام شود
total_production = df.groupby("Operator_Company")["Daily_Production"].sum().reset_index()

plt.subplot(3, 1, 3)
sns.barplot(data=total_production, x="Operator_Company", y="Daily_Production")
plt.title("Total Daily Production by Operator")
plt.xlabel("Operator_Company")
plt.ylabel("Total Daily Production (barrels)")

plt.tight_layout()
plt.show()


# --------------------     نمودارهای ارتباطی     -------------------- 

In [None]:
# ------------------------    Line  رسم نمودار خطی      ------------------------  

# تولید یک نمودار ساده از تولید تجمعی چاه
plt.plot(np.arange(1,101), df["Cumulative_Production"])

# عنوان نمودار و برچسب محورها
plt.title("Cumulative Production over Time")
plt.xlabel("Production Day")
plt.ylabel("Cumulative Production")

# نمایش نمودار
plt.tight_layout()
plt.show()


In [None]:
fig, ax = plt.subplots(2, 1, figsize=(8, 6))  # دو ردیف، یک ستون

# نمودار اول: تولید تجمعی
ax[0].plot(np.arange(1,101), df["Cumulative_Production"], color='blue')
ax[0].set_title("Cumulative Production")
ax[0].set_xlabel("Production Day")
ax[0].set_ylabel("Cumulative")

# نمودار دوم: تولید روزانه
ax[1].plot(np.arange(1,101), df["Daily_Production"], 'r--')
ax[1].set_title("Daily Production")
ax[1].set_xlabel("Production Day")
ax[1].set_ylabel("Daily")

plt.tight_layout()
plt.show()


In [None]:
# ------------------------    matplot  تمرین نمودار خطی با کتابخانه ی      ------------------------ 

# فیلتر کردن داده‌ها بر اساس Well_Type
df_production = df[df["Well_Type"] == "Production"]
df_injection = df[df["Well_Type"] == "Injection"]
# تنظیم اندازه شکل
plt.figure(figsize=(12, 6))

# رسم خط برای Production
plt.plot(df_production["Date"],df_production["Wellhead_Pressure"],label="Production",color="blue",linewidth=2)

# رسم خط برای Injection
plt.plot(df_injection["Date"],df_injection["Wellhead_Pressure"],label="Injection",color="orange",linewidth=2)

# تنظیمات نمودار
plt.title("Wellhead Pressure Over Time by Well Type", fontsize=16)
plt.xlabel("Date", fontsize=12)
plt.ylabel("Wellhead Pressure", fontsize=12)
plt.grid(alpha=0.5)  # اضافه کردن شبکه
plt.legend(fontsize=10, title="Well Type", title_fontsize=12)  # تنظیم legend

# نمایش نمودار
plt.tight_layout()
plt.show()

In [None]:
# ------------------------    seaborn  تمرین نمودار خطی با کتابخانه ی      ------------------------ 

plt.figure(figsize=(12, 6))
# تولید یک نمودار ساده از تولید تجمعی چاه
sns.lineplot(data=df, x=np.arange(1,101),y="Wellhead_Pressure",hue="Well_Type",  palette="Set2",  linewidth=2 )

# عنوان نمودار و برچسب محورها
plt.title("Cumulative Production over Time")
plt.xlabel("Production Day")
plt.ylabel("Cumulative Production")

# نمایش نمودار
plt.tight_layout()
plt.show()


In [None]:
# ------------------------    Scatter  رسم نمودار      ------------------------  

plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x="Wellhead_Pressure", y="Daily_Production")
plt.title("Daily Production vs. Wellhead Pressure")
plt.xlabel("Wellhead Pressure (psi)")
plt.ylabel("Daily Production (barrels)")
plt.grid(True)
plt.show()


In [None]:
# ------------------------     تمرین نمودار پراکندگی      ------------------------   

plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x="Temperature", y="Daily_Production", hue="Well_Type")
plt.title("Daily Production vs. Temperature by Well Type")
plt.xlabel("Temperature (°F)")
plt.ylabel("Daily Production (barrels)")
plt.grid(True)
plt.show()


In [None]:
# ------------------------      رسم نمودار رگرسیون      ------------------------  

plt.figure(figsize=(8, 6))
sns.regplot(data=df, x="Wellhead_Pressure", y="Daily_Production", scatter_kws={'s': 50}, line_kws={'color': 'red'})
plt.title("Regression of Daily Production on Wellhead Pressure")
plt.xlabel("Wellhead Pressure (psi)")
plt.ylabel("Daily Production (barrels)")
plt.grid(True)
plt.show()


In [None]:
# ------------------------     تمرین نمودار رگرسیون      ------------------------   

plt.figure(figsize=(8, 6))
sns.regplot(data=df, x="Temperature", y="Daily_Production", scatter_kws={'s': 50}, line_kws={'color': 'green'})
plt.title("Regression of Daily Production on Temperature")
plt.xlabel("Temperature (°F)")
plt.ylabel("Daily Production (barrels)")
plt.grid(True)
plt.show()


In [None]:
# ------------------------     Pair Plot رسم نمودار جفتی       ------------------------  

# انتخاب فقط ستون‌های عددی
numeric_cols = ["Daily_Production", "Wellhead_Pressure", "Temperature", "Cumulative_Production"]

# ترسیم pair plot با رنگ‌بندی بر اساس نوع چاه
sns.pairplot(df[numeric_cols + ["Well_Type"]], hue="Well_Type", height=2.5, corner=True)
plt.suptitle("Pair Plot of Numerical Features by Well Type", y=1.02)
plt.show()


In [None]:
# ------------------------     Pair Plot تمرین نمودار جفتی       ------------------------  

sns.pairplot(df[numeric_cols + ["Operator_Company"]], hue="Operator_Company", height=2.5, corner=True)
plt.suptitle("Pair Plot by Operator Company", y=1.02)
plt.show()


In [None]:
# ------------------------     Heatmap رسم نمودار حرارتی       ------------------------  

# محاسبه ماتریس همبستگی برای ستون‌های عددی
corr_matrix = df[["Daily_Production", "Wellhead_Pressure", "Temperature", "Cumulative_Production"]].corr()

# رسم نقشه‌ی حرارتی با اعداد داخل سلول‌ها
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Correlation Heatmap")
plt.tight_layout()
plt.show()


# --------------------     نمودارهای ماتریسی     --------------------

In [None]:
# ------------------------     PairGrid رسم نمودار        ------------------------  


# فقط ستون‌های عددی را انتخاب می‌کنیم
numeric_cols = ["Daily_Production", "Wellhead_Pressure", "Temperature", "Cumulative_Production"]

# ساخت PairGrid
g = sns.PairGrid(df[numeric_cols])
g.map_lower(sns.scatterplot, color="blue", alpha=0.6)
g.map_diag(sns.histplot, kde=True, color="skyblue")
g.map_upper(sns.kdeplot, fill=True)

plt.suptitle("PairGrid of Numerical Features", y=1.02)
plt.tight_layout()
plt.show()


In [None]:
# ------------------------     PairGrid تمرین نمودار        ------------------------  


g = sns.PairGrid(df, vars=numeric_cols, hue="Well_Type", palette="Set2")
g.map_lower(sns.scatterplot, alpha=0.6)
g.map_diag(sns.kdeplot, fill=True)
g.map_upper(sns.kdeplot, fill=True)

g.add_legend(title="Well Type")
plt.suptitle("PairGrid Colored by Well Type", y=1.02)
plt.tight_layout()
plt.show()


In [None]:
# ------------------------     ClusterMap رسم نمودار        ------------------------  


# استخراج ستون‌های عددی
numeric_cols = ["Daily_Production", "Cumulative_Production", "Wellhead_Pressure", "Temperature"]

# ساخت Clustermap
sns.clustermap(df[numeric_cols].dropna(), cmap="viridis", standard_scale=1)

plt.suptitle("Clustermap of Numerical Features", y=1.05)
plt.show()


In [None]:
# ------------------------     ClusterMap تمرین نمودار        ------------------------  


# استخراج ستون‌های عددی
numeric_cols = ["Daily_Production", "Cumulative_Production", "Wellhead_Pressure", "Temperature"]

# ساخت Clustermap
sns.clustermap(df[numeric_cols].dropna(), cmap="viridis",method='average',z_score=1)
#sns.clustermap(df[numeric_cols].dropna(), cmap="viridis",metric='cityblock',z_score=1)


plt.suptitle("Clustermap of Numerical Features", y=1.05)
plt.show()
