<h1 align=center style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
تحلیل آماری داده‌ها
</font>
</h1>

<p dir="rtl" style="direction: rtl; text-align: justify; line-height: 2; font-family: Vazir, sans-serif; font-size: medium;">
  <strong>خروجی نهایی</strong> باید شامل ۳۲ مقدار به شکل یک فایل 
  <code>submission.csv</code> با ۶ رقم اعشار باشد.
  در هر بخش مقدار(های) لازم را در متغیرهای 
  <code>value_01</code> تا <code>value_32</code> قرار دهید. 
  در انتها این مقادیر استخراج و ذخیره می‌شوند.
</p>

<blockquote dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <strong>یادآوری:</strong> برای تمام محاسبات «وینسور» (Winsorization) روی هر سنسور به صورت مستقل انجام می‌دهیم:  
  برای هر سنسور صدک‌های ۱٪ و ۹۹٪ را با 
  <code>interpolation='linear'</code> محاسبه کرده و سپس با 
  <code>clip</code> مقادیر را به این بازه محدود می‌کنیم.  
  مگر جایی که صراحتاً گفته شده «خام/بدون وینسور». همچنین برای 
  <code>std</code> از نمونه‌ای (<code>ddof=1</code>) استفاده کنید.
</blockquote>


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">

  بارگذاری داده و آماده‌سازی
     </font>

</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>خواندن <code>sample.csv</code></li>
  <li>تبدیل <code>timestamp</code> به نوع زمانی</li>
  <li>تعریف تابع وینسور و نگهداشت نسخهٔ وینسورشدهٔ هر سنسور</li>
</ul>


In [5]:
import pandas as pd
import numpy as np

df = pd.read_csv('statistical_analysis_data.csv')
df['timestamp'] = pd.to_datetime(df['timestamp'], errors='coerce')

SENSORS = ['Temperature_C','Pressure_kPa','VibAccel_m_s2','VibVelocity_mm_s']

def winsorize(s: pd.Series) -> pd.Series:
    q1 = s.quantile(0.01, interpolation='linear')
    q99 = s.quantile(0.99, interpolation='linear')
    return s.clip(lower=q1, upper=q99)

wdf = df.copy()
for c in SENSORS:
    wdf[c] = winsorize(wdf[c])


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
     مقداردهی اولیهٔ متغیرهای پاسخ
  </font>
</h1>

<p dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  در هر بخش متغیرهای <code>value_XX</code> را <strong>جایگزین/محاسبه</strong> کنید.
</p>


In [6]:
df_ = df.head(1000).copy()
wdf_ = wdf.head(1000).copy()
raw = df_[SENSORS]
wins = wdf_[SENSORS]
r6 = lambda x: float(np.round(x, 6))
m = wins.mean()
s = wins.std(ddof=1)
mn = raw.min(); mx = raw.max()
pairs = [
    ("Temperature_C","Pressure_kPa"),
    ("Temperature_C","VibAccel_m_s2"),
    ("Temperature_C","VibVelocity_mm_s"),
    ("Pressure_kPa","VibAccel_m_s2"),
    ("Pressure_kPa","VibVelocity_mm_s"),
    ("VibAccel_m_s2","VibVelocity_mm_s"),
]
corrs = [wins[a].corr(wins[b]) for a,b in pairs]
med = wins.median()
ac = [wins[c].autocorr(lag=1) for c in SENSORS]
nan_rate = raw.isna().any(axis=1).mean()
msi = df_["timestamp"].sort_values().diff().dt.total_seconds().median()
value_01 = r6(m["Temperature_C"])
value_02 = r6(m["Pressure_kPa"])
value_03 = r6(m["VibAccel_m_s2"])
value_04 = r6(m["VibVelocity_mm_s"])
value_05 = r6(s["Temperature_C"])
value_06 = r6(s["Pressure_kPa"])
value_07 = r6(s["VibAccel_m_s2"])
value_08 = r6(s["VibVelocity_mm_s"])
value_09  = r6(mn["Temperature_C"])
value_10  = r6(mx["Temperature_C"])
value_11  = r6(mn["Pressure_kPa"])
value_12  = r6(mx["Pressure_kPa"])
value_13  = r6(mn["VibAccel_m_s2"])
value_14  = r6(mx["VibAccel_m_s2"])
value_15  = r6(mn["VibVelocity_mm_s"])
value_16  = r6(mx["VibVelocity_mm_s"])
value_17 = r6(corrs[0])
value_18 = r6(corrs[1])
value_19 = r6(corrs[2])
value_20 = r6(corrs[3])
value_21 = r6(corrs[4])
value_22 = r6(corrs[5])
value_23 = r6(med["Temperature_C"])
value_24 = r6(med["Pressure_kPa"])
value_25 = r6(med["VibAccel_m_s2"])
value_26 = r6(med["VibVelocity_mm_s"])
value_27 = r6(ac[0])
value_28 = r6(ac[1])
value_29 = r6(ac[2])
value_30 = r6(ac[3])
value_31 = r6(nan_rate)
value_32 = r6(msi)
for i in range(1, 33):
    print(f"value_{i:02d} = {eval(f'value_{i:02d}'):.6f}")


value_01 = 60.461174
value_02 = 379.910424
value_03 = 27.760443
value_04 = 11.158711
value_05 = 4.007353
value_06 = 22.164835
value_07 = 2.256038
value_08 = 0.907363
value_09 = 48.764694
value_10 = 71.078922
value_11 = 317.801444
value_12 = 443.569038
value_13 = 21.417980
value_14 = 32.335506
value_15 = 8.618879
value_16 = 13.738213
value_17 = 0.579941
value_18 = 0.585990
value_19 = 0.592605
value_20 = 0.590642
value_21 = 0.555453
value_22 = 0.606897
value_23 = 60.352357
value_24 = 380.443519
value_25 = 27.811128
value_26 = 11.125979
value_27 = 0.584505
value_28 = 0.784628
value_29 = 0.961333
value_30 = 0.906427
value_31 = 0.088000
value_32 = 1.000000


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
    میانگین و انحراف معیار (وینسورشده)
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقادیر <strong>۱–۴</strong>: میانگین هر سنسور (به ترتیب: دما، فشار، شتاب ارتعاش، سرعت ارتعاش)</li>
  <li>مقادیر <strong>۵–۸</strong>: انحراف معیار نمونه‌ای (<code>ddof=1</code>) به همان ترتیب</li>
</ul>


In [7]:
# TODO: value_01 .. value_04 (means), value_05 .. value_08 (stds with ddof=1)
wins = wdf[SENSORS].head(1000) 
r6 = lambda x: float(np.round(x, 6))
value_01 = r6(wins["Temperature_C"].mean())
value_02 = r6(wins["Pressure_kPa"].mean())
value_03 = r6(wins["VibAccel_m_s2"].mean())
value_04 = r6(wins["VibVelocity_mm_s"].mean())
value_05 = r6(wins["Temperature_C"].std(ddof=1))
value_06 = r6(wins["Pressure_kPa"].std(ddof=1))
value_07 = r6(wins["VibAccel_m_s2"].std(ddof=1))
value_08 = r6(wins["VibVelocity_mm_s"].std(ddof=1))
for i in range(1, 9):
    print(f"value_{i:02d} = {eval(f'value_{i:02d}'):.6f}")


value_01 = 60.461174
value_02 = 379.910424
value_03 = 27.760443
value_04 = 11.158711
value_05 = 4.007353
value_06 = 22.164835
value_07 = 2.256038
value_08 = 0.907363


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
     کمینه و بیشینهٔ خام (بدون وینسور)
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقادیر <strong>۹–۱۶</strong>: به ترتیب <code>(min, max)</code> برای هر سنسور (دما، فشار، شتاب، سرعت)</li>
</ul>


In [8]:
# TODO: value_09 .. value_16
raw = df[SENSORS].head(1000)
r6 = lambda x: float(np.round(x, 6))
value_09  = r6(raw["Temperature_C"].min())
value_10  = r6(raw["Temperature_C"].max())
value_11  = r6(raw["Pressure_kPa"].min())
value_12  = r6(raw["Pressure_kPa"].max())
value_13  = r6(raw["VibAccel_m_s2"].min())
value_14  = r6(raw["VibAccel_m_s2"].max())
value_15  = r6(raw["VibVelocity_mm_s"].min())
value_16  = r6(raw["VibVelocity_mm_s"].max())
for i in range(9, 17):
    print(f"value_{i:02d} = {eval(f'value_{i:02d}'):.6f}")

value_09 = 48.764694
value_10 = 71.078922
value_11 = 317.801444
value_12 = 443.569038
value_13 = 21.417980
value_14 = 32.335506
value_15 = 8.618879
value_16 = 13.738213


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
    همبستگی پیرسون (وینسورشده، pairwise dropna)
  </font>
</h1>

<p dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  مقادیر <strong>۱۷–۲۲</strong>: به ترتیب جفت‌ها
</p>

<ol dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li><code>(Temperature_C, Pressure_kPa)</code></li>
  <li><code>(Temperature_C, VibAccel_m_s2)</code></li>
  <li><code>(Temperature_C, VibVelocity_mm_s)</code></li>
  <li><code>(Pressure_kPa, VibAccel_m_s2)</code></li>
  <li><code>(Pressure_kPa, VibVelocity_mm_s)</code></li>
  <li><code>(VibAccel_m_s2, VibVelocity_mm_s)</code></li>
</ol>


In [9]:
# TODO: value_17 .. value_22
wins = wdf[SENSORS].head(1000)
r6 = lambda x: float(np.round(x, 6))
value_17 = r6(wins["Temperature_C"].corr(wins["Pressure_kPa"]))
value_18 = r6(wins["Temperature_C"].corr(wins["VibAccel_m_s2"]))
value_19 = r6(wins["Temperature_C"].corr(wins["VibVelocity_mm_s"]))
value_20 = r6(wins["Pressure_kPa"].corr(wins["VibAccel_m_s2"]))
value_21 = r6(wins["Pressure_kPa"].corr(wins["VibVelocity_mm_s"]))
value_22 = r6(wins["VibAccel_m_s2"].corr(wins["VibVelocity_mm_s"]))
for i in range(17, 23):
    print(f"value_{i:02d} = {eval(f'value_{i:02d}'):.6f}")

value_17 = 0.579941
value_18 = 0.585990
value_19 = 0.592605
value_20 = 0.590642
value_21 = 0.555453
value_22 = 0.606897


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
    میانهٔ هر سنسور (وینسورشده)
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقادیر <strong>۲۳–۲۶</strong>: میانهٔ سنسورها به ترتیب استاندارد</li>
</ul>


In [10]:
# TODO: value_23 .. value_26
wins = wdf[SENSORS].head(1000)
r6 = lambda x: float(np.round(x, 6))
med = wins.median(skipna=True)
value_23 = r6(med["Temperature_C"])
value_24 = r6(med["Pressure_kPa"])
value_25 = r6(med["VibAccel_m_s2"])
value_26 = r6(med["VibVelocity_mm_s"])
for i in range(23, 27):
    print(f"value_{i:02d} = {eval(f'value_{i:02d}'):.6f}")


value_23 = 60.352357
value_24 = 380.443519
value_25 = 27.811128
value_26 = 11.125979


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
    خودهمبستگی با وقفهٔ ۱ (lag=1) روی دادهٔ وینسورشده
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقادیر <strong>۲۷–۳۰</strong>: به ترتیب برای سنسورها</li>
</ul>


In [11]:
# TODO: value_27 .. value_30
wins = wdf[SENSORS].head(1000)
r6 = lambda x: float(np.round(x, 6))
value_27 = r6(wins["Temperature_C"].autocorr(lag=1))
value_28 = r6(wins["Pressure_kPa"].autocorr(lag=1))
value_29 = r6(wins["VibAccel_m_s2"].autocorr(lag=1))
value_30 = r6(wins["VibVelocity_mm_s"].autocorr(lag=1))
for i in range(27, 31):
    print(f"value_{i:02d} = {eval(f'value_{i:02d}'):.6f}")


value_27 = 0.584505
value_28 = 0.784628
value_29 = 0.961333
value_30 = 0.906427


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
   نرخ NaN و بازهٔ نمونه‌برداری
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقدار <strong>۳۱</strong>: سهم ردیف‌هایی که <strong>حداقل یکی</strong> از چهار سنسورشان <code>NaN</code> دارد (روی دادهٔ خام)</li>
  <li>مقدار <strong>۳۲</strong>: میانهٔ فاصلهٔ نمونه‌برداری (ثانیه) پس از مرتب‌سازی صعودی زمان‌ها</li>
</ul>


In [12]:
# TODO: value_31 .. value_32
raw = df[SENSORS].head(1000)
r6 = lambda x: float(np.round(x, 6))
value_31 = r6(raw.isna().any(axis=1).mean())
dt_seconds = df['timestamp'].head(1000).sort_values().diff().dt.total_seconds()
value_32 = r6(dt_seconds.median(skipna=True))
print(f"value_31 = {value_31:.6f}")
print(f"value_32 = {value_32:.6f}")


value_31 = 0.088000
value_32 = 1.000000


<h2 dir=rtl align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
<b>سلول جواب‌ساز</b>
</font>
</h2>

<p dir=rtl style="direction: rtl; text-align: justify; line-height:200%; font-family:vazir; font-size:medium">
<font face="vazir" size=3>
    برای ساخته‌شدن فایل <code>result.zip</code> سلول زیر را اجرا کنید. توجه داشته باشید که پیش از اجرای سلول زیر تغییرات اعمال شده در نت‌بوک را ذخیره کرده باشید (<code>ctrl+s</code>) در غیر این صورت، در پایان مسابقه نمره شما به صفر تغییر خواهد کرد.
    <br>
    همچنین اگر از کولب برای اجرای این فایل نوت‌بوک استفاده می‌کنید، قبل از ارسال فایل <code>result.zip</code>، آخرین نسخه‌ی نوت‌بوک خود را دانلود کرده و داخل فایل ارسالی قرار دهید.
</font>

In [13]:
import zipfile
import joblib
import os

if not os.path.exists(os.path.join(os.getcwd(), 'notebook.ipynb')):
    %notebook -e notebook.ipynb

def compress(file_names):
    print("File Paths:")
    print(file_names)
    compression = zipfile.ZIP_DEFLATED
    with zipfile.ZipFile("result.zip", mode="w") as zf:
        for file_name in file_names:
            zf.write('./' + file_name, file_name, compress_type=compression)

answers = [globals()[f'value_{i:02d}'] for i in range(1, 33)]
s = pd.Series(answers, dtype='float64', name="prediction")
s.to_csv("submission.csv", index=False, float_format="%.6f")

file_names = ['notebook.ipynb', 'submission.csv']
compress(file_names)

File Paths:
['notebook.ipynb', 'submission.csv']
