<h1 align=center style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
تحلیل آماری داده‌ها
</font>
</h1>

<p dir="rtl" style="direction: rtl; text-align: justify; line-height: 2; font-family: Vazir, sans-serif; font-size: medium;">
  <strong>خروجی نهایی</strong> باید شامل ۳۲ مقدار به شکل یک فایل 
  <code>submission.csv</code> با ۶ رقم اعشار باشد.
  در هر بخش مقدار(های) لازم را در متغیرهای 
  <code>value_01</code> تا <code>value_32</code> قرار دهید. 
  در انتها این مقادیر استخراج و ذخیره می‌شوند.
</p>

<blockquote dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <strong>یادآوری:</strong> برای تمام محاسبات «وینسور» (Winsorization) روی هر سنسور به صورت مستقل انجام می‌دهیم:  
  برای هر سنسور صدک‌های ۱٪ و ۹۹٪ را با 
  <code>interpolation='linear'</code> محاسبه کرده و سپس با 
  <code>clip</code> مقادیر را به این بازه محدود می‌کنیم.  
  مگر جایی که صراحتاً گفته شده «خام/بدون وینسور». همچنین برای 
  <code>std</code> از نمونه‌ای (<code>ddof=1</code>) استفاده کنید.
</blockquote>


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">

  بارگذاری داده و آماده‌سازی
     </font>

</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>خواندن <code>sample.csv</code></li>
  <li>تبدیل <code>timestamp</code> به نوع زمانی</li>
  <li>تعریف تابع وینسور و نگهداشت نسخهٔ وینسورشدهٔ هر سنسور</li>
</ul>


In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('sample.csv')
df['timestamp'] = pd.to_datetime(df['timestamp'], errors='coerce')

SENSORS = ['Temperature_C','Pressure_kPa','VibAccel_m_s2','VibVelocity_mm_s']

def winsorize(s: pd.Series) -> pd.Series:
    q1 = s.quantile(0.01, interpolation='linear')
    q99 = s.quantile(0.99, interpolation='linear')
    return s.clip(lower=q1, upper=q99)

wdf = df.copy()
for c in SENSORS:
    wdf[c] = winsorize(wdf[c])


<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
     مقداردهی اولیهٔ متغیرهای پاسخ
  </font>
</h1>

<p dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  در هر بخش متغیرهای <code>value_XX</code> را <strong>جایگزین/محاسبه</strong> کنید.
</p>


In [None]:
value_01 = None
value_02 = None
value_03 = None
value_04 = None
value_05 = None
value_06 = None
value_07 = None
value_08 = None
value_09 = None
value_10 = None
value_11 = None
value_12 = None
value_13 = None
value_14 = None
value_15 = None
value_16 = None
value_17 = None
value_18 = None
value_19 = None
value_20 = None
value_21 = None
value_22 = None
value_23 = None
value_24 = None
value_25 = None
value_26 = None
value_27 = None
value_28 = None
value_29 = None
value_30 = None
value_31 = None
value_32 = None

<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
    میانگین و انحراف معیار (وینسورشده)
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقادیر <strong>۱–۴</strong>: میانگین هر سنسور (به ترتیب: دما، فشار، شتاب ارتعاش، سرعت ارتعاش)</li>
  <li>مقادیر <strong>۵–۸</strong>: انحراف معیار نمونه‌ای (<code>ddof=1</code>) به همان ترتیب</li>
</ul>


In [None]:
# TODO: value_01 .. value_04 (means), value_05 .. value_08 (stds with ddof=1)

<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
     کمینه و بیشینهٔ خام (بدون وینسور)
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقادیر <strong>۹–۱۶</strong>: به ترتیب <code>(min, max)</code> برای هر سنسور (دما، فشار، شتاب، سرعت)</li>
</ul>


In [None]:
# TODO: value_09 .. value_16

<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
    همبستگی پیرسون (وینسورشده، pairwise dropna)
  </font>
</h1>

<p dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  مقادیر <strong>۱۷–۲۲</strong>: به ترتیب جفت‌ها
</p>

<ol dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li><code>(Temperature_C, Pressure_kPa)</code></li>
  <li><code>(Temperature_C, VibAccel_m_s2)</code></li>
  <li><code>(Temperature_C, VibVelocity_mm_s)</code></li>
  <li><code>(Pressure_kPa, VibAccel_m_s2)</code></li>
  <li><code>(Pressure_kPa, VibVelocity_mm_s)</code></li>
  <li><code>(VibAccel_m_s2, VibVelocity_mm_s)</code></li>
</ol>


In [None]:
# TODO: value_17 .. value_22

<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
    میانهٔ هر سنسور (وینسورشده)
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقادیر <strong>۲۳–۲۶</strong>: میانهٔ سنسورها به ترتیب استاندارد</li>
</ul>


In [None]:
# TODO: value_23 .. value_26

<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
    خودهمبستگی با وقفهٔ ۱ (lag=1) روی دادهٔ وینسورشده
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقادیر <strong>۲۷–۳۰</strong>: به ترتیب برای سنسورها</li>
</ul>


In [None]:
# TODO: value_27 .. value_30

<h1 dir="rtl" style="direction: rtl; text-align: right; font-family: Vazir, sans-serif; font-size: x-large; line-height: 2;">
  <font face="vazir" color="#cc0000ff">
   نرخ NaN و بازهٔ نمونه‌برداری
  </font>
</h1>

<ul dir="rtl" style="direction: rtl; text-align: justify; font-family: Vazir, sans-serif; font-size: medium; line-height: 2;">
  <li>مقدار <strong>۳۱</strong>: سهم ردیف‌هایی که <strong>حداقل یکی</strong> از چهار سنسورشان <code>NaN</code> دارد (روی دادهٔ خام)</li>
  <li>مقدار <strong>۳۲</strong>: میانهٔ فاصلهٔ نمونه‌برداری (ثانیه) پس از مرتب‌سازی صعودی زمان‌ها</li>
</ul>


In [None]:
# TODO: value_31 .. value_32

<h2 dir=rtl align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
<b>سلول جواب‌ساز</b>
</font>
</h2>

<p dir=rtl style="direction: rtl; text-align: justify; line-height:200%; font-family:vazir; font-size:medium">
<font face="vazir" size=3>
    برای ساخته‌شدن فایل <code>result.zip</code> سلول زیر را اجرا کنید. توجه داشته باشید که پیش از اجرای سلول زیر تغییرات اعمال شده در نت‌بوک را ذخیره کرده باشید (<code>ctrl+s</code>) در غیر این صورت، در پایان مسابقه نمره شما به صفر تغییر خواهد کرد.
    <br>
    همچنین اگر از کولب برای اجرای این فایل نوت‌بوک استفاده می‌کنید، قبل از ارسال فایل <code>result.zip</code>، آخرین نسخه‌ی نوت‌بوک خود را دانلود کرده و داخل فایل ارسالی قرار دهید.
</font>

In [None]:
import zipfile
import joblib
import os

if not os.path.exists(os.path.join(os.getcwd(), 'notebook.ipynb')):
    %notebook -e notebook.ipynb

def compress(file_names):
    print("File Paths:")
    print(file_names)
    compression = zipfile.ZIP_DEFLATED
    with zipfile.ZipFile("result.zip", mode="w") as zf:
        for file_name in file_names:
            zf.write('./' + file_name, file_name, compress_type=compression)

answers = [globals()[f'value_{i:02d}'] for i in range(1, 33)]
s = pd.Series(answers, dtype='float64', name="prediction")
s.to_csv("submission.csv", index=False, float_format="%.6f")

file_names = ['notebook.ipynb', 'submission.csv']
compress(file_names)