In [None]:
%load_ext rpy2.ipython

In [None]:
!pip install rpy2==3.5.1

#<a name='1'></a>
<div dir='rtl'>
<h1>1. تعریف حدی احتمال (Probability Definition)</h1>
</div>

<div dir='rtl'>
طبق تعریف حدی احتمال:
$$
P(A) = \lim_{n \to +\infty} \frac{n_A}{n}
$$
قصد داریم صحت این رابطه را بصورت عملی بررسی کنیم.
این سنجش فقط به صورت شهودی بوده و موضوعیتی را اثبات نمی‌کند (قابل اتکا نیست)؛
اما هدف انجام آزمایش‌های آماری با استفاده از زبان
R
و آشنایی با این زبان است.
</div>

<div dir='rtl'>
این مثال را در نظر بگیرید:
<br/>
یک سکه و یک تاس را می‌اندازیم و می‌خواهیم احتمال این را حساب کنیم که سکه شیر بیاید و تاس هم زوج باشد. 
</div>

<div dir='rtl'>
می‌دانیم که هر تاس ۶ وجه دارد و همچنین سکه دو حالت شیر یا خط را شامل میشود. طبق اصل ضرب، تعداد پیش‌آمد‌های ممکن برای پرتاب سکه و تاس، برابر $6 \times 2 = 12$ خواهد بود.
مجموعه پیش‌آمد‌های مطلوب ما عبارت خواهد بود از:
$$\{(h,2),(h,4),(h,6)\}$$
با فرض عادلانه بودن آزمایش و سالم بودن تاس‌ و سکه، احتمالات رو آمدن هر یک از وجوه یک تاس و شیر یا خط آمدن سکه یکسان هستند. بنابراین، احتمال مشاهده هر یک از زوج مرتب‌های ممکن نیز  یکسان هستند، پس می‌توانیم از تعریف کلاسیک احتمال استفاده کرده و نتیجه بگیریم که احتمال مشاهده نتیجه مطلوب ما برابر
$\frac{3}{12} = 0.25$
خواهد بود.
</div>

<div dir='rtl'>
حال به تخمین این احتمال، با استفاده از تعریف حدی احتمال می‌پردازیم. در ابتدا نیاز داریم فضای پیشامد این مثال را آماده کنیم:
</div>

In [None]:
%%R
dice_possible_observations = seq(1, 6)
# The above variable represents all possible observations for one dice roll.
# Note that `seq(x,y)` returns an array of integers from x to y
dice_possible_observations

[1] 1 2 3 4 5 6


<a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/seq">Read more about `seq`</a>

In [None]:
%%R
dice_observation_chance_to_appear = rep(1/6, 6)
# `rep(x,y)` returns an array with length y, filled with x values.
# We will use i-th element of this array as the i-th possible observation
# chance to appear.
# Normally, each possible side of a dice has similar chance to appear,
# thus the array is filled with 1/6.
dice_observation_chance_to_appear

[1] 0.1666667 0.1666667 0.1666667 0.1666667 0.1666667 0.1666667


<a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/rep">Read more about `rep`</a>

In [None]:
%%R

coin_possible_observations = seq(1, 2)
# The above variable represents all possible observations for one coin flip.
# The coin flip results, head and tail, are mapped to 1 and 2 respectively.
coin_possible_observations

[1] 1 2


In [None]:
%%R

coin_observation_chance_to_appear = rep(1/2, 2)
coin_observation_chance_to_appear

[1] 0.5 0.5


<h2 dir='rtl'>
نمونه گیری (Sampling)
</h2>

<div dir='rtl'>
روش نمونه‌گیری، فرآیندی است که به کمک آن زیرمجموعه‌ای از جامعه آماری تهیه می‌شود. این کار به منظور شناخت یا برآورد پارامترهای جامعه آماری صورت می‌گیرد. برای انجام نمونه‌گیری در R، از دستور sample استفاده می‌کنیم.<br>
برای مطالعه بیشتر به <a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/sample">این</a> لینک مراجعه کنید.
</div>

In [None]:
%%R
sample(
  x = dice_possible_observations,
  size = 3,
  replace = TRUE, 
  prob = dice_observation_chance_to_appear
)

# Above code, will return a single output as a dice observation.
# Checkout the result. Rerun it multiple times to get different results.

[1] 2 5 4


In [None]:
%%R
sample(
  x = coin_possible_observations,
  size = 3,
  replace = TRUE, 
  prob = coin_possible_observations
)

[1] 2 1 2


In [None]:
%%R

# Here's how to define a function which samples n dice rolls.
sample_of_n_dice <- function(n) {
  return (
    ###################################################################
    # Code Here                                                       #
    # This function should return n sample results of rolling a dice. #
    sample(
      x = dice_possible_observations,
      size = n,
      replace = TRUE, 
      prob = dice_observation_chance_to_appear
    )
    ###################################################################
  )
}

sample_of_n_dice(3)

[1] 2 2 5


In [None]:
%%R

sample_of_n_coin <- function(n) {
  return (
    ####################################################################
    # Code Here                                                        #
    # This function should return n sample results of flipping a coin. #
    sample(
      x = coin_possible_observations,
      size = n,
      replace = TRUE, 
      prob = coin_observation_chance_to_appear
    )
    ###################################################################
  )
}

sample_of_n_coin(3)

[1] 2 1 2


In [None]:
%%R
# The below function generates a pair of coin flip and dice roll.
flip_coin_roll_dice <- function(n) {
  return (
    ###############################################################
    # Code Here                                                   #
    # This function should return tuple of flipping n coins and   #
    # rolling n dices.                                            #
    c(
        sample_of_n_coin(n),
        sample_of_n_dice(n)
    )
    ###############################################################
  )
}
flip_coin_roll_dice(1)

[1] 1 4


<div dir='rtl'>
حال در دو بلوک بعدی فرآیند آزمایش را شبیه‌سازی می‌کنیم.
</div>

In [None]:
%%R
# Now we need to repeat the test and collect our observations.
rownames = seq(1,6)
colnames = seq(1,2)
# We need to record our observations, we can use a matrix for this.
# The matrix contains the number of observations for each possible outcome. 

# Each column represents a possible outcome of one coin flip. 1 means the coin
# shows the head side and 2 means it shows the tail side.
# Each row represents the output of one dice roll, which ranges from 1 to 6.

# For each observation, the respective element of the matrix must be incremented.
# For example, if the flip and roll sample resulted in (1,6) the matrix must be
# updated as follows:
# observations[1, 6] = observations[1, 6]+1 (increment the value stored in the 
# matrix)

observations <- matrix(
  0,            # the data elemetns
  nrow = 6,     # number of rows
  ncol = 2,     # number of columns
  byrow = TRUE, # fill matrix by rows 
  dimnames = list(rownames, colnames)
)

# Print the matrix
observations

  1 2
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0


Important note: Read more about matrices <a href="https://www.r-tutor.com/r-introduction/matrix">here</a>

In [None]:
%%R

# At the beginning of each experiment, we need to reset elements.
observations[, 1] = 0
observations[, 2] = 0

# This loop will repeat the body, 1000 times.
for(i in 1:1000) {
  #######################################################################
  # Code Here                                                           #
  # This loop should update the matrix based on the sampled output.     #
  obs = flip_coin_roll_dice(1)
  observations[obs[2], obs[1]] = observations[obs[2], obs[1]] + 1
  #######################################################################
  
  # In each loop iteration, we increment the observed element of the matrix;
  # The observed element is ofcourse the output generated using the 
  # `flip_coin_roll_dice` function call.
  # Pay attention to the indexing. `observations[x, y]` addresses the value of
  # row = x and column = y.
}

# See the observation. Change number of iterations and try again.
observations

   1  2
1 98 86
2 94 81
3 86 78
4 65 86
5 82 90
6 88 66


In [None]:
%%R
# Now we need to calculate the probability of observation [2,4,6] (even roll) 
# and [1] (head) based on `observations`:
result = (observations[2,1]+observations[4,1]+observations[6,1]) / sum(observations)
result

[1] 0.247


<div dir='rtl'>
حلقه‌ی اصلی آزمایش را با تعداد تکرار ۱۰۰ و ۱۰۰۰۰۰، برای هر کدام ۳ بار تکرار و مشاهدات خود را مکتوب کنید. این مشاهدات را تحلیل کنید.
در این تحلیل، علاوه بر آنچه صلاح می‌دانید، موارد زیر را نیز باید بررسی کنید:
<br>
<li>
با توجه به مقدار واقعی احتمال که در ابتدای این بخش، آن را به صورت تئوری 
محاسبه کردیم، میزان دقت این آزمایش را با تعداد نمونه ۱۰۰ در برابر تعداد نمونه ۱۰۰۰۰۰ مقایسه شود. دلیل این اختلاف اهمیت دارد.
</li>
<li>
نتایج سه بار تکرار، برای کدام حالت
(۱۰۰ بار تکرار یا ۱۰۰۰۰۰ بار تکرار)
به هم نزدیک‌تراند؟
</li>
پاسخ) ۱۰۰۰۰۰ بار تکرار به مقدار محاسبه شده در تئوری نزدیکتر است و دلیل آن این است که هرچه تعداد نمونه‌ها بیشتر شود، واریانس جامعه کوچکتر می‌شود.
</div>

<div dir='rtl'>
حلقه‌ی اصلی آزمایش را با تعداد تکرار ۱۰۰ و ۱۰۰۰۰۰، برای هر کدام ۳ بار تکرار و مشاهدات خود را مکتوب کنید. این مشاهدات را تحلیل کنید.
در این تحلیل، علاوه بر آنچه صلاح می‌دانید، موارد زیر را نیز باید بررسی کنید:
<br>
<li>
با توجه به مقدار واقعی احتمال که در ابتدای این بخش، آن را به صورت تئوری 
محاسبه کردیم، میزان دقت این آزمایش را با تعداد نمونه ۱۰۰ در برابر تعداد نمونه ۱۰۰۰۰۰ مقایسه شود. دلیل این اختلاف اهمیت دارد.
</li>
<li>
نتایج سه بار تکرار، برای کدام حالت
(۱۰۰ بار تکرار یا ۱۰۰۰۰۰ بار تکرار)
به هم نزدیک‌تراند؟
</li>
پاسخ) ۱۰۰۰۰۰ بار تکرار به مقدار محاسبه شده در تئوری نزدیکتر است و دلیل آن این است که هرچه تعداد نمونه‌ها بیشتر شود، واریانس جامعه کوچکتر می‌شود.
</div>

<div dir='rtl'>
<font color='yellow'  background-color: blue>
توجه) در کد‌های ارائه شده در این بخش، از حلقه for استفاده شده است. باید دقت کنید که به صورت کلی استفاده از حلقه مطلوب نبوده و باید از آن پرهیز شود. در این بخش با هدف آشنایی با زبان R این نکته نادیده گرفته شده است اما از بخش بعد، از استفاده‌‌ی از این حلقه تا جای ممکن پرهیز می‌شود.
دلیل این پرهیز آن است که محاسبات آماری و نظیر آن، امکان انجام شدن به صورت ماتریسی و موازی در زبان R (و پایتون) را دارند اما زمانی که از حلقه استفاده شود، این مزیت از دست می‌رود و درنتیجه زمان اجرای برنامه‌ها بسیار زیاد می‌شود. روش‌های جایگزینی که جلوتر با آن‌ها آشنا خواهید شد، استفاده از دیتا‌فریم‌ها و ماتریس‌ها و عملگر‌های مختص به آن‌هاست. استفاده از حلقه‌ها باید فقط زمانی صورت بگیرد که شبیه‌سازی مورد نظر واقعا به زمان وابسته باشد و محاسبات هر گام، به گام قبل نیاز داشته باشد. در بخش بعدی تمرین، اجازه استفاده از حلقه ندارید و باید از یک تابع برای محاسبات تکراری استفاده کنید.
</font>
</div>

<div dir='rtl'>
<h1>۲. مسئله روز تولد (Birthday Problem)</h1>
</div>

<div dir='rtl'>
همانطور که در درس مطرح شد، مسئله تولد این احتمال را می‌پرسد که در مجموعه‌ای از n نفر که به‌طور تصادفی انتخاب شده‌اند، حداقل دو نفر یک تولد مشترک داشته باشند. 

جالب اینجاست که بر خلاف تصور، احتمال تولد مشترک در یک گروه 23 نفره بیش از 50 درصد است!

در ادامه این احتمال را به کمک R محاسبه می‌​​​​​​​کنیم.

ابتدا این مسئله را به صورت تئوری به ازای k نفر حل کنید.(احتمال اینکه از بین k نفر، دو نفر تولد یکسان داشته باشند چقدر است؟) نیازی به نوشتن اثبات در اینجا نیست.

در سلول زیر محاسبات در زبان R انجام شده.
</div>



In [None]:
%%R

k <- 23
1-prod((365-k+1):365)/365^k

[1] 0.5072972


<div dir='rtl'>
همانطور که مشاهده می‌کنید به ازای ۲۳ نفر احتمال یکسان بودن تولد دو نفر بیش از ۵۰٪ است.

در زبان R برخی توابع کمکی برای مسائل معروف اینچنینی تعریف شده اند.
درباره دو تابع pbirthday و qbirthday تحقیق کنید و این دو تابع را توضیح دهید.

با استفاده از دو تابع بالا احتمال اینکه از بین ۲۳ نفر حداقل ۳ نفر روز تولدشان یکسان باشد را بیابید.
</div>



In [None]:
%%R

#############################################################################
#                                   Code Here                               #
pbirthday(23, coincident = 3)
# Calculate the probability of at least three peaple having the same        #
# birthday out of 23 people.                                               #
#############################################################################

NULL


<div dir='rtl'>
حال با کمک توابع بالا، تعداد افراد لازم برای اینکه احتمال یکسان بودن روز تولد حداقل ۴ نفر بیش از ۰.۸ باشد را بیابید.
</div>



In [None]:
%%R

#############################################################################
#                                   Code Here                               #
qbirthday(coincident = 4, prob = 0.8)
# Calculate the number of people required to have a 0.8 probability         #
# of four or more coincident birthdays.                                     #
#############################################################################

NULL


<div dir='rtl'>
برای درک بهتر این مسئله میتوان از نمونه برداری استفاده کرد.
با تابع sample در بخش قبل آشنا شدید.
قطعه کدی بنویسید که یک نمونه ۲۳تایی از روزهای تولد در ۳۶۵ روز سال تولید ‌می کند.

</div>



In [None]:
%%R
#############################################################################
#                                   Code Here                               #
sample(1:365,23,replace=TRUE)
#                      Generate a sample of 23 birthdays                    #
#############################################################################

NULL


<div dir='rtl'>
حال این آزمایش را ۱۰۰۰۰ بار تکرار کنید و احتمال اینکه حداقل ۲ نفر روز تولد مشترک داشته باشند را بدست آورید.

توجه داشته باشید که در این بخش امکان استفاده از حلقه for را ندارید!

راهنمایی: می‌توانید برای بدست آوردن تعداد اعداد یکسان در یک مجموعه از tabulate استفاده کنید.
</div>

In [None]:
%%R

#############################################################################
#                                   Code Here                               #
n <- 23
r <- replicate(10^4, max(tabulate(sample(1:365,n,replace=TRUE))))
sum(r>=2)/10^4
# Calculate the probability of at least to identical birthdays in a group   # 
# of 23 people using sampling for 10000 times.                              #
#############################################################################



[1] 0.5044
