<a href="https://colab.research.google.com/github/Dingcyber/Studymaterials/blob/main/Mathematics%20for%20ML/Probability%26Statistics_notes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 工具集（toolkit）

## Matplotlib

---

* `%matplotlib widget`: 魔法命令，用于在Jupyter Notebook|Lab中启用交互式matplotlib绘图
* `.set_title()`: 坐标轴对象`Axes`的方法，用于设置图表的标题

## Seaborn

---
* `import seaborn as sns`: 基于Matplotlib的Python的数据可视化库，专门用于创建统计图形


## IPyWidgets

---

* `import ipywidgets as widgets`：用于Jupyter Notebook的交互式HTML组件库，允许创建交互式用户界面，使数据分析和可视化更加动态和直观
* `interact_manual`: 函数，创建手动触发的交互界面
* `widgets.DatePicker()`: 交互式控件，提供了一个日历界面，用户可以通过它方便地选择年、月、日
  * `description(str)`: 显示在控件旁边的描述文本
  * `value(date)`: 控件的初始值，必须是`datetime.date`对象，默认是当前日期
  * `disabled(bool)`: 如果为True，则控件不可用，默认为False
  * `style(dict)`: 用于控制控件样式的字典，可以设置描述文字的宽度等。`{"description width":"initial"}`表示设置文本的宽度为初始值，避免被截断
  * `layout(dict)`: 用于设置控件布局的字典，可以控制宽度、高度等
* `widget.button()`: 创建一个按钮控件，用户可以点击它来触发绑定的事件处理函数
  * `description(str)`: 显示在按钮上的文本
  * `disabled(bool)`: 如果为True，则按钮不可用，默认为False
  * `tooltip(str)`: 当鼠标悬停在按钮上时显示的提示文本
  * `icon(str)`: 可选的图标名称，用于在按钮文本前显示图标
  * `layout`|`style`: 用于控制按钮的布局和样式
  * `.on_click(回调函数)`: `Button`控件的一个方法，用于注册一个回调函数（事件处理函数），当按钮被点击时，这个回调函数会被调用。回调函数定义时，必须接受一个参数b，参数`b`是触发事件的按钮实例本身(由系统自动传递)，通过`b`可以访问按钮的属性和方法
* `display()`: IPython显示系统的一部分，用于在Jupyter Notebook中显示各种媒体类型（如文本、图像、HTML、小部件等）的对象
* `.value`: `IPyWidgets`中各种控件的一个属性，用于获取或设置控件的当前值，在使用的时候直接访问它

## NumPy

---
* `np.random.randiant(low,high=None,size=None,dtype=int)`: 生成在指定范围内的随机整数
  * `low`: 生成随机整数的最小值（包含）
  * `high`: 生成随机整数的最大值（不包含）
  * `size`: 输出数组的形状,`size=None`时，表示不指定特定的形状，此时函数返回一个标量（单个随机整数）
  * `dtype`: 输出数组的数据类型

## Python

---
* `utils`: 自定义工具模块，通常包含项目中重复使用的实用函数和类
* `datetime`: Python中处理日期和时间的核心模块
  * `date(year,month,day)`: 处理日期（年|月|日）
  * `timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)`: 处理时间间隔。所有参数都是可选的，默认值为0
  * `.strftime("%m-%d")`: 用于将日期/时间对象（`datetime.date`）格式化为`月-日`字符串，如`01-15`(1月15日）。`%m`表示月份，`%d`表示日期，`%Y`表示四位月份，`%y`表示两位月份
* `->`: 用于函数/方法的类型注解，表示该函数返回值的类型
* `AttributeError`: 通常发生在对象没有某个属性或方法时
* `list.index(element,start,end)`: 列表的方法，用于在列表中查找某个元素第一次出现的索引位置
  * `element`: 要查找的元素
  * `start`: 开始查找的起始位置
  * `end`: 结束查找的结束位置


### 创建自定义工具模块utils1

---



In [None]:
import numpy as np
from datetime import timedelta,date
import matplotlib.pyplot as plt
import seaborn as sns
import ipywidgets as widgets
from ipywidgets import interact_manual

In [None]:
class your_bday:
  # 初始化方法
  def __init__(self) -> None: # `-> None`表示初始化方法不返回任何值
    # 创建包含左右两个子图的图形对象
    fig,(ax1,ax2) = plt.subplots(1, 2, figsize = (10,4)) # fig是整个图形对象，ax1和ax2分别是左右两个子图的坐标轴对象

    # 将图形和坐标轴对象保存为实例变量，供其他方法使用
    self.fig = fig
    self.ax = ax1
    self.ax_hist = ax2

    self.dates = [
        (date(2015,1,1)+ timedelta(days = n)).strftime("%m-%d") for n in range(365)
        ] # 从2015年1月1日开始，每天递增，生成365个连续的日期，将每个日期格式化为`月-日`字符串
    self.match = False # 标志变量，表示是否找到生日匹配
    self.bday_str = None # 存储用户选择的生日字符串，并初始化为None，表示bday对象的初始化bday_str属性为None
    self.bday_index = None # 存储用户生日在self.date列表中的索引位置
    self.n_students = 0 # 计数器，记录当前模拟中已添加的学生数量
    self.history = [] # 列表，记录每次模拟成功时所需的学生数量
    self.bday_picker = widgets.DatePicker(description = "Pick your bday", disabled = False, style = {"description_width":"initial"})
    self.start_button = widgets.Button(description = "Simulate!")

    display(self.bday_picker)
    display(self.start_button)

    self.start_button.on_click(self.on_button_clicked)

  # 按钮点击事件处理
  def on_button_clicked(self, b):
    # 重置状态
    self.match = False
    self.n_students = 0

    self.get_bday() # 获取用户输入的生日
    self.add_students() # 开始模拟过程，不断添加学生直到找到匹配

  # 获取生日
  def get_bday(self):
    try:
      self.bday_str = self.bday_picker.value.strftime("%m-%d")
    except AttributeError:
      self.ax.set_title(f"Input a valid date and try again!") # 更新图表标题，向用户显示错误信息
      return
    self.bday_index = self.dates.index(self.bday_str) # 在日期列表中查找生日字符串的索引位置

  # 生成随机生日
  def generate_bday(self):
    gen_bday = np.random.randint(0,365)
    if gen_bday == self.bday_index:
      self.match = True

  # 模拟添加学生
  def add_students(self):
    # 如果没有有效的生日选择，直接返回
    if not self.bday_str:
      return
    # 如果由有效的生日选择
    while True:
      if self.match:
        self.history.append(self.n_students)
        # print(f"Match found.It took {self.n_students} students to get a match")
        n_runs = [i for i in range(len(self.history))]
        self.ax.scatter(n_runs, self.history)
        # counts, bins = np.histogram(self.history)
        # plt.stairs(counts, bins)
        # self.ax_hist.hist(bins[:-1],bins,weights=counts)
        self.ax_hist.clear()
        sns.histplot(data=self.history,ax=self.ax_hist,bins=16)
        # plt.show()
        break

      self.generate_bday()
      self.n_students += 1
      self.ax.set_title(f"Match found.It took {self.n_students} students.\nNumber of runs: {len(self.history)+1}")
      # self.fig.canvas.draw()
      # self.fig.canvas.flush_events()

In [None]:
big_classroom_sizes = [*range(1,1000),5]
small_classroom_sizes = [*range(1,80)]

In [None]:
def plot_simulated_probs(sim_probs,class_size):
  fig,ax = plt.subplots(1,1,figsize = (10,4))
  # ax.scatter(class_size,sim_probs)
  sns.scatterplot(x=class_size,y=sim_probs,ax=ax,label="simulated probabilities")
  ax.set_ylabel("Simulated Probability")
  ax.set_xlabel("Classroom Size")
  ax.set_title("Probability vs Number of Students")
  ax.plot([0,max(class_size)],[0.5,0.5],color="red",label="p=0.5")
  ax.legend()
  plt.show

In [None]:
class third_bday_problem:
  def __init__(self) -> None:
    fig,axes = plt.subplot_mosaic(
        [["top row","top row"],["bottom left","bottom right"]],figsize=(10,8)
    )
    self.fig = fig
    self.ax = axes["top row"]
    self.count_ax = axes["bottom left"]
    self.ax_hist = axes["bottem right"]
    self.ax.spines["top"].set_color("none")
    self.ax.spines["right"].set_color("none")
    self.ax.spines["left"].set_color("none")
    self.ax.get_yaxis().set_visible(False)
    x = np.arrange(365)
    y = np.zeros((365,))
    y[y == 0] = np.nan

    self.x = x
    self.y = y
    self.y_match = y_match
    self.match = False
    self.n_students = 0

    self.dates = [
        (date(2015, 1, 1) + timedelta(days=n)).strftime("%m-%d") for n in range(365)
        ]
    self.month_names = [
        "January",
        "February",
        "March",
        "April",
        "May",
        "June",
        "July",
        "August",
        "September",
        "October",
        "November",
        "December",
        ]

    self.history = []
    self.match_index = None
    self.match_str = None

    self.cpoint = self.fig.canvas.mpl_connect("button_press_event", self.on_button_clicked)

    # self.start_button = widgets.Button(description="Simulate!")

    # display(self.start_button)

    # self.start_button.on_click(self.on_button_clicked)

  def generate_bday(self):
    gen_bday = np.random.randint(0, 365)

    if not np.isnan(self.y[gen_bday]):
      self.match_index = gen_bday
      self.match_str = self.dates[gen_bday]
      self.y_match[gen_bday] = 1
      self.match = True
      self.y[gen_bday] = 0.5

  def on_button_clicked(self, event):
    if event.inaxes in [self.ax]:
      self.new_run()
      self.add_students()

  def add_students(self):

    while True:
      if self.match:
        self.history.append(self.n_students)
        n_runs = [i for i in range(len(self.history))]
        self.count_ax.scatter(n_runs, self.history)
        self.count_ax.set_ylabel("# of students")
        self.count_ax.set_xlabel("# of simulations")

        month_str = self.month_names[int(self.match_str.split("-")[0]) - 1]
        day_value = self.match_str.split("-")[1]
        self.ax.set_title(
            f"Match found for {month_str} {day_value}\nIt took {self.n_students} students to get a match"
            )
        self.ax_hist.clear()
        sns.histplot(data=self.history, ax=self.ax_hist, bins="auto")
        break

        self.generate_bday()
        self.n_students += 1
        self.ax.set_title(f"Number of students: {self.n_students}")

        self.fig.canvas.draw()
        self.fig.canvas.flush_events()

        if not np.isnan(self.y_match).all():
          markerline, stemlines, baseline = self.ax.stem(
              self.x, self.y_match, markerfmt="*"
              )
          plt.setp(markerline, color="green")
          plt.setp(stemlines, "color", plt.getp(markerline, "color"))
          plt.setp(stemlines, "linestyle", "dotted")
        self.ax.stem(self.x, self.y, markerfmt="o")

  def new_run(self):
    y = np.zeros((365,))
    y[y == 0] = np.nan
    y_match = np.zeros((365,))
    y_match[y_match == 0] = np.nan
    self.y_match = y_match
    self.y = y
    self.n_students = 0
    self.match = False
    self.ax.clear()

# 经典概率问题

## 生日问题（Birthday problems）

---
* 生日问题：在一个群体中，找到与指定生日相同的人所需的期望人数


In [None]:
import numpy as np
import matplotlib.pyplot as plt
#import utils1
%matplotlib widget

In [None]:
#game = utils1.your_bday()