Permalink
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
61 lines (47 sloc) 2.55 KB
  • 什么是贝叶斯定理?请简述其公式?现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?
P(A/B) = P(A)/P(B)

解法1:
set A为抽到红球,B为抽到A罐子
P(A) = 8/20
P(B) = 1/2
P(A/B) = 7/10
P(B/A) = P(B) * P(A/B) / P(B) = 7/8

解法2:
P(A罐子抽到红球) = 7/10
P(B罐子抽到红球) = 1/10
P(红球属于A罐子) = P(A罐子抽到红球)/(P(A罐子抽到红球)+P(B罐子抽到红球))= 7/8
  • 请简述卡方分布和卡方检验的定义?
卡方分布:独立同分布的变量服从正态分布,变量的平方和服从卡方分布
卡放检验:计算值与实际值直接的差异程度
a.变量之间的独立性
b.分布之间的相似度
  • 在概率统计学里,自由度是如何被定义的,又该怎样去应用?
独立的自变量个数为自由度,常常需要对数据进行处理(vif),相似度检验,删除非独立的变量,降低过拟合的程;也会通过交叉的方式构造新的变量,增加自由度,提高拟合能力(FFM,FM)。
  • 如何使用级数分解的方法求解e^x?
泰勒展开,尾项选择,佩诺亚??
  • 数据结构的定义是什么?运用数据结构的意义是什么?
数据之间存储交互的方式,合理的运用数据结构能够大大的提高计算速度,常见的是o(n2),o(nlogn),o(n)
  • 请说明至少两种用于数据可视化(data visualization)的package。并且说明,在数据分析报告里用数据可视化的意义是什么?
常见:ggplot2,zeppelin,matplotlib

意义:观察数据分布,熟悉数据格式,异常分布,数据之间的相似程度
  • 请简述面向对象编程和函数式编程分别的定义,并举出其案例
函数式编程:以函数为核心,定义好输入和输出,在需要的时候进行计算,更加方便代码量也会少很多,但是每次计算更加占资源,拖慢集群的速度

面向对象编程:考虑类为核心,更多的是注意的类与类之间的继承关系,以对象为中心,更安全,不知道类内部的实现逻辑,但是维护麻烦
  • 假如让你用编程方法,比如python,处理一个你没见过的数学问题,比如求解一个pde或者整快速傅里叶变换,你应该查什么东西,找哪一个package的参考资料?
scipy or numpy