# F1 Score

In [1]:
'''实现F1 Score'''
def f1score( precision , recall ):
    try:
        return 2*precision*recall / (precision+recall)
    except:
        return 0

In [2]:
'''如果我们的 精准率和召回率相等的话，我们的F1 score的值就是他们的值'''
precision = 0.5
recall = 0.5
f1score(precision=precision,recall=recall)

0.5

In [3]:
'''如果两者不相等
   对于调和平均值来说，如果有一个值非常小的话，就会大大的拉低调和平均值的值
   但是对于普通的算数平均值的话，是没有这个趋势的
'''
precision = 0.1
recall = 0.9
f1score(precision,recall)

0.18000000000000002

In [4]:
'''如果准确率和召回率都非常极端的话'''
precision = 0;
recall = 1;
f1score(precision,recall)

0.0

# 在具体的数据中使用F1 Score

In [12]:
'''手写数字数据集'''
from sklearn import datasets

digits = datasets.load_digits()
X = digits.data
#如果直接修改y  其实会将digits。targets直接修改 指向的是同一个引用 因此需要 用到 copy
#我们处理极度偏斜的数据  手动产生偏斜的数据
y = digits.target.copy()

y[digits.target==9] = 1
y[digits.target!=9] = 0

In [13]:
'''切分数据集'''
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

In [15]:
'''使用逻辑回归'''
from sklearn.linear_model import LogisticRegression 
log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)
log_reg.score(X_test,y_test)

0.97555555555555551

In [23]:
'''使用预测值进行求出混淆矩阵'''
y_predict = log_reg.predict(X_test)

In [24]:
from sklearn.metrics  import confusion_matrix
confusion_matrix(y_test,y_predict)

array([[403,   2],
       [  9,  36]], dtype=int64)

In [25]:
'''精准率和召回率'''
from sklearn.metrics import precision_score
precision_score(y_test,y_predict)

0.94736842105263153

In [26]:
from sklearn.metrics import recall_score
recall_score(y_test,y_predict)

0.80000000000000004

In [None]:
'''使用我们自己的F1 Score 和 scikit learn'''

In [27]:
f1score(precision_score(y_test,y_predict),recall_score(y_test,y_predict))

0.86746987951807231

In [31]:
from sklearn.metrics import f1_score
f1_score(y_test,y_predict)

0.86746987951807231

In [None]:
'''总结：
        我们得到的F1 Score得到的结果没有我们使用准确率得到的结果高，因为我们的数据
        是一个有偏的，精准率和召回率都比精准率低，我们使用有偏的数据进行逻辑回归，
        明显我们的召回率是比我们的精准率是要低的，所以当我们求调和平均值的时候，最后
        的结果被拉低了
        但是我们可以通过看我们的调和平均值来反映我们的算法的水平
'''