# 1. feature_names()

In [3]:
from sklearn.datasets import load_iris

data = load_iris()
feature_names = data.feature_names
feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

在常用于机器学习任务的 scikit-learn 库中，您可能会feature_names在其某些数据集中找到属性。属性feature_names不是函数，而是提供数据集中特征（属性）名称的属性或变量。

# 2. bincount()

np.bincount() 是 NumPy 中一个非常有用的函数，它用于计算非负整数数组中每个值的频次。

具体来说，np.bincount() 接受一个一维的非负整数数组作为输入，然后返回一个数组，其中第 i 个元素表示整数 i 在输入数组中出现的次数。

In [1]:
import numpy as np

# 创建一个输入数组
arr = np.array([0, 1, 1, 3, 2, 1, 7, 7, 7])

# 使用 np.bincount() 计算频次
counts = np.bincount(arr)

print(counts)

[1 3 1 1 0 0 0 3]


输出将会是一个数组，其中第 i 个元素表示整数 i 在输入数组 arr 中出现的次数。

注意，np.bincount() 对于负数或浮点数是不起作用的，因为它是基于整数计数的。

# 3. np.argsort()

格式：np.argsort(a)
注意：返回的是元素值从小到大排序后的索引值的数组

In [5]:
import numpy as np
a = np.array([3,1,2,1,3,5])
print("a:", a)

b1 = np.argsort(a)                        # 对a按升序排列        
b2 = np.argsort(-a)                       # 对a按降序排列        
            	
print("b1:", b1)
print("b2:", b2)

a: [3 1 2 1 3 5]
b1: [1 3 2 0 4 5]
b2: [5 0 4 2 1 3]


# 4. numpy.random.RandomState()函数用法

可以通过numpy工具包生成模拟数据集，使用RandomState获得随机数生成器

from numpy.random import RandomState
 
rdm = RandomState(1)     
注意：这里1为随机数种子，只要随机数种子seed相同，产生的随机数系列就相同

使用numpy.random.RandomState(1).uniform(1,2,(3,4))函数生成一个3行4列的数组，其中每个元素都是在[1,2]区间内 均匀分布 的随机数；

In [6]:
from numpy.random import RandomState

rdm = RandomState(1)  # 定义一个随机数种子
a = rdm.uniform(1,2,(3,4))  # 产生一个3行4列的数组，其中每个元素都是在[1,2]区间内均匀分布的随机数
print(a)

[[1.417022   1.72032449 1.00011437 1.30233257]
 [1.14675589 1.09233859 1.18626021 1.34556073]
 [1.39676747 1.53881673 1.41919451 1.6852195 ]]


uniform() 方法将随机生成下一个实数，它在 [x, y] 范围内。

In [8]:
import random
 
print("uniform(5, 10) 的随机数为 : ", random.uniform(5, 10))
 
print ("uniform(7, 14) 的随机数为 : ",  random.uniform(7, 14))

uniform(5, 10) 的随机数为 :  9.23288936303289
uniform(7, 14) 的随机数为 :  11.995112790051781


# 5. Silhouette_score()

silhouette_score是用于评估聚类任务中聚类质量的指标。它衡量同一簇内的相似数据点与相邻簇中的数据点的比较情况。较高的轮廓分数表明聚类分离良好并且聚类适当，而较低的分数表明数据点可能被分配到错误的聚类或者聚类重叠。

silhouette_score函数通常采用以下参数：

X：这是您要聚类的数据。它是一个类似数组或特征矩阵，其中每行代表一个数据点，每列代表一个特征。

labels：类数组或聚类标签列表，指示数据集中每个数据点的聚类分配。标签的长度应与数据集中数据点的数量相同。

metric：该参数指定用于计算轮廓分数的距离度量。默认值为“euclidean”，它测量数据点之间的欧几里德距离。您还可以指定 scikit-learn 支持的其他距离度量，例如“manhattan”、“cosine”或自定义距离函数。

sample_size（可选）：如果提供，它指定大型数据集的随机样本的大小。通过使用随机样本，您可以加快轮廓分数的计算速度，同时仍然获得完整数据集分数的估计。

silhouette_score函数返回一个浮点值，它是所提供的聚类分配的轮廓分数。轮廓分数范围从-1到1：

接近 +1 的分数表示簇内的数据点与其他簇很好地分离，并且聚类是适当的。
接近 0 的分数表明聚类重叠，或者数据点非常接近两个相邻聚类之间的决策边界。
接近 -1 的分数表示数据点可能被分配到错误的聚类，并且聚类不合适。