### img.getdata() 函数

定义：img.getdata() ⇒ sequence

含义：以包含像素值的sequence对象形式返回图像的内容。这个sequence对象是扁平的，以便第一行的值直接跟在第零行的值后面，等等。

注意：这个方法返回的sequence对象是PIL内部数据类型，它只支持某些sequence操作，包括迭代和基础sequence访问。使用list(img.getdata())，将它转换为普通的sequence。

[具体参考 : Python图像处理库PIL的Image模块介绍（三）][1]

[1]:https://blog.csdn.net/icamera0/article/details/50683106

In [31]:
import numpy as np
#图像处理库
from PIL import Image
# 或 import PIL.Image
img = Image.open(r'C:\Users\Zhiyuantao\Desktop\霸王别姬海报.jpg')
data = img.getdata()    # 以包含像素值的sequence对象形式返回图像的内容。
list(data)[0]

[(238, 238, 236),
 (241, 241, 239),
 (243, 243, 241),
 (243, 243, 243),
 (242, 242, 242),
 (241, 241, 241),
 (242, 242, 242),
 (244, 244, 244),
 (247, 247, 249),
 (247, 247, 247),
 (248, 248, 248),
 (248, 248, 248),
 (247, 247, 247),
 (247, 247, 247),
 (246, 246, 246),
 (245, 245, 243),
 (244, 245, 240),
 (243, 244, 238),
 (243, 244, 238),
 (243, 244, 236),
 (242, 243, 235),
 (240, 242, 231),
 (239, 241, 230),
 (239, 241, 228),
 (239, 239, 229),
 (238, 238, 228),
 (237, 237, 227),
 (238, 238, 228),
 (239, 239, 229),
 (239, 239, 229),
 (240, 240, 230),
 (241, 241, 233),
 (241, 241, 229),
 (239, 239, 229),
 (237, 237, 229),
 (237, 234, 227),
 (237, 234, 227),
 (237, 234, 225),
 (238, 234, 223),
 (238, 234, 222),
 (239, 237, 222),
 (239, 237, 222),
 (239, 237, 222),
 (239, 237, 222),
 (238, 236, 221),
 (237, 235, 220),
 (237, 235, 220),
 (237, 235, 220),
 (237, 235, 220),
 (237, 235, 220),
 (236, 234, 219),
 (237, 235, 220),
 (238, 236, 221),
 (239, 237, 222),
 (239, 237, 222),
 (239, 237

In [12]:
list(data)[0]

(238, 238, 236)

In [33]:
img = Image.open(r'C:\Users\Zhiyuantao\Desktop\霸王别姬海报.jpg')
# 将图像转换成灰度图
img = img.convert("L")
# 图像的大小在 size 中是（宽，高）
# 所以 width 取 size 的第一个值，height 取第二个
width = img.size[0]
height = img.size[1]
data = img.getdata()    # 以包含像素值的sequence对象形式返回图像的内容。
# 为了避免溢出，这里对数据进行一个缩放，缩小 100 倍
data = np.array(data).reshape(height,width)/100
data

array([[2.38, 2.41, 2.43, ..., 2.54, 2.54, 2.55],
       [2.49, 2.51, 2.54, ..., 2.53, 2.53, 2.53],
       [2.48, 2.5 , 2.52, ..., 2.53, 2.52, 2.52],
       ...,
       [2.24, 2.25, 2.24, ..., 2.48, 2.54, 2.54],
       [2.27, 2.27, 2.25, ..., 2.46, 2.53, 2.54],
       [2.29, 2.28, 2.27, ..., 2.46, 2.52, 2.53]])

### 查看numpy 数组维度，形状，大小

[具体参考：numpy 数组维度，形状，大小][1]

[1]:https://blog.csdn.net/code_fighter/article/details/80371535?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

In [36]:
import numpy as np

array = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

print(array)

print('number of dim:',array.ndim)    # 查看维度
print('shape:', array.shape)    # 查看形状
print('size:', array.size)    # 查看大小

[[1 2 3]
 [4 5 6]]
number of dim: 2
shape: (2, 3)
size: 6


### get_feature_names()
可看到所有文本的关键字

### zip() 函数
```zip()``` 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的对象，这样做的好处是节约了不少的内存。

可以使用```list()```转换成输出列表。如果各个迭代器的元素个数不一致，则返回列表长度与**最短的对象**相同。

```zip(*)``` 可理解为解压，返回二维矩阵式

[参考][1]

[1]:https://www.runoob.com/python/python-func-zip.html

In [47]:
a = [1,2,3]
b = [4,5,6]
c = [4,5,6,7,8]
zipped = zip(a,b)    # 打包为元组的列表
list(zipped)

[(1, 4), (2, 5), (3, 6)]

In [48]:
list(zip(a,c))              # 元素个数与最短的列表一致

[(1, 4), (2, 5), (3, 6)]

In [70]:
list(zip(a,b))

[(1, 4), (2, 5), (3, 6)]

In [72]:
list(map(, zip(a,b)))

[[1, 4], [2, 5], [3, 6]]

In [50]:
a1, a2 = zip(*zip(a,b))          # 与 zip 相反，zip(*) 可理解为解压，返回二维矩阵式
list(a1)
[1, 2, 3]
list(a2)
[4, 5, 6]

[4, 5, 6]

示例：机器学习模型训练中，经常需要打乱数据集，用 zip() 函数可以实现如下：

In [53]:
import random
X = [1, 2, 3, 4, 5, 6]
y = [0, 1, 0, 0, 1, 1]
zipped_data = list(zip(X, y))
# 将样本和标签一一对应组合起来,并转换成list类型方便后续打乱操作random.shuffle(zipped_data)
# 使用random模块中的shuffle函数打乱列表，原地操作，没有返回值
new_zipped_data = list(map(list, zip(*zipped_data)))
# zip(*)反向解压，map()逐项转换类型，list()做最后转换
new_X, new_y = new_zipped_data[0], new_zipped_data[1]
# 返回打乱后的新数据
print('X:',X,'\n','y:',y)
print('new_X:',new_X, '\n', 'new_y:',new_y)

[[1, 2, 3, 4, 5, 6], [0, 1, 0, 0, 1, 1]]
X: [1, 2, 3, 4, 5, 6] 
 y: [0, 1, 0, 0, 1, 1]
new_X: [1, 2, 3, 4, 5, 6] 
 new_y: [0, 1, 0, 0, 1, 1]


### map()函数
map() 会根据提供的函数对指定序列做映射。

第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的新列表。

[参考：][1]

[1]:https://www.runoob.com/python/python-func-map.html

In [77]:
def square(x) :            # 计算平方数
    return x ** 2

<map at 0x28ab6619248>

In [79]:
list(map(square, [1,2,3,4,5]))   # 计算列表各个元素的平方

[1, 4, 9, 16, 25]

In [82]:
list(map(lambda x: x ** 2, [1, 2, 3, 4, 5]))  # 使用 lambda 匿名函数

[1, 4, 9, 16, 25]

In [86]:
# 提供了两个列表，对相同位置的列表数据进行相加
list(map(lambda x, y: x + y, [1, 3, 5, 7, 9], [2, 4, 6, 8, 10]))

[3, 7, 11, 15, 19]

### div()函数

```div()```函数就是对数据进行**标准化**，也就是使得各行的和为 1

```div()```传入的**第一个参数**是需要进行标准化的基准列

[参考：Python——div函数的使用及理解][1]

[1]:https://www.cnblogs.com/huangchenggener/p/11003396.html

In [124]:
import pandas as pd
a = (
    [1,2,4,5],
    [2,4,6,7],
    [4,6,8,10]
)
b = pd.DataFrame(a, columns=list('abcd'))
b

Unnamed: 0,a,b,c,d
0,1,2,4,5
1,2,4,6,7
2,4,6,8,10


In [123]:
b.div(b['d'], axis=0)

Unnamed: 0,a,b,c,d
0,0.2,0.4,0.8,1.0
1,0.285714,0.571429,0.857143,1.0
2,0.4,0.6,0.8,1.0


### reset_index()函数——重置索引

数据清洗时，会将带空值的行删除，此时DataFrame或Series类型的数据不再是连续的索引，可以使用```reset_index()```重置索引。

```Python
df.reset_index()
```


**默认保留原理的index**

**不想保留原来的```index```**  可以使用参数```drop=True```，默认False。
```Python
df.reset_index(drop=True)
```

[参考：pandas中的reset_index()][1]

[1]:https://www.cnblogs.com/keye/p/11229863.html

In [127]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(20).reshape(5,4), index=[1,3,4,6,8], columns=['你','好','我','在'])
df

Unnamed: 0,你,好,我,在
1,0,1,2,3
3,4,5,6,7
4,8,9,10,11
6,12,13,14,15
8,16,17,18,19


In [130]:
df2 = df.reset_index()
df2

Unnamed: 0,index,你,好,我,在
0,1,0,1,2,3
1,3,4,5,6,7
2,4,8,9,10,11
3,6,12,13,14,15
4,8,16,17,18,19


In [132]:
df3 = df.reset_index(drop=True)
df

Unnamed: 0,你,好,我,在
1,0,1,2,3
3,4,5,6,7
4,8,9,10,11
6,12,13,14,15
8,16,17,18,19


### dot()函数

[参考：对NumPy中dot()函数的理解][1]

[参考：np.dot()][2]

[参考：对NumPy中dot()函数的理解][3]

[1]:https://www.cnblogs.com/luhuan/p/7925790.html#4092445
[2]:https://blog.csdn.net/weixin_43584807/article/details/103105709
[3]:https://blog.csdn.net/dielonglu3972/article/details/101980595?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

### HMM模型
[参考：一个隐马尔科夫模型的应用实例：中文分词][1]

[参考：HMM模型在中文分词中的应用][2]

[参考：基于HMM的中文分词][3]

[参考：HMM（隐马尔科夫）用于中文分词][4]

[参考：简明 jieba 中文分词教程][5]

[参考：基于python中jieba包的中文分词中详细使用（二）][3]

[1]:https://blog.csdn.net/ch1209498273/article/details/53864036?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase
[2]:https://blog.csdn.net/shenxiaoming77/article/details/51511335
[3]:https://blog.csdn.net/taoyanqi8932/article/details/75312822
[4]:https://www.jianshu.com/p/0eee07a5bf38
[5]:https://www.jianshu.com/p/883c2171cdb5
[6]:https://blog.csdn.net/meiqi0538/article/details/80218870

### Pandas——Crosstab 列联表分析

[参考：Pandas_聚合数据_crosstab()][1]

[参考：Pandas 基础(13) - Crosstab 交叉列表取值][2]

[1]:https://blog.csdn.net/mingkoukou/article/details/82996291

[2]:https://www.cnblogs.com/rachelross/p/10468589.html

### get_feature_names()

[参考：机器学习-特征工程和文本特征提取][1]

[参考：使用sklearn提取文本的tfidf特征][2]


[1]:https://blog.csdn.net/qq_14993591/article/details/84672021
[2]:https://www.jianshu.com/p/c7e2771eccaa

###  【Python数据分析基础】: 数据缺失值处理

[网站segmentfault][1]

[1]:https://segmentfault.com/a/1190000015801384