In [1]:
import time

from sklearn.datasets import load_iris, fetch_20newsgroups, fetch_california_housing
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import numpy as np
import joblib
from sklearn.metrics import roc_auc_score

In [2]:
#鸢尾花数据集，查看特征，目标，样本量
# load_iris()加载经典数据集
li = load_iris()

print("获取特征值")
print(type(li.data))
print('-' * 50)
print(li.data.shape) # 150个样本，4个特征,一般看shape
li.data

获取特征值
<class 'numpy.ndarray'>
--------------------------------------------------
(150, 4)


array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [4]:
print("目标值")
print(li.target)
"""
    target
    这是一个包含每个样本的目标标签的数组。目标标签指示了每个样本属于哪个类别。对于 Iris 数据集，共有 3 个类别：Setosa, Versicolor, Virginica。它是一个大小为 (150,) 的数组，其中每个值都是 0, 1 或 2，表示三种鸢尾花的类别。
    """
print('-' * 50)
print(li.DESCR)

"""
        DESCR : describe
        这是一个字符串，包含数据集的详细描述，包括数据的特征、类别分布、来源等。它帮助你更好地理解数据集的背景。
"""
print('-' * 50)
print(li.feature_names)  # 重点,特征名字

"""
    feature_names
    这是一个列表，包含数据集中所有特征的名称，Iris 数据集有 4 个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。它是一个包含 4 个字符串的列表：['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']。
"""
print('-' * 50)
print(li.target_names) # 目标名字
"""
        target_names
        这是一个列表，包含目标标签对应的类别名称。对于 Iris 数据集，这个列表包含三个字符串，分别表示三种鸢尾花的类别：['setosa', 'versicolor', 'virginica']。
"""

目标值
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
--------------------------------------------------
.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
            - Iris-Setosa
            - Iris-Versicolour
            - Iris-Virginica

:Summary Statistics:

                Min  Max   Mean    SD   Class Correlation
sepal length:   4.3  7.9   5.84   0.83    0.7826
sepal width:    2.0  4.4   3.05   0.43   -0.4194
petal length:   1.0  

In [None]:
"""
    目标集x和特征集y

    特征数据 (X) 是用来训练模型的输入信息，模型通过这些特征来学习数据中的规律。
    目标数据 (y) 是模型学习的目标，模型通过学习输入数据与目标数据之间的关系来进行预测。
    当训练模型时，模型需要通过 X_train 来学习，同时对照 y_train 来优化模型的参数。测试集则用于在训练完成后评估模型的性能，检查模型对新数据的预测准确性，所以 x_test 和 y_test 作为测试数据和标签被单独划分出来。
    
    
"""

In [5]:
# 注意返回值, 训练集 train  x_train, y_train        测试集  test   x_test, y_test，顺序千万别搞错了
# 默认是乱序的,random_state为了确保两次的随机策略一致，就会得到相同的随机数据，往往会带上
x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25, random_state=1)

print("训练集特征值和目标值：", x_train, y_train)
print("训练集特征值shape", x_train.shape)
print('-'*50)
print("测试集特征值和目标值：", x_test, y_test)
print("测试集特征值shape", x_test.shape)

训练集特征值和目标值： [[6.5 2.8 4.6 1.5]
 [6.7 2.5 5.8 1.8]
 [6.8 3.  5.5 2.1]
 [5.1 3.5 1.4 0.3]
 [6.  2.2 5.  1.5]
 [6.3 2.9 5.6 1.8]
 [6.6 2.9 4.6 1.3]
 [7.7 2.6 6.9 2.3]
 [5.7 3.8 1.7 0.3]
 [5.  3.6 1.4 0.2]
 [4.8 3.  1.4 0.3]
 [5.2 2.7 3.9 1.4]
 [5.1 3.4 1.5 0.2]
 [5.5 3.5 1.3 0.2]
 [7.7 3.8 6.7 2.2]
 [6.9 3.1 5.4 2.1]
 [7.3 2.9 6.3 1.8]
 [6.4 2.8 5.6 2.2]
 [6.2 2.8 4.8 1.8]
 [6.  3.4 4.5 1.6]
 [7.7 2.8 6.7 2. ]
 [5.7 3.  4.2 1.2]
 [4.8 3.4 1.6 0.2]
 [5.7 2.5 5.  2. ]
 [6.3 2.7 4.9 1.8]
 [4.8 3.  1.4 0.1]
 [4.7 3.2 1.3 0.2]
 [6.5 3.  5.8 2.2]
 [4.6 3.4 1.4 0.3]
 [6.1 3.  4.9 1.8]
 [6.5 3.2 5.1 2. ]
 [6.7 3.1 4.4 1.4]
 [5.7 2.8 4.5 1.3]
 [6.7 3.3 5.7 2.5]
 [6.  3.  4.8 1.8]
 [5.1 3.8 1.6 0.2]
 [6.  2.2 4.  1. ]
 [6.4 2.9 4.3 1.3]
 [6.5 3.  5.5 1.8]
 [5.  2.3 3.3 1. ]
 [6.3 3.3 6.  2.5]
 [5.5 2.5 4.  1.3]
 [5.4 3.7 1.5 0.2]
 [4.9 3.1 1.5 0.2]
 [5.2 4.1 1.5 0.1]
 [6.7 3.3 5.7 2.1]
 [4.4 3.  1.3 0.2]
 [6.  2.7 5.1 1.6]
 [6.4 2.7 5.3 1.9]
 [5.9 3.  5.1 1.8]
 [5.2 3.5 1.5 0.2]
 [5.1 3.3 1.7 0.5]


In [3]:
# 下面是比较大的数据，需要下载一会，20类新闻
#subset代表下载的数据集类型，默认是train，只有训练集
news = fetch_20newsgroups(subset='all', data_home='../python_ml/data')
# print(news.feature_names)  #这个数据集是没有的，因为没有特征，只有文本数据
# print(news.DESCR)
print('第一个样本')
print(news.data[0])
print('特征类型')
print(type(news.data))
print('-' * 50)
print(news.target[0:15])
from pprint import pprint
pprint(list(news.target_names))

第一个样本
From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>
Subject: Pens fans reactions
Organization: Post Office, Carnegie Mellon, Pittsburgh, PA
Lines: 12
NNTP-Posting-Host: po4.andrew.cmu.edu



I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am  bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers' relief with a bit of praise for the Pens. Man, they
are killing those Devils worse than I thought. Jagr just showed you why
he is much better than his regular season stats. He is also a lot
fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final
regular season game.          PENS RULE!!!


特征类型
<class 'list'>
--------------------------------------------------
[10  3 17  3  4 12  

In [4]:
print('-' * 50)
print(len(news.data))
print('新闻所有的标签')
print(news.target)
print('-' * 50)
print(min(news.target), max(news.target))

--------------------------------------------------
18846
新闻所有的标签
[10  3 17 ...  3  1  7]
--------------------------------------------------
0 19


In [5]:
house=fetch_california_housing(data_home='../python_ml/data')
print("获取特征值")
print(house.data[0])  #第一个样本特征值
print('样本的形状')
print(house.data.shape)
print('-' * 50)


获取特征值
[   8.3252       41.            6.98412698    1.02380952  322.
    2.55555556   37.88       -122.23      ]
样本的形状
(20640, 8)
--------------------------------------------------


# 分类算法 1.KNN算法

In [None]:
"""
    knn = KneighborsClassifier(n_neighbors=5)     n_neibors = 5 就是我们说的k，调整k的方法（交叉验证 cv）
    
    knn算法的fit训练集并不进行显示训练，只是将数据存入内存，
    当输入测试集时，将其与训练集中的每个样本求欧式距离，然后返回最相近的k个样本
    所以knn的重点是对数据的预处理与特征工程
"""

In [7]:
# 读取数据
data = pd.read_csv("../python_ml/data/FBlocation/train.csv")


'''
    简单看一下这个df,  row_id没有用不要
                     x 和y 为经纬度、以及准确度,可以直接使用
                     时间简单处理一下（把秒变成月日时，因为单纯的秒不带有任何特征，转化后便具有了周期性的新特征，提高了预测的准确性，虽然可能提高了开销，但是这样换来准确性的提升是值得的）
                     
                     ***位置信息作为目标值，在喂给数据时也要丢弃，单独出来
                    
    比如对于这个预测打卡点的例子，先处理好数据集，喂给knn然后输入测试集，通过与训练集的每个样本求距离，找到最近的k个结果，然后在这k个结果中找到出现次数最多的目标值，作为结果返回
'''
print(data.head(10))
print(data.shape)
print(data.info())
# 处理数据
# 1、缩小数据,查询数据,为了减少计算时间

# dataframe的查询方法
data = data.query("x > 1.0 &  x < 1.25 & y > 2.5 & y < 2.75")

   row_id       x       y  accuracy    time    place_id
0       0  0.7941  9.0809        54  470702  8523065625
1       1  5.9567  4.7968        13  186555  1757726713
2       2  8.3078  7.0407        74  322648  1137537235
3       3  7.3665  2.5165        65  704587  6567393236
4       4  4.0961  1.1307        31  472130  7440663949
5       5  3.8099  1.9586        75  178065  6289802927
6       6  6.3336  4.3720        13  666829  9931249544
7       7  5.7409  6.7697        85  369002  5662813655
8       8  4.3114  6.9410         3  166384  8471780938
9       9  6.3414  0.0758        65  400060  1253803156
(29118021, 6)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29118021 entries, 0 to 29118020
Data columns (total 6 columns):
 #   Column    Dtype  
---  ------    -----  
 0   row_id    int64  
 1   x         float64
 2   y         float64
 3   accuracy  int64  
 4   time      int64  
 5   place_id  int64  
dtypes: float64(2), int64(4)
memory usage: 1.3 GB
None


首先过一遍数据看看有没有nan之类的异常值

In [8]:
data.describe() 

Unnamed: 0,row_id,x,y,accuracy,time,place_id
count,17710.0,17710.0,17710.0,17710.0,17710.0,17710.0
mean,14505690.0,1.122538,2.632309,82.482101,397551.263128,5129895000.0
std,8353805.0,0.077086,0.070144,113.613227,234601.097883,2357399000.0
min,600.0,1.0001,2.5001,1.0,119.0,1012024000.0
25%,7327816.0,1.0492,2.5738,25.0,174069.75,3312464000.0
50%,14430710.0,1.1233,2.6423,62.0,403387.5,5261906000.0
75%,21634630.0,1.1905,2.6878,75.0,602111.75,6766325000.0
max,29112150.0,1.2499,2.7499,1004.0,786218.0,9980711000.0


In [10]:
# 处理时间的数据
time_value = pd.to_datetime(data['time'], unit='s')

print(time_value.head(10))  #最大时间是1月10号

# 把日期格式转换成 字典格式，把年，月，日，时，分，秒转换为字典格式，
time_value = pd.DatetimeIndex(time_value)
#
print('-' * 50)
print(time_value[0:10])

600    1970-01-01 18:09:40
957    1970-01-10 02:11:10
4345   1970-01-05 15:08:02
4735   1970-01-06 23:03:03
5580   1970-01-09 11:26:50
6090   1970-01-02 16:25:07
6234   1970-01-04 15:52:57
6350   1970-01-01 10:13:36
7468   1970-01-09 15:26:06
8478   1970-01-08 23:52:02
Name: time, dtype: datetime64[ns]
--------------------------------------------------
DatetimeIndex(['1970-01-01 18:09:40', '1970-01-10 02:11:10',
               '1970-01-05 15:08:02', '1970-01-06 23:03:03',
               '1970-01-09 11:26:50', '1970-01-02 16:25:07',
               '1970-01-04 15:52:57', '1970-01-01 10:13:36',
               '1970-01-09 15:26:06', '1970-01-08 23:52:02'],
              dtype='datetime64[ns]', name='time', freq=None)


In [11]:
print('-' * 50)
# 构造一些特征，执行的警告是因为我们的操作是复制，loc是直接放入
print(type(data))
# data['day'] = time_value.day
# data['hour'] = time_value.hour
# data['weekday'] = time_value.weekday
#日期，是否是周末，小时对于个人行为的影响是较大的(例如吃饭时间去饭店，看电影时间去电影院等),所以才做下面的处理
data.insert(data.shape[1], 'day', time_value.day) #data.shape[1]是代表插入到最后的意思,一个月的哪一天
data.insert(data.shape[1], 'hour', time_value.hour)#是否去一个地方打卡，早上，中午，晚上是有影响的
data.insert(data.shape[1], 'weekday', time_value.weekday) #0代表周一，6代表周日，星期几

#
# 把时间戳特征删除
data = data.drop(['time'], axis=1)
print('-' * 50)
data.head()

--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
--------------------------------------------------


Unnamed: 0,row_id,x,y,accuracy,place_id,day,hour,weekday
600,600,1.2214,2.7023,17,6683426742,1,18,3
957,957,1.1832,2.6891,58,6683426742,10,2,5
4345,4345,1.1935,2.655,11,6889790653,5,15,0
4735,4735,1.1452,2.6074,49,6822359752,6,23,1
5580,5580,1.0089,2.7287,19,1527921905,9,11,4


In [18]:
#星期天，实际weekday的值是6
per = pd.Period('1970-01-01 18:00', 'h')
per.weekday

3

In [21]:
# # 把签到数量少于n个目标位置删除，place_id是标签，即目标值
place_count = data.groupby('place_id').count()
print(place_count['x'].describe()) #打卡地点总计805个，50%打卡小于2次

count     805.000000
mean       22.000000
std        88.955632
min         1.000000
25%         1.000000
50%         2.000000
75%         5.000000
max      1044.000000
Name: x, dtype: float64


In [22]:
# # 把index变为0,1,2，3,4,5,6这种效果，从零开始排，原来的index是row_id
#只选择去的人大于3的数据，认为1,2,3的是噪音，这个地方去的人很少，不用推荐给其他人
tf = place_count[place_count.row_id > 3].reset_index()
tf  #剩余的签到地点

Unnamed: 0,place_id,row_id,x,y,accuracy,day,hour,weekday
0,1097200869,1044,1044,1044,1044,1044,1044,1044
1,1228935308,120,120,120,120,120,120,120
2,1267801529,58,58,58,58,58,58,58
3,1278040507,15,15,15,15,15,15,15
4,1285051622,21,21,21,21,21,21,21
...,...,...,...,...,...,...,...,...
234,9741307878,5,5,5,5,5,5,5
235,9753855529,21,21,21,21,21,21,21
236,9806043737,6,6,6,6,6,6,6
237,9809476069,23,23,23,23,23,23,23


In [23]:
# 根据设定的地点目标值，对原本的样本进行过滤
#isin可以过滤某一列要在一组值
data = data[data['place_id'].isin(tf.place_id)]
data.shape

(16918, 8)

In [27]:
# # 取出数据当中的特征值和目标值
y = data['place_id']
# 删除目标值，保留特征值，
x = data.drop(['place_id'], axis=1)
# 删除无用的特征值，row_id是索引,这就是噪音
x = x.drop(['row_id'], axis=1)
print(x.shape)
print(x.columns)
print(x.head(10))

(16918, 6)
Index(['x', 'y', 'accuracy', 'day', 'hour', 'weekday'], dtype='object')
            x       y  accuracy  day  hour  weekday
600    1.2214  2.7023        17    1    18        3
957    1.1832  2.6891        58   10     2        5
4345   1.1935  2.6550        11    5    15        0
4735   1.1452  2.6074        49    6    23        1
5580   1.0089  2.7287        19    9    11        4
6090   1.1140  2.6262        11    2    16        4
6234   1.1449  2.5003        34    4    15        6
8478   1.2015  2.5187        72    8    23        3
9357   1.1916  2.7323       170    4    16        6
12125  1.1388  2.5029        69    7     3        2


### 开始knn

标准化一下数据

In [29]:
# 进行数据的分割训练集合测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=1)

# 特征工程（标准化）,下面3行注释，一开始我们不进行标准化，看下效果，目标值要不要标准化？
std = StandardScaler()
# #
# # # 对测试集和训练集的特征值进行标准化,服务于knn fit
x_train = std.fit_transform(x_train)
# # transform返回的是copy，不在原有的输入对象中去修改
# print(id(x_test))
print(std.mean_)
print(std.var_)
x_test = std.transform(x_test)  #transfrom不再进行均值和方差的计算，是在原有的基础上去标准化

[ 1.12295735  2.63237278 81.34938525  5.10064628 11.44293821  3.10135561]
[5.98489138e-03 4.86857391e-03 1.19597480e+04 7.32837915e+00
 4.83742660e+01 2.81838404e+00]


In [38]:
#n_neighbors 就是 我们说的k 

knn = KNeighborsClassifier(n_neighbors=6)

knn.fit(x_train,y_train)

y_pred = knn.predict(x_test)
print("预测的目标签到位置为：", y_pred[0:10])


print('预测原训练集的准确率:',knn.score(x_train,y_train))
print("预测的准确率:", knn.score(x_test, y_test))


预测的目标签到位置为： [5689129232 1097200869 2355236719 9632980559 6424972551 4022692381
 8048985799 6683426742 1435128522 3312463746]
预测原训练集的准确率: 0.5997005044136192
预测的准确率: 0.484160756501182


### 1.1 调整这个超参的方法 
### 网格搜索交叉验证 GridSearchCV

In [None]:
"""
    通过gscv自动检验最佳的超参，输入你想检验的所有可能性给它让他来自己算
    weight 有两种参数 uniform（所有邻居权重相同）和distance（邻居的权重与距离成反比）
    枚举所有可能求出最优解  gc.best_score_  and gc.best_estimator_
"""

In [39]:
# # 构造一些参数（超参）的值进行搜索     
param = {"n_neighbors": [3, 5, 10, 12, 15],'weights':['uniform', 'distance']}
#
# 进行网格搜索，cv=3是3折交叉验证，用其中2折训练，1折验证
gc = GridSearchCV(knn, param_grid=param, cv=3)

gc.fit(x_train, y_train)  #你给它的x_train，它又分为训练集，验证集

# 预测准确率，为了给大家看看
print("在测试集上准确率：", gc.score(x_test, y_test))

print("在交叉验证当中最好的结果：", gc.best_score_) #最好的结果

print("选择最好的模型是：", gc.best_estimator_) #最好的模型,告诉你用了哪些参数

print("每个超参数每次交叉验证的结果：")
gc.cv_results_



在测试集上准确率： 0.49763593380614657
在交叉验证当中最好的结果： 0.4816362349278435
选择最好的模型是： KNeighborsClassifier(n_neighbors=12, weights='distance')
每个超参数每次交叉验证的结果：


{'mean_fit_time': array([0.0038716 , 0.00306702, 0.00305319, 0.00292571, 0.00305303,
        0.00294463, 0.0029966 , 0.0031577 , 0.00302156, 0.00290219]),
 'std_fit_time': array([1.25926841e-03, 1.73111920e-04, 1.17376221e-04, 2.88255413e-05,
        1.22289494e-04, 8.82883739e-05, 7.54860816e-05, 1.40377643e-04,
        9.74713808e-05, 1.90200986e-05]),
 'mean_score_time': array([0.06663672, 0.03742297, 0.07140319, 0.04346124, 0.08244101,
        0.06117233, 0.08359575, 0.06707342, 0.08946737, 0.07005239]),
 'std_score_time': array([0.00247855, 0.00180421, 0.00189683, 0.00287221, 0.0024679 ,
        0.00384223, 0.00036733, 0.00276914, 0.00099301, 0.00137739]),
 'param_n_neighbors': masked_array(data=[3, 3, 5, 5, 10, 10, 12, 12, 15, 15],
              mask=[False, False, False, False, False, False, False, False,
                    False, False],
        fill_value=999999),
 'param_weights': masked_array(data=['uniform', 'distance', 'uniform', 'distance',
                    'uniform',

# 分类算法 2.朴素贝叶斯算法 MultinomialNB(alpha=1.0)

In [None]:
"""
    mlt = MultinomialNB(alpha=1.0)
    # 进行朴素贝叶斯算法的预测,alpha是拉普拉斯平滑系数，分子和分母加上一个系数，分母加alpha*特征词数目
    
    贝叶斯定理：描述了在已知某些观察信息的情况下，某事件发生的条件概率。具体来说，贝叶斯定理公式如下：
    
                 P(X|C) P(C)
    P(C|X) =    ------------
                    P(X)
                    
    P(C|X):给定特征X的情况下，发生C的概率，也就是C的后验概率
    P(X|C)：给定类别C中，X所占的概率 ，即X出现的似然概率
    P(C)  : 类别C的先验概率，即在没有任何数据时，我们对类别的预期概率
    P(X   : 特征X出现的总概率       
    

    拉普拉斯平滑用于处理0概率
"""

In [43]:
news = fetch_20newsgroups(subset='all', data_home='../python_ml/data')

print(len(news.data))  #样本数，包含的特征
print('-'*50)
print(news.data[0]) #第一个样本 特征
print('-'*50)
print(news.target) #标签
print(np.unique(news.target)) #标签的类别
print(news.target_names) #标签的名字

18846
--------------------------------------------------
From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>
Subject: Pens fans reactions
Organization: Post Office, Carnegie Mellon, Pittsburgh, PA
Lines: 12
NNTP-Posting-Host: po4.andrew.cmu.edu



I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am  bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers' relief with a bit of praise for the Pens. Man, they
are killing those Devils worse than I thought. Jagr just showed you why
he is much better than his regular season stats. He is also a lot
fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final
regular season game.          PENS RULE!!!


----------------------------------------

list

一看发现已经是文本列表了，可以直接分词完就可以拿来用了，

In [45]:
news.data[0:5]

["From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>\nSubject: Pens fans reactions\nOrganization: Post Office, Carnegie Mellon, Pittsburgh, PA\nLines: 12\nNNTP-Posting-Host: po4.andrew.cmu.edu\n\n\n\nI am sure some bashers of Pens fans are pretty confused about the lack\nof any kind of posts about the recent Pens massacre of the Devils. Actually,\nI am  bit puzzled too and a bit relieved. However, I am going to put an end\nto non-PIttsburghers' relief with a bit of praise for the Pens. Man, they\nare killing those Devils worse than I thought. Jagr just showed you why\nhe is much better than his regular season stats. He is also a lot\nfo fun to watch in the playoffs. Bowman should let JAgr have a lot of\nfun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final\nregular season game.          PENS RULE!!!\n\n",
 'From: mblawson@midway.ecn.uoknor.edu (Matthew B Lawson)\nSubject: Which h

In [49]:
print('-'*50)
"""
特征数据（x_train 和 x_test） 需要转换为数值表示（例如通过 TfidfVectorizer）。
标签数据（y_train 和 y_test） 不需要转换，因为它们只是类别标签，模型直接使用它们进行训练和评估。
"""
x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=1)

# 对数据集进行特征抽取
tf = TfidfVectorizer()

# 以训练集当中的词的列表进行每篇文章重要性统计['a','b','c','d']
x_train = tf.fit_transform(x_train)
#针对特征内容，可以自行打印，下面的打印可以得到特征数目，总计有15万特征
print(len(tf.get_feature_names_out()))
x_train

--------------------------------------------------
153196


<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 2232179 stored elements and shape (14134, 153196)>

In [54]:
y_train

array([16,  3, 12, ...,  7, 13,  5], shape=(14134,), dtype=int32)

### 开始贝叶斯

In [47]:
import time
# 进行朴素贝叶斯算法的预测,alpha是拉普拉斯平滑系数，分子和分母加上一个系数，分母加alpha*特征词数目
mlt = MultinomialNB(alpha=1.0)

# print(x_train.toarray())
# 训练
start=time.time()
mlt.fit(x_train, y_train)
end=time.time()
end-start #统计训练时间

0.07257390022277832

In [48]:
x_transform_test = tf.transform(x_test)  #特征数目不发生改变
print(len(tf.get_feature_names_out())) #查看特征数目

153196


In [56]:
start=time.time()
y_predict = mlt.predict(x_transform_test)

print("预测的前面10篇文章类别为：", y_predict[0:10])

# 得出准确率,这个是很难提高准确率，为什么呢？
print("准确率为：", mlt.score(x_transform_test, y_test))
end=time.time()
end-start

预测的前面10篇文章类别为： [16 19 18  1  9 15  1  2 16 13]
准确率为： 0.8518675721561969


0.055734872817993164

In [57]:
"""
    对于TP和FN 真的积极和 假的消极 所以真实标签是1 ，Pos表示预测结果为1，Neg表示预测结果为0
    反之亦然
    
              True Positives (TP) : 真实标签是1 预测结果是1 
              False Negtives （FN）: 真实标签是1 预测结果是0
              True Negtives  (TN) : 真实标签为0 预测结果为0
              False Positive (FP) : 真实标签是0 预测结果是1 
              
              
    输出解释:  precision : 精确度，表示被模型预测为某一类别的样本中，真实是该类别的比例
                            precision = true postives / (true positives + false positives)
              recall    : 召回率，表示所有真实属于某一类别的样本中，有多少被模型正确预测为该类别。     
                            recall = true postives / (true positives + false negatives)
              f1-score  : F1分数，精确度和召回率的调和平均数
                            f1-score = 2 * precision * recall / (precision + recall)
              support   : 每个类别的实际样本数量（y_test 中该类别的样本数）。
              
            （搭配下面的输出应该好懂一点）
"""                         


# 目前这个场景我们不需要召回率，support是真实的为那个类别的有多少个样本
print(classification_report(y_test, y_predict,
      target_names=news.target_names))


                          precision    recall  f1-score   support

             alt.atheism       0.91      0.77      0.83       199
           comp.graphics       0.83      0.79      0.81       242
 comp.os.ms-windows.misc       0.89      0.83      0.86       263
comp.sys.ibm.pc.hardware       0.80      0.83      0.81       262
   comp.sys.mac.hardware       0.90      0.88      0.89       234
          comp.windows.x       0.92      0.85      0.88       230
            misc.forsale       0.96      0.67      0.79       257
               rec.autos       0.90      0.87      0.88       265
         rec.motorcycles       0.90      0.95      0.92       251
      rec.sport.baseball       0.89      0.96      0.93       226
        rec.sport.hockey       0.95      0.98      0.96       262
               sci.crypt       0.76      0.97      0.85       257
         sci.electronics       0.84      0.80      0.82       229
                 sci.med       0.97      0.86      0.91       249
         

AUC 通常是通过绘制 ROC 曲线（Receiver Operating Characteristic Curve）并计算曲线下面积来得出的。它反映了模型对不同阈值下分类的区分能力。

In [None]:
"""
      ROC曲线： 
      
      FPR (False Positive Rate)：假正例率，表示实际为负类的样本中，错误预测为正类的比例
            公式：FPR = FP / ( FP + TN )
      TPR (True Positive Rate)：真正例率，也叫 召回率 (Recall)，表示实际为正类的样本中，正确预测为正类的比例。   
            公式为：TPR = TP / ( TP + FN)
      
      ROC 曲线的横坐标是 FPR，纵坐标是 TPR。理想的 ROC 曲线应该尽量靠近左上角，意味着在较低的 FPR 下有较高的 TPR。
      
      AUC 指的是 ROC 曲线下方的面积，数值范围从 0 到 1。具体含义如下：

      AUC = 1：模型完美地将正类和负类完全区分开来。ROC 曲线会经过左上角（TPR = 1，FPR = 0）。
      AUC = 0.5：模型的分类性能和随机猜测差不多。ROC 曲线是一条从左下角到右上角的对角线。
      AUC < 0.5：模型的性能差于随机猜测，预测结果完全错误（即可以把预测标签颠倒过来得到更好的结果）。
"""

In [59]:
# 把0-19总计20个分类，变为0和1
# 5是可以改为0到19的
y_test1 = np.where(y_test == 5, 1, 0)
print(y_test1.sum()) #label为5的样本数
y_predict1 = np.where(y_predict == 5, 1, 0)
print(y_predict1.sum())
# roc_auc_score的y_test只能是二分类,针对多分类如何计算AUC
print("AUC指标：", roc_auc_score(y_test1, y_predict1))

230
214
AUC指标： 0.924078924393225


## 挖个坑先

In [None]:
#算多分类的精确率，召回率，F1-score
FP=np.where((np.array(y_test1)-np.array(y_predict1))==-1,1,0).sum()   #FP是18
TP=y_predict1.sum()-FP #TP是196
print(TP)
FN=np.where((np.array(y_test1)-np.array(y_predict1))==1,1,0).sum() #FN是34
print(FN)#FN是1
TN=np.where(y_test1==0,1,0).sum()-FP  #4464
print(TN)

# 3. 决策树 DecisionTreeClassifier()

决策树的一些概念

In [None]:
"""
    gini和entropy是决策树中的准则，
    而ID3、C4.5、CART是决策树算法
    
    ID3:使用entropy来选择划分特征
    
    C4.5（改进版ID3）:基于 Entropy 和 信息增益比（Gain Ratio）来选择划分特征。
                    C4.5 允许生成多分支（多叉树），而不是二叉树。
                    
    CART:       使用 Gini Index（基尼指数）来选择划分特征。
                CART 生成的是 二叉树，每个节点只有两个子节点，适用于分类问题和回归问题。
                
"""

In [None]:
""" 
    DecisionTreeClassifier(max_depth = 5,criterion = entropy)
    
    max_depth：
    max_depth 是一个超参数，用来控制决策树的 最大深度，即树的最大层数。
    默认情况下，max_depth=None，意味着树会生长直到每个叶节点都包含少于 min_samples_split 个样本，或者所有的样本都被正确分类为止。
    通过限制 max_depth，可以防止树过于复杂，从而减少 过拟合。
    
    criterion：
    criterion 是用来评估树分割质量的准则，DecisionTreeClassifier 默认使用的是 gini （基尼不纯度）。 
    你可以将 criterion 设置为 entropy，使用信息增益来选择划分特征。
    

"""

In [5]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import numpy as np

In [6]:
np.log2(1/32)

np.float64(-5.0)

### 越是均衡的返回值越大（当然是取负之后），代表着要用更多的bit来表示，自然结果就越不准

In [62]:
1 / 2 * np.log2(1 /2) + 1 / 2 * np.log2(1 /2)

np.float64(-1.0)

In [63]:
1 / 3 * np.log2(1 / 3) + 2 / 3 * np.log2(2 / 3)

np.float64(-0.9182958340544896)

一般数据的分析过程吧 （#通过columns查看dataframe的列名，从中挑选特征值和目标值）

In [7]:
titan = pd.read_csv("../python_ml/data/titanic.txt")
print(titan.info())
titan.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   row.names  1313 non-null   int64  
 1   pclass     1313 non-null   object 
 2   survived   1313 non-null   int64  
 3   name       1313 non-null   object 
 4   age        633 non-null    float64
 5   embarked   821 non-null    object 
 6   home.dest  754 non-null    object 
 7   room       77 non-null     object 
 8   ticket     69 non-null     object 
 9   boat       347 non-null    object 
 10  sex        1313 non-null   object 
dtypes: float64(1), int64(2), object(8)
memory usage: 113.0+ KB
None


Index(['row.names', 'pclass', 'survived', 'name', 'age', 'embarked',
       'home.dest', 'room', 'ticket', 'boat', 'sex'],
      dtype='object')

In [8]:
# 处理数据，找出特征值和目标值
x = titan[['pclass', 'age', 'sex']]

y = titan['survived']
print(x.info())  # 用来判断是否有空值
x.describe(include='all')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   pclass  1313 non-null   object 
 1   age     633 non-null    float64
 2   sex     1313 non-null   object 
dtypes: float64(1), object(2)
memory usage: 30.9+ KB
None


Unnamed: 0,pclass,age,sex
count,1313,633.0,1313
unique,3,,2
top,3rd,,male
freq,711,,850
mean,,31.194181,
std,,14.747525,
min,,0.1667,
25%,,21.0,
50%,,30.0,
75%,,41.0,


In [67]:
x.loc[:,'age'].max()

np.float64(71.0)

In [9]:
# 一定要进行缺失值处理,填为均值
mean=x['age'].mean()
x.loc[:,'age']=x.loc[:,'age'].fillna(mean)
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   pclass  1313 non-null   object 
 1   age     1313 non-null   float64
 2   sex     1313 non-null   object 
dtypes: float64(1), object(2)
memory usage: 30.9+ KB


In [11]:
#这里直接把数据分割，而不是特征化以后分割就是因为到时候给的测试集也是这样的，你总不能给一个特征集给他测试吧

# 分割数据集到训练集合测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=4)
print(x_train.head())

    pclass        age     sex
598    2nd  30.000000    male
246    1st  62.000000    male
905    3rd  31.194181  female
300    1st  31.194181  female
509    2nd  64.000000    male


In [12]:
#女性中存活的情况对比

# 这里原来的数据集中本身就有这样的数据，为什么要先split又整合呢，这里就是考虑到原始数据可能存在空或者异常情况，先进行各种处理完了以后再整合，这样更适用于一般情况。

z=x_train.copy() #z是为了把特征和目标存储到一起
z['survived'] = y_train #把目标值存储到z中
z[z['sex'] == 'female']['survived'].value_counts() #男性中存活的情况

survived
1    230
0    111
Name: count, dtype: int64

In [13]:
x_train.to_dict(orient="records") #把df变为字典，样本变为一个一个的字典，字典中列名变为键

[{'pclass': '2nd', 'age': 30.0, 'sex': 'male'},
 {'pclass': '1st', 'age': 62.0, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '1st', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '2nd', 'age': 64.0, 'sex': 'male'},
 {'pclass': '1st', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '3rd', 'age': 24.0, 'sex': 'female'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '2nd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '3rd', 'age': 21.0, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '2nd', 'age': 23.0, 'sex': 'female'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '1st', 'age': 4

In [14]:
# 进行处理（特征工程）特征-》类别-》one_hot编码
dict = DictVectorizer(sparse=False)

# 这一步是对字典进行特征抽取,to_dict可以把df变为字典，records代表列名变为键
x_train = dict.fit_transform(x_train.to_dict(orient="records"))
print(type(x_train))
print(dict.get_feature_names_out())
print('-' * 50)
x_test = dict.transform(x_test.to_dict(orient="records"))
print(x_train)

<class 'numpy.ndarray'>
['age' 'pclass=1st' 'pclass=2nd' 'pclass=3rd' 'sex=female' 'sex=male']
--------------------------------------------------
[[30.          0.          1.          0.          0.          1.        ]
 [62.          1.          0.          0.          0.          1.        ]
 [31.19418104  0.          0.          1.          1.          0.        ]
 ...
 [34.          0.          1.          0.          0.          1.        ]
 [46.          1.          0.          0.          0.          1.        ]
 [31.19418104  0.          0.          1.          0.          1.        ]]


In [27]:
# 用决策树进行预测，修改max_depth试试,修改criterion为entropy

#树过于复杂，就会产生过拟合
dec = DecisionTreeClassifier(max_depth=5,criterion='gini') 

#训练
dec.fit(x_train, y_train)

# 预测准确率
print("预测的准确率：", dec.score(x_test, y_test))

# 导出决策树的结构

# dot -Tpng tree.dot -o tree.png  将dot文件转成png文件就可以直接查看了

export_graphviz(dec, out_file="tree.dot",
                feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'female', 'male'])


#找最佳
param = {"max_depth": [3,5,7, 9,11], "criterion": ["gini", "entropy"]}
cv = GridSearchCV(dec,param,cv=3)
cv.fit(x_train, y_train)



print(cv.best_params_)
print(cv.best_score_)

预测的准确率： 0.817629179331307
{'criterion': 'entropy', 'max_depth': 3}
0.8268001112037809


In [86]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=4)
# 进行处理（特征工程）特征-》类别-》one_hot编码
dict = DictVectorizer(sparse=False)

# 这一步是对字典进行特征抽取
x_train = dict.fit_transform(x_train.to_dict(orient="records"))
x_test = dict.transform(x_test.to_dict(orient="records"))

### 决策树的超参调优

# 随机森林算法

In [None]:
"""
    生成多个决策树来增强稳定性，每个决策树获得的训练集是 Bootstrap 采用对样本进行有放回抽样获得的
    n_estimators:随机森林中的决策树数量，
    max_depth:每棵树的最大深度
    min_sample_list:分裂一个节点所需的最小样本数。如果一个节点的样本数小于 min_samples_split，则不会继续分裂。(稍微大一点可以防止过拟合)
    min_samples_leaf:叶节点最小样本数。每个叶子节点上的样本数目至少要大于等于 min_samples_leaf。(增大 min_samples_leaf 可以避免过拟合，确保每个叶子节点有足够的样本。)
    max_features:每棵树在分裂时考虑的最大特征数。控制每棵树训练时考虑的特征数量。(较小的值可以减少过拟合，但如果太小可能导致欠拟合。)
    criterion:指定用于树分裂的评估标准。常用的选项是：
            "gini"：使用基尼指数作为分裂的标准。 
                    gini指数： 衡量样本不纯度 = 1-pi*pi(每个样本在集合中的比例的平方,pi指单个的，还要求和)，例如男6女4 gini = 1-0.16-0.36 = 0.48
                    
            "entropy"：使用信息增益作为分裂的标准。展示数据的混乱程度
                    entropy信息熵： = -pilog2(pi) 这表示单个，还要求和
                    值越大代表数据越杂
    n_jobs:指定并行化处理的作业数。设置为 -1 表示使用所有CPU核心。
    
"""

In [29]:
# 随机森林进行预测 （超参数调优），n_jobs充分利用多核的一个参数

rf = RandomForestClassifier(n_jobs=-1)
# 120, 200, 300, 500, 800, 1200,n_estimators森林中决策树的数目，也就是分类器的数目
# max_samples  是最大样本数
#bagging类型


param = {"n_estimators": [1500,2000, 5000], "max_depth": [2, 3, 5, 8, 15, 25]}

# 网格搜索与交叉验证
gc = GridSearchCV(rf, param_grid=param, cv=3)

gc.fit(x_train, y_train)

print("准确率：", gc.score(x_test, y_test))

print("查看选择的参数模型：", gc.best_params_)

print("选择最好的模型是：", gc.best_estimator_)

# print("每个超参数每次交叉验证的结果：", gc.cv_results_)



准确率： 0.8328267477203647
查看选择的参数模型： {'max_depth': 3, 'n_estimators': 1500}
选择最好的模型是： RandomForestClassifier(max_depth=3, n_estimators=1500, n_jobs=-1)


FileNotFoundError: [Errno 2] No such file or directory: './tmp/test.pkl'

In [30]:
joblib.dump(gc, "./test.pkl")

['./test.pkl']