In [1]:
from sklearn.datasets import load_files
help(load_files)

Help on function load_files in module sklearn.datasets.base:

load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)
    Load text files with categories as subfolder names.
    
    Individual samples are assumed to be files stored a two levels folder
    structure such as the following:
    
        container_folder/
            category_1_folder/
                file_1.txt
                file_2.txt
                ...
                file_42.txt
            category_2_folder/
                file_43.txt
                file_44.txt
                ...
    
    The folder names are used as supervised signal label names. The individual
    file names are not important.
    
    This function does not try to extract features into a numpy array or scipy
    sparse matrix. In addition, if load_content is false it does not try to
    load the files in memory.
    
    To use text files in a scikit

In [2]:
# 加载数据
data = load_files(container_path="../data/news",  # 分类语料根目录
                      categories=['Agriculture', 'Communication', 'Education',  
                                  'Electronics', 'Medical', 'Sports'],  # 需要加载的类目名称列表
                      encoding="gbk", decode_error="ignore")  # 文件编码

In [3]:
# 打印文本数据
for text_ser, text in enumerate(data.data[:1]):
    print("第%d篇文本" % (text_ser+1))
    print(text)
    print(type(text))

第1篇文本
8	中国选手再夺加拿大杯游泳赛,枚奖牌,新华社渥太华,月,日电,记者廖振云,历时,天,的,年加拿大杯国际游泳赛,日在温哥华结束,中国队派出,名女选手参赛,共获,枚金牌,枚银牌和,枚铜牌,取得自,年参加这项赛事以来的最好成,绩,在,日进行的颁奖式上,中国选手林莉被评为本届,杯赛唯一的女子,最佳运动员,同时被授予,得分最高,者,奖,她在这次比赛中共获得两枚金牌,在,日的女子组比赛中,中国选手共获得,枚金牌,和,枚银牌,岁的林莉和,岁的阎明分别夺得,米个人混合泳金牌和银牌,林莉还以,分,秒,的,成绩刷新了这个项目的赛会纪录,岁的孙春莅以,秒,的成绩夺得,米自由泳的金牌,岁的李洁,以,分,秒,的成绩获得,米仰泳的金牌,中国,队还以,分,秒,的成绩获,米混合泳接力,赛的第一名,并打破了这个项目的赛会纪录,这次杯赛是,日开始的,参加比赛的除中国选手外,还有瑞典,澳大利亚,美国,英国,新西兰及东道主加,拿大等国的好手,完
<class 'str'>


In [4]:
# 加载到内存中文件的路径名称列表
data.filenames

array(['../data/news/Sports/61.txt',
       '../data/news/Agriculture/C32-Agriculture0893.txt',
       '../data/news/Agriculture/C32-Agriculture0919.txt', ...,
       '../data/news/Sports/128.txt',
       '../data/news/Agriculture/C32-Agriculture1120.txt',
       '../data/news/Agriculture/C32-Agriculture1370.txt'], dtype='<U50')

In [5]:
# 加载到内存中文件的类别序号label
data.target

array([5, 0, 0, ..., 5, 0, 0])

In [6]:
# 每个类别label对应的类别名称列表
data.target_names

['Agriculture',
 'Communication',
 'Education',
 'Electronics',
 'Medical',
 'Sports']

In [7]:
# 加载数据
data = load_files(container_path="../data/news",  # 分类语料根目录
                      categories=['Agriculture', 'Communication', 'Education',  
                                  'Electronics', 'Medical', 'Sports'])  # 需要加载的类目名称列表

In [8]:
# 打印文本数据
print(type(data.data[0]))

<class 'bytes'>


In [9]:
# 显示字节流
data.data[0]

b'8\t\xd6\xd0\xb9\xfa\xd1\xa1\xca\xd6\xd4\xd9\xb6\xe1\xbc\xd3\xc4\xc3\xb4\xf3\xb1\xad\xd3\xce\xd3\xbe\xc8\xfc,\xc3\xb6\xbd\xb1\xc5\xc6,\xd0\xc2\xbb\xaa\xc9\xe7\xe4\xd7\xcc\xab\xbb\xaa,\xd4\xc2,\xc8\xd5\xb5\xe7,\xbc\xc7\xd5\xdf\xc1\xce\xd5\xf1\xd4\xc6,\xc0\xfa\xca\xb1,\xcc\xec,\xb5\xc4,\xc4\xea\xbc\xd3\xc4\xc3\xb4\xf3\xb1\xad\xb9\xfa\xbc\xca\xd3\xce\xd3\xbe\xc8\xfc,\xc8\xd5\xd4\xda\xce\xc2\xb8\xe7\xbb\xaa\xbd\xe1\xca\xf8,\xd6\xd0\xb9\xfa\xb6\xd3\xc5\xc9\xb3\xf6,\xc3\xfb\xc5\xae\xd1\xa1\xca\xd6\xb2\xce\xc8\xfc,\xb9\xb2\xbb\xf1,\xc3\xb6\xbd\xf0\xc5\xc6,\xc3\xb6\xd2\xf8\xc5\xc6\xba\xcd,\xc3\xb6\xcd\xad\xc5\xc6,\xc8\xa1\xb5\xc3\xd7\xd4,\xc4\xea\xb2\xce\xbc\xd3\xd5\xe2\xcf\xee\xc8\xfc\xca\xc2\xd2\xd4\xc0\xb4\xb5\xc4\xd7\xee\xba\xc3\xb3\xc9,\xbc\xa8,\xd4\xda,\xc8\xd5\xbd\xf8\xd0\xd0\xb5\xc4\xb0\xe4\xbd\xb1\xca\xbd\xc9\xcf,\xd6\xd0\xb9\xfa\xd1\xa1\xca\xd6\xc1\xd6\xc0\xf2\xb1\xbb\xc6\xc0\xce\xaa\xb1\xbe\xbd\xec,\xb1\xad\xc8\xfc\xce\xa8\xd2\xbb\xb5\xc4\xc5\xae\xd7\xd3,\xd7\xee\xbc\xd1\xd4\xcb\xb

In [10]:
# 解码为unicode字符串后再输出
data.data[0].decode('gbk', 'ignore')

'8\t中国选手再夺加拿大杯游泳赛,枚奖牌,新华社渥太华,月,日电,记者廖振云,历时,天,的,年加拿大杯国际游泳赛,日在温哥华结束,中国队派出,名女选手参赛,共获,枚金牌,枚银牌和,枚铜牌,取得自,年参加这项赛事以来的最好成,绩,在,日进行的颁奖式上,中国选手林莉被评为本届,杯赛唯一的女子,最佳运动员,同时被授予,得分最高,者,奖,她在这次比赛中共获得两枚金牌,在,日的女子组比赛中,中国选手共获得,枚金牌,和,枚银牌,岁的林莉和,岁的阎明分别夺得,米个人混合泳金牌和银牌,林莉还以,分,秒,的,成绩刷新了这个项目的赛会纪录,岁的孙春莅以,秒,的成绩夺得,米自由泳的金牌,岁的李洁,以,分,秒,的成绩获得,米仰泳的金牌,中国,队还以,分,秒,的成绩获,米混合泳接力,赛的第一名,并打破了这个项目的赛会纪录,这次杯赛是,日开始的,参加比赛的除中国选手外,还有瑞典,澳大利亚,美国,英国,新西兰及东道主加,拿大等国的好手,完'