In [1]:
from sklearn.datasets import load_files
help(load_files)

Help on function load_files in module sklearn.datasets.base:

load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)
    Load text files with categories as subfolder names.
    
    Individual samples are assumed to be files stored a two levels folder
    structure such as the following:
    
        container_folder/
            category_1_folder/
                file_1.txt
                file_2.txt
                ...
                file_42.txt
            category_2_folder/
                file_43.txt
                file_44.txt
                ...
    
    The folder names are used as supervised signal label names. The individual
    file names are not important.
    
    This function does not try to extract features into a numpy array or scipy
    sparse matrix. In addition, if load_content is false it does not try to
    load the files in memory.
    
    To use text files in a scikit

In [2]:
# 加载数据
data = load_files(container_path="../data/news",  # 分类语料根目录
                      categories=['Agriculture', 'Communication', 'Education',  
                                  'Electronics', 'Medical', 'Sports'],  # 需要加载的类目名称列表
                      encoding="gbk", decode_error="ignore")  # 文件编码

In [3]:
# 打印文本数据
for text_ser, text in enumerate(data.data[:5]):
    print("第%d篇文本" % (text_ser+1))
    print(text)

第1篇文本
8	中国选手再夺加拿大杯游泳赛,枚奖牌,新华社渥太华,月,日电,记者廖振云,历时,天,的,年加拿大杯国际游泳赛,日在温哥华结束,中国队派出,名女选手参赛,共获,枚金牌,枚银牌和,枚铜牌,取得自,年参加这项赛事以来的最好成,绩,在,日进行的颁奖式上,中国选手林莉被评为本届,杯赛唯一的女子,最佳运动员,同时被授予,得分最高,者,奖,她在这次比赛中共获得两枚金牌,在,日的女子组比赛中,中国选手共获得,枚金牌,和,枚银牌,岁的林莉和,岁的阎明分别夺得,米个人混合泳金牌和银牌,林莉还以,分,秒,的,成绩刷新了这个项目的赛会纪录,岁的孙春莅以,秒,的成绩夺得,米自由泳的金牌,岁的李洁,以,分,秒,的成绩获得,米仰泳的金牌,中国,队还以,分,秒,的成绩获,米混合泳接力,赛的第一名,并打破了这个项目的赛会纪录,这次杯赛是,日开始的,参加比赛的除中国选手外,还有瑞典,澳大利亚,美国,英国,新西兰及东道主加,拿大等国的好手,完
第2篇文本
农　业　信　息　探　索
Agricultural Information Research
1998年 第1期科技期刊
发挥忧信息在农业决策中的作用
江苏省扬州市农业局　桑钟伦
文　摘：阐述了正确评价忧信息在农业决策中的地位和作用，必须坚持的原则，及从提高信息工作者素质入手，搞好忧信息工作的途径和方法。

关键词：发挥　忧信息　农业决策　作用
　　农业忧信息又叫“问题”信息。是指能引起信息接受者忧虑、担心和思考，并能起到一定调节作用的农业信息。忧信息所揭示的农村经济和农业生产活动中已经存在或可能出现的困难和问题，和与这相反的喜信息，构成了内容庞大的农业信息系统。然而，在大量的实际工作中，人们受传统的思想影响，认为“宁栽锦上花，不栽花中刺”，“只报喜不报忧”的现象仍有存在，这反映了一些信息工作者对喜忧信息认识的偏差，也是职业道德和工作责任感不强的表现。正确评价忧信息在农业决策中的地位，并更好地发挥忧信息作用，是当前农业信息工作需要解决的一个重要问题。
　　一、忧信息在农业决策中的地位和作用
　　唯物辩证法原理告诉我们，事物总是一分为二的，毛泽东同志也曾论述过，坏事也可以向好的方向转化。因此，有针对性的反馈忧信息，对决策审时度势进行调整、修定和完善，是我们事业成败的关键。忧信息对决策所起的作用在于：
　　(一)窗口作用。

In [4]:
# 加载到内存中文件的路径名称列表
data.filenames

array(['../data/news\\Sports\\61.txt',
       '../data/news\\Agriculture\\C32-Agriculture0893.txt',
       '../data/news\\Agriculture\\C32-Agriculture0919.txt', ...,
       '../data/news\\Sports\\128.txt',
       '../data/news\\Agriculture\\C32-Agriculture1120.txt',
       '../data/news\\Agriculture\\C32-Agriculture1370.txt'], dtype='<U50')

In [5]:
# 加载到内存中文件的类别序号label
data.target

array([5, 0, 0, ..., 5, 0, 0])

In [6]:
# 每个类别label对应的类别名称列表
data.target_names

['Agriculture',
 'Communication',
 'Education',
 'Electronics',
 'Medical',
 'Sports']