# 简介

sklearn是实现了众多机器学习算法的库，可以帮助我们完成一些机器学习的研究任务。sklearn对机器学习模型做了高度抽象，
对所有的模型来说，fit用来训练，predict用来预测，predict_proba用来预测概率等等。这篇笔记的目的在与记录使用
sklearn完成机器学习任务的一般步骤与sklearn库的使用方法

## 知识准备

机器学习需要我们用到python数据处理工具，包括numpy与pandas，可视化工具包matplotlib与seaborn。以及机器学习各种模
型的原理，参数选择等等。

## 步骤一：数据准备与清洗

进行机器学习任务需要大量的数据，这些数据本身可能并不是我们想要的格式，我们需要对数据进行处理，删除破损的记录，修修
补补使数据变成我们想要的样子。比如文本分类中的类别，如果一个样本的类别未知，是无法用来训练模型的，这种数据就需要
删除

## 步骤二：特征提取

计算机可以识别的只有数字，把训练样本与测试样本在保留原本信息量的情况下转换为sklearn可以识别的形式，就是从样本中
提取特征，称为特征提取。当特征数量巨大，会无意义的增加计算复杂度，后面会说到数据降维处理

### 文本特征提取

#### sklearn中的TFIDF

TfidfTransformer

相关的包括CountVectorizer，TfidfTransformer与TfidfVectorizer，前二者需要搭配使用

In [10]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
docs=["the house had a tiny little mouse",
      "the cat saw the mouse",
      "the mouse ran away from the house",
      "the cat finally ate the mouse",
      "the end of the mouse story"
     ]

#instantiate CountVectorizer()
cv=CountVectorizer()
 
# this steps generates word counts for the words in your docs
word_count_vector=cv.fit_transform(docs)
word_count_vector.shape

(5, 16)

In [16]:
tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True)
tfidf_transformer.fit(word_count_vector)
tfidf_transformer.idf_
cv.get_feature_names()
# print idf values
df_idf = pd.DataFrame(tfidf_transformer.idf_, index=cv.get_feature_names(),columns=["idf_weights"])
 
# sort ascending
df_idf.sort_values(by=['idf_weights'])

Unnamed: 0,idf_weights
mouse,1.0
the,1.0
cat,1.693147
house,1.693147
ate,2.098612
away,2.098612
end,2.098612
finally,2.098612
from,2.098612
had,2.098612


In [17]:
# count matrix
count_vector=cv.transform(docs)
 
# tf-idf scores
tf_idf_vector=tfidf_transformer.transform(count_vector)
feature_names = cv.get_feature_names()
 
#get tfidf vector for first document
first_document_vector=tf_idf_vector[0]
 
#print the scores
df = pd.DataFrame(first_document_vector.T.todense(), index=feature_names, columns=["tfidf"])
df.sort_values(by=["tfidf"],ascending=False)

Unnamed: 0,tfidf
had,0.493562
little,0.493562
tiny,0.493562
house,0.398203
mouse,0.235185
the,0.235185
ate,0.0
away,0.0
cat,0.0
end,0.0


TfidfVectorizer

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer 
 
# settings that you use for count vectorizer will go here
tfidf_vectorizer=TfidfVectorizer(use_idf=True)
 
# just send in all your docs here
tfidf_vectorizer_vectors=tfidf_vectorizer.fit_transform(docs)

## 步骤三：模型训练

## 步骤四：数据预测

## 步骤五：模型评估与可视化分析