#jupyter nbconvert myslides.ipynb --to slides --post serve

# 面向对象编程与scikit-learn概述

#### 盖志浩 

## 编程三个层次



* **面向过程编程**：根据算法逻辑，从头到尾编译代码。(菜鸡)  

* **函数式编程**：将代码封装到函数中供以后调用。(或许你已经开始了)  

* **面向对象编程**：将数据和处理数据的函数封装成一个对象，使得程序更清晰、重用性更高，更适合工程的要求。

## 面向对象编程简介

### 对象和类

面向对象编程中，首先说明的是**类(class)**和**对象(object)**的概念。对象是数据和处理数据的函数的结合。而类是具有相同的**属性(attribute)**和**方法(method)**的对象的集合。    

如果文字概念晦涩难懂，那么我们使用一个例子来感受一下什么是类和对象。比如说，大学教授就是一个抽象的类，而方匡南老师和张庆昭老师就是具体的对象。比如之前学到的python中列表是一个类，那么`[1,2,3]`和`[1,2,3,4]`都是一个具体的对象。类具体为对象的过程，叫做类的**实例化**，对象也叫做类的一个**实例**。

### 创建一个类并实例化


python中能够非常方便、快捷创建一个类。创建类的方法是`class`语句，`class`后为类的名称，这里我们创建一个名为Professor的类。

In [1]:
class Professor:
    
    University = '厦门大学'
    
    
    def __init__(self, name, department):
        self.name = name
        self.department = department
        self.major = department
        
    def introduce_1(self):
        print(self.name, '教授来自', Professor.University, '。', sep = '')
        
    def introduce_2(self, year):
        print(self.name, '教授在', self.department, '任教', year, '年了。', sep = '')
    

* `__init__()`方法是一种定义类的时候的特殊方法，是类的构造函数或初始化方法。而这个方法必须有第一个参数名称`self`，`self`代表类的实例，类的实例化就是创建类一个具体对象的过程。当然你也可以用其他的关键字来代替`self`。 

 

* `University`是一个类变量，是类`Professor`所有共享的变量，在所有实例化的对象中通用。在这个例子中，意味着创建所有的实例化对象都是厦门大学的教授。   




In [2]:
## 类的实例化
First = Professor('王某', '金融系')

### 类的属性和方法

当将一个类实例化后，就可以访问类属性，或者调用类的方法了。

In [3]:
## 访问属性
print(First.name)
print(First.department)
print(First.major)

王某
金融系
金融系


In [4]:
## 调用方法
First.introduce_1()
First.introduce_2(5)

王某教授来自厦门大学。
王某教授在金融系任教5年了。


你可以添加、修改和删除一个对象的属性

In [5]:
First.age = 38 
print(First.age)

38


In [6]:
First.name = '王二'
print(First.name)

王二


In [7]:
Second = Professor('李四', '统计系')
Second.age
## 增加属性仅限于已经实例化的对象。

AttributeError: 'Professor' object has no attribute 'age'

In [24]:
del First.age

在创建一个类的时候，我们可以选择定义类的私有属性和方法。私有属性和方法只能在类的内部被直接使用，而外部不能，这样有助于提高程序的稳定性。  

定义一个私有属性需要在属性名前加两个下划线开头来做声明。比如`__private_attrs`。私有属性不能在类的外部被直接访问或使用，但是可以在在类内部的方法中使用。 `self.__private_attrs`。

同样定义一个私有方法也是加两个下划线，比如`__private_method`。同样，这个方法不能在类的外部被直接调用，只能在类的内部调用 

In [25]:
class Professor:
    
    University = '厦门大学'
    __base_score = 5.0
    
    def __init__(self, name, department, edu, res):
        self.name = name
        self.department = department
        self.major = department
        self.edu = edu
        self.res = res
        
    def introduce_1(self):
        print(self.name, '教授来自', Professor.University, '。', sep = '')
        
    def introduce_2(self, year):
        print(self.name, '教授在', self.department, '任教', year, '年了。', sep = '')
        
    def __count(self, __base_score):
        return(self.edu*4/9+self.res*5/9 + self.__base_score)
    
    def report(self):
        score = self.__count(self)
        return(score)

In [26]:
First = Professor('王二', '统计系', 4.6, 4.7)

In [27]:
First.report()

9.655555555555555

In [28]:
print(First.__base_score)

AttributeError: 'Professor' object has no attribute '__base_score'

### 类的继承

面向对象的编程的主要功能之一是提高的代码的重用性，实现一特点的方法就是类的继承。继承发生在父类和子类之间。目的是在父类的基础上,能对父类属性和方法，进行必要的增添和修改。  

继承语句依然同定义class的方式相同，区别在于继承的时候需在子类的后面用括号声明需要继承的父类，

In [8]:
class Teacher(Professor):
    
    def introduce_3(self):
        print(self.name, '老师来自', self.University, self.department, '。', sep='')

In [9]:
First = Teacher('王二', '统计系', 4.6, 4.7)
First.introduce_1()
First.introduce_2(5)
First.introduce_3()

TypeError: __init__() takes 3 positional arguments but 5 were given

## scikit learn 概述

### Scikit Learn的四个主要组成部分

* 监督模型
* 无监督模型
* 模型选择和评估
* 特征工程

### sklearn下数据挖掘的一般步骤

1. 数据加载(pandas)
2. 划分训练集、测试集(model_section,)
2. 特征工程(sklearn中transformers)
2. 定义estimator，比如`svc = svm.svc()`
3. 用训练集对模型进行训练，只需调用`fit`方法，`svc.fit(X_train, y_train)`
4. 交叉验证、参数调整 `GridSearchCV`
4. 用训练好的模型进行预测：`y_pred=svc.predict(X_test)`
5. 对模型进行性能评估：`svc.score(X_test, y_test)`


In [10]:
# dataset
from sklearn.datasets import load_breast_cancer

In [11]:
# some base packages
import random 
import sklearn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [12]:
# frameworks for Data mining
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score 
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler

In [13]:
# estimators for classification
from sklearn.ensemble import RandomForestClassifier 
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

In [14]:
from sklearn.metrics import scorer

In [15]:
x,y = load_breast_cancer(return_X_y=True)
features = load_breast_cancer().feature_names
x_train, x_test, y_train, y_test = train_test_split(x, y)  

Scikit Learn提供了Pipeline机制，能够快捷、直观地建立数据处理流程
格式为('key','value')，key是自己为这一step设定的名称，value是对应的处理类，包括transformer和estimator。
一般前n-1个step中的类都必须有transform函数，一般最后一步为模型。
pipe继承了最后一个类的所有方法。

![](http://img.blog.csdn.net/20160115095855517)

In [16]:
## transformer
scaler = StandardScaler()
## estimator SVC()
pipe = make_pipeline(scaler, SVC())

In [17]:
pipe

Pipeline(steps=[('standardscaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svc', SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))])

In [18]:
SVC().get_params().keys()

dict_keys(['C', 'cache_size', 'class_weight', 'coef0', 'decision_function_shape', 'degree', 'gamma', 'kernel', 'max_iter', 'probability', 'random_state', 'shrinking', 'tol', 'verbose'])

In [19]:
pipe.get_params().keys()

dict_keys(['steps', 'standardscaler', 'svc', 'standardscaler__copy', 'standardscaler__with_mean', 'standardscaler__with_std', 'svc__C', 'svc__cache_size', 'svc__class_weight', 'svc__coef0', 'svc__decision_function_shape', 'svc__degree', 'svc__gamma', 'svc__kernel', 'svc__max_iter', 'svc__probability', 'svc__random_state', 'svc__shrinking', 'svc__tol', 'svc__verbose'])

In [20]:
## parameters
param_grid = [
  {'svc__C': [1, 10, 100, 1000,3000], 'svc__kernel': ['linear']},
  {'svc__C': [1, 10, 100, 1000, 3000], 'svc__gamma': [0.001, 0.0001, 0.00001], 'svc__kernel': ['rbf']},
 ]

grid = GridSearchCV(pipe, cv=5, n_jobs=1, param_grid=param_grid, scoring='f1')

In [21]:
grid.fit(x_train, y_train)

GridSearchCV(cv=5, error_score='raise',
       estimator=Pipeline(steps=[('standardscaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('svc', SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))]),
       fit_params={}, iid=True, n_jobs=1,
       param_grid=[{'svc__C': [1, 10, 100, 1000, 3000], 'svc__kernel': ['linear']}, {'svc__C': [1, 10, 100, 1000, 3000], 'svc__gamma': [0.001, 0.0001, 1e-05], 'svc__kernel': ['rbf']}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring='f1', verbose=0)

In [22]:
print(grid.best_params_)
print(grid.best_score_)

{'svc__C': 100, 'svc__gamma': 0.001, 'svc__kernel': 'rbf'}
0.985398798911


In [23]:
pred = grid.predict(x_test)
scorer.f1_score(y_pred=pred, y_true=y_test)

0.97752808988764039