In [1]:
# -*- coding:utf-8 -*- #

import pandas as pd

### 6.6.1  數值型特徵

In [2]:
dic = {'height': [1.6, 1.7, 1.8],
      'weight': [60, 70, 90]}
data = pd.DataFrame(dic)
data['bmi'] = data['weight'] / (data['height'] **2)
print(data)
data['overweight'] = data['bmi'] > 25
print(data)
data['overweight'] = data['overweight'].map({True:'Yes', False:'No'})
print(data)

   height  weight        bmi
0     1.6      60  23.437500
1     1.7      70  24.221453
2     1.8      90  27.777778
   height  weight        bmi  overweight
0     1.6      60  23.437500       False
1     1.7      70  24.221453       False
2     1.8      90  27.777778        True
   height  weight        bmi overweight
0     1.6      60  23.437500         No
1     1.7      70  24.221453         No
2     1.8      90  27.777778        Yes


### 6.6.2  類型特徵

In [3]:
import pandas as pd
dic = {'string': ['第一組', '第二組', '第二組']}
data = pd.DataFrame(dic)
print(pd.factorize(data.string)) # 轉換成數值型編碼

data['num'] = pd.factorize(data['string'])[0]
df = pd.get_dummies(data['string'], prefix='組別')  # 轉換成onehot類型編碼
new_data = pd.concat([data, df], axis=1)
print(new_data)

(array([0, 1, 1]), Index(['第一組', '第二組'], dtype='object'))
  string  num  組別_第一組  組別_第二組
0    第一組    0       1       0
1    第二組    1       0       1
2    第二組    1       0       1


### 6.6.3  關鍵字特徵

In [4]:
import pandas as pd
import numpy as np
from scipy import stats
import jieba
import re

def do_split(test_text):
    pattern = r',|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|？|@|#|\$|%|\^|&|\(|\)|-|=|\_|\+|，|。|、|；|‘|’|【|】03   |·|！| |…|（|）' 
    return re.split(pattern, test_text) 



In [5]:
def get_keywords(data, feat):
    ret = []
    data[feat] = data[feat].apply(lambda x: x.strip())
    for i in data[feat].unique():
        # 將短句作爲關鍵字
        if len(i) <= 50 and i not in ret:
            ret.append(i)
        # 將子句作爲關鍵字
        for sentence in do_split(i):
            if len(sentence) <= 50 and sentence not in ret:
                ret.append(sentence)
        # 將詞作爲關鍵字
        for word in jieba.lcut(i, cut_all=True):
            if len(word) > 1 and word not in ret:
                ret.append(word)
    return ret

def check_freq(data, feat, keywords, limit):
    ret = []
    for key in keywords:
        try:
            if len(data[data[feat].str.contains(key)]) > limit:
                ret.append(key)
        except:
            pass
    return ret

def do_test(data, feat, key, y, debug=False):
    arr1 = data[data[feat].str.contains(key) == True][y]
    arr2 = data[data[feat].str.contains(key) == False][y]
    ret1 = stats.ttest_ind(arr1, arr2, equal_var = False)
    ret2 = stats.levene(arr1, arr2)
    if ret1.pvalue < 0.05 or ret2.pvalue < 0.05:
        return True    
    return False

def check(data, feat, y):
    ret = []
    keywords = get_keywords(data, feat)
    arr = check_freq(data, feat, keywords, 5)
    for word in arr:
        if do_test(data, feat, word, y):
            ret.append(word)
    return ret

# 讀取數據文件的前500條數據，其中第6個字段是微博內容，第5個字段爲點贊次數。
data = pd.read_csv('weibo_train_data.txt', sep='\t', 
                   header=None, nrows=500)
print(check(data, 6, 5))

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.465 seconds.
Prefix dict has been built succesfully.
  out=out, **kwargs)
  ret = ret.dtype.type(ret / rcount)


['掙錢是一種能力', '搶紅包拼的是技術', '一起發出的現金紅包', '￣', '3￣', '╭http', 't', 'cn', '紅包', '掙錢', '能力', '搶紅包', '搶到', '一起', '發出', '現金', '幸福', '粉絲', 'http', '這些', '喜歡', '分享自', '羊年未到', '好運先來', '你也來試試手氣', '就是', '好運', '先來', '來試', '試試', '試手', '手氣', '東西', '軟件', '下載', '3', 'IT', '#IT#', '新聞', '支付寶錢包', '羊年好運就此開啓', '你也來試試手氣吧', '╮', '支付', '支付寶', '錢包', '就此', '開啓', '來自', '網易雲音樂', '網易', '音樂', '已經', '一個', '16', '發表', '需要', '他們', '工程', '工程師', '開發', '不是', '代碼', '理解', '進行', '創業', '快的打車', '打車', '感覺', '今天', '評論', '查看', '成爲', '活動', '幸運', '一些', '我正在', '爲', '正在', '支持', '小時', 'in', '手機', '自己', '2015', '信息', '我搶到了', '發出的現金紅包', '閱讀', '使用', '單詞', '管理', '設計', '30', '項目', '15', '工具', '免費', '提供', '快來', '未來', 'on', '來', '博客', '贊', '還有', '向', 'and', '簡單', '環境', 'from', '獲得', 'for', '詳情', 'at', 'Y', '小夥伴們', '——', '快來試試手氣', '23', '形', '51', '幫助', '01', '的現金紅包', '/', '我在', 'T', '「', '轉', '」', 'X', 'be']
