-
Notifications
You must be signed in to change notification settings - Fork 0
/
YahooApi.Class.php
116 lines (98 loc) · 2.49 KB
/
YahooApi.Class.php
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
<?php
Class YahooApi {
//エンドポイントURL
const END_POINT = 'http://jlp.yahooapis.jp/MAService/V1/parse';
//最低文字数
const MIN_WORD_COUNT = 2;
//はじく文字列
const REGEX = "/^[0-9\,\.\?\\\[\]\@\*\+\!\"\#\$\%\&\'\(\)\=\-a-z]+$/ius";
//クエリ用コンテキスト
private $context = null;
private $result = null;
public function __construct() {
}
/**
* Yahoo の api から渡された文字列の形態素解析の結果を取得する
* 記号、英数字のみの場合落とす また文字数が2文字未満のものも落とす
* http://developer.yahoo.co.jp/webapi/jlp/
*
* @author yama
* @copyright 2013/02/27
*/
public static function analyze($apiKey,$contents) {
$instance = new YahooApi();
return $instance
->createHeader($apiKey,$contents)
->getXmlFromApi()
->getResult();
}
/**
* ヘッダーデータの作成
*
* @author yama
* @copyright 2013/02/27
*/
private function createHeader($apiKey,$contents) {
//クエリデータ
$query = [
'appid' => $apiKey,
'sentence' => $contents,
'results' => 'ma',
'filter' => '9' //名詞のみ
];
$data = http_build_query($query,'','&');
//ヘッダー
$header = [
'Content-Type: application/x-www-form-urlencoded',
'Content-Length: '.strlen($data)
];
//ボディ部分
$context = [
'http' => [
'method' => 'POST',
'header' => implode("\r\n",$header),
'content' => $data,
]
];
$this->context = stream_context_create($context);
return $this;
}
/**
* Yahoo Api を使用して形態素解析を行う
*
* @author yama
* @copyright 2013/02/27
*/
private function getXmlFromApi() {
//初期化
$this->result = null;
//XMLデータの取得
if ($tmp = simplexml_load_string(file_get_contents(self::END_POINT,false,$this->context))) {
//全データを回して、既定文字数以上で、英数字記号などがないかを確認する
foreach ($tmp->ma_result->word_list->word as $v) {
//文字列
$s = (string)$v->surface;
//チェック
if (!preg_match(self::REGEX,$s) && self::MIN_WORD_COUNT <= mb_strlen($s,'UTF-8')) {
if (!isset($this->result[(string)$v->surface])) {
//件数カウント
$this->result[$s] = 0;
}
$this->result[$s]++;
}
}
//件数の多い順に取得
arsort($this->result);
}
return $this;
}
/**
* データの取得
*
* @author yama
* @copyright 2013/02/27
*/
private function getResult() {
return $this->result;
}
}