# 単語の正規化

## 参考資料
 - https://qiita.com/Hironsan/items/2466fe0f344115aff177#%E5%8D%98%E8%AA%9E%E3%81%AE%E6%AD%A3%E8%A6%8F%E5%8C%96
 - https://github.com/Hironsan/natural-language-preprocessings/blob/master/preprocessings/ja/normalization.py

## 正規化のタスク

 - 文字種の統一
 - 数字の置き換え
 - 辞書を用いた単語の統一

In [1]:
import re
import unicodedata

import nltk
from nltk.corpus import wordnet


def normalize(text):
    normalized_text = normalize_unicode(text)
    normalized_text = normalize_number(normalized_text)
    normalized_text = lower_text(normalized_text)
    return normalized_text


def lower_text(text):
    """小文字に変換"""
    return text.lower()


def normalize_unicode(text, form='NFKC'):
    normalized_text = unicodedata.normalize(form, text)
    return normalized_text


def lemmatize_term(term, pos=None):
    if pos is None:
        synsets = wordnet.synsets(term)
        if not synsets:
            return term
        pos = synsets[0].pos()
        if pos == wordnet.ADJ_SAT:
            pos = wordnet.ADJ
    return nltk.WordNetLemmatizer().lemmatize(term, pos=pos)


def normalize_number(text):
    """
    pattern = r'\d+'
    replacer = re.compile(pattern)
    result = replacer.sub('0', text)
    """
    # 連続した数字を0で置換
    replaced_text = re.sub(r'\d+', '0', text)
    return replaced_text

In [2]:
scouty_text = """
scoutyでは、退職率予測アルゴリズム・企業と候補者の最適なマッチング発見アルゴリズムなどの開発をマネージし、ビジネス上の問題解決につながるアルゴリズム開発のマネジメントを行なう「アルゴリズムマネージャ」のポジションを募集しています。

アルゴリズムマネージャの詳細情報はこちら： http://ai-lab.scouty.co.jp/entry/2017/12/13/1230

★Point1：90万人のオープンデータ解析に挑戦！ 
scoutyではWEB上のSNSデータを中心に「人」に関するデータをクロールして集め、約90万人（2017年12月時点）のデータベースを作りました。 
scoutyのアルゴリズムは、人々の経歴・Twitterのつぶやき・参加イベント情報・GitHubでのコード内容・ブログの記事のデータを解析して、その人に一番マッチした企業とその人が次に退職しそうな時期を予測します。こういったアルゴリズムの仕様を定めるだけでなく、開発のマイルストンや事前リサーチ、技術選定を行い、アルゴリズム開発を通じてビジネスの問題を解決に導くアルゴリズムマネージャを募集しています。

★Point2：アルゴリズムのプロダクトマネージャとなり、開発チームを率いてアルゴリズムのオーナーになれる！ 
アルゴリズムマネージャは、いわばアルゴリズムのプロダクトマネージャです。顧客のニーズをつかみ、ビジネスとアルゴリズムの接点を探り、開発のマイルストーンを定め、設計の指針をつくることができます。また、アルゴリズムマネージャはまだ認知度も低く、必要性も認知されていないので、イベント登壇やブログ記事の発信を通じて、アルゴリズムマネージャのロールモデルを作っていける方を募集しています。

◎業務内容 
・scoutyの機械学習アルゴリズム（転職可能性予測アルゴリズム、マッチングアルゴリズム等）の開発の進行・マネジメント 
・アルゴリズムがそもそもどうどのようにKGIに影響するか？というシステムダイナミクスの構築 
・アルゴリズムのメトリクス（評価指標）の設計 
・アルゴリズム構築の前の事前リサーチ 
・アルゴリズム開発のマイルストーン設定とスケジューリング 
・アルゴリズムに用いる技術選定・エンジニアとのディスカッション 
・（開発の状況とフェーズによって）アルゴリズムの実開発の一部

◎歓迎する経験・スキル 
・各データ解析手法に関しての広い知識 
・AI / ML系のライブラリ・クラウドサービスなどの広い知識（実装しなくて済む部分と実装が必要な部分の理解） 
・CRISP-DM などのデータ分析のプロセスモデルへの理解 
・ クライアント・ユーザとの対話能力 
・経営や事業上のKPIへの理解 
・実装するエンジニアのマネジメント能力 
・Pythonでの開発経験 
・Jupyter Notebookの使用経験
"""

In [3]:
normalize(scouty_text)

'\nscoutyでは、退職率予測アルゴリズム・企業と候補者の最適なマッチング発見アルゴリズムなどの開発をマネージし、ビジネス上の問題解決につながるアルゴリズム開発のマネジメントを行なう「アルゴリズムマネージャ」のポジションを募集しています。\n\nアルゴリズムマネージャの詳細情報はこちら: http://ai-lab.scouty.co.jp/entry/0/0/0/0\n\n★point0:0万人のオープンデータ解析に挑戦! \nscoutyではweb上のsnsデータを中心に「人」に関するデータをクロールして集め、約0万人(0年0月時点)のデータベースを作りました。 \nscoutyのアルゴリズムは、人々の経歴・twitterのつぶやき・参加イベント情報・githubでのコード内容・ブログの記事のデータを解析して、その人に一番マッチした企業とその人が次に退職しそうな時期を予測します。こういったアルゴリズムの仕様を定めるだけでなく、開発のマイルストンや事前リサーチ、技術選定を行い、アルゴリズム開発を通じてビジネスの問題を解決に導くアルゴリズムマネージャを募集しています。\n\n★point0:アルゴリズムのプロダクトマネージャとなり、開発チームを率いてアルゴリズムのオーナーになれる! \nアルゴリズムマネージャは、いわばアルゴリズムのプロダクトマネージャです。顧客のニーズをつかみ、ビジネスとアルゴリズムの接点を探り、開発のマイルストーンを定め、設計の指針をつくることができます。また、アルゴリズムマネージャはまだ認知度も低く、必要性も認知されていないので、イベント登壇やブログ記事の発信を通じて、アルゴリズムマネージャのロールモデルを作っていける方を募集しています。\n\n◎業務内容 \n・scoutyの機械学習アルゴリズム(転職可能性予測アルゴリズム、マッチングアルゴリズム等)の開発の進行・マネジメント \n・アルゴリズムがそもそもどうどのようにkgiに影響するか?というシステムダイナミクスの構築 \n・アルゴリズムのメトリクス(評価指標)の設計 \n・アルゴリズム構築の前の事前リサーチ \n・アルゴリズム開発のマイルストーン設定とスケジューリング \n・アルゴリズムに用いる技術選定・エンジニアとのディスカッション \n・(開発の状況とフェーズによって)アルゴリズム