# Webスクレイピング

## URL先のテキストの取得

***

In [1]:
from urllib.request import urlopen
from urllib import parse
from bs4 import BeautifulSoup
import re

def HTMLText(url):
    '''
    input : text
    output : text
    outline : urlのwebページにアクセスし、webページのテキストデータを取得する
    '''
    html = urlopen(url)
    
    # 結果を出力する
    return BeautifulSoup(html.read(), 'html.parser')

def GetUrlText(hostName, parameter):
    '''
    @param: 
    @type: 
    @rtype: 
    '''
    return hostName + parse.quote(parameter)

## 検索対象の取得準備

***

In [2]:
import MeCab
import re

def Parses(text):
    '''
    outline: 形態素データを取得する
    
    @param text: C(str)
    @type text: C(list)
    @rtype: C(list)
    '''
    # 形態素解析
    header = '表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音'
    parse = MeCab.Tagger().parse(text)
    
    lines = list()
    lines.append(header)
    lines.extend(parse.split('\n'))
    items = [re.split('[\t,]', line) for line in lines if len(re.split('[\t,]', line)) == 10]
    
    # 結果を出力する
    return items

def GetParsesPart(text, index):
    '''
    outline : 
    input : text, index
    output : list(string)
    '''
    parts = [wordParse[index] for wordParse in Parses(text)]
    del parts[0] # header情報の削除
    return parts

def SplitWord(text):
    '''
    outline : 
    input : text
    output : list(string)
    '''
    return GetParsesPart(text, 0)

def SplitClass(text):
    '''
    outline : 
    input : text
    output : list(string)
    '''
    return GetParsesPart(text, 1)

textFile = open('txt\{0}.txt'.format('洗剤'), mode='r', encoding='utf-8')
line = textFile.readline()
while line:
   print(line.strip())
   line = textFile.readline()
textFile.close()

洗剤（せんざい、独:Reinigungsmittel、英:Detergent）は、衣類や食器、人体や機械などの洗浄を目的とした、界面活性剤を主成分とする製品である。
#用途にてシャンプー、ハンドソープなど各種の個別の洗剤について一覧がある。
目次1成分2種類3ヒトに対する影響4排水問題5対象用途6代替品7脚注8関連項目9外部リンク成分[編集]親水基と疎水基（親油基）をもち、水に溶けにくい汚れをつつみこんで水などの溶媒中に分散させる効果などがある界面活性剤と、水の状態を界面活性剤が働くのに適した状態にする補助的な成分などからなる。
補助的な成分は洗剤の用途にもよるが、カルシウムイオンやマグネシウムイオンなどの金属イオンを除去するEDTAなどのキレート剤（金属封鎖剤）やpH調整剤、塩分、土類などがある（=>ビルダー）。
このほかにタンパク質や脂質、糖質を分解する目的で、衣料用洗剤（独:Waschmittel、英:Laundry detergent）や食器用洗剤（独:Geschirrspülmittel、英:Dishwashing liquid）には用途に応じた酵素（プロテアーゼ、リパーゼ、アミラーゼ、セルラーゼなど）が含まれていることがある。
また、用途により香料が含まれているものもある。
種類[編集]洗剤は、その洗浄作用に寄与する界面活性剤の種類に応じて、法的に区分されている。
家庭用品品質表示法による雑貨工業品品質表示規程により、次のように定義されている。
合成洗剤[1]「対象となるものは、主な洗浄作用が純石けん分以外の界面活性剤の働きによるもので、研磨材を含むもの及び化粧品は除きます。
」「洗濯用又は台所用の石けん[2]「対象となるものは、主な洗浄作用が純石けん分の界面活性作用によるもので、研磨材を含むものは除きます。
」天然油脂を鹸化して作る石鹸も界面活性剤の一種で、鹸化という化学反応プロセスを経て生産され、化学物質名称は脂肪酸塩である。
純石鹸以外の界面活性剤は、天然油脂と石油を原料としている。
身体に塗擦されるものは、化粧品として医薬品医療機器等法で規制されているヒトに対する影響[編集]台所用洗剤現在使用されている洗剤は、肝臓で分解できるものが多く、分解できない分は体外に排出され、蓄積性はないといわれている。
しかし、その排出にかかる時間は非常に長い。
ほん

## txtファイルへの保存

***

In [3]:
hostName = 'https://ja.wikipedia.org/wiki/'
targetNames = ['洗剤', 'ウィキペディア', '日本語', 'マスク', 'スプレー', '本', '会社', 'パソコン', '鞄', '生物']

print('実行中')
for targetName in targetNames:
    textFileName = 'txt\{0}.txt'.format(targetName)
    bs = HTMLText(GetUrlText(hostName, targetName))
    text = re.sub(r'\n+', '\n', bs.find('div', {'class':'mw-parser-output'}).get_text(strip=True))
    textFile = open(textFileName, mode='w', encoding='utf-8')
    
    for line in re.split(r'。', text):
    # for line in re.split(r'\n', text):
        textFile.write('{0}。\n'.format(line))
    textFile.close()
    
print('テキストファイルを作成しました。テキストファイル名: {0}'.format(', '.join(targetNames))) 

実行中
テキストファイルを作成しました。テキストファイル名: 洗剤, ウィキペディア, 日本語, マスク, スプレー, 本, 会社, パソコン, 鞄, 生物


In [None]:
# pairList = [[argWord, argClass] for (argWord, argClass) in zip(SplitWord(text), SplitClass(text))]
# print(pairList[:5])
# 
# classes = set()
# targets = set()
# 
# for item in [pair[1] for pair in pairList]:
#     classes.add(item)
# print(classes)
# 
# for item in [pair[0] for pair in pairList if pair[1] == '副詞']:
#     targets.add(item)
# print(targets)
# 
# for sentence in re.split(r'。', text):
#     print(sentence + '。')