In [1]:
import requests
import re
import unicodedata
    
    
def join_list_of_dict_item(l: list, key: str):
    ''' input:  l = [{"name": "Ian"}, {"name": "Wang"}]
                key = 'name'
        output: "Ian、Wang"
    '''
    dict_item_list = [d[key] for d in l]
    return '、'.join(dict_item_list)


def join_list_of_element(l: list) -> str:
    ''' input:  ["A", "B", "C"]
        output: "A、B、C"
    '''
    return '、'.join(l)



def convert_full_width_to_half_width(text: str) -> str:
    ''' convert full-width character to half-width one, such as "Ａ" to "A"
    '''
    text = unicodedata.normalize('NFKC', text)
    return text


def remove_unicode_text(text: str) -> str:
    text = text.replace('\xa0', '')
    text = text.replace('\u3000', '')
    text = text.replace('\r', '')
    return text


def remove_extra_newline(text: str) -> str:
    text = re.sub('\n+', '\n', text)
    return text

    
def clean_text(text: str) -> str:
    text = convert_full_width_to_half_width(text)
    text = remove_unicode_text(text)
    text = remove_extra_newline(text)
    return text
    

In [2]:
company_id = 'at3fhmo'
url = 'https://www.104.com.tw/company/ajax/content/{}'.format(company_id)
url

'https://www.104.com.tw/company/ajax/content/at3fhmo'

In [3]:
headers = {
    'Referer': url
}

In [4]:
response = requests.get(url, headers=headers)
response

<Response [200]>

In [5]:
import json
j = json.loads(clean_text(response.text))

In [6]:
item = {}
item['company_page'] = j
item['company_page']

{'data': {'custSwitch': 'on',
  'custName': 'GARMIN_台灣國際航電股份有限公司',
  'custNo': 23527104000,
  'industryDesc': '電信相關業',
  'indcat': '衛星導航/電子電機/行動通訊/資訊軟體',
  'empNo': '6000人',
  'capital': '78億',
  'address': '新北市汐止區樟樹二路68號',
  'custLink': 'http://www.garmin.com.tw',
  'profile': '【GPS 領導廠商】 Garmin，全球衛星定位系統產業的龍頭！自1989年成立以來，在航空、航海、汽車導航、戶外運動與健身休閒等五大應用領域，全球佔有率均是第一名，2012年銷售超過1億台的GPS衛星定位及通訊產品，2018年更是到達累積銷售2億台之里程碑。Garmin秉持「創新研發、豐富大家生活」的精神，以產品幫助許多人完成不同領域的旅程記憶。除了執著研發上的專業，產品更強調人性化的操作介面，不管哪一個領域，都希望開發出讓使用者快速上手的產品。Garmin於2000年在美國NASDAQ公開上市，2004 成為 NASDAQ100 指數中之高科技指標公司，2012年12月榮獲美國標準普爾500指數指名成為成份股股票之高科技指標公司。過去數年更榮獲富比士評選為全球兩千大之一。 \n\n【技術持續創新】 Garmin面對快速變動的市場，積極推動產品與技術的創新，體現在航空的整合性儀表板研發及航海產品等，到近期的穿戴式裝置。 我們擁有各項技術整合能力，包含GPS晶片組軟／硬體核心，GPS產品開發、電子地圖技術、無線電傳輸、行動電視、慣性導航、語音合成及辨識、數位路況廣播、雷達、聲納、AutoPilot、液晶模組技術及智慧型手機導航軟體及伺服器應用等。在這些領域裡都以卓越的技術成就推出傲視全球的GPS產品，成為世界的領導品牌。 \n\n【亞洲研發中心】Garmin 的臺灣團隊肩負百分之九十五的生產製造任務，近年來臺灣更發展為亞洲研發中心。我們深耕這塊土地並且持續擴大研發團隊規模，現階段需要更多學界技術能量以及研發人才的加入，持續創造Garmin 連續營收與獲利成長的奇蹟，進而提升臺灣新興科技產業的動能。在Garmin，您有

In [7]:
item['company_page']['data']

{'custSwitch': 'on',
 'custName': 'GARMIN_台灣國際航電股份有限公司',
 'custNo': 23527104000,
 'industryDesc': '電信相關業',
 'indcat': '衛星導航/電子電機/行動通訊/資訊軟體',
 'empNo': '6000人',
 'capital': '78億',
 'address': '新北市汐止區樟樹二路68號',
 'custLink': 'http://www.garmin.com.tw',
 'profile': '【GPS 領導廠商】 Garmin，全球衛星定位系統產業的龍頭！自1989年成立以來，在航空、航海、汽車導航、戶外運動與健身休閒等五大應用領域，全球佔有率均是第一名，2012年銷售超過1億台的GPS衛星定位及通訊產品，2018年更是到達累積銷售2億台之里程碑。Garmin秉持「創新研發、豐富大家生活」的精神，以產品幫助許多人完成不同領域的旅程記憶。除了執著研發上的專業，產品更強調人性化的操作介面，不管哪一個領域，都希望開發出讓使用者快速上手的產品。Garmin於2000年在美國NASDAQ公開上市，2004 成為 NASDAQ100 指數中之高科技指標公司，2012年12月榮獲美國標準普爾500指數指名成為成份股股票之高科技指標公司。過去數年更榮獲富比士評選為全球兩千大之一。 \n\n【技術持續創新】 Garmin面對快速變動的市場，積極推動產品與技術的創新，體現在航空的整合性儀表板研發及航海產品等，到近期的穿戴式裝置。 我們擁有各項技術整合能力，包含GPS晶片組軟／硬體核心，GPS產品開發、電子地圖技術、無線電傳輸、行動電視、慣性導航、語音合成及辨識、數位路況廣播、雷達、聲納、AutoPilot、液晶模組技術及智慧型手機導航軟體及伺服器應用等。在這些領域裡都以卓越的技術成就推出傲視全球的GPS產品，成為世界的領導品牌。 \n\n【亞洲研發中心】Garmin 的臺灣團隊肩負百分之九十五的生產製造任務，近年來臺灣更發展為亞洲研發中心。我們深耕這塊土地並且持續擴大研發團隊規模，現階段需要更多學界技術能量以及研發人才的加入，持續創造Garmin 連續營收與獲利成長的奇蹟，進而提升臺灣新興科技產業的動能。在Garmin，您有機會與世界各國頂尖的人才合作，跨文化

[]

In [8]:
parsed_item = {}

# 產業描述
parsed_item['industry_desc'] = item['company_page']['data']['industryDesc']

# 產業類別
parsed_item['industry_cat'] = item['company_page']['data']['indcat']

# 員工人數
parsed_item['emp_count_desc'] = item['company_page']['data']['empNo']

# 資本額
parsed_item['capital'] = item['company_page']['data']['capital']

# 公司介紹
parsed_item['profile'] = item['company_page']['data']['profile']

# 主要商品
parsed_item['product'] = item['company_page']['data']['product']

# 經營理念
parsed_item['management'] = item['company_page']['data']['management']

# 福利介紹
parsed_item['welfare'] = item['company_page']['data']['welfare']

# 福利標籤
parsed_item['welfare_tag'] = join_list_of_element(item['company_page']['data']['tagNames'])

# 法定標籤
parsed_item['legal_tag'] = join_list_of_element(item['company_page']['data']['legalTagNames'])

# 公司縣市
parsed_item['company_addr_dist'] = item['company_page']['data']['addrNoDesc']

# 公司地點
parsed_item['company_addr'] = item['company_page']['data']['address']


parsed_item

{'industry_desc': '電信相關業',
 'industry_cat': '衛星導航/電子電機/行動通訊/資訊軟體',
 'emp_count_desc': '6000人',
 'capital': '78億',
 'profile': '【GPS 領導廠商】 Garmin，全球衛星定位系統產業的龍頭！自1989年成立以來，在航空、航海、汽車導航、戶外運動與健身休閒等五大應用領域，全球佔有率均是第一名，2012年銷售超過1億台的GPS衛星定位及通訊產品，2018年更是到達累積銷售2億台之里程碑。Garmin秉持「創新研發、豐富大家生活」的精神，以產品幫助許多人完成不同領域的旅程記憶。除了執著研發上的專業，產品更強調人性化的操作介面，不管哪一個領域，都希望開發出讓使用者快速上手的產品。Garmin於2000年在美國NASDAQ公開上市，2004 成為 NASDAQ100 指數中之高科技指標公司，2012年12月榮獲美國標準普爾500指數指名成為成份股股票之高科技指標公司。過去數年更榮獲富比士評選為全球兩千大之一。 \n\n【技術持續創新】 Garmin面對快速變動的市場，積極推動產品與技術的創新，體現在航空的整合性儀表板研發及航海產品等，到近期的穿戴式裝置。 我們擁有各項技術整合能力，包含GPS晶片組軟／硬體核心，GPS產品開發、電子地圖技術、無線電傳輸、行動電視、慣性導航、語音合成及辨識、數位路況廣播、雷達、聲納、AutoPilot、液晶模組技術及智慧型手機導航軟體及伺服器應用等。在這些領域裡都以卓越的技術成就推出傲視全球的GPS產品，成為世界的領導品牌。 \n\n【亞洲研發中心】Garmin 的臺灣團隊肩負百分之九十五的生產製造任務，近年來臺灣更發展為亞洲研發中心。我們深耕這塊土地並且持續擴大研發團隊規模，現階段需要更多學界技術能量以及研發人才的加入，持續創造Garmin 連續營收與獲利成長的奇蹟，進而提升臺灣新興科技產業的動能。在Garmin，您有機會與世界各國頂尖的人才合作，跨文化的經驗將提升您的視野與實力，歡迎您與我們共同站上世界的舞台!',
 'product': 'Garmin 致力於全球衛星定位系統 (GPS) 及通訊產品之研發、製造及銷售。我們擁有完整且多樣化的產品線，包含航空、航海、車用、戶外休閒、運動健身五大市場領域，及智慧型手機應

In [44]:
def get_language_requirement(language_list):
    if len(language_list) == 0:
        return ''
    
    required_lang_list = []
    for lang in language_list:
        if '精通' in lang['ability']:
            required_lang_list.append(lang['language'])
    return '、'.join(required_lang_list)

get_language_requirement(item['job_page']['data']['condition']['language'])


'英文'