In [18]:
from selenium import webdriver  # 操作 browser 的 API
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait  # 面對動態網頁，等待某個元素出現的工具，通常與 exptected_conditions 搭配
from selenium.webdriver.support import expected_conditions as EC  # 搭配 WebDriverWait 使用，對元素狀態的一種期待條件，若條件發生，則等待結束，往下一行執行
from selenium.webdriver.common.by import By  # 期待元素出現要透過什麼方式指定，通常與 EC、WebDriverWait 一起使用
from selenium.webdriver.chrome.service import Service
from time import sleep  # 強制等待 (執行期間休息一下)

import pandas as pd
import numpy as np
import json  # 整理 json 使用的工具
import os, csv, re  # 執行 command 的時候用的

# 開始爬蟲    
# 啟動瀏覽器工具的選項
options = webdriver.ChromeOptions()
# options.add_argument("--headless")              # 不開啟實體瀏覽器背景執行
options.add_argument("--start-maximized")         # 最大化視窗
options.add_argument("--incognito")               # 開啟無痕模式
options.add_argument("--disable-popup-blocking ") # 禁用彈出攔截

# 使用 Chrome 的 WebDriver (含 options)
driver_path=Service('D:/chromedriver.exe')
driver=webdriver.Chrome(service=driver_path,options=options)
aveEpsth = ['公司名稱','職稱','姓名', '選任時持股', '目前持股', '設質股數', '設質股數佔持股比','目前持股合計','設質股數', '設質比例']
aveNum=len(aveEpsth)-1    

# 清洗資料
def clear_datas_fn():
    df=pd.read_csv(r'Csvs/companyEPS.csv',encoding='utf-8') # ,encoding='utf-8' 如果無法讀要先用txt轉檔
    # https://www.796t.com/post/MjJid3M=.html
    print("info():",df.info())
    print(df)

    # 消除數字間的逗號 
    df['稅後淨利']=df['稅後淨利'].str.replace(',','')
    print(df['稅後淨利'])

    # 將型態object轉成int64 並填空缺失值維0 
    df['稅後淨利']=pd.to_numeric(df['稅後淨利'], errors='coerce').fillna('0').astype('int64')  # errors='coerce'將無效解析設置為NaN
    print(df['稅後淨利'])

    # 篩選需要的數據 有淨賺>0(單位千元)的公司
    filt = df['稅後淨利']>=0
    print(df.loc[filt])

    # data.loc可提取指定行數據 並印出想要的列
    df_all=df.loc[filt, ['公司代號', '公司名稱', '稅後淨利']]

    # 刪除重複欄位
    df_all = df_all.drop_duplicates(subset='公司代號')

    # 刪除缺失值
    df_all=df_all.dropna()
    print("刪除缺失值後:",len(df_all))

    df_all.to_csv('Csvs/companyEPS_new.csv', index=False)

def visit():
    global writeCount
    # 前往指定連結
    url ='https://mops.twse.com.tw/mops/web/stapap1'    
    a=0
    writeCount=0
    driver.get(url)  
    f=open("Csvs/companyEPS_new.csv",encoding="utf8") 
    
    readCsv=pd.read_csv(f)
    dfCsv=pd.DataFrame(readCsv)
    
    df_ch=dfCsv['公司代號'].values.tolist()
    df_name=dfCsv['公司名稱'].values.tolist()
    
    print(len(df_ch))
        
    for ch in df_ch:
        # 每次搜尋一家公司 爬取完並直接寫入csv
        search(ch)
        a+=1
        print(f'第{a}筆')  # 計算正在爬取第幾筆公司
        print(ch)
        downloadData(ch,df_name)
        writeCount+=1
        #print(tdContent)
        
        #清空值
        driver.find_element(By.CSS_SELECTOR, "input[name='co_id'].textbox").clear()
            
        if a == len(df_ch):            
            print("-------------")
            print("爬蟲結束")     
    
def search(ch): #search(df)
       
    txtInput = driver.find_element(By.CSS_SELECTOR, "input[name='co_id'].textbox")
    txtInput.send_keys(ch)
    sleep(3)
    
    btnInput = driver.find_element(By.CSS_SELECTOR, "div.search input[type='button']")
    btnInput.click()
    sleep(3)
    

def downloadData(ch,df_name):

    global th1,th2, tdContent1,tdContent2,thText,pp 
    
    thText=["公司名稱"]
    
    td1 = driver.find_elements(By.CSS_SELECTOR, "table.hasBorder tbody tr.odd td")  # html內基數行
    td2 = driver.find_elements(By.CSS_SELECTOR, "table.hasBorder tbody tr.even td")  # html內偶數行
           
    tdContent1 = [n.get_attribute('innerHTML').strip() for n in td1]
    tdContent2 = [n.get_attribute('innerHTML').strip() for n in td2]    

    th1 = tdContent1[:aveNum]
    th2 = tdContent2[:aveNum]    
    
    for j in thText:
        th1.insert(0, j)
        th2.insert(0, j)
        print("**************")
        print(th1)
        print(th2)
    print("*&&&&&&&&&&&&&&&&*")
    print(df_name[0])
        
    saveCsv(ch,df_name)
    
def saveCsv(ch,df_name):
    folderPath = 'Csvs'
    if not os.path.exists(folderPath):
        os.makedirs(folderPath)
            
    with open(f"{folderPath}/company_presidents_datas.csv", 'a', newline = '', encoding = 'utf-8') as csvfile:
        writer = csv.writer(csvfile)
        if writeCount == 0:
            writer.writerow(aveEpsth)
        
        print(len(tdContent1))
        print(len(tdContent2))  
        print("###############")
        print(ch)
        
        # 
        for i in range(0, len(tdContent1),aveNum):
            # 取每行數量為標題數量 寫入csv          
            c1 = tdContent1[i:i+aveNum]
            c2 = tdContent2[i:i+aveNum]
            
            # 因為不確定每個表格的基數偶數的行數量 所以用=0表示無此行
            if len(c1)==0 or len(c2)==0:
                print("沒有此行")
            else:   
                thText=str(ch)+' '+df_name[writeCount]  # df_name是list 用索引取公司名稱
                c1.insert(0, thText)   # 把公司名稱加到第一行 才能分辨下載的是那些公司
                c2.insert(0, thText)
                writer.writerow(c1)    # 每次寫入一行 直到整頁寫完
                writer.writerow(c2)
            
            print("((((((((()))))))))")   
            print(c1)
            print(c2)
        
    csvfile.close()
    
if __name__ == '__main__':
    clear_datas_fn()
    visit()
    
driver.quit()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63958 entries, 0 to 63957
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   市場         63958 non-null  object 
 1   季度         63958 non-null  int64  
 2   公司代號       63958 non-null  object 
 3   公司名稱       63897 non-null  object 
 4   產業別        63958 non-null  object 
 5   基本每股盈餘(元)  63958 non-null  float64
 6   普通股每股面額    63958 non-null  object 
 7   營業收入       63958 non-null  object 
 8   營業利益       63958 non-null  object 
 9   營業外收入及支出   63958 non-null  object 
 10  稅後淨利       63958 non-null  object 
dtypes: float64(1), int64(1), object(9)
memory usage: 5.4+ MB
info(): None
         市場     季度  公司代號              公司名稱   產業別  基本每股盈餘(元)  \
0        上市  10201  1102        亞洲水泥股份有限公司  水泥工業       0.40   
1        上市  10201  1101        台灣水泥股份有限公司  水泥工業       0.38   
2        上市  10201  1104        環球水泥股份有限公司  水泥工業       0.30   
3        上市  10201  1108        幸福水泥股份有限公司  

第2筆
1101
**************
['公司名稱', '董事長本人', '嘉利實業股份有限公司', '3,032,923', '3,032,923', '0', '0.00%', '0', '0', '0.00%']
['公司名稱', '董事長之法人代表人', '張安平', '0', '2,188,553', '0', '0.00%', '4,181,917', '0', '0.00%']
*&&&&&&&&&&&&&&&&*
亞洲水泥股份有限公司
252
252
###############
1101
1: 1101
2: 1
3: ['亞洲水泥股份有限公司', '台灣水泥股份有限公司', '環球水泥股份有限公司', '幸福水泥股份有限公司', '嘉新水泥股份有限公司', '東南水泥股份有限公司', '信大水泥股份有限公司', '鮮活控股股份有限公司', '大統益股份有限公司', '佳格食品股份有限公司', '聯華食品工業股份有限公司', '天仁茶業股份有限公司', '統一企業股份有限公司', '南僑投資控股股份有限公司', '宏亞食品股份有限公司', '味全食品工業股份有限公司', '大成長城企業股份有限公司', '味王股份有限公司', '台灣卜蜂企業股份有限公司', '聯華實業投資控股股份有限公司', '黑松股份有限公司', '大西洋飲料股份有限公司', '臺鹽實業股份有限公司', '福懋油脂股份有限公司', '台榮產業股份有限公司', '愛之味股份有限公司', '泰山企業股份有限公司', '福壽實業股份有限公司', '興泰實業股份有限公司', '台灣化學纖維股份有限公司', '亞洲塑膠再生資源控股有限公司', '台灣塑膠工業股份有限公司', '南亞塑膠工業股份有限公司', '華夏海灣塑膠股份有限公司', '炎洲股份有限公司', '永裕塑膠工業股份有限公司', '三芳化學工業股份有限公司', '亞洲聚合股份有限公司', '台灣聚合化學品股份有限公司', '恒大股份有限公司', '地球綜合工業股份有限公司', '國喬石油化學股份有限公司', '台達化學工業股份有限公司', '聯成化學科技股份有限公司', '台灣苯乙烯工業股份有限公司', '達新工業股份有限公司', '大洋塑膠工業股份有限公司', '勝悅新材料有限公司', '中國石油化學工業開發(股

第3筆
1104
**************
['公司名稱', '董事長本人', '博智投資股份有限公司', '27,893,282', '27,893,282', '0', '0.00%', '0', '0', '0.00%']
['公司名稱', '董事長之法人代表人', '侯博義', '0', '50,888,251', '0', '0.00%', '22,393,735', '0', '0.00%']
*&&&&&&&&&&&&&&&&*
亞洲水泥股份有限公司
99
90
###############
1104
1: 1104
2: 2
3: ['亞洲水泥股份有限公司', '台灣水泥股份有限公司', '環球水泥股份有限公司', '幸福水泥股份有限公司', '嘉新水泥股份有限公司', '東南水泥股份有限公司', '信大水泥股份有限公司', '鮮活控股股份有限公司', '大統益股份有限公司', '佳格食品股份有限公司', '聯華食品工業股份有限公司', '天仁茶業股份有限公司', '統一企業股份有限公司', '南僑投資控股股份有限公司', '宏亞食品股份有限公司', '味全食品工業股份有限公司', '大成長城企業股份有限公司', '味王股份有限公司', '台灣卜蜂企業股份有限公司', '聯華實業投資控股股份有限公司', '黑松股份有限公司', '大西洋飲料股份有限公司', '臺鹽實業股份有限公司', '福懋油脂股份有限公司', '台榮產業股份有限公司', '愛之味股份有限公司', '泰山企業股份有限公司', '福壽實業股份有限公司', '興泰實業股份有限公司', '台灣化學纖維股份有限公司', '亞洲塑膠再生資源控股有限公司', '台灣塑膠工業股份有限公司', '南亞塑膠工業股份有限公司', '華夏海灣塑膠股份有限公司', '炎洲股份有限公司', '永裕塑膠工業股份有限公司', '三芳化學工業股份有限公司', '亞洲聚合股份有限公司', '台灣聚合化學品股份有限公司', '恒大股份有限公司', '地球綜合工業股份有限公司', '國喬石油化學股份有限公司', '台達化學工業股份有限公司', '聯成化學科技股份有限公司', '台灣苯乙烯工業股份有限公司', '達新工業股份有限公司', '大洋塑膠工業股份有限公司', '勝悅新材料有限公司', '中國石油化學工業開發

第4筆
1108


WebDriverException: Message: chrome not reachable
  (Session info: chrome=100.0.4896.127)
Stacktrace:
Backtrace:
	Ordinal0 [0x01047413+2389011]
	Ordinal0 [0x00FD9F61+1941345]
	Ordinal0 [0x00ECC520+836896]
	Ordinal0 [0x00EC0682+788098]
	Ordinal0 [0x00EC0EB8+790200]
	Ordinal0 [0x00EC2752+796498]
	Ordinal0 [0x00EBC0D9+770265]
	Ordinal0 [0x00ECD9D0+842192]
	Ordinal0 [0x00F23AE2+1194722]
	Ordinal0 [0x00F13F66+1130342]
	Ordinal0 [0x00EEE546+976198]
	Ordinal0 [0x00EEF456+980054]
	GetHandleVerifier [0x011F9632+1727522]
	GetHandleVerifier [0x012ABA4D+2457661]
	GetHandleVerifier [0x010DEB81+569713]
	GetHandleVerifier [0x010DDD76+566118]
	Ordinal0 [0x00FE0B2B+1968939]
	Ordinal0 [0x00FE5988+1989000]
	Ordinal0 [0x00FE5A75+1989237]
	Ordinal0 [0x00FEECB1+2026673]
	BaseThreadInitThunk [0x7643FA29+25]
	RtlGetAppContainerNamedObjectPath [0x77447A7E+286]
	RtlGetAppContainerNamedObjectPath [0x77447A4E+238]
