# 爬取上市股票 - TSE

In [1]:
#import套件，可將pandas簡寫成pd，呼叫函數pd.xxx而不需pandas.xx
import pandas as pd
import requests
#加入headers
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"   
    }
#對網站進行requests，並加入指定的headers一同請求
html_data = requests.get("https://isin.twse.com.tw/isin/C_public.jsp?strMode=2",headers=headers)

#使用pandas的read_html處理表格式
x = pd.read_html(html_data.text)

#list取出list裡面的第一個元素，就是我們的Dataframe
x = x[0]

#pandas的好用函數iloc切片，我們指定dataframe的欄位為第一列
x.columns  = x.iloc[0,:]

#欄位雖然變成了正確的，但本來的那一列仍然存在，我們把它拿掉
x = x.iloc[1:,:]

#使用split方法，以兩個空白切割字串，並取切割完後第一個，儲存至新增的代號欄位
x['代號'] = x['有價證券代號及名稱'].apply(lambda x: x.split()[0])

#使用split方法，以兩個空白切割字串，並取切割完後第一個，儲存至新增的股票名稱欄位
x['股票名稱'] = x['有價證券代號及名稱'].apply(lambda x: x.split()[-1])

#善用to_datetime函數，並將無法轉成datetime的資料化為Nan
x['上市日'] = pd.to_datetime(x['上市日'], errors='coerce')

#把上市日的Nan去掉即可
x = x.dropna(subset=['上市日'])

#Drop掉不要的欄位
x = x.drop(['有價證券代號及名稱', '國際證券辨識號碼(ISIN Code)', 'CFICode','備註'], axis=1)

#更換剩餘的欄位順序
x = x[['代號','股票名稱', '上市日', '市場別', '產業別']]

#Drop掉產業別是空的欄位
x = x.dropna(subset=['產業別'])

#pandas的str.isdigit()函數，確認是不是為數字
x = x[x["代號"].str.isdigit()]

#印出x來看
print(x)

#儲存成excel, csv
save_file_path = ''
# x.to_excel(save_file_path + '/formal_TSE_list.xlsx')
# x.to_csv(save_file_path + '/formal_TSE_list.csv')
x.to_csv(save_file_path + 'formal_TSE_list.csv')

0      代號  股票名稱        上市日 市場別    產業別
2    1101    台泥 1962-02-09  上市   水泥工業
3    1102    亞泥 1962-06-08  上市   水泥工業
4    1103    嘉泥 1969-11-14  上市   水泥工業
5    1104    環泥 1971-02-01  上市   水泥工業
6    1108    幸福 1990-06-06  上市   水泥工業
..    ...   ...        ...  ..    ...
960  9944    新麗 2002-08-26  上市    其他業
961  9945   潤泰新 1992-04-30  上市    其他業
962  9946  三發地產 2013-09-17  上市  建材營造業
963  9955    佳龍 2008-01-21  上市    其他業
964  9958   世紀鋼 2008-03-12  上市   鋼鐵工業

[963 rows x 5 columns]


# 爬取上櫃股票 - OTC

In [2]:
#import套件，可將pandas簡寫成pd，呼叫函數pd.xxx而不需pandas.xx
import pandas as pd
import requests
#加入headers
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"   
    }
#對網站進行requests，並加入指定的headers一同請求
html_data = requests.get("https://isin.twse.com.tw/isin/C_public.jsp?strMode=4",headers=headers)

#使用pandas的read_html處理表格式
x = pd.read_html(html_data.text)

#list取出list裡面的第一個元素，就是我們的Dataframe
x = x[0]

#pandas的好用函數iloc切片，我們指定dataframe的欄位為第一列
x.columns  = x.iloc[0,:]

#欄位雖然變成了正確的，但本來的那一列仍然存在，我們把它拿掉
x = x.iloc[1:,:]

#使用split方法，以兩個空白切割字串，並取切割完後第一個，儲存至新增的代號欄位
x['代號'] = x['有價證券代號及名稱'].apply(lambda x: x.split()[0])

#使用split方法，以兩個空白切割字串，並取切割完後第一個，儲存至新增的股票名稱欄位
x['股票名稱'] = x['有價證券代號及名稱'].apply(lambda x: x.split()[-1])

#善用to_datetime函數，並將無法轉成datetime的資料化為Nan
x['上市日'] = pd.to_datetime(x['上市日'], errors='coerce')

#把上市日的Nan去掉即可
x = x.dropna(subset=['上市日'])

#Drop掉不要的欄位
x = x.drop(['有價證券代號及名稱', '國際證券辨識號碼(ISIN Code)', 'CFICode','備註'], axis=1)

#更換剩餘的欄位順序
x = x[['代號','股票名稱', '上市日', '市場別', '產業別']]

#Drop掉產業別是空的欄位
x = x.dropna(subset=['產業別'])

#pandas的str.isdigit()函數，確認是不是為數字
x = x[x["代號"].str.isdigit()]

#印出x來看
print(x)

#儲存成excel, csv
# save_file_path = 'finance'
save_file_path = ''
# x.to_excel(save_file_path + '/formal_OTC_list.xlsx')
# x.to_csv(save_file_path + '/formal_OTC_list.csv')

x.to_csv(save_file_path + 'formal_OTC_list.csv')

0       代號   股票名稱        上市日 市場別    產業別
7753  1240   茂生農經 2018-08-08  上櫃  農業科技業
7754  1258  其祥-KY 2011-12-12  上櫃   食品工業
7755  1259     安心 2011-12-15  上櫃   觀光事業
7756  1264     德麥 2015-04-09  上櫃   食品工業
7757  1268   漢來美食 2017-09-27  上櫃   觀光事業
...    ...    ...        ...  ..    ...
8540  9949     琉園 2003-11-21  上櫃  文化創意業
8541  9950    萬國通 2004-02-17  上櫃   塑膠工業
8542  9951     皇田 2003-12-18  上櫃   電機機械
8543  9960    邁達康 2004-12-06  上櫃  貿易百貨業
8544  9962     有益 2006-07-10  上櫃   鋼鐵工業

[792 rows x 5 columns]


# 將股票帶號丟進來去取股票名稱

In [3]:
import pandas as pd

class stock:
    def __init__(self):
        self.TSE_list = 'formal_TSE_list.csv'
        self.OTC_list = 'formal_OTC_list.csv'

    
    def check_stock_id(self, file_name, stock_id):
        df = pd.read_csv(file_name).drop(['Unnamed: 0'], axis = 1)
        stock_name = df[df['代號'] == stock_id].values[0][1]
        return stock_name

    
    def get_stock_name(self, stock_id):   
        isTSE = False
        isOTC = False

        try:  # 確認是否在TSE
            stock_name = self.check_stock_id(self.TSE_list, stock_id)
            isTSE = True
        except:
            pass

        if isTSE == False :
            try:  # 確認是否在OTC
                stock_name = self.check_stock_id(self.OTC_list, stock_id)
                isOTC = True
            except:
                stock_name = 'Don\'t have this stock'
        return stock_name

    
    
if __name__ == '__main__':  # 內容只會在main的文本檔執行
     
    stock_list = [2330,3707,9999,1101]
    S=stock() 
    for stock_id in stock_list:        
        stock_name = S.get_stock_name(stock_id)
        print(f'{stock_id}:{stock_name}')
        

2330:台積電
3707:漢磊
9999:Don't have this stock
1101:台泥
