# TPEx CB Daily 數據分析報告

針對 data/clean/daily/tpex_cb_daily_20240307.csv 進行 Profiling 與 Schema 建議

In [1]:
import pandas as pd
df = pd.read_csv('../data/clean/daily/tpex_cb_daily_20240307.csv')
df.head()

Unnamed: 0,日期,代號,名稱,交易,收市,漲跌,開市,最高,最低,筆數,單位,金額,均價,明日參價,明日漲停,明日跌停
0,2024-03-07,13164.0,上曜四,等價,170.0,-2.0,182.0,189.0,165.0,195.0,334.0,61301000.0,183.53,170.0,187.0,153.0
1,2024-03-07,,,議價,,,,,,,,,,,,
2,2024-03-07,13381.0,廣華一KY,等價,,,,,,,,,99.8,99.8,109.75,89.85
3,2024-03-07,,,議價,,,,,,,,,,,,
4,2024-03-07,13382.0,廣華二KY,等價,105.8,-0.7,105.8,105.8,105.8,2.0,5.0,529000.0,105.8,105.8,116.35,95.25


## 欄位型態、缺值、重複資料檢查

In [2]:
df.info()
print('\n缺值統計:')
print(df.isnull().sum())
print('\n重複資料筆數:', df.duplicated().sum())

<class 'pandas.DataFrame'>
RangeIndex: 601 entries, 0 to 600
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   日期      601 non-null    str    
 1   代號      301 non-null    str    
 2   名稱      300 non-null    str    
 3   交易      600 non-null    str    
 4   收市      217 non-null    float64
 5   漲跌      182 non-null    float64
 6   開市      211 non-null    float64
 7   最高      217 non-null    float64
 8   最低      217 non-null    float64
 9   筆數      218 non-null    float64
 10  單位      218 non-null    float64
 11  金額      218 non-null    float64
 12  均價      300 non-null    float64
 13  明日參價    300 non-null    float64
 14  明日漲停    300 non-null    float64
 15  明日跌停    300 non-null    float64
dtypes: float64(12), str(4)
memory usage: 75.3 KB

缺值統計:
日期        0
代號      300
名稱      301
交易        1
收市      384
漲跌      419
開市      390
最高      384
最低      384
筆數      383
單位      383
金額      383
均價      301
明日參價    301
明日漲停    301
明日跌

## 異常值檢查（如 High < Low, Volume 為 0 等）

In [3]:
if 'High' in df.columns and 'Low' in df.columns:
    print('High < Low 筆數:', (df['High'] < df['Low']).sum())
if 'Volume' in df.columns:
    print('Volume 為 0 筆數:', (df['Volume'] == 0).sum())

## Schema 建議（自動產生）

In [4]:
schema = []
for col, dtype in zip(df.columns, df.dtypes):
    if dtype == 'object':
        sql_type = 'VARCHAR(64)'
    elif 'float' in str(dtype):
        sql_type = 'FLOAT'
    elif 'int' in str(dtype):
        sql_type = 'INT'
    else:
        sql_type = 'TEXT'
    schema.append(f'`{col}` {sql_type}')
print('建議 SQL Table 定義:')
print('CREATE TABLE tpex_cb_daily (\n  ' + ',\n  '.join(schema) + '\n);')

建議 SQL Table 定義:
CREATE TABLE tpex_cb_daily (
  `日期` TEXT,
  `代號` TEXT,
  `名稱` TEXT,
  `交易` TEXT,
  `收市` FLOAT,
  `漲跌` FLOAT,
  `開市` FLOAT,
  `最高` FLOAT,
  `最低` FLOAT,
  `筆數` FLOAT,
  `單位` FLOAT,
  `金額` FLOAT,
  `均價` FLOAT,
  `明日參價` FLOAT,
  `明日漲停` FLOAT,
  `明日跌停` FLOAT
);
