### 相關產業 敘述性統計

In [2]:
import pandas as pd

file_path = '104_data_20240501.xlsx'
data = pd.read_excel(file_path)

data.head()

Unnamed: 0,員工人數,最高薪資,最低薪資,工作地區,是否需出差外派,職務內容,工作經歷要求,學歷要求,科系要求,其他條件,擅長工具,相關產業
0,20人,70000.0,35000.0,台中市,需出差，一年累積時間約六個月以下,"1.電控規劃與設計 \n2.電控設備安裝與配線\n3.PLC,HMI軟體設計,開發(台達...",2年以上,專科、大學、碩士,[],,"Windows 7, C#, C++, AutoCAD, PLC",自動控制相關業
1,40人,50000.0,38000.0,台中市,無需出差外派,(1) 熟悉C/C++程式開發\n(2) 熟悉Windows程式開發者尤佳\n(3) 產品功...,不拘,專科以上,[],【加分項目】\n1. 擁有良好的代碼習慣，要求結構清晰，命名規範，邏輯性強，代碼冗餘率低。\...,"C, C++",電腦軟體服務業
2,30人,233333.333333,129166.666667,台北市,無需出差外派,《關於重高》\n我們是一間重視技術與服務的公司，在提升客戶的技術力上有著豐富的經驗。我們鼓勵...,4年以上,專科以上,"['資訊工程相關', '其他數學及電算機科學相關']",You will do really well in this role if you:\n...,"JavaScript, ReactJS, Firebase",電腦軟體服務業
3,20人,120833.333333,83333.333333,日本,無需出差外派,Responsibilities\n1. Add new features to our d...,2年以上,碩士以上,['資訊工程相關'],1. Interested in developing the novel document...,"C#, C++",電腦軟體服務業
4,100人,100000.0,75000.0,台北市,無需出差外派,【Job Description】 \n1. Develop Low latency Tr...,3年以上,大學以上,"['電機電子工程相關', '資訊工程相關']",・Good C programming and debugging skills.\n・Go...,"Linux, C, C++, TCP/IP",電腦軟體服務業


### 薪資區間 - 敘述性統計

In [3]:
# 讀取編碼後的數據
encoded_file_path = 'encoded_data.xlsx'
encoded_data = pd.read_excel(encoded_file_path)


encoded_data.head()

salary_counts = encoded_data['薪資範圍編碼'].value_counts().sort_index()

salary_percentage = encoded_data['薪資範圍編碼'].value_counts(normalize=True).sort_index()

salary_stats = pd.DataFrame({
    '樣本數': salary_counts,
    '百分比 (%)': salary_percentage*100
})

# 重新映射薪資範圍編碼到具體的薪資區間描述
salary_range_mapping = {
    1: '2.73萬~3.26萬',
    2: '3.26萬~3.9萬',
    3: '3.9萬~4.55萬',
    4: '4.55萬~5.45萬',
    5: '5.45萬~6.21萬',
    6: '6.21萬~7.42萬',
    7: '7.42萬~9.3萬',
    8: '9.3萬~12.2萬',
    9: '12.2萬以上'
}
salary_stats.index = salary_stats.index.map(salary_range_mapping)

salary_stats

Unnamed: 0_level_0,樣本數,百分比 (%)
薪資範圍編碼,Unnamed: 1_level_1,Unnamed: 2_level_1
2.73萬~3.26萬,75,3.239741
3.26萬~3.9萬,230,9.935205
3.9萬~4.55萬,506,21.857451
4.55萬~5.45萬,497,21.468683
5.45萬~6.21萬,303,13.088553
6.21萬~7.42萬,263,11.360691
7.42萬~9.3萬,244,10.539957
9.3萬~12.2萬,139,6.00432
12.2萬以上,58,2.5054


### 計算「各技術」在對應「薪資區間編號」出現的頻率

In [25]:
# 讀取編碼後的數據
encoded_file_path = 'tools_encoded_data.xlsx'
encoded_data = pd.read_excel(encoded_file_path)

# 將「擅長工具」欄位的字符串拆分成列表
encoded_data['擅長工具列表'] = encoded_data['擅長工具'].str.split(', ')

# 創建一個空的 DataFrame 來存儲結果
tech_salary_frequency = pd.DataFrame()

# 對於每個薪資區間，計算各技術的出現次數
for salary_range in encoded_data['薪資範圍編碼'].unique():
    # 篩選出該薪資區間的數據
    subset = encoded_data[encoded_data['薪資範圍編碼'] == salary_range]
    # 統計各技術的出現次數
    tech_counts = subset['擅長工具列表'].explode().value_counts()
    # 將結果存儲到 DataFrame
    tech_salary_frequency['薪資區間-' + str(salary_range)] = tech_counts

# 因為不同薪資區間可能有不同的技術集合，使用fillna(0)將缺失值填充為0
tech_salary_frequency.fillna(0, inplace=True)

# 建立一個包含正確順標頭序列名的列表
ordered_columns = ['薪資區間-' + str(i) for i in range(5)]  # 從0到4

# 使薪資區間排序為 0 1 2 3 4 
# tech_salary_frequency = tech_salary_frequency.reindex(ordered_columns)

# 使用 reindex 而不是直接賦值來排序列，確保所有列都存在，即使某些薪資區間沒有數據
tech_salary_frequency = tech_salary_frequency.reindex(columns=ordered_columns, fill_value=0)

# 轉換為整數
tech_salary_frequency = tech_salary_frequency.astype(int)
tech_salary_frequency.head(20)

Unnamed: 0_level_0,薪資區間-0,薪資區間-1,薪資區間-2,薪資區間-3,薪資區間-4
擅長工具列表,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
JavaScript,0,90,376,195,39
Python,0,33,202,95,38
Linux,0,28,119,98,31
C++,0,31,169,94,29
C#,0,87,334,140,28
MySQL,0,42,177,107,26
Java,0,54,168,101,26
Git,0,29,172,131,25
HTML,0,70,278,116,25
Node.js,0,10,56,36,21


### 各區間 技術出現次數 由多至少排序

In [58]:
# 創建一個空的 DataFrame，用於存儲整理後的數據
formatted_tech_salary = pd.DataFrame()

# 遍歷每一個薪資區間的列
for column in tech_salary_frequency.columns:
    if column != '薪資區間-0':
        # 使用 nlargest() 獲取每列的前 20 大頻率的技術
        top_techs = tech_salary_frequency[column].nlargest(20)
        # 將技術名稱和次數組合成一個字符串，格式為 "技術名稱 (次數)"
        formatted_data = top_techs.index + " (" + top_techs.astype(str) + ")"
        # 將這個格式化後的數據作為一個新列添加到 DataFrame
        formatted_tech_salary[column] = pd.Series(formatted_data.values)

# 輸出整理後的 DataFrame
formatted_tech_salary.head(21)

Unnamed: 0,薪資區間-1,薪資區間-2,薪資區間-3,薪資區間-4
0,JavaScript (90),JavaScript (376),JavaScript (195),JavaScript (39)
1,C# (87),C# (334),C# (140),Python (38)
2,HTML (70),HTML (278),Git (131),Linux (31)
3,CSS (63),MS SQL (257),HTML (116),C++ (29)
4,MS SQL (63),CSS (225),MySQL (107),C# (28)
5,Java (54),Python (202),Java (101),MySQL (26)
6,ASP.NET (49),jQuery (179),MS SQL (99),Java (26)
7,MySQL (42),MySQL (177),Linux (98),Git (25)
8,jQuery (42),Git (172),Python (95),HTML (25)
9,PHP (36),C++ (169),C++ (94),Node.js (21)


In [57]:
# 將 DataFrame 轉換為一個漂亮打印的表格字符串
table_string = formatted_tech_salary.to_string(index=False)
print(table_string)

         薪資區間-1           薪資區間-2           薪資區間-3          薪資區間-4
JavaScript (90) JavaScript (376) JavaScript (195) JavaScript (39)
        C# (87)         C# (334)         C# (140)     Python (38)
      HTML (70)       HTML (278)        Git (131)      Linux (31)
       CSS (63)     MS SQL (257)       HTML (116)        C++ (29)
    MS SQL (63)        CSS (225)      MySQL (107)         C# (28)
      Java (54)     Python (202)       Java (101)      MySQL (26)
   ASP.NET (49)     jQuery (179)      MS SQL (99)       Java (26)
     MySQL (42)      MySQL (177)       Linux (98)        Git (25)
    jQuery (42)        Git (172)      Python (95)       HTML (25)
       PHP (36)        C++ (169)         C++ (94)    Node.js (21)
    Python (33)       Java (168)         CSS (89)         Go (19)
       C++ (31)    ASP.NET (146)      jQuery (81)    ASP.NET (18)
       Git (29)      Linux (119)     ASP.NET (67)        AWS (17)
     Excel (29)      VueJS (117)         PHP (63)    ReactJS (17)
     Linux

In [55]:
# 假設您的檔案路徑是正確的，這裡以 'encoded_data.xlsx' 為例
descriptive_data = pd.read_excel('encoded_data.xlsx')
4
# 基本敘述性統計
descriptive_stats = descriptive_data.describe()
print("基本敘述性統計：")
print(descriptive_stats)

# 查看特定列（如薪資範圍編碼）的敘述性統計
salary_stats = descriptive_data['薪資範圍編碼'].describe()
print("\n薪資範圍編碼的敘述性統計：")
print(salary_stats)

基本敘述性統計：
            薪資範圍編碼       學歷要求編碼       工作經驗編碼       工作地區編碼    是否需出差外派編碼
count  2357.000000  2357.000000  2357.000000  2357.000000  2357.000000
mean      2.299958     2.339839     1.080611     2.299533     0.199406
std       0.806102     0.887756     1.390100     2.900773     0.399639
min      -1.000000     0.000000     0.000000     0.000000     0.000000
25%       2.000000     2.000000     0.000000     1.000000     0.000000
50%       2.000000     3.000000     0.000000     1.000000     0.000000
75%       3.000000     3.000000     2.000000     2.000000     0.000000
max       4.000000     5.000000     5.000000    20.000000     1.000000

薪資範圍編碼的敘述性統計：
count    2357.000000
mean        2.299958
std         0.806102
min        -1.000000
25%         2.000000
50%         2.000000
75%         3.000000
max         4.000000
Name: 薪資範圍編碼, dtype: float64
