In [5]:

# # Pandas 30秒快速練習題
# 這些練習題設計用於快速驗證 Pandas 的核心概念理解，每題應該能在 30 秒內想出解法。

import pandas as pd
import numpy as np
import os

# 設定顯示選項
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)


## M2.1: DataFrame 與 Series 基礎

In [None]:
# 練習 1.1: Series 建立
# 任務：建立一個包含 5 個城市及其人口數的 Series，並設定適當的索引
# 提示：使用 pd.Series() 並指定 index
population = pd.Series({ 
    'Taipei': 2646204, 
    'New York': 8419600, 
    'Tokyo': 13929286, 
    'London': 8982000, 
    'Sydney': 5312163
    
})
print(population)

Taipei       2646204
New York     8419600
Tokyo       13929286
London       8982000
Sydney       5312163
dtype: int64


In [3]:
# 練習 1.2: DataFrame 建立
# 任務：建立一個包含學生資訊的 DataFrame，包含姓名、年齡、成績三個欄位，至少 3 筆資料
# 提示：使用 pd.DataFrame() 從字典建立
students_df = pd.DataFrame({
    'name': [ 'Alice', 'Bob', 'Charlie' ],
    'age': [ 20, 22, 23 ],
    'score': [98, 78, 85 ]
})
print(students_df)

      name  age  score
0    Alice   20     98
1      Bob   22     78
2  Charlie   23     85


In [4]:
# 練習 1.3: DataFrame 基本資訊
# 任務：檢查 students_df 的基本資訊（資料型態、非空值數量等）
# 提示：使用 .info() 方法
# 在此處檢查資訊
students_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
 2   score   3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 204.0+ bytes



## M2.2: 檔案讀取與寫入

In [6]:
# 練習 2.1: CSV 讀取
# 任務：讀取 'air-quality.csv' 檔案
# 提示：使用 pd.read_csv()
# 設置數據資料夾路徑變數
data_dir = os.path.join('data')
# 讀取文件所在的路徑
df_file = os.path.join(data_dir, 'air-quality.csv')
df_scv = pd.read_csv(df_file)

print(df_scv.head())

         Date  Ozone  Solar  Wind  Temp
0  1976-05-01   41.0  190.0   7.4    67
1  1976-05-02   36.0  118.0   8.0    72
2  1976-05-03   12.0  149.0  12.6    74
3  1976-05-04   18.0  313.0  11.5    62
4  1976-05-05    NaN    NaN  14.3    56


In [8]:
# 練習 2.2: Excel 讀取
# 任務：讀取 '通訊錄_output.xlsx' 檔案
# 提示：使用 pd.read_excel()
df_excel_file = os.path.join(data_dir, '通訊錄_output.xlsx')
df_excel = pd.read_excel(df_excel_file)

print(df_excel.head())

  中文姓名         電話    英文名稱
0  楊○○  978000000  Darren
1  林○○  910000000     Lin
2  江○○  939000000   Jiang


In [9]:
# 練習 2.3: 資料匯出
# 任務：將 air-quality.csv 儲存為 CSV 檔案，名稱為 'output_students.csv'
# 提示：使用 .to_csv() 方法
# 在此處匯出資料
# encoding 設置為 "utf-8-sig" 以避免 Excel 打開時出現亂碼
# index 設置為 False 以避免保存索引列
df_scv.to_csv('output_students.csv', encoding= 'utf-8-sig', index = False)

print(df_scv.head())

         Date  Ozone  Solar  Wind  Temp
0  1976-05-01   41.0  190.0   7.4    67
1  1976-05-02   36.0  118.0   8.0    72
2  1976-05-03   12.0  149.0  12.6    74
3  1976-05-04   18.0  313.0  11.5    62
4  1976-05-05    NaN    NaN  14.3    56



# ## M2.3: 資料選取方法

In [18]:
# 練習 3.1: 欄位選取
# 任務：從 students_df 中選取 '姓名' 和 '成績' 欄位
# 提示：使用中括號 [] 或 .loc
print(students_df)
selected_columns = students_df.loc[:, ['name', 'score']]

print(selected_columns)

      name  age  score
0    Alice   20     98
1      Bob   22     78
2  Charlie   23     85
      name  score
0    Alice     98
1      Bob     78
2  Charlie     85


In [21]:
# 練習 3.2: 條件篩選
# 任務：找出 students_df 中成績大於 80 的學生
# 提示：使用布林索引
print(students_df)
high_scores = students_df[students_df['score'] >= 80]
print(high_scores)

      name  age  score
0    Alice   20     98
1      Bob   22     78
2  Charlie   23     85
      name  age  score
0    Alice   20     98
2  Charlie   23     85


In [25]:
# 練習 3.3: iloc 使用
# 任務：選取 students_df 的前兩列和第一、第三欄
# 提示：使用 .iloc
print(students_df)
selected_data = students_df.iloc[0:2,[0,2]]
print(selected_data)


      name  age  score
0    Alice   20     98
1      Bob   22     78
2  Charlie   23     85
    name  score
0  Alice     98
1    Bob     78



## M2.4: 缺失值處理

In [26]:
# 建立包含缺失值的測試資料
test_df = pd.DataFrame({
    'A': [1, np.nan, 3, np.nan, 5],
    'B': [np.nan, 2, 3, 4, 5],
    'C': [1, 2, np.nan, 4, 5]
})
print(test_df)

     A    B    C
0  1.0  NaN  1.0
1  NaN  2.0  2.0
2  3.0  3.0  NaN
3  NaN  4.0  4.0
4  5.0  5.0  5.0


In [28]:
# 練習 4.1: 缺失值檢查
# 任務：檢查每個欄位的缺失值數量
# 提示：使用 .isnull() 和 .sum()
missing_count = test_df.isnull().sum()
print(missing_count)


A    2
B    1
C    1
dtype: int64


In [31]:
# 練習 4.2: 填補缺失值
# 任務：將 test_df 中的缺失值以該欄位的平均值填補
# 提示：使用 .fillna() 和 .mean()
filled_df = test_df.copy()
print(filled_df)
for num in ['A','B', 'C']:
    filled_df[num] = filled_df[num].fillna(filled_df[num].mean())
print(filled_df)

     A    B    C
0  1.0  NaN  1.0
1  NaN  2.0  2.0
2  3.0  3.0  NaN
3  NaN  4.0  4.0
4  5.0  5.0  5.0
     A    B    C
0  1.0  3.5  1.0
1  3.0  2.0  2.0
2  3.0  3.0  3.0
3  3.0  4.0  4.0
4  5.0  5.0  5.0


In [29]:
# 練習 4.3: 刪除缺失值
# 任務：刪除 test_df 中含有缺失值的列
# 提示：使用 .dropna()
cleaned_df = test_df.dropna(axis = 1)
print(cleaned_df)

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4]



## M2.5: 資料轉換

In [32]:
# 建立測試資料
dates_df = pd.DataFrame({
    'date_str': ['2024-01-01', '2024-01-02', '2024-01-03'],
    'value': [100, 200, 300]
})
print(dates_df)

     date_str  value
0  2024-01-01    100
1  2024-01-02    200
2  2024-01-03    300


In [36]:
# 練習 5.1: 資料型態轉換
# 任務：將 'date_str' 欄位轉換為日期型態
# 提示：使用 pd.to_datetime()
dates_df['date'] = pd.to_datetime(dates_df['date_str'], errors= 'coerce')
print(dates_df)

     date_str  value       date
0  2024-01-01    100 2024-01-01
1  2024-01-02    200 2024-01-02
2  2024-01-03    300 2024-01-03


In [None]:
# 練習 5.2: 數值轉換
# 任務：將 students_df 中的成績轉換為等第（90以上為A，80-89為B，70-79為C，60-69為D，低於60為F）
# 提示：使用 .apply() 或 pd.cut()
print(students_df)
# 定義轉換函數
def convert_grades(val):
    # 檢查變數是否為數字
    if isinstance(val, int):
        if val >= 90:
            return "A"
        elif val < 90 and val >= 80:
            return "B"
        elif val < 80 and val >= 70:
            return "C"
        elif val < 70 and val >= 60:
            return "D"
        else:
            return "F"
    return pd.NA
# 創造新的欄位
students_df['grades'] = students_df['score'].apply(convert_grades)
print(students_df)

      name  age  score
0    Alice   20     98
1      Bob   22     78
2  Charlie   23     85
      name  age  score grades
0    Alice   20     98      A
1      Bob   22     78      C
2  Charlie   23     85      B


In [None]:
# 練習 5.3: 資料重塑
# 任務：將以下資料從長格式轉換為寬格式
long_df = pd.DataFrame({
    'student': ['A', 'A', 'B', 'B'],
    'subject': ['Math', 'English', 'Math', 'English'],
    'score': [85, 90, 75, 85]
})
# 提示：使用 .pivot() 或 .pivot_table()
wide_df = None