In [None]:

# # Pandas 30秒快速練習題 - 解答
# 這些是練習題的參考解答，每個解答都經過優化，確保簡潔且易於理解。

import pandas as pd
import numpy as np

# 設定顯示選項
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)


## M2.1: DataFrame 與 Series 基礎

In [None]:
# 解答 1.1: Series 建立
population = pd.Series(
    [1000000, 2000000, 1500000, 800000, 3000000],
    index=['台北', '新北', '桃園', '台中', '高雄']
)
print("城市人口：")
print(population)

In [None]:
# 解答 1.2: DataFrame 建立
students_df = pd.DataFrame({
    '姓名': ['小明', '小華', '小美'],
    '年齡': [18, 17, 19],
    '成績': [85, 92, 78]
})
print("\n學生資料：")
print(students_df)

In [None]:
# 解答 1.3: DataFrame 基本資訊
print("\nDataFrame 基本資訊：")
students_df.info()


## M2.2: 檔案讀取與寫入

In [None]:
# 解答 2.1: CSV 讀取
df_csv = pd.read_csv('students_data.csv')
print("從 CSV 讀取的資料：")
print(df_csv)

In [None]:
# 解答 2.2: Excel 讀取
df_excel = pd.read_excel('products_data.xlsx')
print("\n從 Excel 讀取的資料：")
print(df_excel)

In [None]:
# 解答 2.3: 資料匯出
students_df.to_csv('output_students.csv', index=False)
print("\n資料已匯出至 output_students.csv")


## M2.3: 資料選取方法

In [None]:
# 解答 3.1: 欄位選取
selected_columns = students_df[['姓名', '成績']]
print("選取的欄位：")
print(selected_columns)

In [None]:
# 解答 3.2: 條件篩選
high_scores = students_df[students_df['成績'] > 80]
print("\n成績大於 80 的學生：")
print(high_scores)

In [None]:
# 解答 3.3: iloc 使用
selected_data = students_df.iloc[0:2, [0, 2]]
print("\n使用 iloc 選取的資料：")
print(selected_data)


## M2.4: 缺失值處理

In [None]:
# 建立包含缺失值的測試資料
test_df = pd.DataFrame({
    'A': [1, np.nan, 3, np.nan, 5],
    'B': [np.nan, 2, 3, 4, 5],
    'C': [1, 2, np.nan, 4, 5]
})
print("原始資料：")
print(test_df)

In [None]:
# 解答 4.1: 缺失值檢查
missing_count = test_df.isnull().sum()
print("\n每個欄位的缺失值數量：")
print(missing_count)

In [None]:
# 解答 4.2: 填補缺失值
filled_df = test_df.fillna(test_df.mean())
print("\n填補缺失值後的資料：")
print(filled_df)

In [None]:
# 解答 4.3: 刪除缺失值
cleaned_df = test_df.dropna()
print("\n刪除含缺失值的列後的資料：")
print(cleaned_df)


## M2.5: 資料轉換

In [None]:
# 建立測試資料
dates_df = pd.DataFrame({
    'date_str': ['2024-01-01', '2024-01-02', '2024-01-03'],
    'value': [100, 200, 300]
})

In [None]:
# 解答 5.1: 資料型態轉換
dates_df['date'] = pd.to_datetime(dates_df['date_str'])
print("轉換日期型態後的資料：")
print(dates_df)

In [None]:
# 解答 5.2: 數值轉換
def convert_to_grade(score):
    if score >= 90:
        return 'A'
    elif score >= 80:
        return 'B'
    elif score >= 70:
        return 'C'
    elif score >= 60:
        return 'D'
    else:
        return 'F'

grades = students_df['成績'].apply(convert_to_grade)
print("\n成績轉換為等第：")
print(grades)

In [None]:
# 解答 5.3: 資料重塑
long_df = pd.DataFrame({
    'student': ['A', 'A', 'B', 'B'],
    'subject': ['Math', 'English', 'Math', 'English'],
    'score': [85, 90, 75, 85]
})

wide_df = long_df.pivot(index='student', columns='subject', values='score')
print("\n轉換為寬格式的資料：")
print(wide_df)