<a href="https://colab.research.google.com/github/hhshadd/git0828/blob/main/DataFrame_%E7%9A%84%E5%9F%BA%E6%9C%AC%E6%93%8D%E4%BD%9C.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

`DataFrame` 是 Pandas 中最常用的數據結構，類似於 Excel 中的表格。以下是一些常見的 `DataFrame` 基本操作，幫助你快速上手 Pandas。

### 1. **建立 DataFrame**

你可以從字典、列表、CSV 文件等多種方式建立 `DataFrame`：

#### 1.1 從字典建立：

In [None]:
import pandas as pd

data = {
    '姓名': ['王小明', '李美麗', '張大偉'],
    '年齡': [25, 30, 22],
    '城市': ['台北', '高雄', '台中']
}

df = pd.DataFrame(data)
print(df)

    姓名  年齡  城市
0  王小明  25  台北
1  李美麗  30  高雄
2  張大偉  22  台中



### 2. **讀取 CSV 文件**

In [None]:
df = pd.read_csv('example.csv')
print(df.head())  # 查看前5行數據

    姓名   年齡   城市
0  王小明   25   台北
1  李美麗   30   高雄
2  張大偉   22   台中


### 3. **查看基本資訊**

#### 3.1 查看前幾行：

In [None]:
print(df.head(2))  # 查看前2行

    姓名   年齡   城市
0  王小明   25   台北
1  李美麗   30   高雄


#### 3.2 查看 DataFrame 的結構和資訊：

In [None]:
print(df.info())  # 顯示欄位名稱、非空值數量、數據類型等
print(df.describe())  # 顯示統計摘要

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   姓名      3 non-null      object
 1    年齡     3 non-null      int64 
 2    城市     3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes
None
              年齡
count   3.000000
mean   25.666667
std     4.041452
min    22.000000
25%    23.500000
50%    25.000000
75%    27.500000
max    30.000000


### 4. **選取數據**

#### 4.1 選取單列：

In [None]:
print(df['姓名'])  # 選取 "姓名" 列

0    王小明
1    李美麗
2    張大偉
Name: 姓名, dtype: object


#### 4.2 選取多列：

In [None]:
print(df[['姓名', '城市']])  # 同時選取 "姓名" 和 "城市" 列

KeyError: "['城市'] not in index"

## 出錯了？怎麼辦？
求助ai的協助！

In [None]:
print(df.columns)  # 檢查所有列的名稱，確保拼寫正確

Index(['姓名', ' 年齡', ' 城市'], dtype='object')


In [None]:
print(df['城市']) #這個為什麼不行？

KeyError: '城市'

In [None]:
print(df[' 城市']) #這個為什麼可以？

0     台北
1     高雄
2     台中
Name:  城市, dtype: object


- 被CSV檔給陰了...
- 注意：空白很重要，差一個空白也不行！
- 交作業也一樣喔！

根據 `df.columns` 的輸出結果，列名 `年齡` 和 `城市` 之前有空格，這可能是導致 `KeyError` 的原因。在你嘗試選取這些列時，由於多了空格，Pandas 找不到對應的列名。

### 解決方法：
可以使用 `str.strip()` 方法來移除所有列名中的前後空格，這樣就能正確選取列了：



In [None]:
# 移除列名中的前後空格
df.columns = df.columns.str.strip()
df['城市'] = df['城市'].str.strip()

# 再次選取列
print(df[['姓名', '年齡', '城市']])

    姓名  年齡  城市
0  王小明  25  台北
1  李美麗  30  高雄
2  張大偉  22  台中


#### 4.3 選取特定行（使用行索引）：

In [None]:
print(df.iloc[0])  # 選取第一行數據
print(df.iloc[1:3])  # 選取第 2 到 3 行數據

姓名    王小明
年齡     25
城市     台北
Name: 0, dtype: object
    姓名  年齡  城市
1  李美麗  30  高雄
2  張大偉  22  台中


#### 4.4 根據條件篩選：

In [None]:
print(df[df[' 年齡'] > 25])  # 篩選年齡大於25的行
df[' 年齡']

    姓名   年齡   城市
1  李美麗   30   高雄


Unnamed: 0,年齡
0,25
1,30
2,22


### 5. **添加與刪除列**

#### 5.1 添加新列：

In [None]:
df['職業'] = ['工程師', '設計師', '老師']
df['興趣'] = ['爬山', '閱讀', '烹飪']
print(df)

    姓名   年齡   城市   職業  興趣
0  王小明   25   台北  工程師  爬山
1  李美麗   30   高雄  設計師  閱讀
2  張大偉   22   台中   老師  烹飪


#### 5.2 刪除列：

In [None]:
df = df.drop('職業', axis=1)  # 刪除 "職業" 列
print(df)

    姓名   年齡   城市  興趣
0  王小明   25   台北  爬山
1  李美麗   30   高雄  閱讀
2  張大偉   22   台中  烹飪


### 6. **數據運算**

#### 6.1 對列進行數學運算：

In [None]:
df['年齡'] += 1  # 年齡全部加1
print(df)

    姓名  年齡  城市  興趣
0  王小明  26  台北  爬山
1  李美麗  31  高雄  閱讀
2  張大偉  23  台中  烹飪


In [None]:
# 插入新數據
df.loc[len(df)] = ['陳建國', 28, '台北', '跑步']
df.loc[len(df)] = ['吳芳芳', 29, '高雄', '音樂']
df.loc[len(df)] = ['林立群', 27, '台中', '攝影']
print(df)

    姓名   年齡   城市  興趣
0  王小明   25   台北  爬山
1  李美麗   30   高雄  閱讀
2  張大偉   22   台中  烹飪
3  陳建國   28   台北  跑步
4  吳芳芳   29   高雄  音樂
5  林立群   27   台中  攝影


#### 6.2 分組與聚合（GroupBy）：

In [None]:
grouped = df.groupby('城市')['年齡'].mean()  # 按城市分組，並計算年齡的平均值
print(grouped)

城市
台中    25.0
台北    27.0
高雄    30.0
Name: 年齡, dtype: float64


### 7. **處理缺失值**

#### 7.1 檢查缺失值：

In [None]:
df.loc[len(df)] = ['吳其仁', None, None, '音樂']
df.loc[len(df)] = ['李大仁', None, '台中', None]
print(df.isnull())  # 查看哪裡有缺失值
print(df)

      姓名     年齡     城市     興趣
0  False  False  False  False
1  False  False  False  False
2  False  False  False  False
3  False  False  False  False
4  False  False  False  False
5  False  False  False  False
6  False   True   True  False
7  False   True  False   True
    姓名    年齡    城市    興趣
0  王小明    26    台北    爬山
1  李美麗    31    高雄    閱讀
2  張大偉    23    台中    烹飪
3  陳建國    28    台北    跑步
4  吳芳芳    29    高雄    音樂
5  林立群    27    台中    攝影
6  吳其仁  None  None    音樂
7  李大仁  None    台中  None


#### 7.2 填補缺失值：

In [None]:
df['年齡'].fillna(0, inplace=True)  # 將 "年齡" 列中的缺失值填補為 0
df['城市'].fillna('不明', inplace=True)
print(df)

    姓名  年齡  城市    興趣
0  王小明  26  台北    爬山
1  李美麗  31  高雄    閱讀
2  張大偉  23  台中    烹飪
3  陳建國  28  台北    跑步
4  吳芳芳  29  高雄    音樂
5  林立群  27  台中    攝影
6  吳其仁   0  不明    音樂
7  李大仁   0  台中  None


#### 7.3 刪除含有缺失值的行：

In [None]:
df.dropna(inplace=True)  # 刪除含有任何缺失值的行
print(df)

    姓名  年齡  城市  興趣
0  王小明  26  台北  爬山
1  李美麗  31  高雄  閱讀
2  張大偉  23  台中  烹飪
3  陳建國  28  台北  跑步
4  吳芳芳  29  高雄  音樂
5  林立群  27  台中  攝影
6  吳其仁   0  不明  音樂


### 8. **排序數據**

#### 8.1 根據單一列排序：

In [None]:
df.sort_values(by='年齡', ascending=False, inplace=True)  # 根據年齡降序排序
print(df)

    姓名  年齡  城市  興趣
1  李美麗  31  高雄  閱讀
4  吳芳芳  29  高雄  音樂
3  陳建國  28  台北  跑步
5  林立群  27  台中  攝影
0  王小明  26  台北  爬山
2  張大偉  23  台中  烹飪
6  吳其仁   0  不明  音樂


#### 8.2 根據多列排序：

In [None]:
df.sort_values(by=['城市', '年齡'], ascending=[True, False], inplace=True)  # 先按城市升序，再按年齡降序
print(df)

    姓名  年齡  城市  興趣
6  吳其仁   0  不明  音樂
5  林立群  27  台中  攝影
2  張大偉  23  台中  烹飪
3  陳建國  28  台北  跑步
0  王小明  26  台北  爬山
1  李美麗  31  高雄  閱讀
4  吳芳芳  29  高雄  音樂


### 9. **輸出數據**

#### 9.1 將 `DataFrame` 儲存為 CSV 文件：

In [None]:
df.to_csv('output.csv', index=False)  # 儲存時不包括索引