# DataFrame
Pandas 的 `DataFrame` 是一種二維的數據結構，可以理解為帶有標籤的資料表，類似於 Excel 中的工作表。它由多個 `Series`（一維數據結構）組成，每個 `Series` 表示一個 **行**（column），而每一橫列則為一組資料條目（row，列）。`DataFrame` 在數據科學和資料分析中非常重要，因為它提供了靈活且強大的數據操作功能。

## DataFrame 的結構
`DataFrame` 的結構可以想像成一個數據矩陣，包含行標籤（index）和行標籤（column labels）。這種結構讓 `DataFrame` 在處理大規模數據時十分便捷，並且每個行、列都可以有自己的標籤，便於查詢和管理。

## DataFrame 的特性
1. **異質數據類型**：不同於 `Series`，`DataFrame` 可以在不同的行（column）中存放不同的數據類型。例如，一個行可以存放整數，另一個行可以存放浮點數或字串。
   
2. **靈活的索引**：`DataFrame` 可以擁有自定義的行和列的標籤，這讓它在處理數據時更加靈活。例如，行索引可以代表數據的時間戳，而行標籤可以是數據的名稱。

3. **自動對齊**：當多個 `DataFrame` 進行運算或合併時，Pandas 會自動根據行與行的標籤來對齊數據，這可以大大減少處理數據時的複雜性。

4. **多來源創建**：可以從多種來源建立 `DataFrame`，例如 Python 字典、列表、NumPy 陣列、CSV 文件、SQL 資料庫等，這樣方便進行不同格式的數據處理和分析。


In [None]:
import pandas as pd

years = range(2020, 2023)
tw = pd.Series([20, 21, 19], index=years)
hk = pd.Series([25, 26, 27], index=years)
cn = pd.Series([30, 29, 31], index=years)

city_df = pd.concat([tw, hk, cn]) # 預設 axis=0 
print(type(city_df)) # 仍為 Series object
city_df


<class 'pandas.core.series.Series'>


2020    20
2021    21
2022    19
2020    25
2021    26
2022    27
2020    30
2021    29
2022    31
dtype: int64

In [None]:
# 改為 axis=1
years = range(2020, 2023)
tw = pd.Series([20, 21, 19], index=years)
hk = pd.Series([25, 26, 27], index=years)
cn = pd.Series([30, 29, 31], index=years)

city_df = pd.concat([tw, hk, cn], axis=1) #  設定 axis=1 
print(type(city_df)) # 改為 DataFrame，但 column attribute 沒設定，所以是預設的 index。
city_df 

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,0,1,2
2020,20,25,30
2021,21,26,29
2022,19,27,31


In [8]:
city = ['台灣', "香港", "中國"]
city_df.columns = city
city_df

Unnamed: 0,台灣,香港,中國
2020,20,25,30
2021,21,26,29
2022,19,27,31


### Series 的 name attribute 
Series object 有 name attribute，如果有此 attribute，就可以直接作為 DataFrame 時的 column attribute。

In [13]:
# Series construct 時定義 name attribute
tw = pd.Series([20, 21, 19], index=years, name="台灣")
print(tw)

# 事後對 Series object 加上 attribute
hk.name = "香港" 
cn.name = "中國"
city = pd.concat([tw, hk, cn], axis=1)
city

2020    20
2021    21
2022    19
Name: 台灣, dtype: int64


Unnamed: 0,台灣,香港,中國
2020,20,25,30
2021,21,26,29
2022,19,27,31


## 使用字典建立 DataFrame object
key:欄位, value:DataFrame 值

In [18]:
cities = {
    "country":["台灣", "美國", "日本"],
    "capital_city":["台北", "紐約", "東京"],
    "currency":["NTD", "USD", "JPY"]
}

city = pd.DataFrame(cities) # Default index 0,1,2....
print(city)

city_1 = pd.DataFrame(cities, index=["first", "secoond", "third"])
city_1

  country capital_city currency
0      台灣           台北      NTD
1      美國           紐約      USD
2      日本           東京      JPY


Unnamed: 0,country,capital_city,currency
first,台灣,台北,NTD
secoond,美國,紐約,USD
third,日本,東京,JPY


## 使用 NumPy ndarray

In [1]:
import numpy as np
import pandas as pd

array_data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])


df = pd.DataFrame(
    array_data, 
    columns=['Col1', 'Col2', 'Col3'], 
    index=['Row1', 'Row2', 'Row3']
)

df

Unnamed: 0,Col1,Col2,Col3
Row1,1,2,3
Row2,4,5,6
Row3,7,8,9


## 使用嵌套字典
如果字典的值也是字典，外層字典的鍵會作為列標籤，而內層字典的鍵則作為行標籤。

In [3]:
nested_dict = {
    'Math': {'Alice': 85, 'Bob': 92},
    'Science': {'Alice': 88, 'Bob': 76, 'Charlie': 89}
}

df = pd.DataFrame(nested_dict)
df


Unnamed: 0,Math,Science
Alice,85.0,88
Bob,92.0,76
Charlie,,89


## 使用 list
* **列表的列表**：每個內部列表代表一列數據，可以使用 columns 參數指定行名。<BR>
* **字典的列表**：每個字典代表一列數據，字典的鍵是行名，不同字典之間缺少的鍵會被填充為 NaN。

In [8]:
# list
data_list = [[1, 'Alice', 24], [2, 'Bob', 30], [3, 'Charlie', 35]]

df = pd.DataFrame(data_list, columns=['ID', 'Name', 'Age'])
df

Unnamed: 0,ID,Name,Age
0,1,Alice,24
1,2,Bob,30
2,3,Charlie,35


In [9]:
# 用字典的列表創建 DataFrame
data_list_of_dicts = [
    {'Name': 'Alice', 'Age': 24},
    {'Name': 'Bob', 'Age': 30, 'City': 'Los Angeles'},
    {'Name': 'Charlie', 'City': 'Chicago'}
]

df = pd.DataFrame(data_list_of_dicts)
df

Unnamed: 0,Name,Age,City
0,Alice,24.0,
1,Bob,30.0,Los Angeles
2,Charlie,,Chicago


## 把 column 當作 index

In [23]:
cities = {
    "country":["台灣", "美國", "日本"],
    "capital_city":["台北", "紐約", "東京"],
    "currency":["NTD", "USD", "JPY"]
}

df = pd.DataFrame(cities, columns=["capital_city", "currency"], index=cities["country"])
df

Unnamed: 0,capital_city,currency
台灣,台北,NTD
美國,紐約,USD
日本,東京,JPY


## 資料處理

In [None]:
# locate by label
df.loc[["台灣", "美國"],["capital_city"]]

Unnamed: 0,capital_city
台灣,台北
美國,紐約


In [None]:
# locate by index
df.iloc[:2, 0]

台灣    台北
美國    紐約
Name: capital_city, dtype: object