# 資料轉換

1. 字串轉文件
2. 將 Series 或 DataFrame 的資料轉換為數值型態
3. 將 pandas 物件中的資料轉換成指定的類型
4. 將數據轉換為日期和時間格式
5. 建立虛擬變數
6. 替換
7. 類別數據編碼
8. 數據標準化
9. 數據歸一化

<br>

### 1. 字串轉文件

_StringIO_

In [2]:

import pandas as pd
from io import StringIO

# 字串
_str = """
編號,名稱,銷售量
1,蘋果,30
2,橙子,45
3,香蕉,50
"""

# 使用 StringIO 將字串轉換為文件對象
data_io = StringIO(_str)

# 型別
print(type(_str), type(data_io))

# 使用 pandas 的 read_csv 函數從 StringIO 讀取數據
df = pd.read_csv(data_io)

# 輸出 DataFrame
print(df)

#############
# 提供一點間隔
print('\n\n')
#############

<class 'str'> <class '_io.StringIO'>
   編號  名稱  銷售量
0   1  蘋果   30
1   2  橙子   45
2   3  香蕉   50





### 2. 將 Series 或 DataFrame 的資料轉換為數值型態

_to_numeric_

1. 內置參數 `errors` 提供了三種選項來處理無法轉換時的異常。

2. `raise`：這是預設值，在無法轉換的值直接引發錯誤。

3. `coerce`：將無法轉換的值設置為 `NaN`。

4. `ignore`：如果存在無法轉換的值，則保留原值不變。

In [3]:
import pandas as pd

# 建立一個包含數字和非數字數據的 DataFrame
data = {
    '產品': ['蘋果', '橙子', '香蕉', '梨'],
    '價格': ['10', '20', '三十', '40']
}
# 建立 DataFrame
df = pd.DataFrame(data)

# 嘗試將 '價格' 列轉換為數字
# 使用 errors='coerce' 參數將無法轉換的值設置為 NaN
df['價格'] = pd.to_numeric(
    df['價格'],
    errors='coerce'
)

# 輸出轉換後的 DataFrame
print(df)

#############
# 提供一點間隔
print('\n\n')
#############

   產品    價格
0  蘋果  10.0
1  橙子  20.0
2  香蕉   NaN
3   梨  40.0





### 3. 將 pandas 物件中的資料轉換成指定的類型

_astype_

1. _確保數據類型一致性_。
2. astype() 是 pandas Series 和 DataFrame 用於類型轉換的方法，不僅限於數值型態，也可以轉換為 str、float 等 Python 標準數據類型。
3. 跟 `to_numeric()` 不同在於 `astype()` 並無內置例外處理的參數，需另外透過 `try-except` 進行捕捉。

In [4]:

import pandas as pd

# 建立一個 DataFrame
data = {
    '名稱': ['蘋果', '橙子', '香蕉'],
    '價格': ['10', '20', '30']
}
#
df = pd.DataFrame(data)

# 將價格轉換為整數型別
df['價格'] = df['價格'].astype(int)

# 輸出轉換後的 DataFrame
print(df)

#############
# 提供一點間隔
print('\n\n')
#############


   名稱  價格
0  蘋果  10
1  橙子  20
2  香蕉  30





### 

### 4. 將數據轉換為日期和時間格式

_to_datetime_

In [9]:

import pandas as pd

# 建立一個包含日期的 DataFrame
data = {
    '日期': ['2021-01-01', '2021-02-01', '2021-03-01'],
    '銷量': [100, 150, 200]
}
# 轉換為 DataFrame 物件
df = pd.DataFrame(data)

# 輸出轉換前的 '日期' 列的數據型別
# 因為是從字串列表建立的，此時的類型會是 `object`
print("轉換前 '日期' 列的數據型別：", df['日期'].dtype)

# 將日期列轉換為 datetime 對象
df['日期'] = pd.to_datetime(df['日期'])

# 輸出轉換後的 '日期' 列的數據型別
print("轉換後 '日期' 列的數據型別：", df['日期'].dtype)

# 輸出轉換後的 DataFrame
print(df)

#############
# 提供一點間隔
print('\n\n')
#############

轉換前 '日期' 列的數據型別： object
轉換後 '日期' 列的數據型別： datetime64[ns]
          日期   銷量
0 2021-01-01  100
1 2021-02-01  150
2 2021-03-01  200





### 5. 建立虛擬變數

_get_dummies()，應用在機器學習、統計研究等領域_

In [11]:

import pandas as pd

# 建立一個包含類別型數據的 DataFrame
data = {
    '水果': ['蘋果', '橙子', '香蕉', '蘋果']
}
# 
df = pd.DataFrame(data)

#
print(df)

# 將水果類別轉換為虛擬變數
dummies = pd.get_dummies(df['水果'])

# 輸出虛擬變數
print(dummies)

#############
# 提供一點間隔
print('\n\n')
#############

   水果
0  蘋果
1  橙子
2  香蕉
3  蘋果
   橙子  蘋果  香蕉
0   0   1   0
1   1   0   0
2   0   0   1
3   0   1   0





### 6. 替換

_replace_

1. 用於在 DataFrame 中替換一個值或一系列值。這非常適合進行數據標準化或對特定數據進行清理。

In [16]:

import pandas as pd

# 建立一個 DataFrame
data = {
    '水果': ['蘋果', 'orange', 'banana', '蘋果'],
    '價格': [10, 20, 30, 40]
}
df = pd.DataFrame(data)

#
print('原始 DataFrame：')
print(df, '\n')

# 替換某些英文名稱為中文
df.replace({
    'orange': '橙子',
    'banana': '香蕉'
}, inplace=True)

# 輸出替換後的 DataFrame
print('替換後的 DataFrame：')
print(df)

#############
# 提供一點間隔
print('\n\n')
#############

原始 DataFrame：
       水果  價格
0      蘋果  10
1  orange  20
2  banana  30
3      蘋果  40 

替換後的 DataFrame：
   水果  價格
0  蘋果  10
1  橙子  20
2  香蕉  30
3  蘋果  40





### 7. 類別數據編碼

_LabelEncoder 標籤編碼_

1. 需要安裝 `scikit-learn`，可參考 [官方說明](https://scikit-learn.org/stable/index.html)。

    ```bash
    pip install scikit-learn
    ```

In [17]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# 建立一個包含類別型數據的 DataFrame
data = {
    '品牌': ['Apple', 'Samsung', 'Apple', 'Xiaomi']
}
# 
df = pd.DataFrame(data)

# 建立標籤編碼器
label_encoder = LabelEncoder()

# 將品牌進行標籤編碼
df['品牌'] = label_encoder.fit_transform(df['品牌'])

# 輸出編碼後的 DataFrame
print(df)

#############
# 提供一點間隔
print('\n\n')
#############

   品牌
0   0
1   1
2   0
3   2





### 8. 數據標準化

In [20]:

from sklearn.preprocessing import StandardScaler
import pandas as pd

# 建立一個 DataFrame
data = {
    '分數': [90, 82, 70, 88, 95]
}
df = pd.DataFrame(data)

# 建立標準化器
scaler = StandardScaler()

# 對數據進行標準化
df['標準化分數'] = scaler.fit_transform(df[['分數']])

# 輸出標準化後的 DataFrame
print(df)

#############
# 提供一點間隔
print('\n\n')
#############

   分數     標準化分數
0  90  0.582816
1  82 -0.349689
2  70 -1.748447
3  88  0.349689
4  95  1.165631





### 數據的歸一化

_待續_