## Pandas

- 兩種主要數據結構
    - Series 是一維數據結構，類似於一維陣列，但每個元素都有一個標籤，稱為索引
  
    - DataFrame 是二維數據結構，類似於表格或試算表，由多個 Series 組成

- 可讀取和寫入 CSV、Excel、SQL 數據庫、JSON 等等檔案格式

- 能進行處理缺失/重複數據、數據篩選、數據轉換等操作


### **創造一個 DataFrame (df)**

- DataFrame是2維的資料結構
- Series 就像一直欄/橫列，DataFrame 就像一整個試算表
- <div><img src="https://miro.medium.com/v2/resize:fit:1400/format:webp/1*6p6nF4_5XpHgcrYRrLYVAw.png" width="600"></div>

In [40]:
# 用 dict 創造 DF
## 字典的 key 會變成欄位名稱，value 則是欄位的值

data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


### DF 檢視資料

In [41]:
data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


In [42]:
# 看這個 df 的 columns
df.columns

Index(['school', 'year'], dtype='object')

In [43]:
# 看這個 df 的 indexes
df.index

RangeIndex(start=0, stop=4, step=1)

**取得單一個值**

In [46]:
# .iloc[] 透過整數位置存取值（index是[第幾列][第幾欄]
print(df.iloc[2][1])

# .loc[] 透過標籤存取值
## 這裡我們要取得 標籤為0的橫列 和 標籤為'school'的直欄 的那格value
print(df.loc[0]['school'])

# .iat[] 與 iloc[] 類似，但存取單一值的速度更快
print(df.iat[0,0])

# .at[]` 與 loc[] 類似，但存取單一值的速度更快
print(df.at[0,'school'])

2021
台大
台大
台大


**取得多個值**

In [47]:
# 存取一整個橫列 row 0
df.iloc[0]

school      台大
year      1928
Name: 0, dtype: object

In [121]:
# 存取一整個直欄 column 'school'
df['school']

0      台大
1      清大
2    陽明交大
3      成大
Name: school, dtype: object

In [122]:
# 你也可以這樣取得一整個直欄
df.loc[:,'school']

0      台大
1      清大
2    陽明交大
3      成大
Name: school, dtype: object

 `df['school']` and `df.loc[:,'school']`都可以存取 'school' 這一直欄 (column)，<mark>但他們有微妙的差異。</mark>

`df['school']` 

- 存取 DataFrame 中單個column的簡潔常用方法，會回傳一個 Series 
        
- 想存取單個column、無需特定的條件篩選時，用這個比較簡潔


`df.loc[:,'school']`
        
- .loc 方法，主要用在標籤索引，和`df['school']`一樣回傳一個 Series
        
- `[:,'school']` 會存取 'school' 欄位的所有值，是用冒號（:）選擇該欄位的所有row 
        
- 基於某些條件來存取特定 column 時比較有用


---


<div><img src="https://i.imgur.com/zfxLzEv.png" width="600"></div>

---

### 練習: 以下分別會輸出什麼

In [49]:
data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931],
  'eng': ['ntu', 'nthu', 'nycu', 'ncku']
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year,eng
0,台大,1928,ntu
1,清大,1925,nthu
2,陽明交大,2021,nycu
3,成大,1931,ncku


In [50]:
df.iloc[1, :]

school      清大
year      1925
eng       nthu
Name: 1, dtype: object

In [51]:
df.loc[1, :]

school      清大
year      1925
eng       nthu
Name: 1, dtype: object

In [52]:
df.iloc[:, 1]

0    1928
1    1925
2    2021
3    1931
Name: year, dtype: int64

In [53]:
df.loc[:, 1]

KeyError: 1

拜託一定要看：

- [.loc() 和 .iloc() 的差別](https://chat.openai.com/share/10dd897b-89cc-40a2-8ef7-c41818a18148)

- [.loc .iloc .at .iat .ix](https://chat.openai.com/share/f40d1441-1c8f-4284-be4c-fddd4b9a4e9b)

---

### DF 新增資料

In [60]:
data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


**新增一直欄 column**

In [61]:
# 加入新的一欄['location'] 到 df

mylist = ['台北', '新竹', '新竹', '台南']
df['location'] = mylist
df

Unnamed: 0,school,year,location
0,台大,1928,台北
1,清大,1925,新竹
2,陽明交大,2021,新竹
3,成大,1931,台南


In [None]:
## 當然你也可以直接把 list 寫給 df['location']
## df['location'] = ['台北', '新竹', '新竹', '台南']

In [62]:
# 刪除一欄
del df['location']
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


**新增一橫列**

In [129]:
data = {
  'school': ["台大", "清大", "陽明交大","成大"],
  'year': [1928, 1925, 2021, 1931]
}

df = pd.DataFrame(data)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931


In [131]:
# loc
df.loc[len(df)] = ['新校', 2023]
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931
4,新校,2023


In [None]:
# concat: 結合兩個 df （我們把新的row 直接變成一個只有一列資料的df)

new_row = pd.DataFrame({'school': ['NTU'], 'year': [1928]})
df = pd.concat([df, new_row], ignore_index=True)

In [132]:
# _append
''' 
In the new version of Pandas, the `append` method is changed to `_append`
The `ignore_index=True` argument ensures that the index of the newly added row is reset to maintain a continuous integer index.
'''

new_row = {'school': '新新校', 'year': 2023}
df = df._append(new_row, ignore_index=True)
df

Unnamed: 0,school,year
0,台大,1928
1,清大,1925
2,陽明交大,2021
3,成大,1931
4,新校,2023
5,新校,2023


---

### <mark>DF 讀取csv檔</mark>

In [None]:
!pip install pandas

In [63]:
import pandas as pd

# 用pd.read_csv()讀取檔案
data = pd.read_csv('./iris.csv')

In [64]:
# 看 data 有幾列幾行
data.shape

(150, 6)

In [46]:
# 顯示前幾行數據(預設為前5row)
data.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [65]:
data.head(10)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
5,6,5.4,3.9,1.7,0.4,Iris-setosa
6,7,4.6,3.4,1.4,0.3,Iris-setosa
7,8,5.0,3.4,1.5,0.2,Iris-setosa
8,9,4.4,2.9,1.4,0.2,Iris-setosa
9,10,,3.1,1.5,0.1,Iris-setosa


In [66]:
# 顯示後幾行數據(預設為後5行)
data.tail()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica
149,150,5.9,3.0,5.1,1.8,Iris-virginica


In [48]:
# 獲取資料的統計摘要
data.describe()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,145.0,150.0,150.0,150.0
mean,75.5,5.877931,3.054,3.758667,1.198667
std,43.445368,0.817981,0.433594,1.76442,0.763161
min,1.0,4.4,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


In [69]:
# 顯示資料的一些資訊
data.info()
print(data)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB
      Id  SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm  \
0      1            5.1           3.5            1.4           0.2   
1      2            4.9           3.0            1.4           0.2   
2      3            4.7           3.2            1.3           0.2   
3      4            4.6           3.1            1.5           0.2   
4      5            5.0           3.6            1.4           0.2   
..   ...            ...           ...            ...          

In [None]:
'''
info()函數告訴我們每個欄位中有多少 non-null（非空值），
在我們的資料中，一個直欄會有 150 rows。
而 SepalLengthCm 欄只有 145 non-null，表示有 5 個 row 是空值。
'''

---

### <mark>DF 資料清理：空值</mark>

- 空值會影響我們的分析結果，所以要先處理空值

- 一種方法是直接刪除`包含空值的row`，因為資料可能非常大，刪除一些列不會產生很大影響。
  
  `.dropna()`

In [56]:
import pandas as pd
data = pd.read_csv('./iris.csv')

# 原始資料的長度（row數量）
len(data)

150

In [54]:
# 用 .dropna() 刪除有空值的 row
## .dropna() 會返回一個新的DF，不會更改原來的DF
## 所以要定義一個新的變數(new_df)來存放

new_df = data.dropna()

In [55]:
# 確認row數量是否減少
len(new_df)

145

In [62]:
# 如果要更改原來的DF，可以加上參數 inplace = True
## 這樣就不用定義新的變數來存放
## 但就無法回復原來的DF了（除非重新讀取檔案）
data.dropna(inplace = True)
len(data)

145

- 另一種處理空值的方法是`填入新的值`，例如填入0或平均值，這樣就不必刪除整個row
  
  `fillna()`

In [67]:
import pandas as pd

data = pd.read_csv('./iris.csv')

data.fillna(0, inplace = True) 
len(data)

150

In [68]:
# 本來有空值的欄位，現在都被填上 0 了，也就都有 150 個值了
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [None]:
# 上面的範例替換了整個 data 中的所有空白儲存格
# 只想替換某一個特定 column 底下的空白值：
data['SepalLengthCm'].fillna(0, inplace = True)

- 替換空白儲存格的常見方法，是填入 column 的平均值、中位數或眾數，而不是0
- 使用 mean()、median() 和 mode() 來計算

In [None]:
import pandas as pd
df = pd.read_csv('./iris.csv')

# 計算 SepalLengthCm 欄的平均值，並存到變數 x
x = df["SepalLengthCm"].max()

# 用 x 替換 SepalLengthCm 欄的空白值
df["SepalLengthCm"].fillna(x, inplace = True) 