什麼是 Pandas?

Pandas 是一個用於處理資料集的 Python 函式庫。

它具有分析、清理、探索和處理資料的功能。

為什麼要使用 Pandas？

Pandas 讓我們分析大數據並根據統計理論得出結論。

Pandas 可以清理混亂的資料集，使其變得可讀且相關。

Pandas 下載

- CMD
C:\Users\Your Name>pip install pandas
- vscode python
pip install pandas
- vscode ipynb
!pip install pandas

In [24]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


Pandas 的小範例

In [None]:
import pandas as pd # type: ignore

In [26]:
calories = {
    'car': ['BMW', 'Toyota', 'Honda', 'Tesla'],
    'passings': [3, 7, 2, 5],
}

myvar = pd.DataFrame(calories)

print(myvar)

      car  passings
0     BMW         3
1  Toyota         7
2   Honda         2
3   Tesla         5


什麼是系列(Series)？

Pandas 系列就像表格中的一列。

它是一個保存任意型別資料的一維數組。

In [27]:
arr = [1, 7, 2]

myvar = pd.Series(arr)

print(myvar)

0    1
1    7
2    2
dtype: int64


標籤(Labels) index位置

In [28]:
print(myvar[0])

1


建立自己的標籤

In [29]:
myvar = pd.Series(arr , index=['x', 'y', 'z'])

print(myvar)

x    1
y    7
z    2
dtype: int64


In [30]:
print(myvar['y'])

7


以鍵/值物件作為系列

In [31]:
calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories)

print(myvar)

day1    420
day2    380
day3    390
dtype: int64


若要選擇字典裡某些資訊則要用index來抓取

In [32]:
myvar = pd.Series(calories, index=["day1", "day2"])

print(myvar)

day1    420
day2    380
dtype: int64


DataFrames

Pandas 中的資料集通常是多維表，稱為 DataFrames。

Series 就像一列，DataFrame 就是整個表。

In [33]:
data = {
    "calories": [420, 380, 390],
    "duration": [50, 40, 45]
}

myvar = pd.DataFrame(data)  

print(myvar)

   calories  duration
0       420        50
1       380        40
2       390        45


什麼是 DataFrame？

Pandas DataFrame 是一種二維資料結構，類似於二維數組或具有行和列的表。

定位行

Pandas 使用該loc屬性傳回一個或多個指定的行

In [34]:
print(myvar.loc[0])

calories    420
duration     50
Name: 0, dtype: int64


返還第0行和第1行

In [35]:
print(myvar.loc[[0, 1]])

   calories  duration
0       420        50
1       380        40


命名索引

透過該index參數，您可以命名自己的索引。

In [36]:
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df)  

      calories  duration
day1       420        50
day2       380        40
day3       390        45


尋找命名索引

使用屬性中的命名索引loc傳回指定的行。

In [37]:
print(df.loc["day2"])

calories    380
duration     40
Name: day2, dtype: int64


將檔案載入到 DataFrame 中

如果您的資料集儲存在檔案中，Pandas 可以將它們載入到 DataFrame 中。

讀取讀取CSV

In [38]:
df = pd.read_csv('data.csv')    

print(df.to_string())

            Name  Age         Occupation
0       John Doe   28  Software Engineer
1     Jane Smith   34     Data Scientist
2  Emily Johnson   22           Designer
3  Michael Brown   45            Manager


>用於to_string()列印整個 DataFrame。

如果您有一個包含多行資料的大型 DataFrame，Pandas 將只傳回前 5 行和後 5 行：

In [39]:
import numpy as np

data = {
    'name' : np.random.randint(1, 100 , size=100),
    'Age' : np.random.randint(1, 100 , size=100),
    'Occupation' : np.random.choice(["Engineer", "Doctor", "Artist", "Teacher", "Lawyer", "Chef", "Pilot", "Nurse", "Scientist", "Dentist"] , size=100),
}

df = pd.DataFrame(data)

print(df)

    name  Age Occupation
0     54   18       Chef
1     26   55    Dentist
2     42   53      Nurse
3     52   82     Lawyer
4     46   12    Teacher
5     84   19       Chef
6     47   41  Scientist
7     42   26      Nurse
8     92   89      Pilot
9     36   76      Pilot
10     5   84    Teacher
11    60   51     Doctor
12     5   49      Nurse
13    37   66   Engineer
14    68   50     Lawyer
15     5   71   Engineer
16     4   97      Pilot
17    62   73    Teacher
18    43    8  Scientist
19    34   17    Teacher
20    40   61  Scientist
21    75   12      Nurse
22    50   22  Scientist
23    70   96       Chef
24    57   52    Dentist
25    61    3     Lawyer
26    44   39    Teacher
27    73   23     Artist
28    84   61     Doctor
29    60   58      Nurse
30    29   99  Scientist
31    97    4    Dentist
32    78   85      Nurse
33    94   64      Pilot
34    70   56   Engineer
35    55   73     Artist
36    25   57    Dentist
37    55   22     Artist
38    11    3     Lawyer


回傳最大行數

可以使用以下語句檢查系統的最大行數pd.options.display.max_rows。

return 60 代表資料量超過60 則只會顯示前五行和後五行

In [40]:
print(pd.options.display.max_rows) 

100


最大行數是可以設定的

In [41]:
pd.options.display.max_rows = 100
print(pd.options.display.max_rows)

100


讀取 JSON

大數據集通常以 JSON 形式儲存或提取。

JSON 是純文本，但具有物件的格式，並且在程式設計世界中是眾所周知的，包括 Pandas。    

In [42]:
df = pd.read_json('data.json')

print(df.to_string())

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.5
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
17         45     90       112       NaN
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45   

查看數據

快速了解 DataFrame 的最常用方法之一是該head()方法。

In [43]:
print(df.head(10))

   Duration  Pulse  Maxpulse  Calories
0        60    110       130     409.1
1        60    117       145     479.0
2        60    103       135     340.0
3        45    109       175     282.4
4        45    117       148     406.0
5        60    102       127     300.5
6        60    110       136     374.0
7        45    104       134     253.3
8        30    109       133     195.1
9        60     98       124     269.0


>若無指定的行數則預設為5行

還有一個tail()方法可以查看 DataFrame 的最後幾行。

In [44]:
print(df.tail(10))

     Duration  Pulse  Maxpulse  Calories
159        30     80       120     240.9
160        30     85       120     250.4
161        45     90       130     260.4
162        45     95       130     270.0
163        45    100       140     280.9
164        60    105       140     290.8
165        60    110       145     300.4
166        60    115       145     310.2
167        75    120       150     320.4
168        75    125       150     330.4


DataFrames 物件有一個名為的方法info()，可以為您提供有關資料集的更多資訊。

In [45]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 169 entries, 0 to 168
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  169 non-null    int64  
 1   Pulse     169 non-null    int64  
 2   Maxpulse  169 non-null    int64  
 3   Calories  164 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 6.6 KB
None


>info()可以告知有無空值