# Pandas入門

## 安裝 pandas 模組

In [2]:
# 如果沒有安裝pandas 則執行下列指令安裝(移除註解後執行，只需執行一次)
# !pip install pandas

Collecting pandas
  Using cached pandas-2.0.1-cp38-cp38-win_amd64.whl (10.8 MB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2023.3-py2.py3-none-any.whl (502 kB)
Installing collected packages: pytz, pandas
Successfully installed pandas-2.0.1 pytz-2023.3


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
dateparser 1.1.1 requires regex!=2019.02.19,!=2021.8.27,<2022.3.15, which is not installed.


## Pandas數據結構

### Series數據結構

#### 建立Series

In [1]:
# 建立一個包含五個整數的Series
# 左邊的0-4是索引，右邊的1-5是值。
import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data)
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

#### Series的索引

In [2]:
print(s[0])  # 輸出1
print(s[1:4])  # 輸出1-3的值

1
1    2
2    3
3    4
dtype: int64


In [3]:
mask = s > 2 # 建立一個布林遮罩
print(s[mask])  # 輸出大於2的值

2    3
3    4
4    5
dtype: int64


In [5]:
# 計算Series的基本統計資訊
print(s.describe(), '\n')

# 計算Series的和
print(s.sum(), '\n')

# 將Series中的數據乘以2
print(s * 2)

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64 

15 

0     2
1     4
2     6
3     8
4    10
dtype: int64


### DataFrame數據結構

#### 建立DataFrame

In [6]:
import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Cathy'],
    'Age': [25, 30, 35],
    'City': ['New York', 'San Francisco', 'Los Angeles']
} # 建立一個字典

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Cathy,35,Los Angeles


#### DataFrame的索引

In [7]:
df['Name']  # 輸出Name欄位

0    Alice
1      Bob
2    Cathy
Name: Name, dtype: object

In [8]:
print(df.loc[0])  # 輸出第一列(從0開始數)
print("---")
print(df.iloc[0, 1])  # 輸出第一列第二行（即Age欄位）的值

Name       Alice
Age           25
City    New York
Name: 0, dtype: object
---
25


#### DataFrame操作方法

In [10]:
# 計算DataFrame的基本統計信息
print(df.describe())

# 計算Age列的平均值
print(df['Age'].mean())

# 將DataFrame按照Age列進行排序
df.sort_values(by='Age')


        Age
count   3.0
mean   30.0
std     5.0
min    25.0
25%    27.5
50%    30.0
75%    32.5
max    35.0
30.0


Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Cathy,35,Los Angeles


## Pandas數據讀取與清理

### 數據讀取

#### 讀取csv

In [11]:
import pandas as pd

# 讀取CSV文件
data = pd.read_csv('data.csv')

# 顯示前五筆數據
data.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data.csv'

#### 讀取Excel

In [None]:
import pandas as pd

# 讀取Excel文件
data = pd.read_excel('data.xlsx') # 可能需要安裝openpyxl模組

# 顯示前3筆數據
data.head(3)

### 數據清理

#### 處理缺失值

In [13]:
import pandas as pd

# 假設我們有以下DataFrame
data = pd.DataFrame({'A': [1, 2, None, 4],
                     'B': [None, 2, 3, 4],
                     'C': [1, 2, 3, 4]})
print(f"原始數據：\n{data},\n---")

# 方法1：刪除包含缺失值的列
data_dropna = data.dropna()
print(f"刪除包含缺失值的列：\n{data_dropna},\n---")

# 方法2：用指定值填充缺失值
data_fillna = data.fillna(0)
print(f"用指定值填充缺失值：\n{data_fillna},\n---")

# 方法3：用前一個值填充缺失值
data_fillna_ffill = data.fillna(method='ffill')
print(f"用前一個值填充缺失值：\n{data_fillna_ffill},\n---")

# 方法4：用後一個值填充缺失值
data_fillna_bfill = data.fillna(method='bfill')
print(f"用後一個值填充缺失值：\n{data_fillna_bfill},\n---")


原始數據：
     A    B  C
0  1.0  NaN  1
1  2.0  2.0  2
2  NaN  3.0  3
3  4.0  4.0  4,
---
刪除包含缺失值的列：
     A    B  C
1  2.0  2.0  2
3  4.0  4.0  4,
---
用指定值填充缺失值：
     A    B  C
0  1.0  0.0  1
1  2.0  2.0  2
2  0.0  3.0  3
3  4.0  4.0  4,
---
用前一個值填充缺失值：
     A    B  C
0  1.0  NaN  1
1  2.0  2.0  2
2  2.0  3.0  3
3  4.0  4.0  4,
---
用後一個值填充缺失值：
     A    B  C
0  1.0  2.0  1
1  2.0  2.0  2
2  4.0  3.0  3
3  4.0  4.0  4,
---


#### 處理重複值

In [12]:
import pandas as pd

# 假設我們有以下DataFrame
data = pd.DataFrame({'A': [1, 2, 2, 4, 4],
                     'B': [1, 2, 3, 4, 4],
                     'C': [1, 2, 3, 4, 4]})
print(f"原始數據：\n{data},\n---")

# 刪除重複值
data_drop_duplicates = data.drop_duplicates()
print(f"刪除重複值：\n{data_drop_duplicates},\n---")

原始數據：
   A  B  C
0  1  1  1
1  2  2  2
2  2  3  3
3  4  4  4
4  4  4  4,
---
刪除重複值：
   A  B  C
0  1  1  1
1  2  2  2
2  2  3  3
3  4  4  4,
---


#### 合併與重塑

In [15]:
import pandas as pd

# 假設我們有以下兩個DataFrame
data1 = pd.DataFrame({'A': [1, 2, 3],
                      'B': [4, 5, 6]})
data2 = pd.DataFrame({'A': [1, 8, 9],
                      'B': [10, 11, 12]})
print(f"原始數據1：\n{data1},\n---")
print(f"原始數據2：\n{data2},\n---")


# 使用concat()函數合併兩個DataFrame
data_concat = pd.concat([data1, data2], ignore_index=True)
print(f"用concat合併後的數據：\n{data_concat},\n---")

# 使用merge()函數根據指定欄位合併兩個DataFrame
data_merge = pd.merge(data1, data2, on='A')
print(f"用merge合併後的數據：\n{data_merge},\n---")


原始數據1：
   A  B
0  1  4
1  2  5
2  3  6,
---
原始數據2：
   A   B
0  1  10
1  8  11
2  9  12,
---
用concat合併後的數據：
   A   B
0  1   4
1  2   5
2  3   6
3  1  10
4  8  11
5  9  12,
---
用merge合併後的數據：
   A  B_x  B_y
0  1    4   10,
---


In [4]:
data_merge

Unnamed: 0,A,B_x,B_y
0,1,4,10


## Pandas數據選擇與操作

### 數據選取

#### pandas索引

In [22]:
import pandas as pd

data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data, index=['row1', 'row2', 'row3'])

# 使用loc選取指定行或列
print(df.loc['row1'], "\n---\n")  # 選取row1這一列
print(df.loc[:, 'A'], "\n---\n")  # 選取A這一行

# 使用iloc選取指定行或列
print(df.iloc[0], "\n---\n")  # 選取第一列
print(df.iloc[:, 0], "\n---\n")  # 選取第一行

# 使用at選取單個元素
print(df.at['row1', 'A'], "\n---\n")  # 選取row1列A行(欄)的元素

# 使用iat選取單個元素
print(df.iat[0, 0], "\n---\n")  # 選取第一列第一行的元素


A    1
B    4
C    7
Name: row1, dtype: int64 
---

row1    1
row2    2
row3    3
Name: A, dtype: int64 
---

A    1
B    4
C    7
Name: row1, dtype: int64 
---

row1    1
row2    2
row3    3
Name: A, dtype: int64 
---

1 
---

1 
---



#### pandas篩選

In [17]:
import pandas as pd

data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 使用query篩選數據
print(df.query('A > 1'))  # 選取A列大於1的列

# 使用where篩選數據
print(df.where(df > 4))  # 選取大於4的數據，不符合條件的數據將被替換為NaN

# 使用isin篩選數據
print(df[df['A'].isin([1, 3])])  # 選取A列值為1或3的列

# 使用str篩選數據
data = {'A': ['apple', 'banana', 'cherry'],
        'B': ['orange', 'grape', 'lemon']}
df = pd.DataFrame(data)
print(df[df['A'].str.contains('a')])  # 選取A列包含字母'a'的列

# 使用select_dtypes篩選數據
data = {'A': [1, 2, 3],
        'B': [4.0, 5.0, 6.0],
        'C': ['a', 'b', 'c']}
df = pd.DataFrame(data)
print(df.select_dtypes(include='number'))  # 選取數值類型的行


df.query('A > 1'):
   A  B  C
1  2  5  8
2  3  6  9
    A    B  C
0 NaN  NaN  7
1 NaN  5.0  8
2 NaN  6.0  9
   A  B  C
0  1  4  7
2  3  6  9
        A       B
0   apple  orange
1  banana   grape
   A    B
0  1  4.0
1  2  5.0
2  3  6.0


### 數據操作

#### 數據排序

In [25]:
import pandas as pd

data = {'A': [3, 1, 2],
        'B': [6, 4, 5],
        'C': [9, 7, 8]}
df = pd.DataFrame(data)

# 使用sort_values對數據進行排序
print(df.sort_values(by='A'), "\n---\n")  # 根據A列的值進列排序
print(df.sort_values(by=['A', 'B']), "\n---\n")  # 根據A行和B行的值進列排序

# 使用sort_index對數據進列排序
df.index = ['row3', 'row1', 'row2']
print(df.sort_index(), "\n---\n")  # 根據索引進列排序


   A  B  C
1  1  4  7
2  2  5  8
0  3  6  9 
---

   A  B  C
1  1  4  7
2  2  5  8
0  3  6  9 
---

      A  B  C
row1  1  4  7
row2  2  5  8
row3  3  6  9 
---



#### 分組與聚合

In [18]:
import pandas as pd

data = {'Category': ['A', 'A', 'B', 'B', 'C', 'C'],
        'Value': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)

# 使用groupby進行分組
grouped = df.groupby('Category')

# 使用聚合函數對分組後的數據
print(grouped.sum(), "\n---\n")  # 計算分組後的和
print(grouped.mean(), "\n---\n")  # 計算分組後的平均值
print(grouped.size(), "\n---\n")  # 計算分組後的元素個數


          Value
Category       
A             3
B             7
C            11 
---

          Value
Category       
A           1.5
B           3.5
C           5.5 
---

Category
A    2
B    2
C    2
dtype: int64 
---



## Pandas樞紐分析與聚合