# DataFrame與Pandas基本操作

## 1.建立DataFrame

### 1-1.從頭建立

#### 1-1-1:字典：Key為欄位名，Values為值

In [55]:
import pandas as pd
# dictionary Keys為欄位名稱，Values為值
data = {
    '姓名': ['王小明', '李美麗', '張大偉'],
    '年齡': [25, 30, 22],
    '城市': ['台北', '高雄', '台中']
}

# 把data 字典形態轉換為pd.DataFrame形式

df_0 = pd.DataFrame(data)
print(df_0)

    姓名  年齡  城市
0  王小明  25  台北
1  李美麗  30  高雄
2  張大偉  22  台中


#### 1-1-2:列表中的字典

In [56]:
import pandas as pd
data0 = [
    {'姓名': '張三', '年齡': 25, '城市': '台北'},
    {'姓名': '李四', '年齡': 30, '城市': '高雄'},
    {'姓名': '王五', '年齡': 35, '城市': '台中'}
]
df0 = pd.DataFrame(data)
print(df0)

    姓名  年齡  城市
0  王小明  25  台北
1  李美麗  30  高雄
2  張大偉  22  台中


#### 1-1-3:二維陣列，List of List

In [59]:
data0 = [
    ['張三', 25, '台北'],
    ['李四', 30, '高雄'],
    ['王五', 35, '台中']
]
# 使用 columns 參數來指定欄位名稱
# columns0 = ['姓名', '年齡', '城市']
# data0 = pd.DataFrame(data0, columns=columns0)
# print(data0)

print('------------------------------')
columns1 = ['A', 'B', 'C']
data0 = pd.DataFrame(data0, columns=columns1)
print(data0)

------------------------------
    A   B   C
0  張三  25  台北
1  李四  30  高雄
2  王五  35  台中


### 1-2.匯入資料
- 讀取檔案：pd.read_csv，也可以.read_html...
- 解析中文資料：encoding = 'big5'
- parse_dates:解析日期，從文字變日期格式，才可以針對他做加減（如計算時間差的timedelta)
- 只選擇特定欄位，usecols=['Product','Price]，或者透過index1, index2...位置順序去寫一個tuple
- -遺漏值：
    - dropna(how='all')：整欄或整列都是Nan，就刪去他
    - dropna(how='any')：整欄或整列有任何遺漏值，就刪去他
    - dropna(how='all', subset=['City'])
    - fillna(0).astype(int)：將遺漏值填補為0，此時type=float，因此透過astype改為int

In [None]:
df = pd.read_csv("Sales-Data-Analysis.csv", encoding='big5') # encoding='big5'是用來處裡繁體中文資料，但這份資料為英文，所以沒差
print(df)
print('----------------------------------')
df = pd.read_csv("Sales-Data-Analysis.csv", encoding='big5', usecols=['Product','Price'])
print(df)
print('----------------------------------')
df = pd.read_csv("Sales-Data-Analysis.csv", encoding='big5', usecols=(3,4)) #透過column順序也可以
print(df)

     Order ID        Date             Product  Price  Quantity Purchase Type  \
0       10452  07-11-2022               Fries   3.49    573.07       Online    
1       10453  07-11-2022           Beverages   2.95    745.76       Online    
2       10454  07-11-2022       Sides & Other   4.99    200.40     In-store    
3       10455  08-11-2022             Burgers  12.99    569.67     In-store    
4       10456  08-11-2022  Chicken Sandwiches   9.95    201.01     In-store    
..        ...         ...                 ...    ...       ...           ...   
249     10709  28-12-2022       Sides & Other   4.99    200.40   Drive-thru    
250     10710  29-12-2022             Burgers  12.99    754.43   Drive-thru    
251     10711  29-12-2022  Chicken Sandwiches   9.95    281.41   Drive-thru    
252     10712  29-12-2022               Fries   3.49    630.37   Drive-thru    
253     10713  29-12-2022           Beverages   2.95    677.97   Drive-thru    

    Payment Method             Manager 

## 2.查看資料
### 2-1.查看前幾行
#### df.head()預設前5個數據

In [None]:
print(df.head()) 

   Order ID        Date             Product  Price  Quantity Purchase Type  \
0     10452  07-11-2022               Fries   3.49    573.07       Online    
1     10453  07-11-2022           Beverages   2.95    745.76       Online    
2     10454  07-11-2022       Sides & Other   4.99    200.40     In-store    
3     10455  08-11-2022             Burgers  12.99    569.67     In-store    
4     10456  08-11-2022  Chicken Sandwiches   9.95    201.01     In-store    

  Payment Method             Manager    City  
0      Gift Card    Tom      Jackson  London  
1      Gift Card         Pablo Perez  Madrid  
2      Gift Card       Joao    Silva  Lisbon  
3    Credit Card       Walter Muller  Berlin  
4    Credit Card       Walter Muller  Berlin  


### 2-2.查看DataFrame結構
- 方法(method)：屬於函數，要透過()去計算、處理、顯示
- 屬性(property)：物件本身大小、形狀、類型
- 可以透過游標內容看是method or property
  
  - df.info()：欄位名稱、空值數量、data type...
  - df.describe():敘述性統計
  - df.size
  - df.shape
  - df.count()


In [None]:
# 完整資訊，順便確認遺漏值
print(df.info())
print('----------------------')
# 敘述性統計
print(df.describe())
print('----------------------')
# 列*欄個數
print(df.size)
print('----------------------')
#tuple (,)
print(df.shape)
print('----------------------')
print(df.count())
print('----------------------')
print(df.dtypes)
print('----------------------')
#找出不重複數值
print(df['Product'].unique()) 

<class 'pandas.core.frame.DataFrame'>
Index: 254 entries, 113 to 109
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Order ID        254 non-null    int64         
 1   Date            254 non-null    datetime64[ns]
 2   Product         254 non-null    object        
 3   Price           254 non-null    float64       
 4   Quantity        254 non-null    float64       
 5   Purchase Type   254 non-null    object        
 6   Payment Method  254 non-null    object        
 7   Manager         254 non-null    object        
 8   City            254 non-null    object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(5)
memory usage: 19.8+ KB
None
----------------------
           Order ID                           Date       Price    Quantity
count    254.000000                            254  254.000000  254.000000
mean   10584.133858  2022-12-03 10:23:37.322834688    7.102323  460

### 2-3.日期處理

In [None]:
# 呈上，處理date的data type為object

df['Date'] = pd.to_datetime(df['Date'], format='%d-%m-%Y') # 注意，format樣式要和raw data裡面的排序、連接符號一樣
print(df.dtypes)


Order ID                   int64
Date              datetime64[ns]
Product                   object
Price                    float64
Quantity                 float64
Purchase Type             object
Payment Method            object
Manager                   object
City                      object
dtype: object


#### 如果不想要這麼麻煩，也可以一開始pd.read.csv時就先設定好日期格式
- parse_dates：將文字/字串轉換為pandas可理解的Datetime。通常表示為 datetime64[ns]

In [None]:
df = pd.read_csv('xxxxx', parse_dates=['Date'])

## 3.選取數據
### 3-1.選一列

In [7]:
print(df['Product'])

0                   Fries
1               Beverages
2           Sides & Other
3                 Burgers
4      Chicken Sandwiches
              ...        
249         Sides & Other
250               Burgers
251    Chicken Sandwiches
252                 Fries
253             Beverages
Name: Product, Length: 254, dtype: object


### 3-2.選多列！例如前面在import時沒有usecols，後面可以再針對特定欄位取出

#### 注意：多列的狀況下，需要先將columns包在list裡面，再將他指定進dataframe裡面。[column1, column2...]

In [19]:
print(df[['Product','Payment Method']])

                Product Payment Method
0                 Fries      Gift Card
1             Beverages      Gift Card
2         Sides & Other      Gift Card
3               Burgers    Credit Card
4    Chicken Sandwiches    Credit Card
..                  ...            ...
249       Sides & Other      Gift Card
250             Burgers      Gift Card
251  Chicken Sandwiches      Gift Card
252               Fries      Gift Card
253           Beverages      Gift Card

[254 rows x 2 columns]


#### 選取列時，也可以透過df.columns看一下列目前的狀況

In [11]:
print(df.columns)

Index(['Order ID', 'Date', 'Product', 'Price', 'Quantity', 'Purchase Type',
       'Payment Method', 'Manager', 'City'],
      dtype='object')


#### 有時候選取列時出現error，會和欄位名稱的空值有關，如'Product-Name'和' Product-Name'不同。透過.strip()移除所有空格

In [18]:
df.columns = df.columns.str.strip()
df['City'] = df['City'].str.strip()
print(df['City'])

0      London
1      Madrid
2      Lisbon
3      Berlin
4      Berlin
        ...  
249    Berlin
250    Berlin
251    Berlin
252    Berlin
253    Berlin
Name: City, Length: 254, dtype: object


In [None]:
print(df0.values)
print('----------------')
print(df0)
print('----------------')
print(df0.columns) #回傳每一欄名稱
print('----------------')
print(df0.index) #回傳列名稱（目前照順序）
print('----------------')
print(df0.dtypes) #回傳每列的data type

[['王小明' 25 '台北']
 ['李美麗' 30 '高雄']
 ['張大偉' 22 '台中']]
----------------
    姓名  年齡  城市
0  王小明  25  台北
1  李美麗  30  高雄
2  張大偉  22  台中
----------------
Index(['姓名', '年齡', '城市'], dtype='object')
----------------
RangeIndex(start=0, stop=3, step=1)
----------------
姓名    object
年齡     int64
城市    object
dtype: object


### 3-3.選取特定條件（值、數...）
#### 條件一：Product = Fries

In [None]:
df['Product'] == 'Fries' #這一個True/False判斷
print(df[df['Product'] == 'Fries'])

     Order ID        Date Product  Price  Quantity Purchase Type  \
0       10452  07-11-2022   Fries   3.49    573.07       Online    
5       10457  08-11-2022   Fries   3.49    573.07     In-store    
9       10462  09-11-2022   Fries   3.49    573.07     In-store    
14      10467  10-11-2022   Fries   3.49    573.07     In-store    
18      10472  11-11-2022   Fries   3.49    630.37     In-store    
23      10477  12-11-2022   Fries   3.49    630.37     In-store    
28      10482  13-11-2022   Fries  25.50    630.37     In-store    
30      10487  14-11-2022   Fries   3.49    630.37     In-store    
35      10492  15-11-2022   Fries   3.49    573.07     In-store    
40      10497  16-11-2022   Fries   3.49    573.07     In-store    
45      10502  17-11-2022   Fries   3.49    630.37   Drive-thru    
50      10507  18-11-2022   Fries   3.49    687.68   Drive-thru    
55      10512  19-11-2022   Fries   3.49    687.68   Drive-thru    
65      10522  21-11-2022   Fries   3.49    687.

#### 條件二：Product = Fries & City = London
##### 注意&用法：& 等級高於 ==，所以要用()包起來

In [28]:
df['Product'] == 'fries'
df['City'] == 'London'

# 條件一和條件二需要聯級，透過'&'
result_df = df[(df['Product'] == 'fries') & (df['City'] == 'London')]
print(result_df)

Empty DataFrame
Columns: [Order ID, Date, Product, Price, Quantity, Purchase Type, Payment Method, Manager, City]
Index: []


#### 條件三：Product = Fries & Burgers & Chicken Sandwiches
#### 更簡潔的方法：.isin()

In [30]:
print(df[df['Product'].isin(['Fries','Burgers','Chicken Sandwiches'])])


     Order ID        Date             Product  Price  Quantity Purchase Type  \
0       10452  07-11-2022               Fries   3.49    573.07       Online    
3       10455  08-11-2022             Burgers  12.99    569.67     In-store    
4       10456  08-11-2022  Chicken Sandwiches   9.95    201.01     In-store    
5       10457  08-11-2022               Fries   3.49    573.07     In-store    
7       10460  09-11-2022             Burgers  12.99    554.27     In-store    
..        ...         ...                 ...    ...       ...           ...   
246     10706  28-12-2022  Chicken Sandwiches   9.95    301.51   Drive-thru    
247     10707  28-12-2022               Fries   3.49    630.37   Drive-thru    
250     10710  29-12-2022             Burgers  12.99    754.43   Drive-thru    
251     10711  29-12-2022  Chicken Sandwiches   9.95    281.41   Drive-thru    
252     10712  29-12-2022               Fries   3.49    630.37   Drive-thru    

    Payment Method           Manager   

## 4. 添加與刪除欄/列

### 4-1.添加新欄

In [32]:
new_data = {
    '姓名': ['王小明', '李美麗', '張大偉'],
    '年齡': [25, 30, 22],
    '城市': ['台北', '高雄', '台中']
}

data2 = pd.DataFrame(new_data)
print(data2)

print('-----------------------------------------')

data2['職業'] = ['律師','醫師','工程師']
data2['性別'] = ['F','M','M']
print(data2)


    姓名  年齡  城市
0  王小明  25  台北
1  李美麗  30  高雄
2  張大偉  22  台中
-----------------------------------------
    姓名  年齡  城市   職業 性別
0  王小明  25  台北   律師  F
1  李美麗  30  高雄   醫師  M
2  張大偉  22  台中  工程師  M


### 4-2.刪除新欄

#### axis = 0，刪除列，刪除方向為縱向
#### axis = 1，刪除欄，刪除方向為橫向

In [33]:
data2 = data2.drop('性別', axis=1)
print(data2)

    姓名  年齡  城市   職業
0  王小明  25  台北   律師
1  李美麗  30  高雄   醫師
2  張大偉  22  台中  工程師


### 4-3.新增新列

In [37]:
new_data2 = [['陳建國', 28, '台北', '跑步'],
    ['吳芳芳', 29, '高雄', '音樂'],
    ['林立群', 27, '台中', '攝影']]

new_df = pd.DataFrame(new_data2, columns=data2.columns)
print(new_df)
print('--------------------------------------------------')
data2 = pd.concat([data2,new_df],ignore_index=True)
print(data2)

    姓名  年齡  城市  職業
0  陳建國  28  台北  跑步
1  吳芳芳  29  高雄  音樂
2  林立群  27  台中  攝影
--------------------------------------------------
    姓名  年齡  城市   職業
0  王小明  26  台北   律師
1  李美麗  31  高雄   醫師
2  張大偉  23  台中  工程師
3  陳建國  28  台北   跑步
4  吳芳芳  29  高雄   音樂
5  林立群  27  台中   攝影
6  陳建國  28  台北   跑步
7  吳芳芳  29  高雄   音樂
8  林立群  27  台中   攝影


## 5. 數據運算

### 5-1.數學運算

In [34]:
data2['年齡'] += 1
print(data2)

    姓名  年齡  城市   職業
0  王小明  26  台北   律師
1  李美麗  31  高雄   醫師
2  張大偉  23  台中  工程師


### 5-2.聚合
- groupby():Excel裡面的樞紐，是一個分組計劃，而不是分組後的成果展現
- 在決定要用誰groupby時，可以透過nunique()看不重複項。越少越適合

In [None]:
print(df.nunique()) #product, purchase type, payment method, city都滿適合
print('------------------------------------')
grouped = df.groupby('Product')['Quantity'].mean() #按照Product分組，計算每個Quantity的平均
print(grouped)
print('------------------------------------')
grouped.size #分成幾組b

Order ID          254
Date               53
Product             5
Price               7
Quantity           29
Purchase Type       3
Payment Method      3
Manager            14
City                5
dtype: int64
------------------------------------
Product
Beverages             699.662800
Burgers               558.121346
Chicken Sandwiches    214.152308
Fries                 628.124314
Sides & Other         200.400000
Name: Quantity, dtype: float64
------------------------------------


5

- value_counts()：計數
- value_counts(normalize=True) ：換算為百分比

In [184]:
grouped_counts = df['Product'].value_counts()
print(grouped_counts)
print('------------------------------------')
grouped_counts_percentage = df['Product'].value_counts(normalize=True)
print(grouped_counts_percentage)


Product
Burgers               52
Chicken Sandwiches    52
Fries                 51
Beverages             50
Sides & Other         49
Name: count, dtype: int64
------------------------------------
Product
Burgers               0.204724
Chicken Sandwiches    0.204724
Fries                 0.200787
Beverages             0.196850
Sides & Other         0.192913
Name: proportion, dtype: float64


## 6. 遺漏值

In [174]:
new_data3 = [['吳其仁', None, None, '音樂'],['李大仁', None, '台中', None]]
data3 = pd.DataFrame(new_data3, columns=data2.columns)
# print(data3)

data2 = pd.concat((data2,data3), ignore_index=True)
print(data2)
print('------------------')

# 查看哪裡有遺漏值
print(data2.isnull())



     姓名    年齡    城市    職業
0   王小明    26    台北    律師
1   李美麗    31    高雄    醫師
2   張大偉    23    台中   工程師
3   陳建國    28    台北    跑步
4   吳芳芳    29    高雄    音樂
5   林立群    27    台中    攝影
6   陳建國    28    台北    跑步
7   吳芳芳    29    高雄    音樂
8   林立群    27    台中    攝影
9   吳其仁     0   不知道    音樂
10  李大仁     0    台中  None
11  吳其仁     0   不知道    音樂
12  李大仁     0    台中  None
13  吳其仁     0   不知道    音樂
14  李大仁     0    台中  None
15  吳其仁  None  None    音樂
16  李大仁  None    台中  None
17  吳其仁  None  None    音樂
18  李大仁  None    台中  None
19  吳其仁  None  None    音樂
20  李大仁  None    台中  None
21  吳其仁  None  None    音樂
22  李大仁  None    台中  None
23  吳其仁  None  None    音樂
24  李大仁  None    台中  None
25  吳其仁  None  None    音樂
26  李大仁  None    台中  None
------------------
       姓名     年齡     城市     職業
0   False  False  False  False
1   False  False  False  False
2   False  False  False  False
3   False  False  False  False
4   False  False  False  False
5   False  False  False  False
6   False  False  False  False
7   F

### 將年齡、城市中遺漏值補0

In [49]:
data2['年齡'].fillna(0, inplace=True) # 年齡中遺漏值補0
data2['城市'].fillna('不知道', inplace=True) # 年齡中遺漏值補0
print(data2)

     姓名  年齡   城市    職業
0   王小明  26   台北    律師
1   李美麗  31   高雄    醫師
2   張大偉  23   台中   工程師
3   陳建國  28   台北    跑步
4   吳芳芳  29   高雄    音樂
5   林立群  27   台中    攝影
6   陳建國  28   台北    跑步
7   吳芳芳  29   高雄    音樂
8   林立群  27   台中    攝影
9   吳其仁   0  不知道    音樂
10  李大仁   0   台中  None
11  吳其仁   0  不知道    音樂
12  李大仁   0   台中  None
13  吳其仁   0  不知道    音樂
14  李大仁   0   台中  None


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data2['城市'].fillna('不知道', inplace=True) # 年齡中遺漏值補0


## 7. 遺漏值

In [None]:
df.sort_values(by=['Date','Quantity'], ascending=[True, False], inplace=True) #Data由小到大排，Quantity由大到小排
print(df.head(10)) #

     Order ID        Date             Product  Price  Quantity Purchase Type  \
113     10573  01-12-2022           Beverages   2.95    677.97       Online    
112     10572  01-12-2022               Fries   3.49    573.07       Online    
110     10570  01-12-2022             Burgers  12.99    492.69       Online    
111     10571  01-12-2022  Chicken Sandwiches   9.95    201.01       Online    
114     10574  01-12-2022       Sides & Other   4.99    200.40       Online    
118     10578  02-12-2022           Beverages   2.95    677.97       Online    
117     10577  02-12-2022               Fries   3.49    630.37       Online    
115     10575  02-12-2022             Burgers  12.99    523.48       Online    
116     10576  02-12-2022  Chicken Sandwiches   9.95    201.01       Online    
119     10579  02-12-2022       Sides & Other   4.99    200.40       Online    

    Payment Method      Manager    City  
113    Credit Card   Remy Monet   Paris  
112    Credit Card   Remy Monet   P

## 8. 輸出

In [54]:
df.to_csv('output_files.csv', index=False) #不必print索引值

## 9. Squeeze純量
### 將多餘維度擠掉，維度降至最低
- 一維度的Series沒有欄位名稱
- dtype=Series

In [None]:
d = pd.DataFrame({'A':[1,2,3,4,5]})
print(d)
print(type(d))
print('-----------------------')
s1 = d.squeeze() #預設為s1 = d.squeeze(axis=1) # d.squeeze(axis='column')
print(s1)
print(type(s1))


   A
0  1
1  2
2  3
3  4
4  5
<class 'pandas.core.frame.DataFrame'>
-----------------------
0    1
1    2
2    3
3    4
4    5
Name: A, dtype: int64
<class 'pandas.core.series.Series'>
-----------------------
   A
0  1
1  2
2  3
3  4
4  5


## 10. loc, iloc
- df.loc['列的值','欄的值']

### 10-1.透過loc修改列的值

In [126]:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['x', 'y', 'z'])
print(df)
print('----------------------')

# 將索引 'y' 的 'B' 欄位值修改為 99
df.loc['y', 'B'] = 99
print(df)

   A  B
x  1  4
y  2  5
z  3  6
----------------------
   A   B
x  1   4
y  2  99
z  3   6


### 10-2.透過指定index，修改列的值

In [129]:
import pandas as pd
# 創建一個 DataFrame 來記錄學生成績

# dictionary
grades_data = {
    '國文': [85, 92, 78],
    '數學': [90, 88, 95],
    '英文': [75, 80, 82]
}

# list
students = ['小明', '小華', '小強']
# 原始
grades_df = pd.DataFrame(grades_data)
print(grades_df)
print('----------------------------------')
grades_df = pd.DataFrame(grades_data, index=students)
print(grades_df)


   國文  數學  英文
0  85  90  75
1  92  88  80
2  78  95  82
----------------------------------
    國文  數學  英文
小明  85  90  75
小華  92  88  80
小強  78  95  82


### 10-3. loc定位

In [133]:
print(grades_df)
student_loc = grades_df.loc['小華':'小強','國文':'數學']
print('-------------------')
print(student_loc)

    國文  數學  英文
小明  85  90  75
小華  92  88  80
小強  78  95  82
-------------------
    國文  數學
小華  92  88
小強  78  95


### 10-4. iloc定位

In [134]:
print(grades_df)
student_hua_math = grades_df.iloc[1,1]
print(f'小華的數學成績為：{student_hua_math}')

    國文  數學  英文
小明  85  90  75
小華  92  88  80
小強  78  95  82
小華的數學成績為：88


## 11.整理文字資料
- lower()
- upper()
- title()
- len()
- strip()/lstrip()/rstrip()
- replace('old','new')

In [140]:
print(df['Product'].str.lower()) #全小寫
print(df['Product'].str.upper()) #全大寫
print(df['Product'].str.title()) #字首大寫
print(df['Product'].str.len()) #長度
print(df['Product'].str.strip()) #移除左右邊空白
print(df['Product'].str.lstrip())
print(df['Product'].str.rstrip())
print(df['Product'].str.replace("Beverages",'drinks'))

0                   fries
1               beverages
2           sides & other
3                 burgers
4      chicken sandwiches
              ...        
249         sides & other
250               burgers
251    chicken sandwiches
252                 fries
253             beverages
Name: Product, Length: 254, dtype: object
0                   FRIES
1               BEVERAGES
2           SIDES & OTHER
3                 BURGERS
4      CHICKEN SANDWICHES
              ...        
249         SIDES & OTHER
250               BURGERS
251    CHICKEN SANDWICHES
252                 FRIES
253             BEVERAGES
Name: Product, Length: 254, dtype: object
0                   Fries
1               Beverages
2           Sides & Other
3                 Burgers
4      Chicken Sandwiches
              ...        
249         Sides & Other
250               Burgers
251    Chicken Sandwiches
252                 Fries
253             Beverages
Name: Product, Length: 254, dtype: object
0       5
1     

- str.contains('包含條件'):篩選
- str.lower().str.startwith()：開頭包含，連續2個str條件

In [147]:
print((df[df['Product'].str.contains('Fries')]).head()) #篩選
print('-------------------')
print(df[df['Payment Method'].str.lower().str.startswith('gift')].head())

    Order ID        Date Product  Price  Quantity Purchase Type  \
0      10452  07-11-2022   Fries   3.49    573.07       Online    
5      10457  08-11-2022   Fries   3.49    573.07     In-store    
9      10462  09-11-2022   Fries   3.49    573.07     In-store    
14     10467  10-11-2022   Fries   3.49    573.07     In-store    
18     10472  11-11-2022   Fries   3.49    630.37     In-store    

   Payment Method            Manager    City  
0       Gift Card   Tom      Jackson  London  
5     Credit Card      Remy    Monet   Paris  
9     Credit Card         Remy Monet   Paris  
14    Credit Card        Pablo Perez  Madrid  
18    Credit Card      Pablo   Perez  Madrid  
-------------------
Empty DataFrame
Columns: [Order ID, Date, Product, Price, Quantity, Purchase Type, Payment Method, Manager, City]
Index: []


- str.get()：取出特定元素
  - get(0)：第一個元素
  - get(1)：第二個元素
- value_counts()：計算每一個不重複元素次數

In [153]:
print(df['Manager'].str.strip().str.title().str.split().str.get(0).head()) #移除空白、開頭大寫、分割後取得第1個名字元素

# print(df['Manager'])
print('-------------------------')

print(df['Manager'].str.strip().str.title().str.split().str.get(0).value_counts())

0       Tom
1     Pablo
2      Joao
3    Walter
4    Walter
Name: Manager, dtype: object
-------------------------
Manager
Tom       75
Joao      75
Pablo     46
Walter    30
Remy      28
Name: count, dtype: int64


#### split:拆開/不拆開
- expand = True，拆開一次
- n=1，拆分一次（左邊第一個空格開始拆）

In [None]:
print(df['Manager'].str.split(expand=True, n=1))

          0        1
0       Tom  Jackson
1     Pablo    Perez
2      Joao    Silva
3    Walter   Muller
4    Walter   Muller
..      ...      ...
249  Walter   Muller
250  Walter   Muller
251  Walter   Muller
252  Walter   Muller
253  Walter   Muller

[254 rows x 2 columns]


## 12. 排序數字
- sort_values(ascending=True)

In [None]:
import pandas as pd
sales_data = {
    '地區': ['台北', '高雄', '台北', '台中'],
    '產品': ['A', 'B', 'A', 'C'],
    '銷售額': [150, 200, 100, 250],
    '日期': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04']
}
sales_df = pd.DataFrame(sales_data)
print(sales_df)
print('------------------------------')
print(sales_df.sort_values('銷售額'))


   地區 產品  銷售額          日期
0  台北  A  150  2023-01-01
1  高雄  B  200  2023-01-02
2  台北  A  100  2023-01-03
3  台中  C  250  2023-01-04
------------------------------
   地區 產品  銷售額          日期
2  台北  A  100  2023-01-03
0  台北  A  150  2023-01-01
1  高雄  B  200  2023-01-02
3  台中  C  250  2023-01-04
------------------------------
   地區 產品  銷售額          日期
0  台北  A  150  2023-01-01
1  高雄  B  200  2023-01-02
2  台北  A  100  2023-01-03
3  台中  C  250  2023-01-04


- sort_values(axis = 0, ascending=True)
  - axis=0:針對列
  - axis=1:針對欄位

In [173]:
print(data0)
print('---------------------------')
df_sort = data0.sort_index(axis=0, ascending=False)
print(df_sort)
print('---------------------------')
df_sort = data0.sort_index(axis=1, ascending=False)
print(df_sort)

    A   B   C
0  張三  25  台北
1  李四  30  高雄
2  王五  35  台中
---------------------------
    A   B   C
2  王五  35  台中
1  李四  30  高雄
0  張三  25  台北
---------------------------
    C   B   A
0  台北  25  張三
1  高雄  30  李四
2  台中  35  王五
