# DataFrame 基礎

In [48]:
import pandas as pd

## 從字典製作 Dataframe 資料集

In [49]:
data = {
    'uid': [1, 2, 3, 4, 5],
    'name': ['Howard', 'Lily', 'Kai', 'Jojo', 'Ivan'],
    'age': [25, 21, 35, 18, 15],
}

member = pd.DataFrame(data)
member

Unnamed: 0,uid,name,age
0,1,Howard,25
1,2,Lily,21
2,3,Kai,35
3,4,Jojo,18
4,5,Ivan,15


查看前五筆資料。

In [50]:
member.head()

Unnamed: 0,uid,name,age
0,1,Howard,25
1,2,Lily,21
2,3,Kai,35
3,4,Jojo,18
4,5,Ivan,15


查看欄位資訊

In [51]:
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   uid     5 non-null      int64 
 1   name    5 non-null      object
 2   age     5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 252.0+ bytes


查看各欄位統計結果

In [52]:
member.describe()

Unnamed: 0,uid,age
count,5.0,5.0
mean,3.0,22.8
std,1.581139,7.758866
min,1.0,15.0
25%,2.0,18.0
50%,3.0,21.0
75%,4.0,25.0
max,5.0,35.0


In [53]:
member.describe(include='all')

Unnamed: 0,uid,name,age
count,5.0,5,5.0
unique,,5,
top,,Howard,
freq,,1,
mean,3.0,,22.8
std,1.581139,,7.758866
min,1.0,,15.0
25%,2.0,,18.0
50%,3.0,,21.0
75%,4.0,,25.0


查看多少筆多少欄位(列數、欄數)

In [54]:
member.shape

(5, 3)

## 從串列製作 DataFrame 資料集

In [55]:
listmember = [
    ['Howard', 25],
    ['Lily', 21],
    ['Kai', 35],
    ['Jojo', 18],
    ['Ivan', 15],
]

member1 = pd.DataFrame(listmember, columns=(['name', 'age']))

member1

Unnamed: 0,name,age
0,Howard,25
1,Lily,21
2,Kai,35
3,Jojo,18
4,Ivan,15


查看前五筆資料

In [56]:
member1.head()

Unnamed: 0,name,age
0,Howard,25
1,Lily,21
2,Kai,35
3,Jojo,18
4,Ivan,15


查看欄位資訊

In [57]:
member1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    5 non-null      object
 1   age     5 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 212.0+ bytes


查看多少筆多少欄位(列數、欄數)

In [58]:
member1.shape

(5, 2)

### `zip()` 用法

In [59]:
name = ['John', 'Mary', 'Peter']
grade = [90, 66, 77]

list(zip(name, grade))

[('John', 90), ('Mary', 66), ('Peter', 77)]

In [60]:
pd.DataFrame(zip(name, grade))

Unnamed: 0,0,1
0,John,90
1,Mary,66
2,Peter,77


## 拷貝資料

In [61]:
newmember = member.copy()
newmember

Unnamed: 0,uid,name,age
0,1,Howard,25
1,2,Lily,21
2,3,Kai,35
3,4,Jojo,18
4,5,Ivan,15


In [62]:
newmember.columns = ['numdddd', '1', '2']

In [63]:
newmember

Unnamed: 0,numdddd,1,2
0,1,Howard,25
1,2,Lily,21
2,3,Kai,35
3,4,Jojo,18
4,5,Ivan,15


原本的不受影響。

In [64]:
member

Unnamed: 0,uid,name,age
0,1,Howard,25
1,2,Lily,21
2,3,Kai,35
3,4,Jojo,18
4,5,Ivan,15


## 資料選取

取得一欄資料，`df['column_name']`

In [65]:
member['name']

0    Howard
1      Lily
2       Kai
3      Jojo
4      Ivan
Name: name, dtype: object

取得多欄資料，多個欄位使用 `list` 包起來

In [66]:
member[ ['name','age'] ]

Unnamed: 0,name,age
0,Howard,25
1,Lily,21
2,Kai,35
3,Jojo,18
4,Ivan,15


Question: 怎麼取出 UID 和 Age 欄位？

In [67]:
member[['uid', 'age']]

Unnamed: 0,uid,age
0,1,25
1,2,21
2,3,35
3,4,18
4,5,15


## 資料新增

增加一欄：

In [68]:
member['education'] = ['大學', '高中', '大學', '小學', '研究所']
member

Unnamed: 0,uid,name,age,education
0,1,Howard,25,大學
1,2,Lily,21,高中
2,3,Kai,35,大學
3,4,Jojo,18,小學
4,5,Ivan,15,研究所


增加一列：

In [69]:
member = member + [6, 'Alisa', 100, '大學']
member

Unnamed: 0,uid,name,age,education
0,7,HowardAlisa,125,大學大學
1,8,LilyAlisa,121,高中大學
2,9,KaiAlisa,135,大學大學
3,10,JojoAlisa,118,小學大學
4,11,IvanAlisa,115,研究所大學


## 定位和讀取元素

前兩筆：

In [70]:
member[:2]

Unnamed: 0,uid,name,age,education
0,7,HowardAlisa,125,大學大學
1,8,LilyAlisa,121,高中大學


後三筆：

In [71]:
member[-3:]

Unnamed: 0,uid,name,age,education
2,9,KaiAlisa,135,大學大學
3,10,JojoAlisa,118,小學大學
4,11,IvanAlisa,115,研究所大學


取前兩欄資料：

In [72]:
member.iloc[::, 0:2]

Unnamed: 0,uid,name
0,7,HowardAlisa
1,8,LilyAlisa
2,9,KaiAlisa
3,10,JojoAlisa
4,11,IvanAlisa


依據條件抓取 DataFrame 資料。

In [73]:
member['age'] < 20

0    False
1    False
2    False
3    False
4    False
Name: age, dtype: bool

In [74]:
member[member['age'] < 20]

Unnamed: 0,uid,name,age,education


小於 20 或大於 100：

In [75]:
(member['age']<20) | (member['age']>80)

0    True
1    True
2    True
3    True
4    True
Name: age, dtype: bool

In [76]:
member[(member['age']<20) | (member['age']>80)]

Unnamed: 0,uid,name,age,education
0,7,HowardAlisa,125,大學大學
1,8,LilyAlisa,121,高中大學
2,9,KaiAlisa,135,大學大學
3,10,JojoAlisa,118,小學大學
4,11,IvanAlisa,115,研究所大學


依條件修改 dataframe 資料：

In [77]:
member.loc[member['age'] > 80, 'age'] = 99
member

Unnamed: 0,uid,name,age,education
0,7,HowardAlisa,99,大學大學
1,8,LilyAlisa,99,高中大學
2,9,KaiAlisa,99,大學大學
3,10,JojoAlisa,99,小學大學
4,11,IvanAlisa,99,研究所大學


問題：將 Lily 改名為 LilyChen

In [78]:
member.loc[member['name'] == "LilyAlisa", 'name'] = "LilyChen"
member

Unnamed: 0,uid,name,age,education
0,7,HowardAlisa,99,大學大學
1,8,LilyChen,99,高中大學
2,9,KaiAlisa,99,大學大學
3,10,JojoAlisa,99,小學大學
4,11,IvanAlisa,99,研究所大學


## 常見計算

member['age']

平均會員年紀：

In [79]:
member['age'].mean()

np.float64(99.0)

最大會員年紀：

In [80]:
member['age'].max()

99

最小會員年紀：

In [81]:
member['age'].min()

99

其他常見敘述統計：

In [82]:
member['age'].describe()

count      5
unique     1
top       99
freq       5
Name: age, dtype: int64

排序（遞增）：

In [83]:
member['age'].sort_values()

0    99
1    99
2    99
3    99
4    99
Name: age, dtype: object

排序（遞減）：

In [84]:
member['age'].sort_values(ascending = False)

0    99
1    99
2    99
3    99
4    99
Name: age, dtype: object

計數某欄種類次數：

In [85]:
member['education'].value_counts()

education
大學大學     2
高中大學     1
小學大學     1
研究所大學    1
Name: count, dtype: int64

問題：

1. `age` 的加總
2. `age` 欄位值有幾種不同的年紀

In [86]:
member['age'].sum()

495

In [87]:
member['age'].value_counts()

age
99    5
Name: count, dtype: int64

## 移除欄位

In [88]:
member2 = member.copy().drop(columns=['uid'])
member2

Unnamed: 0,name,age,education
0,HowardAlisa,99,大學大學
1,LilyChen,99,高中大學
2,KaiAlisa,99,大學大學
3,JojoAlisa,99,小學大學
4,IvanAlisa,99,研究所大學


問題：移除 uid 與 age

In [89]:
member2 = member.copy().drop(columns=['uid', 'age'])
member2

Unnamed: 0,name,education
0,HowardAlisa,大學大學
1,LilyChen,高中大學
2,KaiAlisa,大學大學
3,JojoAlisa,小學大學
4,IvanAlisa,研究所大學


## 把 DataFrame 轉為 List

In [91]:
memberlist = member.values.tolist()
memberlist

[[7, 'HowardAlisa', 99, '大學大學'],
 [8, 'LilyChen', 99, '高中大學'],
 [9, 'KaiAlisa', 99, '大學大學'],
 [10, 'JojoAlisa', 99, '小學大學'],
 [11, 'IvanAlisa', 99, '研究所大學']]

# 問題 如何計算 每個商品quantity的平均？

In [92]:
transaction = pd.read_csv("transaction.csv")

In [94]:
transaction[['product', 'quantity']].groupby('product').mean()

Unnamed: 0_level_0,quantity
product,Unnamed: 1_level_1
apple,5.0
banana,8.0
cherry,3.0
guava,2.0
origin,4.333333


問題 如何計算 每個商品的總業績額

In [96]:
transaction['sales']=transaction['quantity'] * transaction['price']

In [97]:
transaction[['product', 'sales']].groupby('product').sum()

Unnamed: 0_level_0,sales
product,Unnamed: 1_level_1
apple,100
banana,544
cherry,180
guava,80
origin,65


計算每個商品總業績的平均，最小，以及最大值

In [98]:
transaction[['product', 'sales']].groupby('product').describe()

Unnamed: 0_level_0,sales,sales,sales,sales,sales,sales,sales,sales
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
product,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
apple,2.0,50.0,0.0,50.0,50.0,50.0,50.0,50.0
banana,2.0,272.0,96.166522,204.0,238.0,272.0,306.0,340.0
cherry,1.0,180.0,,180.0,180.0,180.0,180.0,180.0
guava,2.0,40.0,0.0,40.0,40.0,40.0,40.0,40.0
origin,3.0,21.666667,2.886751,20.0,20.0,20.0,22.5,25.0


In [99]:
transaction[['product', 'sales']].groupby('product').agg(['mean', 'max', 'min'])

Unnamed: 0_level_0,sales,sales,sales
Unnamed: 0_level_1,mean,max,min
product,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
apple,50.0,50,50
banana,272.0,340,204
cherry,180.0,180,180
guava,40.0,40,40
origin,21.666667,25,20
