# 餐厅用餐数据分析

这里有 [视频](https://www.youtube.com/watch?v=lpuYZ5EUyS8&list=PLgJhDSE2ZLxaY_DigHeiIDC1cD09rXgJv&index=2) 可以看看老师怎么做这个练习（不过这个油管上，还是英文的）

这一次我们直接从网上拉取数据，特别感谢：https://github.com/justmarkham 提供数据

### Step 1. 导入必须的Python库

In [1]:
import pandas as pd
import numpy as np

### Step 2. 从这里 [下载地址]  导入数据(https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv). 

### Step 3. 将这数据放到变量 chipo.

In [2]:
# 这是一个餐厅点餐记录的的 csv 文件，因为它是用 tab('\t') 来分隔字段，所以叫 tsv
# tsv 文件在国外比较常见
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'

# 使用 read_csv 函数，由于用 '\t' 来分隔字段，所以增加了 sep='\t' 的参数
# read_csv 返回的是一个 DataFrame 对象，约等于 Excel 里的一个sheet
chipo = pd.read_csv(url, sep = '\t')

### Step 4. 看前10行

In [3]:
# chipo 是一个 DataFrame 对象，可以调用 head函数，参数10表示看前10行
chipo.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


### Step 5. 在 chipo 里有多少行数据

In [4]:
# 解法1
# DataFrame 对象有一个叫 shape的属性
print(chipo.shape) # 你可以认为它就一个列表
chipo.shape[0]     # 这个列表里的第一个数就是行数

(4622, 5)


4622

In [5]:
# 解法2
# 调用 DataFrame 对象的 info 的函数，显示信息更全
# 不但有行数，也有列数，有每个字段的类型还有占用内存大小
chipo.info() # 4622 行

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
order_id              4622 non-null int64
quantity              4622 non-null int64
item_name             4622 non-null object
choice_description    3376 non-null object
item_price            4622 non-null object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


### Step 6. chipo中有多少列数据

In [6]:
# DataFrame 对象有一个叫 shape的属性
print(chipo.shape) # 你可以认为它就一个列表
chipo.shape[1]     # # 这个列表里的第二个数就是行数

(4622, 5)


5

### Step 7. 打印出 chipo 中有所有的列

In [7]:
# DataFrame 对象有一个叫 columns 的属性
print("chipo.columns:",chipo.columns)

print("*" * 50)
# 我们也有可以把列名一个个打出来
for col in chipo.columns:
    print(col)

chipo.columns: Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')
**************************************************
order_id
quantity
item_name
choice_description
item_price


### Step 8.  chipo 是用什么做索引 (index) ?

In [8]:
# index 是表示用什么标识 DataFrame 里的的某一行
# 类似 列表（list） 的里的下标，字典（dict）里的 key
#
# 在 DataFrame 里一般是用 0～n  的数字做索引
# 也可以用日期/做索引
chipo.index

RangeIndex(start=0, stop=4622, step=1)

### Step 9.  chipo 里面什么东西卖的最好? 

In [9]:
# 按品名("item_name") 时进行分组 （groupby）
c = chipo.groupby('item_name')
# 再对每个分组进行求和
c = c.sum()
# 再按数量字段 ("quantity") 进行降序排序
c = c.sort_values(['quantity'], ascending=False)
# 只显示第1行, 在家看 quantity 字段就好了
c.head(1)

Unnamed: 0_level_0,order_id,quantity
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chicken Bowl,713926,761


### Step 10. chipo 里面卖的最的好东西, 被点了多次

In [10]:
# 这和 Step9 基本一样，就不多解释了
c = chipo.groupby('item_name')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)

Unnamed: 0_level_0,order_id,quantity
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chicken Bowl,713926,761


### Step 11. chipo出现最多的点餐备注是什么?

In [11]:
# 我们对点餐备注 （"choice_description") 进行分组并分组求和
c = chipo.groupby('choice_description').sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)

Unnamed: 0_level_0,order_id,quantity
choice_description,Unnamed: 1_level_1,Unnamed: 2_level_1
[Diet Coke],123455,159


### Step 12. chipo 的点单 PCs 数是多少?

In [12]:
total_items_orders = chipo.quantity.sum()
total_items_orders

4972

### Step 13. 把商品的价格改成浮点数

In [13]:
# 译者注：实际工作中碰到这种复杂情况不我，一般系统导出的数据不会把货币符和数字放在一起
#  这是为了处理更多的灵活情况

#### Step 13.a. 首先检查价格的字段类型

In [14]:
# 这里看到是 Object 类型，有点像字符串
chipo.item_price.dtype

dtype('O')

#### Step 13.b. 写一个 Lambda 函数来处理价格字段

In [15]:
# 这里定一个处理美元符号的 lambda 表达式（类似函数）,这里大家可以把它当成函数的一种特殊形式
#  这里取价格的第2个到最后一个字符，然后再转成浮点数，如果不会，可以直接抄就好了
#  这种表达式在以后大家处理复杂脏数据时有帮助，大家只要复制粘贴就好
dollarizer = lambda x: float(x[1:-1])

# 然后把 dollarizer 函数应用 item_price 的每一行上
chipo.item_price = chipo.item_price.apply(dollarizer)

#### Step 13.c. 现在再来检查价格字段类型

In [16]:
# 现在变成了浮点数
chipo.item_price.dtype


dtype('float64')

### Step 14. 我们算一下 chipo 的营收是多少？

In [17]:
# 用数量字段("quantity") 乘以 价格字段（"item_price") ，最后再求和
revenue = (chipo['quantity']* chipo['item_price']).sum()
print(revenue.dtype)
# 然后用 np.round 把数据精确到 1 分钱
print('Revenue was: $' + str(np.round(revenue,2)))

float64
Revenue was: $39237.02


### Step 15. 统计一下 chipo 多少个订单?

In [18]:
# 1. order_id 是订单号，每一个订单的订单号不重复，每个订单有N个商品("item_name")
# 2. 使用 value_counts() 统计每个订单号有多少个商品
# 3. 然后再用 count() 统计 value_counts()返回值有多少行，就是有多少个订单
orders = chipo.order_id.value_counts().count()
orders



1834

### Step 16. 每个订单的平均收入是什么?

In [19]:

# 为 chipo 新增一列（"revenue"), 它是数量和价格的乘积
chipo['revenue'] = chipo['quantity'] * chipo['item_price']
# 解法 1

# 把 chipo 按 order_id 进行分组聚合, 按order_id把 quantity, revenue进行分组求和
order_grouped = chipo.groupby(by=['order_id']).sum()
order_grouped


Unnamed: 0_level_0,quantity,item_price,revenue
order_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,4,11.56,11.56
2,2,16.98,33.96
3,2,12.67,12.67
4,2,21.00,21.00
5,2,13.70,13.70
...,...,...,...
1830,2,23.00,23.00
1831,3,12.90,12.90
1832,2,13.20,13.20
1833,2,23.50,23.50


In [20]:
# 对每个字段（如 "quantity", "revenue" 用mean函数求平均值）
# 再用 [] 来取 "revenue" 字段，得到每个订单的平均收入
order_grouped.mean()['revenue']


21.394231188658654

In [21]:

# 解法 2
# 我们可以把上面的操作合成一行，简单高效
chipo.groupby(by=['order_id']).sum().mean()['revenue']


21.394231188658654

### Step 17. chipo 有多少不同的商品在售?

In [22]:
# 对 chipo 的商品名 （"item_name") 字段进行 value_counts() 统计
#  再对 value_counts() 返回结果执行 count() 操作，就知道有多少在不同商品在售
chipo.item_name.value_counts().count()

50