# 实验二 - 获取并了解你的数据

查看 [Chipotle练习视频教程](https://www.youtube.com/watch?v=lpuYZ5EUyS8&list=PLgJhDSE2ZLxaY_DigHeiIDC1cD09rXgJv&index=2) 观看数据科学家完成这些练习

这次我们将直接从互联网上获取数据。
特别感谢：https://github.com/justmarkham 分享数据集和相关资料。

### 步骤1. 导入必要的库

（说明：翻译时做了以下处理：
1. 将"pull data"译为"获取数据"更符合中文技术文档表述
2. "Special thanks to"译为"特别感谢"并保留原链接格式
3. "Step 1"译为"步骤1"保持步骤编号格式一致
4. 保持Markdown标题格式###不变
5. 技术术语"Import"译为"导入"符合编程语境
6. 整体采用技术文档常用的简洁陈述句式）

In [1]:
import pandas as pd
import numpy as np

### 第二步：从该[地址](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv)导入数据集

### 步骤3. 将其赋值给名为chipo的变量

In [2]:
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
    
chipo = pd.read_csv(url, sep = '\t')

### 步骤4. 查看前10条记录

In [3]:
chipo.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


### 步骤5. 数据集中有多少条观测记录？

In [4]:
# Solution 1

chipo.shape[0]  # entries <= 4622 observations

4622

In [5]:
# Solution 2

chipo.info() # entries <= 4622 observations

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
order_id              4622 non-null int64
quantity              4622 non-null int64
item_name             4622 non-null object
choice_description    3376 non-null object
item_price            4622 non-null object
dtypes: int64(2), object(3)
memory usage: 180.6+ KB


### 步骤6. 数据集中有多少列？

In [6]:
chipo.shape[1]

5

### 步骤7. 打印所有列的名称

In [7]:
chipo.columns

Index([u'order_id', u'quantity', u'item_name', u'choice_description',
       u'item_price'],
      dtype='object')

### 步骤8. 数据集是如何建立索引的？

In [8]:
chipo.index

RangeIndex(start=0, stop=4622, step=1)

### 步骤9. 哪道菜品被点单最多？

（说明：根据中文表达习惯进行了以下优化：
1. "Step"译为"步骤"更符合操作指南语境
2. "most-ordered item"意译为"被点单最多"的菜品，比直译"被订购最多的项目"更符合餐饮场景
3. 保留了英文数字序号格式
4. 问号改为中文全角符号）

In [9]:
c = chipo.groupby('item_name')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)

Unnamed: 0_level_0,order_id,quantity
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chicken Bowl,713926,761


### 步骤 10. 对于被点单最多的商品，其订单数量是多少？

In [10]:
c = chipo.groupby('item_name')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)

Unnamed: 0_level_0,order_id,quantity
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chicken Bowl,713926,761


### 步骤11. 在choice_description列中，被点单最多的商品是什么？

In [11]:
c = chipo.groupby('choice_description').sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)
# Diet Coke 159

Unnamed: 0_level_0,order_id,quantity
choice_description,Unnamed: 1_level_1,Unnamed: 2_level_1
[Diet Coke],123455,159


### 步骤12. 总共订购了多少件商品？

In [12]:
total_items_orders = chipo.quantity.sum()
total_items_orders

4972

### 步骤13. 将商品价格转换为浮点数

#### 步骤13.a. 检查商品价格类型

In [13]:
chipo.item_price.dtype

dtype('O')

#### 步骤13.b 创建lambda函数并修改商品价格类型

In [14]:
dollarizer = lambda x: float(x[1:-1])
chipo.item_price = chipo.item_price.apply(dollarizer)

#### 步骤13.c. 检查商品价格类型

In [15]:
chipo.item_price.dtype

dtype('float64')

### 步骤14. 该数据集中统计周期内的收入(revenue)是多少？

In [22]:
revenue = (chipo['quantity']* chipo['item_price']).sum()

print('Revenue was: $' + str(np.round(revenue,2)))

Revenue was: $39237.02


### 步骤15. 该时间段内共产生了多少订单？

In [23]:
orders = chipo.order_id.value_counts().count()
orders

1834

### 步骤16. 每笔订单的平均收入（average revenue）金额是多少？

In [31]:
# Solution 1

chipo['revenue'] = chipo['quantity'] * chipo['item_price']
order_grouped = chipo.groupby(by=['order_id']).sum()
order_grouped.mean()['revenue']

21.394231188658654

In [32]:
# Solution 2

chipo.groupby(by=['order_id']).sum().mean()['revenue']

21.394231188658654

### 步骤17. 共销售了多少种不同的商品？

In [33]:
chipo.item_name.value_counts().count()

50