# *1 단계. 필요한 라이브러리 가져오기

In [2]:
%matplotlib inline
import os
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt, font_manager
plt.rcParams['font.family'] = 'Malgun Gothic'  # Windows

# *2 단계. 이 주소에서 데이터셋을 가져옵니다.
# *3 단계. chipo라는 변수에 할당합니다.

In [3]:
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
    
chipo = pd.read_csv(url, sep = '\t')

# *4 단계. 처음 10개 항목 보기

In [5]:

chipo.head(5)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


# *5 단계. 데이터 세트의 관측치 수는 몇 개입니까?

In [None]:
# Solution 1

chipo.shape[0]  # entries <= 4622 observations

4622

In [None]:
# Solution 2

chipo.info() # entries <= 4622 observations

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
order_id              4622 non-null int64
quantity              4622 non-null int64
item_name             4622 non-null object
choice_description    3376 non-null object
item_price            4622 non-null object
dtypes: int64(2), object(3)
memory usage: 180.6+ KB


# *6 단계. 데이터 세트의 열 수는 몇 개입니까?

In [None]:
chipo.shape[1]

5

# *7 단계. 모든 열의 이름을 인쇄합니다.

In [None]:
chipo.columns

Index([u'order_id', u'quantity', u'item_name', u'choice_description',
       u'item_price'],
      dtype='object')

# *8 단계. 데이터 세트는 어떻게 인덱싱되나요?

In [None]:
chipo.index

RangeIndex(start=0, stop=4622, step=1)

# *9 단계. 가장 많이 주문된 품목은 무엇입니까?

In [None]:
c = chipo.groupby('item_name')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)

Unnamed: 0_level_0,order_id,quantity
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chicken Bowl,713926,761


# *10 단계. 가장 많이 주문된 품목의 경우 몇 개의 품목을 주문했습니까?

In [None]:
c = chipo.groupby('item_name')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)

Unnamed: 0_level_0,order_id,quantity
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chicken Bowl,713926,761


# *11 단계. choice_description 열에서 가장 많이 주문된 항목은 무엇입니까?

In [None]:
c = chipo.groupby('choice_description').sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)
# Diet Coke 159

Unnamed: 0_level_0,order_id,quantity
choice_description,Unnamed: 1_level_1,Unnamed: 2_level_1
[Diet Coke],123455,159


# *12 단계. 총 몇 개의 품목을 주문했습니까?

In [None]:
total_items_orders = chipo.quantity.sum()
total_items_orders

4972

# *13 단계. 아이템 가격을 변동 환율로 전환

## *13.a. 품목 가격 유형 확인

In [None]:
chipo.item_price.dtype

dtype('O')

## *13.b. 람다 함수를 만들고 항목 가격 유형을 변경합니다.

In [None]:
dollarizer = lambda x: float(x[1:-1])
chipo.item_price = chipo.item_price.apply(dollarizer)

## *13.c. 품목 가격 유형 확인

In [None]:
chipo.item_price.dtype

dtype('float64')

# *14 단계. 데이터 집합의 해당 기간에 대한 수익은 얼마였습니까?

In [None]:
revenue = (chipo['quantity']* chipo['item_price']).sum()

print('Revenue was: $' + str(np.round(revenue,2)))

Revenue was: $39237.02


# *15 단계. 해당 기간 동안 몇 건의 주문이 이루어졌습니까?

In [None]:
orders = chipo.order_id.value_counts().count()
orders

1834

# *16 단계. 주문당 평균 수익 금액은 얼마입니까?

In [None]:
# Solution 1

chipo['revenue'] = chipo['quantity'] * chipo['item_price']
order_grouped = chipo.groupby(by=['order_id']).sum()
order_grouped.mean()['revenue']

21.394231188658654

In [None]:
# Solution 2

chipo.groupby(by=['order_id']).sum().mean()['revenue']

21.394231188658654

# *17 단계. 얼마나 많은 다른 품목이 판매됩니까?

In [None]:
chipo.item_name.value_counts().count()

50