In [1]:
import pandas as pd
import os

file_path = '/data/chipotle.tsv'
chipo = pd.read_csv(os.getcwd() + file_path, sep = '\t')

- Step1: 기초 정보 탐색
- Step2: 인사이트 발견(탐색, 시각화)
- Step3: 데이터 전처리
- Step4: 탐색적 분석

# 1. 데이터 기초정보 살펴보기

In [2]:
chipo.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


- order_id: 송장번호
- quantity: 주문 수
- item_name: 제품명
- choice_description: 토핑
- item_price: 가격

In [3]:
# 데이터의 기초정보 살펴보기

print(chipo.shape)
print('-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-')
print(chipo.info())
print('-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-')
print(chipo.describe())

(4622, 5)
-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB
None
-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-
          order_id     quantity
count  4622.000000  4622.000000
mean    927.254868     1.075725
std     528.890796     0.410186
min       1.000000     1.000000
25%     477.250000     1.000000
50%     926.000000     1.000000
75%    1393.000000     1.000000
max    1834.000000    15.000000


In [None]:
# order_id는 int로서의 의미가 없으므로 str로 변형 -> describe()로 의미있는 정보만 출력
chipo['order_id'] = chipo['order_id'].astype(str)
print(chipo.describe())

In [None]:
# 범주형 데이터를 살펴보기 위해서 unique사용
print(len(chipo['order_id'].unique()))
print(len(chipo['item_name'].unique()))

In [None]:
chipo['item_name'].value_counts()[:10]

# 2. 데이터 살펴보기

In [None]:
# 가장 많이 주문한 item, top10?
item_count = chipo['item_name'].value_counts()[:10]

for idx, (val, cnt) in enumerate(item_count.iteritems(), 1):
    print("Top", idx, ":", val, '->' ,cnt)

In [None]:
# item당 주문 개수
order_count = chipo.groupby('item_name')['order_id'].count()
order_count[:10]
# .groupby('그룹화할 피쳐')['count할 대상'].count()

In [None]:
# item당 주문의 총량을 출력합니다.
item_quantity = chipo.groupby('item_name')['quantity'].sum()
item_quantity[:10] # item당 주문 총량을 출력합니다.

# 시각화로 표현하기

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

item_name_list = item_quantity.index.tolist()
x_pos = np.arange(len(item_name_list))
# x축에 메뉴 이름으로 표현하면 나타내기가 불편하므로 숫자로 대체
order_cnt = item_quantity.values.tolist()

plt.bar(x_pos, order_cnt, align='center')
plt.ylabel('ordered_item_count')
plt.title('Distribution of all ordered item')

plt.show()

# 3. 데이터 전처리

In [None]:
# '가격' 피쳐의 특수문자를 처리한다.

print(chipo.info())
print('-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-')
chipo['item_price'].head()

In [7]:
chipo['item_price'] = chipo['item_price'].apply(lambda x: float(x[1:]))
chipo.describe()

Unnamed: 0,order_id,quantity,item_price
count,4622.0,4622.0,4622.0
mean,927.254868,1.075725,7.464336
std,528.890796,0.410186,4.245557
min,1.0,1.0,1.09
25%,477.25,1.0,3.39
50%,926.0,1.0,8.75
75%,1393.0,1.0,9.25
max,1834.0,15.0,44.25


# 4. 탐색적 분석 - 질문에 답을 찾아간다.
- 주문 당 평균 계산금액 출력하기
- 한 주문에 10달러 이상 사용한 주문의 id들 출력하기
- 각 아이템의 가격 구하기
- 가장 비싼 주문에서 item이 몇개 팔렸는지 구하기
- "Veggie Salad Bowl"이 몇 번 주문되었는지 구하기
- "Chicken Bowl"을 2개 이상 주문한 주문 횟수 구하기

In [9]:
# 주문 당 평균 금액?
print('주문 당 평균 금액:', chipo.groupby('order_id')['item_price'].sum().mean())

# 한 주문에 10달러 이상 사용한 주문의 Id들 출력하기
## -> str타입 문제 해결 필요
chipo_orderid_group = chipo.groupby('order_id').sum()
results = chipo_orderid_group[chipo_orderid_group.item_price >= 10]
print(results[:10])
print(results.index.values)

# 각 아이템의 가격?
## 토핑에 따라 가격이 달라진다. 이를 무시하고 최저가를 알아보도록 하자.
chipo_one_item = chipo[chipo.quantity == 1]
price_per_item = chipo_one_item.groupby('item_name').min()
price_per_item.sort_values(by = 'item_price', ascending = False)[:10]

주문 당 평균 금액: 18.81142857142869
          quantity  item_price
order_id                      
1                4       11.56
2                2       16.98
3                2       12.67
4                2       21.00
5                2       13.70
6                2       17.50
7                2       15.70
8                2       10.88
9                3       10.67
10               2       13.20
[   1    2    3 ... 1832 1833 1834]


Unnamed: 0_level_0,order_id,quantity,choice_description,item_price
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Steak Salad Bowl,250,1,"[Fresh Tomato Salsa, Lettuce]",9.39
Barbacoa Salad Bowl,501,1,"[Fresh Tomato Salsa, Guacamole]",9.39
Carnitas Salad Bowl,468,1,"[Fresh Tomato Salsa, [Rice, Black Beans, Chees...",9.39
Carnitas Soft Tacos,103,1,"[Fresh Tomato Salsa (Mild), [Black Beans, Rice...",8.99
Carnitas Crispy Tacos,230,1,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",8.99
Steak Soft Tacos,4,1,"[Fresh Tomato Salsa (Mild), [Cheese, Sour Cream]]",8.99
Carnitas Salad,1500,1,"[[Fresh Tomato Salsa (Mild), Roasted Chili Cor...",8.99
Carnitas Bowl,17,1,"[Fresh Tomato (Mild), [Guacamole, Lettuce, Ric...",8.99
Barbacoa Soft Tacos,26,1,"[Fresh Tomato Salsa, [Black Beans, Cheese, Let...",8.99
Barbacoa Crispy Tacos,75,1,"[Fresh Tomato Salsa, Guacamole]",8.99


In [14]:
# "Veggie Salad Bowl"이 몇 번 주문되었는지 구하기

chipo_salad = chipo[chipo['item_name'] == 'Veggie Salad Bowl']
chipo_salad = chipo_salad.drop_duplicates(['item_name', 'order_id'])
# 'item_name','order_id' 두 피쳐를 고려했을 때 중복이 되면 삭제

print(len(chipo_salad))
chipo_salad.head()

18


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
186,83,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25
295,128,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",11.25
455,195,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25
496,207,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Rice, Lettuce, Guacamole...",11.25
960,394,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",8.75
