### 표준라이브러리 로딩

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

### 데이터 셋 로딩
- Raw Data : 정제가 되지 않은 데이터세트
- 토이 데이터 : 분석에 용이한 형태로 만들어진 연습용 데이터 세트

In [2]:
chipo = pd.read_csv("D:/python3/data/chipotle.tsv", sep='\t')
chipo.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


### step1. 기본 정보 탐색

In [None]:
chipo.info()

In [None]:
chipo.shape

#### chipo 데이터셋의 피처 분석
- order_id : 주문 번호
- quantity : 주문 수량
- item_name : 메뉴 이름
- choice_description : 토핑(소스, 재료 등)
- item_price : 메뉴 가격

#### 분석 주제나 목적
1. 가장 많이 판매된 메뉴 TOP10
2. 음식 메뉴는 총 몇가지일까?
3. 메뉴 별 판매량은 얼마나 될까?
4. 메뉴 별 가격대는 얼마일까?
5. 메뉴 중 제일 비싼 메뉴는 무엇일까?
6. 어떤 음식 조합이 제일 선호될까 <<과제

In [None]:
# 수치형 데이터의 기초 통계량을 분석하는 함수
chipo.describe()

### 피처(Feature, Column, Attribute)
1. 수치형 피처 : 연속형(실수형), 비연속형(정수형)
2. 범주형 피처 : 순서가 있는 범주형, 순서가 없는 범주형(명목형)

In [None]:
chipo.head(10)

In [3]:
# order_id를 범주형 데이터로 변형
# astype, is~
chipo['order_id'] = chipo['order_id'].astype(str)
chipo.describe()

Unnamed: 0,quantity
count,4622.0
mean,1.075725
std,0.410186
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,15.0


In [None]:
# 범주형 데이터의 개수 확인, unique() = drop + sort
# order_id, item_name
# 개수 : len()
print(len(chipo['order_id'].unique()))
print(len(chipo['item_name'].unique()))

In [None]:
chipo['item_name'].unique()

In [None]:
# value_counts() : 개별 요소의 건수를 계산하여 반환
chipo['item_name'].value_counts()

### Step2. 인사이트(Insight) 발견 : 탐색과 시각화

#### 가장 많이 판매된 메뉴 Top10

In [None]:
# value_counts는 오로지 Series 객체에만 적용
chipo['item_name'].value_counts()[:10]

In [None]:
item_count = chipo['item_name'].value_counts()[:10]
# enumerate(array, start_number)
for idx, (menu, count) in enumerate(item_count.iteritems(), 1):
    print('TOP', idx, ":", menu, count)

#### 메뉴별 주문 개수와 총량

In [None]:
# item_name별 주문(order_id) 개수
# groupby() : DataFrame.groupby('기준컬럼명')
order_count = chipo.groupby('item_name')['order_id'].count()
order_count[:10]

In [None]:
# item별 주문 총량 : 주문 수량의 합계
order_quantity = chipo.groupby('item_name')['quantity'].sum()
order_quantity[:10]

In [None]:
# 주문 총량
item_name_list = order_quantity.index.tolist()
x_pos = np.arange(len(item_name_list))
y_pos = order_quantity.values.tolist()

plt.bar(x_pos, y_pos)
plt.title('전체 메뉴별 주문량')
plt.xlabel('메뉴 인덱스')
plt.ylabel('주문량')
plt.show()

### Step3. 데이터 전처리 & 데이터 통계분석

In [None]:
chipo['item_price'].head()

item_price 자료형을 수치형으로 변환하는 작업

In [None]:
def func(x):
    return float(x[1:])

In [None]:
# strip() : 좌우 공백을 제거하는 문자열 관련 함수
chipo['item_price'] = chipo['item_price'].str.lstrip('$')
chipo['item_price'].astype(float)

In [4]:
# 익명의 함수 - lambda 입력:출력
# apply(함수) : 반복적으로 수행하는 작업
chipo['item_price']= chipo['item_price'].apply(lambda x:float(x[1:]))

In [None]:
chipo.head()

In [None]:
# 메뉴별 평균금액 => 제일 비싼 메뉴와 평균 가격을 파악할 수 있다.
chipo_cost = chipo.groupby('item_name')['item_price'].mean()
chipo_cost.sort_values(ascending=False)

#### 가장 많이 선호하는 메뉴는 무엇인가?

In [None]:
chipo.head(10)

In [5]:
# 결측값 제거
chipo['choice_description'] = chipo['choice_description'].fillna('Origin')
chipo.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,Origin,2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,Origin,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98


In [6]:
# 메뉴 순위 체크 - 메뉴 주문 수량 순위 체크
# 많이 주문 된 메뉴명
# 메뉴별 인기있는 선택옵션

chipo_sub = chipo.drop(['order_id', 'item_price'], axis=1)
chipo_sub.head()

Unnamed: 0,quantity,item_name,choice_description
0,1,Chips and Fresh Tomato Salsa,Origin
1,1,Izze,[Clementine]
2,1,Nantucket Nectar,[Apple]
3,1,Chips and Tomatillo-Green Chili Salsa,Origin
4,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans..."


### choice_description 피처
- [[소스],[토핑]] => [소스, [토핑]]
- 두 개의 열로 쪼개는 작업 : saurse, topping

In [7]:
chipo_sub['choice_description']

0                                                  Origin
1                                            [Clementine]
2                                                 [Apple]
3                                                  Origin
4       [Tomatillo-Red Chili Salsa (Hot), [Black Beans...
5       [Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...
6                                                  Origin
7       [Tomatillo Red Chili Salsa, [Fajita Vegetables...
8       [Tomatillo Green Chili Salsa, [Pinto Beans, Ch...
9       [Fresh Tomato Salsa, [Rice, Black Beans, Pinto...
10                                                 Origin
11      [Roasted Chili Corn Salsa, [Fajita Vegetables,...
12      [Roasted Chili Corn Salsa, [Rice, Black Beans,...
13      [Fresh Tomato Salsa, [Fajita Vegetables, Rice,...
14                                                 Origin
15                                                 Origin
16      [Tomatillo-Green Chili Salsa (Medium), [Pinto ...
17      [Fresh

In [17]:
# 파이썬 정규표현식 모듈
import re

num = 0
for i in chipo_sub['choice_description']:
    # ^[a-zA-z, ] : '알파벳' ',' ' '(공백)을 제외하고 모두 지우기
    chipo_sub['choice_description'][num] = re.sub(pattern='^[a-zA-z, ]', repl='', string=i)
    num += 1
    
chipo_sub.head(10)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  import sys


Unnamed: 0,quantity,item_name,choice_description
0,1,Chips and Fresh Tomato Salsa,rigin
1,1,Izze,Clementine]
2,1,Nantucket Nectar,Apple]
3,1,Chips and Tomatillo-Green Chili Salsa,rigin
4,2,Chicken Bowl,"Tomatillo-Red Chili Salsa (Hot), [Black Beans,..."
5,1,Chicken Bowl,"Fresh Tomato Salsa (Mild), [Rice, Cheese, Sour..."
6,1,Side of Chips,rigin
7,1,Steak Burrito,"Tomatillo Red Chili Salsa, [Fajita Vegetables,..."
8,1,Steak Soft Tacos,"Tomatillo Green Chili Salsa, [Pinto Beans, Che..."
9,1,Steak Burrito,"Fresh Tomato Salsa, [Rice, Black Beans, Pinto ..."


1. List -> DataFrame
2. Series -> DataFrame : Series객체.to_frame()
3. DataFrame 칼럼 추가, 삭제

In [8]:
# 주문 당 평균 계산 금액을 추출하기
chipo.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,Origin,2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,Origin,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",10.98
6,3,1,Side of Chips,Origin,1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",9.25


In [9]:
chipo.groupby('order_id')['item_price'].sum().mean()

18.811428571428717

In [10]:
chipo.groupby('order_id')['item_price'].sum().describe()

count    1834.000000
mean       18.811429
std        11.652512
min        10.080000
25%        12.572500
50%        16.200000
75%        21.960000
max       205.250000
Name: item_price, dtype: float64

In [16]:
# 한 주문에 10달러 이상 지출한 주문 번호 추출
# step1. 주문번호별 주문금액의 합계
chipo_orderid_group = chipo.groupby('order_id')['item_price'].sum()
# step2. 금액에서 10달러 이상인 자료만 추출
result = chipo_orderid_group[chipo_orderid_group >= 10]
result

order_id
1000    20.50
1004    21.96
1006    71.40
1010    33.24
1012    22.50
1013    31.90
1016    32.25
1017    22.50
1026    31.70
103     47.90
1030    26.75
1031    21.95
1033    28.75
1035    32.04
1038    22.50
1041    20.95
1044    24.50
1051    59.35
1052    38.20
1057    31.25
1059    22.45
1063    20.50
1070    33.70
1071    32.70
1074    22.30
1076    20.39
1078    22.50
1079    23.50
108     21.25
1080    23.00
        ...  
941     28.75
943     21.00
945     27.44
946     26.75
947     28.15
948     31.75
949     40.69
951     20.00
952     27.10
953     81.14
957     22.50
96      35.00
960     22.50
962     22.15
966     25.65
968     20.50
97      20.15
972     26.25
973     46.90
975     23.50
976     24.50
979     24.95
98      22.30
981     21.00
983     23.46
987     23.00
995     24.95
996     43.00
997     22.50
999     29.25
Name: item_price, Length: 589, dtype: float64

#### 메뉴 별 가격을 예측하는 작업

In [18]:
# 수량이 1개인 제품만 골라낸다.
chipo_one_item = chipo[chipo.quantity == 1]
# 메뉴별 금액이 가장 작은 값 추출
chipo_one_item = chipo_one_item.groupby('item_name').min()
chipo_one_item

Unnamed: 0_level_0,order_id,quantity,choice_description,item_price
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6 Pack Soft Drink,1076,1,[Coke],6.49
Barbacoa Bowl,1000,1,"[Fresh Tomato (Mild), [Lettuce, Black Beans, R...",8.69
Barbacoa Burrito,1002,1,"[Fresh Tomato (Mild), [Black Beans, Rice, Sour...",8.69
Barbacoa Crispy Tacos,110,1,"[Fresh Tomato Salsa, Guacamole]",8.99
Barbacoa Salad Bowl,1283,1,"[Fresh Tomato Salsa, Guacamole]",9.39
Barbacoa Soft Tacos,1103,1,"[Fresh Tomato Salsa, [Black Beans, Cheese, Let...",8.99
Bottled Water,1009,1,Origin,1.09
Bowl,279,1,"[Adobo-Marinated and Grilled Steak, [Sour Crea...",7.4
Burrito,214,1,"[Adobo-Marinated and Grilled Chicken, Pinto Be...",7.4
Canned Soda,100,1,[Coca Cola],1.09
