### [Step 1] 탐색: 데이터의 기초 정보 살펴보기

In [3]:
# -*- coding: utf-8 -*-

import pandas as pd

file_path = '../DataAnalysis/python-data-analysis-master/data/chipotle.tsv'

# read_csv() 함수로 데이터를 데이터 프레임 형태로 불러온다
chipo = pd.read_csv(file_path, sep = '\t')

print(chipo.shape)
print("-----------------------------------------------------")
print(chipo.info())

(4622, 5)
-----------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB
None


In [25]:
# shape() : 데이터의 행과 열의 크기 반환
# info() : 행과 열의 구성 정보
# 현재 데이터는 4,622개의 행과 5개의 피처로 구성되어 있다
# 또한 id와 quantity는 int64(숫자), 나머지 3개의 피처는 object 타입으로 이뤄져 있다
# 특이한 것은 choice_description 피처가 3,376개의 non-null object로 구성되어 있다는 것이다
# 이 정보는 무엇을 의미하는가?
# 데이터 프레임에서 object 타입은 일반적으로 문자열을 의미
# 그리고 null 이라는 용어는 "데이터가 비어 있는 것"을 의미한다
# 이를 "결측값" 이라고 한다
# 3,376 non-null object 라는 것은 3.376개의 비어 있지 않은 문자열 데이터가 있다는 정보이다
# 하지만 데이터의 개수는 4,622개이므로 choice_description 피처는 1,246개의 결측값이 존재한다

In [6]:
# chipotle 데이터셋의 행과 열, 데이터 확인하기
chipo.head(10) # chipo라는 데이터 프레임에서 순서대로 10개의 데이터를 보여준다

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


In [7]:
print(chipo.columns)
print("-----------------------------------------------------")
print(chipo.index)

Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')
-----------------------------------------------------
RangeIndex(start=0, stop=4622, step=1)


In [8]:
# chipotle 데이터셋 피처의 의미
# order_id : 주문 번호
# quantity : 아이템의 주문 수량
# item_name : 주문한 아이템의 이름
# choice_decription : 주문한 아이템의 상세 선택 옵션
# item_price : 주문 아이템의 정보

In [9]:
# quantity와 item_price 의 수치적 특징
# 우선 quantity와 item_price 두 피처는 연속형 피러이다
# 연속형 피처는 키와 모무게처럼 어떠한 값도 가질 수 있는 연속적인 숫자 형태를 의미한다

# 피처 형태의 종류 #
# * 수치형 피처(Numerical Feature)
# - 연속형 피처 : 어떤 구간 안의 모든 값을 데이터로써 가질 수 있음(키, 몸무게)
# - 비연속형 피처 : 셀 수 있으며, 일정 구간 안에서 정해진 몇 개의 값을 가짐(나이)

# * 범주형 피처(Categorical Feature)
# - 순서가 있는 범주형 피처 : 순서가 있으나 수치는 아님(학점(A, B, C, ..., F))
# - 순서가 없는 범주형 피처 : 데이터가 구분되면서도 순서가 없음(혈액형)

# 현재 유일하게 존재하는 수치형 피처는 quantity뿐이다(item_price는 데이터 타입이 현재 object 이므로 제외)
# 수치형 피처는 describe() 함수를 통해 통계 정보를 얻을 수 있다

In [11]:
# describe() 함수로 기초 통계량 출력
# order_id는 데이터 타입은 정수형, 숫자이나 이 데이터에서 "숫자로서의 의미"를 가지지 않기 때문에 str으로 변환
chipo['order_id'] = chipo['order_id'].astype(str)

# chipo 데이터 프레임에서 수치형 피처들의 기초 통계량 확인
print(chipo.describe())

          quantity
count  4622.000000
mean      1.075725
std       0.410186
min       1.000000
25%       1.000000
50%       1.000000
75%       1.000000
max      15.000000


In [12]:
# 출력 내용을 분석해보면 아이템의 평균 주문 수량(mean)은 약 1.07 이라는 것을 알 수 있다
# 이는 대부분이 한 아이템에 대해서 1개 정도만 주문했다는 뜻!
# 즉, '한 사람이 같은 메뉴를 여러 개 구매하는 경우는 많지 않다'는 인사이트를 얻을 수 있다

# 그렇다면, item_prie의 수치적 특징은 어떻게 알아볼까?
# 현재 item_price 피처는 object type 이기 때문에 describe() 함수로 기초 통계량을 확인할 수 없다
# 이를 해결하기 위해서는 추가적인 데이터 전처리 작업이 필요하다(데이터 전처리 단계에서 살펴봄)

In [14]:
# order_id와 item_name의 개수
# order_id와 item_name의 개수를 탐색해보자
# 이 두 피처는 범주형 피러이기 때문에 unique() 함수를 사용한다
# 이를 통해 피처 내에 몇 개의 범주가 있는지를 확인할 수 있다
# (쉽게 말해 order_id가 몇 번까지 있으며, 판매 item 종류가 얼마나 되는지 알아볼 수 있다)

print(len(chipo['order_id'].unique()))# order_id의 개수 출력
print(len(chipo['item_name'].unique())) # item_name의 개수 출력

1834
50


In [17]:
chipo['order_id'].unique()

array(['1', '2', '3', ..., '1832', '1833', '1834'], dtype=object)

In [18]:
chipo['item_name'].unique()

array(['Chips and Fresh Tomato Salsa', 'Izze', 'Nantucket Nectar',
       'Chips and Tomatillo-Green Chili Salsa', 'Chicken Bowl',
       'Side of Chips', 'Steak Burrito', 'Steak Soft Tacos',
       'Chips and Guacamole', 'Chicken Crispy Tacos',
       'Chicken Soft Tacos', 'Chicken Burrito', 'Canned Soda',
       'Barbacoa Burrito', 'Carnitas Burrito', 'Carnitas Bowl',
       'Bottled Water', 'Chips and Tomatillo Green Chili Salsa',
       'Barbacoa Bowl', 'Chips', 'Chicken Salad Bowl', 'Steak Bowl',
       'Barbacoa Soft Tacos', 'Veggie Burrito', 'Veggie Bowl',
       'Steak Crispy Tacos', 'Chips and Tomatillo Red Chili Salsa',
       'Barbacoa Crispy Tacos', 'Veggie Salad Bowl',
       'Chips and Roasted Chili-Corn Salsa',
       'Chips and Roasted Chili Corn Salsa', 'Carnitas Soft Tacos',
       'Chicken Salad', 'Canned Soft Drink', 'Steak Salad Bowl',
       '6 Pack Soft Drink', 'Chips and Tomatillo-Red Chili Salsa', 'Bowl',
       'Burrito', 'Crispy Tacos', 'Carnitas Crispy Tacos

In [24]:
# 위에서 보다시피 그냥 unique()를 하면 array 형태로 각 피처들의 값을 보여준다
# 개수 파악을 위해 len() 을 이용한다

### [Step 2] 인사이트의 발견: 탐색과 시각화하기

In [26]:
# 가장 많이 주문한 아이템 Top 10
# 가장 많이 주문한 아이템 Top 10을 분석하기 위해 
# DataFrame['column']의 형태에 value_counts() 함수를 적용하는 방식을 사용한다
# DataFrame['column']은 시리즈(series)라는 객체를 반환하는데, 
# vlaue_counts() 함수는 오로지 이러한 시리즈 객체에만 적용되기 때문

In [30]:
item_count = chipo['item_name'].value_counts()[:10]
item_count

Chicken Bowl           726
Chicken Burrito        553
Chips and Guacamole    479
Steak Burrito          368
Canned Soft Drink      301
Chips                  211
Steak Bowl             211
Bottled Water          162
Chicken Soft Tacos     115
Chicken Salad Bowl     110
Name: item_name, dtype: int64

In [50]:
for idx, (val, cnt) in enumerate(item_count.iteritems(), 1):
    print("Top", idx, ":", val, cnt)

Top 1 : Chicken Bowl 726
Top 2 : Chicken Burrito 553
Top 3 : Chips and Guacamole 479
Top 4 : Steak Burrito 368
Top 5 : Canned Soft Drink 301
Top 6 : Chips 211
Top 7 : Steak Bowl 211
Top 8 : Bottled Water 162
Top 9 : Chicken Soft Tacos 115
Top 10 : Chicken Salad Bowl 110
