## 탐색적 데이터 분석의 과정
### 데이터와의 첫 만남
* raw data : 아직 분석에 활용된 적이 없는 혹은 정제되지 않은 데이터
1. 데이터의 출처와 주제에 대해 이해
2. 데이터의 크기를 알아보기
    샘플링 : 어떤 자료로부터 일부의 값을 추출하는 행위
3. 데이터의 구성 요소(피처)를 살펴봄
    ex) 학급의 신체검사 결과를 기록한 데이터가 있을 때 키, 몸무게, 시력 같은 특정 요소를 '피처'
    
## 멕시코풍 프랜차이즈 chipotle의 주문 데이터 분석하기
### step1 탐색: 데이터의 기초 정보 살펴보기

In [2]:
import pandas as pd

# read_csv 함수로 데이터를 Dataframe 형태로 불러옵니다.
file_path = 'data/chipotle.tsv'
chipo = pd.read_csv(file_path, sep = '\t')

print(chipo.shape) # shape() : 데이터의 행과 열의 크기 반환
print("------------------------------------")
print(chipo.info()) # info() 행의 구성 정보와 열의 구성 정보를 나타냄

(4622, 5)
------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB
None


* choice_description 에는 3376개의 비어있지 않은 문자열 데이터가 있음
* 1246개의 결측값이 존재

In [5]:
# chipo 라는 Dataframe에서 순서대로 10개의 row 데이터를 보여줍니다.
chipo.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


In [6]:
print(chipo.columns)
print("------------------------------------")
print(chipo.index)

Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')
------------------------------------
RangeIndex(start=0, stop=4622, step=1)


* order_id : 주문번호
* quantity : 아이템의 주문 수량
* item_name : 주문한 아이템의 이름
* coice_description : 주문한 아이템의 상세 선택 옵션
* item_price : 주문 아이템의 가격 정보

#### quantity와 item_price의 수치적 특징
* 두 피처는 연속형 피처(연속적인 숫자 형태)

In [8]:
# describe()함수로 기초 통계량 출력하기
# 현재 유일하게 존재하는 수치형 피처는 quantity 뿐이기 때문에 오직 quantity에 대한 정보만을 출력
# order_id는 숫자의 의미를 가지지 않기 때문에 str으로 변환
chipo['order_id'] = chipo['order_id'].astype(str)
print(chipo.describe()) # chipo 데이터 프레임에서 수치형 피처들의 기초 통계량을 확인

          quantity
count  4622.000000
mean      1.075725
std       0.410186
min       1.000000
25%       1.000000
50%       1.000000
75%       1.000000
max      15.000000


#### order_id와 item_name의 개수
* 두 피처는 범주형 피처이기 때문에 unique() 함수를 사용
* 이를 통해 피처 내에 몇개의 범주가 있는지를 확인할 수 있음

In [9]:
# unique() 함수로 범주형 피처의 개수 출력하기
print(len(chipo['order_id'].unique())) # order_id의 개수를 출력
print(len(chipo['item_name'].unique())) # item_name의 개수를 출력

1834
50


### step2 인사이트의 발견 : 탐색과 시각화하기
#### 가장 많이 주문한 아이템 Top10
* DatatFrame['column']은 시리즈라는 객체를 반환
* value_counts() 함수는 오로지 이러한 시리즈 객체에만 적용

In [10]:
# 가장 많이 주문한 아이템 Top10을 출력
item_count = chipo['item_name'].value_counts()[:10]
for idx, (val,cnt) in enumerate(item_count.iteritems(),1):
    print("Top", idx, ":", val, cnt)

Top 1 : Chicken Bowl 726
Top 2 : Chicken Burrito 553
Top 3 : Chips and Guacamole 479
Top 4 : Steak Burrito 368
Top 5 : Canned Soft Drink 301
Top 6 : Steak Bowl 211
Top 7 : Chips 211
Top 8 : Bottled Water 162
Top 9 : Chicken Soft Tacos 115
Top 10 : Chips and Fresh Tomato Salsa 110
