# 제 3차 조별 데이터 분석 실습

* Mission
    * 지금까지 배운 기술을 활용하여 데이터 분석을 해본다.
    * 데이터 원본 분석을 한다.
    * 결측치, 이상치를 점검해 본다.
    * 전처리
    * 탐색적 연구 (Step1, Step2를 반복하여 데이터 분석의 깊이를 더한다.)
         * Step1] 데이터 분석을 위한 목적, 대상 또는 가설을 세워본다. 
         * Step2] 데이터 재 구조화, 시각화를 통해 새로운 insight 및 정보를 습득 및 가설을 검증한다.
    * 최종 결론을 내린다.

## 아래에 데이터를 import 하세요.

In [1]:
# 데이터 import 코드 구현
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
file_path = '../data/chipotle.tsv'
chipo = pd.read_csv(file_path, sep = '\t')

FileNotFoundError: [Errno 2] No such file or directory: '../data/chipotle.tsv'

## 데이터 원본 분석

### 아래 내용을 확인하세요
* 데이터 사이즈
* 데이터 타입
* 각 열의 의미 (열의 이름 및 데이터를 보고 팀원과 상의하여 분석)
* 기타 확인하고 싶은 사항

In [None]:
# 코드 구현
chipo.size, chipo.dtypes

**각 열의 의미**
* order_id : 주문자
* quantity : 갯수
* item_name  : 메뉴
* choice_description : 주문사항
* item_price : 가격

### 원본 데이터 분석 후 학습한 사항

* 가격이 문자형 데이터이므로 전처리 필요

## 결측치, 이상치 점검
* 누락된 값이 있는지 확인
* 누락된 값을 다른 방식으로 표현하고 있는지도 확인. 예) -, NA, N/A 등
* 이상치 점검. 
예) 수치형 데이터중 특이한 min, max값, 수치형 데이터에서 정규분포를 이루는 데이터중 Outlier, 선형데이터상에 중간에 빈 데이터

In [None]:
# 코드 구현
chipo.isnull().sum()

## 결측치, 이상치 처리 방안 결정
 * 처리방안
 * 처리방안 이유

## 전처리 작업

In [None]:
chipo['item_name']= chipo['item_name'].replace('-',' ')
chipo['item_name'].unique()

In [None]:
chipo['order_id'] = chipo['order_id'].astype(str)
chipo['item_price'] = chipo['item_price'].str.strip('$').astype(float)

In [None]:
chipo.sort_values('item_price')

In [None]:
# 가격에 대한 이상치 확인
plt.boxplot(chipo['item_price']/chipo['quantity'], vert = False)
plt.show()
# 이상치 존재하지 않음

In [None]:
# 갯수에 대한 이상치 확인
plt.boxplot(x=(chipo.groupby('order_id').sum())['quantity'], vert = False)
plt.show()
# 주문량 35로 많이 관측되었을 뿐 이상치로 처리하기 어려움

In [None]:
# choice_description 결측치 전처리 코드
chipo['choice_description'].fillna("[None]",inplace=True)

In [None]:
chipo

In [None]:
chipo['item_name'].unique()

## 탐색적 데이터 분석

## 1차 탐색적 분석

### Step1
데이터 분석의 목적, 대상 또는 가설을 세운다.
* 판매량을 시각화하여 아이템 별 매출 순위를 얻는다.
메뉴별 매출현황 분석 목적으로 메뉴,가격,갯수 열을 대상으로 함

In [None]:
chipo_item = chipo['item_name'].value_counts()[:10]
chipo_item

In [None]:
chipo_item_index = chipo_item.index

In [None]:
# 메뉴 판매 비율 시각화
plt.pie(chipo['item_name'].value_counts()[:10],labels=chipo_item_index, autopct='%.1f%%')
plt.show()

In [None]:
#메뉴별 매출액 높은순위 10
chipo_item_sales = chipo.groupby(chipo['item_name'])['item_price'].sum().to_frame()
top = chipo_item_sales.sort_values('item_price', ascending=False)[:10]
top

In [None]:
# 메뉴별 매출액 낮은순위 10
worst = chipo_item_sales.sort_values('item_price')[:10]
worst

In [None]:
# 메뉴별 매출액 시각화
import seaborn as sns
idx = top.index
colors = sns.color_palette('Set3',len(idx))
top.plot.bar(y='item_price', color=colors)

### Step2
데이터 재구조화
매출이 낮은 메뉴를 제공하는 메뉴에서 제외한다.

In [None]:
# 메뉴별 매출액 낮은순위 10
worst = chipo_item_sales.sort_values('item_price')[:10]
worst

In [None]:
# 메뉴에서 하위매출 아이템을 제외하는 목적의 가상 코드
chipo_drop = chipo.copy()

In [None]:
chipo_drop = chipo.copy()
chipo_drop = chipo_drop.groupby('item_name')['item_price'].sum()
chipo_drop

In [None]:
chipo_drop.drop(worst.index, axis=0)

In [None]:
# 가상그래프
from matplotlib import font_manager,rc
font_location = "C:\Windows\Fonts\malgun.ttf"
font_name = font_manager.FontProperties(fname=font_location).get_name()
rc('font',family=font_name)
plt.rcParams['axes.unicode_minus'] = False

x = np.arange(start=0, stop=31, step=1)
#y_linear = x 
y = -x**2 + 30*x

#fn_linear = np.poly1d(np.polyfit(x, y_linear, deg=1))
fn_quadratic = np.poly1d(np.polyfit(x, y_quadratic, deg=2))

plt.plot(x,y, 'maroon', linewidth=3.)

plt.xlabel('메뉴개수감소량')
plt.ylabel('매출(%)')

# x축, y축 표시 영역 범위 설정
#plt.xlim((min(x)-1, max(x)+1))
plt.xlim([0, 30])
plt.ylim([0, 300])
#plt.ylim((min(y_quadratic)-10, max(y_quadratic)+10))

plt.show()

---

### Step1과 Step2를 반복하며 내용을 정리하세요.

## 2차 탐색적 데이터 분석

## 3차 탐색적 데이터 분석

## 최종결론
지금까지 학습한 정보를 토대로 최종 결론을 내려보세요.