<img src='https://user-images.githubusercontent.com/6457691/89746244-a6e2a200-daf3-11ea-9314-7863d544d73c.png' width = '200' align = 'right'>

## *DATA SCIENCE / SECTION 1 / SPRINT 1 / NOTE 3*

# 📝 Assignment

---

# 데이터셋 조작 (Join and Reshape)

목표 
- pandas로 데이터를 합치거나, 병합함 
- tidy 데이터를 이해함
- pandas를 사용하여 데이터를 tidy <-> wide 형태로 변환

참고 자료:
- [Pandas Cheat Sheet](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)
- [Tidy Data](https://en.wikipedia.org/wiki/Tidy_data)
  - 데이터셋 합치기 : 표준 조인 (Standard Joins)
  - Tidy 데이터
  - 데이터 형태 변환
- Python Data Science Handbook
  - [Chapter 3.6](https://jakevdp.github.io/PythonDataScienceHandbook/03.06-concat-and-append.html), Combining Datasets: Concat 과 Append
  - [Chapter 3.7](https://jakevdp.github.io/PythonDataScienceHandbook/03.07-merge-and-join.html), Combining Datasets: Merge 와 Join
  - [Chapter 3.8](https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html), Aggregation 과 Grouping
  - [Chapter 3.9](https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html), Pivot Tables
  
Reference
- Pandas Documentation: [Reshaping and Pivot Tables](https://pandas.pydata.org/pandas-docs/stable/reshaping.html)
- Modern Pandas, Part 5: [Tidy Data](https://tomaugspurger.github.io/modern-5-tidy.html)

In [None]:
!wget https://s3.amazonaws.com/instacart-datasets/instacart_online_grocery_shopping_2017_05_01.tar.gz

In [None]:
!tar --gunzip --extract --verbose --file=instacart_online_grocery_shopping_2017_05_01.tar.gz

In [None]:
%cd instacart_2017_05_01

In [None]:
!ls -lh *.csv

# 과제

## 데이터 조인 (Join) 연습 

다음은 가장 자주 구매된 상위 10개의 제품입니다. 각 제품이 구매된 수를 구하세요.

1. Banana
2. Bag of Organic Bananas
3. Organic Strawberries
4. Organic Baby Spinach 
5. Organic Hass Avocado
6. Organic Avocado
7. Large Lemon 
8. Strawberries
9. Limes 
10. Organic Whole Milk

1. 사용해야할 데이터프레임과 열을 선택하세요.

2. 앞의 데이터들을 1개의 데이터프레임으로 병합하세요.

3. pandas를 사용하여 결과를 구하세요.

In [None]:
##### 코드가 작성되는 부분입니다. #####

## 데이터 형태변환 (Reshape) 연습

- 강의에서 쓰였던 코드를 재실행합니다. 단순히 따라가는 것 뿐 아니라 코드의 내용을 이해 할 수 있도록 연습하세요.
- Table 2 를 선택하여 Tidy 와 Wide 형태로 변환해보세요. 단 Transpose를 사용하여 Table 1처럼 변환하는 것은 허용되지 않습니다:
 - Table 2 --> Tidy
 - Tidy --> Table 2
- Seaborn의 `flights` 데이터셋을 사용하여 연,월별로 승객수를 나타내는 pivot table을 생성하세요. year를 인덱스로 month를 column으로 사용하여야하며, 정상적으로 진행 되었을경우 1960년 12월에 432명의 승객, 1949년 1월에 112명의 승객을 확인 할 수 있습니다.

In [None]:
import pandas as pd
import numpy as np

table1 = pd.DataFrame(
    [[np.nan, 2],
     [16,    11], 
     [3,      1]],
    index=['John Smith', 'Jane Doe', 'Mary Johnson'], 
    columns=['treatmenta', 'treatmentb'])

table2 = table1.T

table2

In [None]:
# table2 -> tidy

In [None]:
# tidy -> table2

In [None]:
flights = sns.load_dataset('flights')

In [None]:
# Flights Pivot Table

## 데이터 Join 추가연습

[Instacart blog post](https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2) 에는 하루 시간에 따라서 (일찍 : 녹색, 늦게 : 적색) **자주 구매된 제품** 을 시각화 하는 내용의 글이 있습니다. 

글에서는 다음과 같은 내용을 말하고 있습니다:

> "We can also see the time of day that users purchase specific products.

> Healthier snacks and staples tend to be purchased earlier in the day, whereas ice cream (especially Half Baked and The Tonight Dough) are far more popular when customers are ordering in the evening.

> **In fact, of the top 25 latest ordered products, the first 24 are ice cream! The last one, of course, is a frozen pizza.**"

여러분이 해야 할 일은 가장 최근에 자주 주문된 25개의 제품의 목록을 다시 확인하는 것입니다. 단 여기서 자주 주문되었다는 2,900번 이상의 주문을 기준으로 합니다.


In [None]:
##### 코드가 작성되는 부분입니다. #####

## 데이터 Reshape 추가연습

_가장 마음에 드는 것을 하면 됩니다_

- Instacart의 "Hour of Day Ordered" vs "Percent of Orders by Product" 그림을 더 많은 제품에 대해서 다시 시각화 해보세요.
- [Instacart's blog post](https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2)의 "Number of Purchases" vs "Percent Reorder Purchases" 에 해당하는 내용을 시각화 해보세요.
- Instacart 데이터셋에서 가장 최근 주문 데이터에 대해서 작업하여 보세요. 이는 구매자의 [다음 주문을 예측](https://www.kaggle.com/c/instacart-market-basket-analysis)하는 데에 쓰입니다.
- 다음 노트북의 초반 부분을 따라해보세요 : [Modern Pandas, Part 5: Tidy Data](https://tomaugspurger.github.io/modern-5-tidy.html)

In [None]:
##### 코드가 작성되는 부분입니다. #####

## 읽기 과제 : 2017년도 stackoverflow survey results.

<https://stackoverflow.blog/2018/01/22/remote-work-2017-developer-survey/>