## 1. 준비

### 1.1. Jupyter Notebook 사용법, 기능 및 단축키 소개  

jupyter notebook은 여러 cell을 수직적으로 결합해서 문서를 만들거나 분석을 수행  
상단 메뉴바와 아이콘을 활용하여 cell을 추가, 제거, 이동, 복사 가능  
cell에 명령어를 입력하고 실행해서 결과 확인  


* 파란색 : 명령 모드(cell의 추가, 복사, 삭제 등), "ESC"
  - `H` : 단축키 목록 팝업
  - `A` : 위에 cell 추가 
  - `B` : 아래에 cell 추가
  - `위/아래 화살표` : cell 이동
  - `D, D` : cell 삭제
  - `M` : cell을 Markdown(문서 작성) 형식으로 변경
  - `Y` : cell을 Code(명령어 작성) 형식으로 변경
  - `S`, `Ctrl + S` : 저장
  
  
* 초록색 : 수정 모드(각 cell 안에서 명령어 등 입력), "ENTER"
  - `Tab` : 들여쓰기 혹은 코드 완성
  - `Shift + Tab` : 들여쓰기 취소 혹은 툴팁(도움말)
  - `Ctrl + /` : 주석처리/해제

* cell 실행 
  - `Shift + Enter` : 실행하고 다음 cell로 이동
  - `Ctrl + Enter` : 실행
  

<br>





### 1.2. pip를 활용한 Library 설치 및 확인

Python을 활용해 데이터를 분석하기 위해서는 pandas와 같은 라이브러리 설치가 필수
<span style='color:blue;font-weight:bold'>pip</span> 명령어를 활용해서 라이브러리를 설치 가능  
jupyter notebook 안에서 shell command를 실행하기 위해서 <span style='color:purple;font-weight:bold'>!</span>를 앞에 붙임   

In [None]:
# 라이브러리 설치
!pip install pandas~=2.0 matplotlib seaborn~=0.11 plotly~=5.15 xlrd openpyxl

In [None]:
# Windows 
!pip list | findstr /r "pandas seaborn plotly openpyxl"

# macOS
# !pip list | grep -E '^pandas |seaborn |plotly |openpyxl '

In [None]:
# list 형식의 활용
['pandas', 'seaborn', 'plotly']

<br>
<hr>
<br>

## 2. 데이터 불러오기 및 정보 확인

#### 데이터 출처  
+ Online Retail: [UCI Machine Learning Repository](https://doi.org/10.24432/C5BW33)
+ Global Superstore 2018: Tableau
    - [예제 대시보드](https://www.tableau.com/data-insights/dashboard-showcase/superstore)
    - [분석 예제 블로그](https://saulventura.github.io/BTYD/)
    - [Kaggle Notebook](https://www.kaggle.com/search?q=superstore+dataset)
    


In [None]:
# library 불러오기 
import pandas as pd
pd.set_option('display.max_columns', 30) # 최대 출력 변수 개수 수정

In [None]:
# pandas의 read_excel( ) 활용
df_or = pd.read_excel('./data/Online Retail.xlsx')
df_or
    # ./ : ipynb 노트북 파일 폴더
    # Tab으로 자동 완성 기능 활용 가능 

In [None]:
# 타입 확인
type(df_or)
    ## "DataFrame"

In [None]:
# 메서드의 확인(마침표 뒤에서 Tab 누르기)
df_or.

In [None]:
# 다양한 정보 확인
# df_or.head()  # 첫 n개 관측치 확인
# df_or.tail()  # 마지막 n개 관측치 확인
# df_or.info()  # 변수 구성 및 형식 확인
# df_or.dtypes  # 변수 형식 확인
# df_or.columns # 변수 이름 확인

<br>

### [실습] data 폴더의 Global Superstore 2018.xlsx를 불러와서 df_ss로 저장하기

이후 자유롭게 데이터 탐색하기  
특히 변수의 목록과 날짜 변수의 형식 확인하기

In [None]:
# df_ss 

<br>

## 3. 변수(column, variable, feature)와 관측치(row, index, observation)  선택

### 3.1. 변수 선택

In [None]:
# 한 변수 선택
df_or['StockCode']

In [None]:
# 여러 변수 선택
df_or[['StockCode', 'Quantity']]

In [None]:
# .loc[]의 활용 
df_or.loc[:, ['StockCode', 'Quantity']]
    # .loc[관측치, 변수]

In [None]:
df_or.loc[:, 'StockCode':'Quantity']

<br>

### [실습] df_ss에서 관심있는 변수 선택하기

> 역할 설정 > 변수 선택 > 분석

1. 하나의 변수 선택
2. 역할에 맞게 여러 변수 선택

In [None]:
df_ss.head(3)

In [None]:
# 한 변수 선택


In [None]:
# 여러 변수 선택 


### 3.2. 중복값 제거 목록 생성

In [None]:
# 고객 목록 생성
df_or['CustomerID'].drop_duplicates()

In [None]:
# 주문 정보 데이터 생성
df_or[['InvoiceNo', 'InvoiceDate', 'CustomerID', 'Country']].drop_duplicates()

<br>

### [실습] df_ss에서 부분 데이터 생성

1. 고객 데이터 생성: 'Customer ID', 'Customer Name', 'Country', 'Region'
2. 상품 데이터 생성: 'Order ID', 'Order Date', 'Ship Date', 'Customer ID'



In [None]:
# 고객 데이터 생성
    


In [None]:
# 상품 데이터 생성
    

<br>

### 3.2. 조건을 활용한 관측치 선택

#### 3.2.1. 조건 활용 관측치 선택의 이해

In [None]:
# Step 1. 변수 선택 및 조건 설정
c1 = df_or['UnitPrice']>=20
c1

In [None]:
# Step 2. [] 혹은 .loc[] 활용 관측치 선택
df_or_sub = df_or[c1]
df_or_sub

In [None]:
df_or.loc[c1, :]

<br>

#### 3.2.2. 숫자 변수 범위 지정

In [None]:
# &를 활용한 범위 설정
c1 = df_or['UnitPrice']>=20
c2 = df_or['UnitPrice']<=30
df_or[c1&c2]

In [None]:
# between( )의 활용
    # inclusive: 경계값 포함여부, 'both', 'neither', 'left', 'right'
c3 = df_or['UnitPrice'].between(20, 30, inclusive='left')
df_or[c3]

<br>

#### 3.2.3. 그룹 변수를 활용한 조건 설정

In [None]:
# 목록 확인
df_or['Country'].drop_duplicates()

In [None]:
# 한 그룹 선택
c2 = df_or['Country'] == 'USA'
df_or[c2]

In [None]:
# isin() 활용여러 그룹 선택
c3 = df_or['Country'].isin( ['USA','Canada'])
df_or[c3]

<br>

#### 3.2.4. 글자 변수를 활용한 조건 설정

In [None]:
pd.Series.str.contains()

In [None]:
c4 = df_or['Description'].str.contains('SUMMER', na=False)
df_or[c4]

<br>

### [실습] df_ss에서 관측치 선택

1. 'Country'의 값 목록 확인
2. 1.의 목록 중에서 관심있는 3개 국가의 주문건 선택
3. 'Profit'이 100 이상 200 미만인 관측치 선택
4. 'Product ID'가 'TEC'로 시작하는 관측치 선택(.str.startswith() 활용)

In [None]:
df_ss.head(3)

<br>

## 3. 파생 변수 생성

### 3.1. 날짜 요소 추출
 * 참고: [dt.weekday](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.weekday.html)

In [None]:
# 요일 추출
df_or['InvoiceDate'].dt.weekday
    # 0:월, 6:일

In [None]:
# 요일 추출(2)
df_or['InvoiceDate'].dt.day_name()

In [None]:
# 요일 변수 추가
df_or['InvoiceWeekday'] = df_or['InvoiceDate'].dt.weekday

In [None]:
# 날짜, 월, 연월 추출
# df_or['InvoiceDate2'] = df_or['InvoiceDate'].dt.date
df_or['InvoiceDate2'] = df_or['InvoiceDate'].dt.normalize()
df_or['InvoiceMonth'] = df_or['InvoiceDate'].dt.month
df_or['InvoiceYM'] = df_or['InvoiceDate'].dt.to_period('M')
df_or['InvoiceYM2'] = df_or['InvoiceDate'].dt.strftime('%Y%m')

In [None]:
# 결과 확인
df_or.filter(like='Invoice')

In [None]:
# 날짜 범위 설정
c1 = df_or['InvoiceDate2'].between('2011-07-01', '2011-07-31')
df_or[c1]

<br>

### [실습] df_ss에서 날짜요소 추출

1. 'Order Date'에서 연월(`dt.to_period('M')`), 요일(`dt.weekday`)를 각각 추출하고 변수로 추가
2. 'Order Date' 기준 2016년 주문 정보만 선택

In [None]:
df_ss.head(3)

<br>

### 3.2. 다양한 파생변수 생성 활용

In [None]:
# 두 변수의 곱 변수 
df_or['Amount'] = df_or['Quantity']*df_or['UnitPrice']
df_or.head()

In [None]:
# 수치형 변수의 구간화
df_or['AGrp'] = pd.cut(df_or['Amount'], 
                       bins=[0, 2, 5, 10, 20, 999999], 
                       right=False, 
                       labels=['A','B','C','D','E'])

df_or[['Amount', 'AGrp']]

<br>

### [실습] df_ss에서  파생변수 생성

1. 'Ship Date'에서 'Order Date'를 빼고 변수 'NDays' 추가
2. 'Profit'를 [-999999, -30, 0, 10, 30, 200, 999999]로 구간화하고, ['N2','N1','P1','P2','P3','P4']로 구간이름 설정한 변수 추가


In [None]:
df

<br>

## 4. 관측치 정렬

In [None]:
# 정렬 기준 변수 및 정렬 방법 설정
    # 오름차순: ascending=True(기본값)
    # 내림차순: ascending=False
df_or[['CustomerID', 'Country']].drop_duplicates().sort_values('CustomerID', ascending=True)

In [None]:
# nlargest( ), nsmallest( )로 상위/하위 관측치 선택
    # keep='all': 동점일 경우 모두 출력
df_or.nlargest(3, 'UnitPrice', keep='all')

In [None]:
df_or.nsmallest(3, 'InvoiceDate', keep='all')

<br>

### [실습] df_ss의 정렬

1. 'Order Date'의 오름차순(일반적인 날짜순)으로 정렬
2. 'Sales' 기준 상위 5개 관측치 선택


In [None]:
df_ss.sample(3)

#### End of script