# **Lesson 3.Pandas 심화_예제**
데이터 분석 초급 과정 2 (Python) > Module1. 데이터 분석을 위한 Python 라이브러리

## **(1) 환경준비**

### **1) 라이브러리 로딩**

In [None]:
import pandas as pd
import numpy as np

### **2) 데이터 로딩**

**① 음식점의 팁 데이터**

In [None]:
tips = pd.read_csv('tips.csv')
tips.head()

* 음식점의 팁 정보

|	변수명	|	설명	|	구분	|
|----|----|----|
|	total_bill_amount 	|	 테이블 영수증 금액(달러)	|	수치형	|
|	tip 	|	테이블 팁 금액(달러)	|	수치형	|
|	male_female 	|	 영수증을 지불한 고객의 성별	|	범주형	|
|	smoke_yes_no 	|	 고객의 흡연 여부	|	범주형	|
|	week_name 	|	 요일	|	범주형	|
|	dinner_lunch 	|	 식사시간(점심, 저녁)	|	범주형	|
|	size 	|	 테이블의 고객 수	|	수치형	|

**② 코스피 지수 데이터(2015~2018)**

In [None]:
kospi = pd.read_csv('KOSPI.csv')
kospi.head()

|	변수명	|	설명	|	구분	|
|----|----|----|
|	Date 	|	 날짜	|	날짜	|
|	Open 	|	시작가	|	수치형	|
|	High 	|	 고가	|	수치형	|
|	Low 	|	 저가	|	수치형	|
|	Close 	|	 종가	|	수치형	|
|	Volume 	|	 거래량	|	수치형	|

----

## **(2) Topic 1. 데이터프레임 변경**

### **1) 열 변경**

**① 열 이름 변경**

* columns 속성 변경: 모든 열 이름 변경

In [None]:
# 변경 연습을 하기 전에 데이터프레임 복사
tips2 = tips.copy()

In [None]:
tips2.columns = ['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size']
tips2.head()

* rename() 메서드 사용: 지정한 열 이름 변경

In [None]:
tips.rename(columns={'total_bill_amount': 'total_bill',
                    'male_female': 'sex',
                    'smoke_yes_no': 'smoker',
                    'week_name': 'day',
                    'dinner_lunch': 'time'}, inplace=True)
tips.head()

**② 새 열 추가**

* 계산된 열을 추가해 봅시다.
    * 기존 열을 이용해서 계산한 결과를 새로운 열로 추가할 수 있습니다.

In [None]:
# 변경 연습을 하기 전에 데이터프레임 복사
tips2 = tips.copy()

In [None]:
# final_amt 열 추가
tips2['final_amt'] = tips2['total_bill'] + tips2['tip']
tips2.head()

In [None]:
# div_tb 열 추가
tips2['div_tb'] = tips2['total_bill'] / tips2['size']
tips2.head()

**③ 열 삭제**

* 열 한 개 삭제

In [None]:
# 열 한 개 삭제
tips2.drop('final_amt', axis=1, inplace=True)
tips2.head()

* 열 두 개 이상 삭제

In [None]:
# 열 두 개 이상 삭제
tips2.drop(['div_tb', 'day'], axis=1, inplace=True)
tips2.head()

### **2) 값 변경**

**① 조건에 맞는 값 변경**

* 열 전체 값 변경

In [None]:
# 변경 연습을 하기 전에 데이터프레임 복사
tips2 = tips.copy()

In [None]:
tips2.head()

In [None]:
# tips['tip'] 의 모든 값을 0으로 바꾸기
tips2['tip'] = 0
tips2.head()

* 조건에 의한 값 변경1

In [None]:
# 변경 연습을 하기 전에 데이터프레임 복사
tips2 = tips.copy()
tips2.head()

In [None]:
# tips['tip'] 의 값이 3보다 작을 경우, 0으로 바꾸기
tips2.loc[tips2['tip'] < 3, 'tip'] = 0
tips2.head()

* 조건에 의한 값 변경2

In [None]:
# 변경 연습을 하기 전에 데이터프레임 복사
tips2 = tips.copy()
tips2.head()

In [None]:
# tips[‘tip’] 의 값이 3보다 작을 경우 0, 아니면 1로 바꾸기
tips2['tip'] = np.where(tips2['tip'] < 3, 0, 1)
tips2.head()

**② 기존 값 치환(map)**

* 열 전체 값 변경

In [None]:
# Male -> 1, Female -> 0
tips2['sex'] = tips2['sex'].map({'Male': 1, 'Female': 0})
tips2.head()

**③ 숫자를 범주로(cut)**

In [None]:
# 변경 연습을 하기 전에 데이터프레임 복사
tips2 = tips.copy()
tips2.head()

* 숫자를 균등 분할하기

In [None]:
# 크기로 3등분해서 등급 구하기
tips2['tip_grp'] = pd.cut(tips2['tip'], 3, labels=['c', 'b', 'a'] )
tips2.head(10)

## **(3) Topic 2. 데이터프레임 결합**


### **1) 합치기 concat**

In [None]:
# 예제 데이터
df1 = pd.DataFrame({'A':[10,25], 'B':[15,30]})
df2 = pd.DataFrame({'A':[20,30, 50], 'C':[35,30, 40]})
df2.drop([1], inplace = True)

display(df1)
display(df2)

**① 세로로 합치기 : axis = 0**

* join = 'inner'

In [None]:
pd.concat([df1, df2], axis = 0, join = 'inner')

* join = 'outer'

In [None]:
pd.concat([df1, df2], axis = 0, join = 'outer')

**② 가로로 합치기 : axis = 1**

* join = 'inner'

In [None]:
pd.concat([df1, df2], axis = 1, join = 'inner')

* join = 'outer'

In [None]:
pd.concat([df1, df2], axis = 1, join = 'outer')

### **2) 병합 (merge)**

* 판다스에서 join은 굉장히 간단합니다.
* 자동으로 key를 잡아줍니다
* default로 inner join을 합니다.

In [None]:
df1 = pd.DataFrame({'A':[1,2], 'B':[15,30], 'C':[20, 25]})
df2 = pd.DataFrame({'A':[2,3], 'D':[20, 35]})

display(df1)
display(df2)

**① inner merge**

In [None]:
pd.merge(df1, df2, how = 'inner', on = 'A')

In [None]:
pd.merge(df1, df2, how = 'inner')

**② left merge**

In [None]:
pd.merge(df1, df2, how = 'left')

**③ right merge**

In [None]:
pd.merge(df1, df2, how = 'right')

### **3) pivot**

* 예제 데이터 만들기

In [None]:
dict2 = {'월' : ['1월', '1월', '1월', '1월', '2월', '2월', '2월', '2월'],
        '성별' : ['남', '여', '남', '여', '여', '여', '여', '남'],
        '이름' : ['Aaa', 'Bbb', 'Ccc', 'Ddd', 'Eee', 'Fff', 'Ggg', 'hhh'],
        '구매액' : [60,40,40,70,20,30,30,90] }
df = pd.DataFrame(dict2)
df

* 월별, 성별 별, 구매액 집계

In [None]:
temp = df.groupby(['월','성별'], as_index = False)['구매액'].sum()
temp

* 피봇 테이블

In [None]:
temp.pivot(index = '월', columns = '성별', values = '구매액')

## **(4) Topic 3. 시계열 데이터 이해**

### **1) 시계열 데이터란?**

In [None]:
# 상위 데이터 조회
kospi.head()

In [None]:
# 정보 조회
kospi.info()

* 날짜 형식으로 변경 : pd.to_datetime()

In [None]:
kospi['Date'] = pd.to_datetime(kospi['Date'])
kospi.info()

In [None]:
kospi.head()

### **2) 시계열 데이터 처리**

**① 날짜 요소 뽑기**

* 연도를 뽑아서, 새 열로 추가하기

In [None]:
kospi['Year'] = kospi['Date'].dt.year
kospi.head()

* 요일을 뽑아서, 새 열로 추가하기

In [None]:
kospi['Weekday'] = kospi['Date'].dt.day_name()
kospi.head()

**② 이전, 이후로 데이터 옮기기(shift)**

* 예제 데이터 준비

In [None]:
temp = kospi[['Date','Close']].copy()
temp.head()

* 데이터 이동시키기

In [None]:
temp['Close_lag1'] = temp['Close'].shift()
temp['Close_lag2'] = temp['Close'].shift(2)
temp['Close_lag-1'] = temp['Close'].shift(-1)
temp.head()

**③ 이동평균(rolling().mean())**

* 예제 데이터 준비

In [None]:
temp = kospi[['Date','Close']].copy()
temp.head()

* 데이터 이동 평균 구하기

In [None]:
temp['Cl_MA3'] = temp['Close'].rolling(3).mean()
temp['Cl_MM3'] = temp['Close'].rolling(3).max()
temp['Cl_MA3_1'] = temp['Close'].rolling(3, min_periods = 1).mean()
temp.head()

**④ 차분(diff)**

* 예제 데이터 준비

In [None]:
temp = kospi[['Date','Close']].copy()
temp.head()

* 이전 시점 데이터와의 차이 구하기

In [None]:
temp['Cl_Diff1'] = temp['Close'].diff()
temp['Cl_Diff2'] = temp['Close'].diff(2)
temp.head()