# 변수
 - 데이터를 저장하는 공간의 이론
 > 전역변수
 - 어디서든 사용할 수 있는 변수
 > 지역변수
 - 특정 영역에서 사용 할 수 있는 변수
 - 영역을 벗어나면 사용이 불가능
 > 매개변수
 - 함수에서 특정한 인자값을 받아오기 위한 변수
 > 클래스 변수
 - 하나의 클래스에서 독립적이지 않고 공유하는 변수

In [None]:
a = 10
b = 'test'

print(a,b)

# 경로 (절대 경로 / 상대 경로)
> 절대 경로
- 절대적인 주소
- 환경에 상관 없이 고정된 위치를 표현
- ex) "c\users\document" , "https://www.google.com"
> 상대 경로
- 상대적인 주소
- 환경에 따라서 주소가 변화
- 현재 작업인 디렉토리에서 이동
- ex)
   - 현재 디렉토리 : ./
   - 상위 디렉토리 : ../
   - 하위 디렉토리 : ./폴더명/
   - 상위에서 상위로 한번 더 이동 : 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# 상위 폴더에서 csv폴더 안에 sales records.csv 파일 로드
# 상대경로
df = pd.read_csv("../csv/Sales Records.csv")
# 절대경로
pd.read_csv("/Users/gimhuidong/Documents/GitHub/data-project/csv/Sales Records.csv").head(1)
df

1. Region, Country, Sales Channel, Units Sold, Unit Price, Unit Cost 컬럼만 따로 추출
2. 컬럼의 이름을 권역, 국가, 판매채널, 판매개수, 단가, 원가
3. 총단가, 총원가, 총이윤 이라는 파생변수
4. 권역별 총이윤의 평균 그래프로 표시(바그래프)
5. 국가별 판매채널에 따른 총이윤의 합계를 그래프로 표시(바그래프)

In [None]:
# 결측치를 확인하는 방법
# isna().sum() -> 결측치의 개수를 확인
# isna() : 결측치인 경우에는 True 결측치가 아닌 경우에는 False
# True는 1로 표현, False는 0으로 표현 -> sum()을 하면 결측치의 개수 확인 가능
# info()를 이용하여 데이터의 개수를 확인
df.isna().sum()

In [None]:
# 데이터프레임에서 통계 요약 정보를 확인하는 함수 -> describe()
# 데이터의 개수, 평균값, 표준편차, 최소값, 최대값, 1사분위, 중앙값, 3사분위 값을 확인이 가능
# 데이터의 형태가 숫자의 형태여야 출력
df.describe()

In [None]:
df.head(1)

In [None]:
# drop() : 특정 컬럼이나 특정 인덱스를 삭제
# drop(조건, axis = n, inplace = bool)
# axis 속성의 값은 [ 0:행,1:열 ]
# inplace 속성은 True : 기준이 되는 데이터프레임을 변경
#              False : 기준이 되는 데이터프레임을 변경하지 않는다(기본값)
df.drop(['Item Type'], axis = 1, inplace = True)

In [None]:
# 특정한 컬럼만 출력
df = df[['Region', 'Country', 'Sales Channel', 'Units Sold', 'Unit Price', 'Unit Cost']]

In [None]:
# 컬럼의 이름을 변경
df.columns = ['권역', '국가', '판매채널', '판매개수', '단가', '원가']

In [None]:
# 특정한 컬럼의 하나만 컬럼의 이름을 변경하려면?
# rename(dict)
df.rename(columns = {"권역" : "대륙"})

In [None]:
# 새로운 파생변수 생성
df["총단가"] = df["판매개수"] * df["단가"]
df["총원가"] = df["판매개수"] * df["원가"]
df["총이윤"] = df["총단가"] - df["총원가"]
df.head(1)

# 그룹화
> groupby()
- 특정한 컬럼을 지정하여 데이터들이 같은 값들을 그룹화
- 그룹화된 데이터들의 평균이나 합계, 최대, 최소, 표준편차와 같은 통계량을 생성
> pivot_table()
- 인덱스와 컬럼, 벨류를 지정하여 그룹화
- 그룹화된 데이터들의 통계량을 생성

In [None]:
df.groupby('권역')['총이윤'].mean().plot.bar()

In [None]:
pd.pivot_table(
    df,
    index = '권역',
    columns = '판매채널',
    values ='총이윤',
    aggfunc = 'sum'
).plot.bar()

# 인덱스를 이동하는 함수
> shift(n)
- 인덱스를 n만큼 이동
- n = 1 이 기본값 : 바로 전의 인덱스의 값을 가지고 온다.
- 다음의 인덱스의 값을 가지고 오려면? n = -1

# 값의 차이를 출력하는 함수
> diff(periods = n)
- 바로 전의 인덱스의 값과의 차이를 출력
- periods 기본값은 1 shift와 마찬가지로 행,열의 수를 지정

# 결측치를 다른 값을 대체하는 함수
> fillna(n, method=?)
- n을 지정하면 해당하는 값으로 결측치가 대체
- method 속성 : ffill, bfill
   - ffill : 전의 행의 값이 존재하면 그 값으로 대체
   - bfill : 후의 행의 값이 존재하면 그 값으로 대체

In [None]:
corona = pd.read_csv("../csv/corona.csv",index_col = [0]) # index_col = [0] : 첫번째 컬럼을 인덱스로 사용하겠다

In [None]:
corona["accExamCnt"] = corona["accExamCnt"].fillna(method = "bfill")
corona["accDefRate"] = corona["accDefRate"].fillna(method = "bfill")

> apply()
- 데이터프레임에서 각 항목들의 데이터를 변환 시켜주는 함수
- 표의 형태의 각 셀의 값 -> apply(연산) -> 연산 안에 각 셀의 값을 넣어서 변환
> lambda()
- 함수를 선언과 동시에 호출을 하는 함수
> map()
- 리스트, 튜플 형태의 데이터  각 항목들을 변환 시켜주는 함수

In [None]:
# apply를 사용하여 새로운 파생변수(H/L)에 accDefRate의 값이 1.55보다 크면 High
# 아니면 Low 의 값을 대입

# apply + 일반함수
def change(x):
    if x > 1.55:
        return 'High'
    else:
        return 'Low'
    
corona['accDefRate'].apply(change)    

In [None]:
# apply + lambda

# if문을 한줄로 사용 : 참인경우 값 if 조건식 else 거짓인경우 값

corona['accDefRate'].apply(lambda x : 'High' if x > 1.55 else 'Low').value_counts()

# 데이터프레임의 결합
> concat()
- axis 속성 0,1 행을 결합을 할지, 열을 결합을 할지 지정
- 단순하게 데이터프레임을 결합
> merge()
- 특정한 조건을 기준으로 하여 데이터프레임을 결합
- on 속성에서 합쳐질 데이터프레임의 조건을 넣어주는 부분(컬럼의 이름)
- 조건에 맞는 컬럼의 값을 넣어준다
- how 속성
   - left : 왼쪽에 있는 데이터프레임을 기준으로 결합
   - right : 오른쪽에 있는 데이터프레임을 기준으로 결합
   - inner : 두 데이터프레임의 교집합
   - outer : 두 데이터프레임의 합집합

In [None]:
# csv폴더 안에 num_3 폴더에 있는 파일들을 로드하여 데이터프레임 결합
# 4개의 파일 모두 조인 결합
campagin = pd.read_csv("../csv/num_3/campaign_master.csv")
class_master = pd.read_csv("../csv/num_3/class_master.csv")
customer_master = pd.read_csv("../csv/num_3/customer_master.csv")
use_log = pd.read_csv("../csv/num_3/use_log.csv")

In [None]:
campagin.head(1)

In [None]:
class_master.head(1)

In [None]:
customer_master.head(1)

In [None]:
use_log.head(1)

In [None]:
data = pd.merge(campagin,customer_master, how='inner',on='campaign_id')

In [None]:
data2 = pd.merge(data,class_master, how='inner',on='class')

In [None]:
data3 = pd.merge(data2,use_log, how='inner',on='customer_id')

In [None]:
data3.head()

# 시계열 데이터
> to_datetime(데이터, format=)
- 해당하는 데이터를 시계열 데이터로 변환
- format의 속성은 변경 시키려는 데이터의 구성을 대입
- ex) 202001 -> format = "%Y%m"

In [None]:
data3.info() # 시계열로 바뀐것을 확인 가능

In [None]:
# start_date 컬럼의 데이터의 타입을 시계열 변경
# 2019년1월1일 이후 데이터만 출력
data3['start_date'] = pd.to_datetime(data3['start_date'])

In [None]:
data3.loc[data3['start_date'] >= '2019-01-01']

1. 이용 내역
2. 파생변수 2개 생성
3. weekday 요일 파생변수(use date를 기준으로 요일 생성)
4. 년월 파생변수 하나 생성(use date를 기준으로 요일 생성)
5. 요일별 이용 여부를 계산

In [None]:
# usedate를 시계열 변환
data3['usedate'] = pd.to_datetime(data3['usedate'])


In [None]:
data3['weekday'] = data3['usedate'].dt.weekday
data3.head(2)

In [None]:
data3['년월'] = data3['usedate'].dt.strftime("%Y-%m")
data3.head(2)

In [None]:
data3['weekday'].value_counts()

In [None]:
use_weekday = data3.groupby(['customer_id', '년월', 'weekday'], as_index=False).count()[['customer_id', '년월', 'weekday', 'log_id']]
use_weekday.rename(columns={'log_id' : 'count'}, inplace=True)
use_weekday.head(3)

In [None]:
# 각 회원별 가장 많은 count를 가지는 요일을 출력
use_weekday.groupby('customer_id').max()[['weekday','count']]