# 변수
- 데이터를 저장하는 공간의 이름
> 전역변수
- 어디서든 사용할 수 있는 변수 
> 지역변수
- 특정 영역에서 사용 할 수 있는 변수
- 영역을 벗어나면 사용이 불가능
> 매개변수 
- 함수에서 특정한 인자값을 받아오기 위한 변수
> 클래스변수
- 하나의 클래스에서 독립적이지 않고 공유하는 변수

In [None]:
a = 10
b = 'test'

print(a, b)

# 경로 (절대 경로 / 상대 경로)
> 절대 경로
- 절대적인 주소
- 환경에 상관 없이 고정된 위치를 표현
- ex) "c\users\document", "https://www.google.com"
> 상대 경로
- 상대적인 주소
- 환경에 따라서 주소가 변화
- 현재 작업인 디렉토리에서 이동
- ex)
    - 현재 디렉토리 : ./
    - 상위 디렉토리 : ../
    - 하위 디렉토리 : ./폴더명/
    - 상위에서 상위로 한번 더 이동 : ../../

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# 상위 폴더에서 csv폴더 안에 saels records.csv 파일 로드 
# 상대경로
df = pd.read_csv("../csv/Sales Records.csv")
# 절대경로
pd.read_csv('C:\\Users\\moons\\Documents\\GitHub\\ubion_7\\csv\\Sales Records.csv').head(1)

1. Region, Country, Sales Channel, Units Sold, Unit Price, Unit Cost 컬럼만 따로 추출
2. 컬럼의 이름을 권역, 국가, 판매채널, 판매개수, 단가, 원가
3. 총단가, 총원가, 총이윤 이라는 파생변수 
4. 권역별 총이윤의 평균 그래프로 표시 (바그래프)
5. 권역별 판매채널에 따른 총이윤의 합계를 그래프로 표시 (바그래프)


In [None]:
# 결측치를 확인하는 방법
# isna().sum() -> 결측치의 개수를 확인
# isna() : 결측치인 경우에는 True 결측치가 아닌 경우에는 False
# True는 1로 표현, False는 0으로 표현 -> sum()을 하면 결측치의 개수 확인 가능
# info()를 이용하여 데이터의 개수를 확인
df.isna().sum()

In [None]:
df.info()

In [None]:
# 데이터프레임에서 통계 요약 정보를 확인하는 함수 -> describe()
# 데이터의 개수, 평균값, 표준편차, 최소값, 최대값, 1사분위, 중앙값, 3사분위 값을 확인이 가능
# 데이터의 형태가 숫자의 형태여야 출력
df.describe()

In [None]:
df.head(1)

In [None]:
# drop() : 특정 컬럼이나 특정 인덱스를 삭제
# drop(조건, axis = n, inplace = bool)
# axis 속성의 값은 0 : 행, 1 : 열
# inplace 속성은 True : 기준이 되는 데이터프레임을 변경
#               False : 기준이 되는 데이터프레임을 변경하지 않는다 (기본값)
df.drop(['Item Type'], axis = 1, inplace=True)

In [None]:
# 특정한 컬럼만 출력
df = df[['Region', 'Country', 'Sales Channel', 'Units Sold', 'Unit Price', 'Unit Cost']]

In [None]:
# 컬럼의 이름을 변경
df.columns = ['권역', '국가', '판매채널', '판매개수', '단가', '원가']

In [None]:
# 특정한 컬럼을 하나만 컬럼의 이름을 변경하려면?
# rename(dict)
df.rename(columns={'권역' : '대륙'})

In [26]:
# 새로운 파생변수 생성 
df['총원가'] = df['판매개수'] * df['원가']
df['총단가'] = df['판매개수'] * df['단가']
df['총이윤'] = df['총단가'] - df['총원가']
df.head(1)

Unnamed: 0,권역,국가,판매채널,판매개수,단가,원가,총원가,총단가,총이윤
0,Sub-Saharan Africa,Chad,Online,4484,651.21,524.96,2353920.64,2920025.64,566105.0


# 그룹화
> groupby()
- 특정한 컬럼을 지정하여 데이터들이 같은 값들을 그룹화
- 그룹화된 데이터들의 평균이나 합계, 최대, 최소, 표준편차와 같은 통계량을 생성
> pivot_table()
- 인덱스와 컬럼, 벨류를 지정하여 그룹화
- 그룹화된 데이터들의 통계량을 생성

In [None]:
df.groupby('권역')['총이윤'].mean().plot.bar()

In [None]:
pd.pivot_table(
    df, 
    index = '권역', 
    columns = '판매채널', 
    values = '총이윤', 
    aggfunc= 'sum'
).plot.bar()

# 인덱스를 이동하는 함수
> shift(n)
- 인덱스를 n만큼 이동
- n = 1이 기본값: 바로 전의 인덱스의 값을 가지고 온다. 
- 다음의 인덱스의 값을 가지고 오려면? n = -1

# 값의 차이를 출력하는 함수
> diff(periods = n)
- 바로 전의 인덱스의 값과의 차이를 출력
- periods 기본값은 1 shift와 마찬가지로 행의 수를 지정

# 결측치를 다른 값을 대체하는 함수
> fillna(n, method=?)
- n을 지정하면 해당하는 값으로 결측치가 대체
- method 속성 : ffill, bfill
    - ffill : 전의 행의 값이 존재하면 그 값으로 대체
    - bfill : 후의 행의 값이 존재하면 그 값으로 대체

In [31]:
corona = pd.read_csv("../csv/corona.csv", index_col=[0])

In [36]:
corona['accExamCnt'] = corona['accExamCnt'].fillna(method='bfill')

In [38]:
corona['accDefRate'] = corona['accDefRate'].fillna(method='bfill')

In [41]:
corona

Unnamed: 0,createDt,deathCnt,decideCnt,seq,stateDt,stateTime,updateDt,accExamCnt,accDefRate
0,2022-06-08 09:09:05.982,24305,18188200,904,20220608,00:00,,21518073.0,2.787908
1,2022-06-07 09:09:00.897,24299,18174842,903,20220607,00:00,2022-06-08 09:10:36.846,21518073.0,2.787908
2,2022-06-06 09:00:06.734,24279,18168670,902,20220606,00:00,2022-06-08 09:10:50.441,21518073.0,2.787908
3,2022-06-05 08:53:19.426,24258,18163648,901,20220605,00:00,2022-06-08 09:11:04.758,21518073.0,2.787908
4,2022-06-04 08:56:49.219,24238,18153814,900,20220604,00:00,2022-06-08 09:11:26.303,21518073.0,2.787908
...,...,...,...,...,...,...,...,...,...
815,2020-03-14 00:00:00.000,72,8086,55,20200314,00:00,2021-10-07 10:30:51.51,261335.0,3.318000
816,2020-03-13 00:00:00.000,67,7979,54,20200313,00:00,2021-10-07 10:30:51.51,248647.0,3.458499
817,2020-03-12 00:00:00.000,66,7869,53,20200312,00:00,2021-10-07 10:30:51.51,234998.0,3.621744
818,2020-03-11 00:00:00.000,60,7755,52,20200311,00:00,2021-10-07 10:30:51.51,222395.0,3.804175


> apply()
- 데이터프레임에서 각 항목들의 데이터를 변환 시켜주는 함수
- 표의 형태의 각 셀의 값 -> apply(연산) -> 연산 안에 각 셀의 값을 넣어서 변환
> lambda()
- 함수를 선언과 동시에 호출을 하는 함수
> map()
- 리스트, 튜플의 형태의 데이터의 각 항목들을 변환 시켜주는 함수

In [40]:
corona['accDefRate'].mean()

1.852288736497439

In [42]:
# apply를 사용하여 새로운 파생변수(H/L)에 accDefRate의 값이 1.55보다 크면 High
# 아니면 Low 의 값을 대입

# apply + 일반함수
def change(x):
    if x > 1.55:
        return 'High'
    else:
        return 'Low'

corona['accDefRate'].apply(change)


Low     420
High    400
Name: accDefRate, dtype: int64

In [44]:
# apply + lambda

# if문을 한줄로 사용 : 참인경우 값 if 조건식 else 거짓인경우 값

corona['accDefRate'].apply(lambda x : 'High' if x > 1.55 else 'Low').value_counts()

Low     420
High    400
Name: accDefRate, dtype: int64

# 데이터프레임의 결합
> concat()
- axis 속성 0, 1 행을 결합을 할지, 열을 결합을 할지 지정
- 단순하게 데이터프레임을 결합
> merge()
- 특정한 조건을 기준으로 하여 데이터프레임을 결합
- on 속성에서 합쳐질 데이터프레임의 조건을 넣어주는 부분(컬럼의 이름)
- 조건에 맞는 컬럼의 값을 넣어준다
- how 속성 
    - left : 왼쪽에 있는 데이터프레임을 기준으로 결합
    - right : 오른쪽에 있는 데이터프레임을 기준으로 결합
    - inner : 두 데이터프레임의 교집합
    - outer : 두 데이터프레임의 합집합

In [45]:
# csv폴더 안에 num_3 폴더에 있는 파일들을 로드하여 데이터프레임 결합
# 4개의 파일 모두 조인 결합

campaign = pd.read_csv("../csv/num_3/campaign_master.csv")
class_master = pd.read_csv("../csv/num_3/class_master.csv")
customer = pd.read_csv("../csv/num_3/customer_master.csv")
use = pd.read_csv("../csv/num_3/use_log.csv")

In [46]:
campaign.head(1)

Unnamed: 0,campaign_id,campaign_name
0,CA1,2_일반


In [47]:
class_master.head(1)

Unnamed: 0,class,class_name,price
0,C01,0_종일,10500


In [48]:
customer.head(1)

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted
0,OA832399,XXXX,C01,F,2015-05-01 00:00:00,,CA1,0


In [49]:
use.head(1)

Unnamed: 0,log_id,customer_id,usedate
0,L00000049012330,AS009373,2018-04-01


In [56]:
data = pd.merge(customer, campaign, on='campaign_id', how='inner')
data

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,campaign_name
0,OA832399,XXXX,C01,F,2015-05-01 00:00:00,,CA1,0,2_일반
1,PL270116,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0,2_일반
2,OA974876,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0,2_일반
3,HD024127,XXXXX,C01,F,2015-05-01 00:00:00,,CA1,0,2_일반
4,HD661448,XXXXX,C03,F,2015-05-01 00:00:00,,CA1,0,2_일반
...,...,...,...,...,...,...,...,...,...
4187,PL405819,XXXX,C01,M,2018-12-15 00:00:00,,CA3,0,1_입회비무료
4188,HI958991,XXXXX,C01,F,2018-12-15 00:00:00,,CA3,0,1_입회비무료
4189,IK039344,XXX,C03,M,2018-12-15 00:00:00,,CA3,0,1_입회비무료
4190,TS950243,XXXX,C01,M,2018-12-15 00:00:00,,CA3,0,1_입회비무료


In [57]:
data = pd.merge(data, class_master, on='class', how='inner')
data

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,campaign_name,class_name,price
0,OA832399,XXXX,C01,F,2015-05-01 00:00:00,,CA1,0,2_일반,0_종일,10500
1,PL270116,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0,2_일반,0_종일,10500
2,OA974876,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0,2_일반,0_종일,10500
3,HD024127,XXXXX,C01,F,2015-05-01 00:00:00,,CA1,0,2_일반,0_종일,10500
4,IK271057,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0,2_일반,0_종일,10500
...,...,...,...,...,...,...,...,...,...,...,...
4187,IK562610,XXXXX,C02,F,2018-12-13 00:00:00,2019-02-28 00:00:00,CA3,1,1_입회비무료,1_주간,7500
4188,HI599354,XXXX,C02,M,2018-12-13 00:00:00,,CA3,0,1_입회비무료,1_주간,7500
4189,GD796859,XX,C02,F,2018-12-14 00:00:00,,CA3,0,1_입회비무료,1_주간,7500
4190,GD082270,XXXX,C02,F,2018-12-14 00:00:00,2019-02-28 00:00:00,CA3,1,1_입회비무료,1_주간,7500


In [59]:
data = pd.merge(data, use, on='customer_id', how='inner')

# 시계열 데이터
> to_datetime(데이터, format=)
- 해당하는 데이터를 시계열 데이터로 변환
- format의 속성은 변경 시키려는 데이터의 구성을 대입
- ex) 202001 -> format = '%Y%m'

In [60]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 197428 entries, 0 to 197427
Data columns (total 13 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   customer_id    197428 non-null  object
 1   name           197428 non-null  object
 2   class          197428 non-null  object
 3   gender         197428 non-null  object
 4   start_date     197428 non-null  object
 5   end_date       29474 non-null   object
 6   campaign_id    197428 non-null  object
 7   is_deleted     197428 non-null  int64 
 8   campaign_name  197428 non-null  object
 9   class_name     197428 non-null  object
 10  price          197428 non-null  int64 
 11  log_id         197428 non-null  object
 12  usedate        197428 non-null  object
dtypes: int64(2), object(11)
memory usage: 21.1+ MB


In [None]:
# start_date 컬럼의 데이터의 타입을 시계열 변경
# 2019년1월1일 이후 데이터만 출력