In [1]:
import pandas as pd
uriage_data = pd.read_csv("uriage.csv")
uriage_data.head()

# 매출이력(uriage.csv)을 출력한것
# 하지만 오류가 보인다
# 데이터에 나타나는 입력 오류나 표기방법 차이가 부정합을 일으킬때
# 데이터의 정합성에 문제가 있다 라고 한다

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
1,2019-07-13 13:05,상 품 S,,김우찬
2,2019-05-11 19:42,상 품 a,,김유찬
3,2019-02-12 23:40,상품Z,2600.0,김재현
4,2019-04-22 3:09,상품a,,김강현


In [2]:
kokyaku_data = pd.read_excel("kokyaku_daicho.xlsx")
kokyaku_data.head()

# 고객정보(kokyaku_daicho.xlsx)을 출력한것
# 데이터의 속성이나 의미를 이해하고
# 데이터의 오류를 파악하는 것부터 시작해볼것

Unnamed: 0,고객이름,지역,등록일
0,김 현성,H시,2018-01-04 00:00:00
1,김 도윤,E시,42782
2,김 지한,A시,2018-01-07 00:00:00
3,김 하윤,F시,42872
4,김 시온,E시,43127


### 012_데이터의 오류를 살펴보자

In [3]:
# 매출 이력에서 item_name을 추출해서 데이터의 오류를 확인해보자

uriage_data["item_name"].head()

# item_name 을 간단히 표시하고있지만
# 데이터를 보면 상품 A, a 등 하나의 데이터를 대소문자와 공백으로 인해
# 상품A 에 관한 정확한 집계가 되지않고있다

0      상품A
1    상 품 S
2    상 품 a
3      상품Z
4      상품a
Name: item_name, dtype: object

In [4]:
# item_price 도 확인해보자

uriage_data["item_price"].head()

# 결측치 NaN을 확인할수가 있다.
# 집계 대상 데이터에 오류나 결측치가 있으면 정확한 집계를 할수가 없다
# 우선 시험 삼아 이대로 집계를 진행해볼것이다

0     100.0
1       NaN
2       NaN
3    2600.0
4       NaN
Name: item_price, dtype: float64

### 013_데이터에 오류가 있는 상태로 집계해 보자

In [5]:
# 매출 이력에서 상품별로 월 매출 합계를 집계해보자

uriage_data["purchase_date"] = pd.to_datetime(uriage_data["purchase_date"])
uriage_data["purchase_month"] = uriage_data["purchase_date"].dt.strftime("%Y%m")
res = uriage_data.pivot_table(index="purchase_month", columns="item_name", aggfunc="size", fill_value=0)
res

# to_datetime 은 시간 데이터를 다루는 코드이다

item_name,상 품 n,상품 E,상품 M,상품 P,상품 S,상품 W,상품 X,상품W,상 품O,상 품Q,...,상품k,상품l,상품o,상품p,상품r,상품s,상품t,상품v,상품x,상품y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,1,0,0,0,0,0,0,0,0,0,...,1,1,1,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,1,1,0,0
201903,0,1,1,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,0,0,0,0,0,0,0,1,0,1,...,0,0,0,0,0,1,0,0,0,0
201905,0,0,0,0,1,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
201906,0,0,0,0,0,1,0,0,0,0,...,0,0,0,1,0,0,0,0,1,0
201907,0,0,0,0,0,0,0,0,1,0,...,0,0,1,0,2,0,0,0,0,0


In [6]:
# 가로축에 item_price 를 설정해서 집계해보자

res = uriage_data.pivot_table(index="purchase_month", columns="item_name", values="item_price", 
                             aggfunc="sum", fill_value=0)
res

# 이미 날짜 처리는 끝났기때문에 pivot_table로 집계처리만 하면된다
# 결과가 올바르지 않은 자료이다

# res 는 결과를 의미하는 코드라고 한다
# fill_value 는 재색인 과정중 발생하는 비어있는 데이터를 채우기 위한 값이다
# NA 값이 아니라 그대로 있는 값만 반환하고 싶다면
# fill_value 파라미터 값을 0 으로 주면된다.
# fill_value=0

item_name,상 품 n,상품 E,상품 M,상품 P,상품 S,상품 W,상품 X,상품W,상 품O,상 품Q,...,상품k,상품l,상품o,상품p,상품r,상품s,상품t,상품v,상품x,상품y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,1400,0,0,0,0,0,0,0,0,0,...,1100,1200,1500,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,2400,0,0,0,...,0,0,0,0,0,1900,2000,2200,0,0
201903,0,500,1300,1600,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,0,0,0,0,0,0,0,2300,0,1700,...,0,0,0,0,0,1900,0,0,0,0
201905,0,0,0,0,1900,0,0,0,0,0,...,0,1200,0,0,0,0,0,0,0,2500
201906,0,0,0,0,0,2300,0,0,0,0,...,0,0,0,1600,0,0,0,0,2400,0
201907,0,0,0,0,0,0,0,0,0,0,...,0,0,1500,0,1800,0,0,0,0,0


### 014_상품명 오류를 수정하자

In [7]:
# 공백 오류를 수정해보자 (비교적 간단한 오류)
# 결과가 올바른 결과인지 아닌지를 판정하기위해
# 현재 상태를 파악하는것은 매우 중요하다

print(len(pd.unique(uriage_data.item_name)))

# 매출이력의 item_name의 중복을 제외한 데이터 건수를
# pd.unique로 확인할수 있다.

# unique() 는 데이터에 고유값들이 어떠한 종류들이 있는지
# 알고싶을때 사용하는 함수이다

99


In [8]:
# 데이터 오류 수정하기

uriage_data["item_name"] = uriage_data["item_name"].str.upper()
uriage_data["item_name"] = uriage_data["item_name"].str.replace(" ", "")
uriage_data["item_name"] = uriage_data["item_name"].str.replace(" ", "")
uriage_data.sort_values(by=["item_name"], ascending=True)

# 1행에서 상품명에 있는 소문자를 str.upper()을 이용해 대문자로 변환한다.
# 2,3행의 str.replace()로 공백을 제거한다.
# 4행에서 데이터를 item_name 순으로 정렬해 화면에 표시한다.

# 데이터를 보면 바르게 수정된것처럼 보이지만
# 반드시 결과를 검증하는것을 잊지말자

# replace 는 문자열을 변경하는 함수이다
# 문자열안에서 특정문자를 새로운 문자로
# 변경하는 기능

# ascending 인수를 이용하여 오름차순과 내림차순을 설정할수있다
# 기본값은 True 로 오름차순이다
# 내림차순의 경우 False

Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month
0,2019-06-13 18:02:00,상품A,100.0,김가온,201906
1748,2019-05-19 20:22:00,상품A,100.0,김시훈,201905
223,2019-06-25 08:13:00,상품A,100.0,김유진,201906
1742,2019-06-13 16:03:00,상품A,100.0,김건희,201906
1738,2019-02-10 00:28:00,상품A,100.0,김하랑,201902
...,...,...,...,...,...
2880,2019-04-22 00:36:00,상품Y,,김동욱,201904
2881,2019-04-30 14:21:00,상품Y,,김하준,201904
1525,2019-01-24 10:27:00,상품Y,2500.0,김범준,201901
1361,2019-05-28 13:45:00,상품Y,2500.0,김수현,201905


In [9]:
# 결과 검증하기

print(len(pd.unique(uriage_data["item_name"])))
print(pd.unique(uriage_data["item_name"]))

# unique() 로 상품평과 그 개수를 가져온다.
# A ~ Z 까지 26 건의 상품으로 통일되어
# 데이터 오류가 없어진것을 확인할수있다.

26
['상품A' '상품S' '상품Z' '상품V' '상품O' '상품U' '상품L' '상품C' '상품I' '상품R' '상품X' '상품G'
 '상품P' '상품Q' '상품Y' '상품N' '상품W' '상품E' '상품K' '상품B' '상품F' '상품D' '상품M' '상품H'
 '상품T' '상품J']


### 015_금액의 결측치를 수정하자

In [10]:
# 데이터에 결측치가 있는지 확인해보자

uriage_data.isnull().any(axis=0)

# isnull() 을 이용해 매출 이력 데이터의 결측치 유무를 확인가능하다
# 결과를 보면 item_price True 라서 금액에 결측치가 있는것으로 확인된다.
# 이제 결손치를 수정해보자

purchase_date     False
item_name         False
item_price         True
customer_name     False
purchase_month    False
dtype: bool

In [11]:
flg_is_null = uriage_data["item_price"].isnull()
for trg in list(uriage_data.loc[flg_is_null, "item_name"].unique()):
    price = uriage_data.loc[(~flg_is_null) & (uriage_data["item_name"] == trg), "item_price"].max()
    uriage_data["item_price"].loc[(flg_is_null) & (uriage_data["item_name"]==trg)] = price
uriage_data.head()



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  uriage_data["item_price"].loc[(flg_is_null) & (uriage_data["item_name"]==trg)] = price


Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month
0,2019-06-13 18:02:00,상품A,100.0,김가온,201906
1,2019-07-13 13:05:00,상품S,1900.0,김우찬,201907
2,2019-05-11 19:42:00,상품A,100.0,김유찬,201905
3,2019-02-12 23:40:00,상품Z,2600.0,김재현,201902
4,2019-04-22 03:09:00,상품A,100.0,김강현,201904


In [12]:
uriage_data.isnull().any(axis=0)

# axis=0 은 행 방향으로 동작한다.
# 작업 결과가 행으로 나타난다
# 책을 위로 쌓아 정리하는것과 같다

# axis=1 은 열 방향으로 동작한다.
# 작접 결과가 열로 나타난다
# 책을 옆으로 정리하는것과 같다

purchase_date     False
item_name         False
item_price        False
customer_name     False
purchase_month    False
dtype: bool

In [13]:
# 앞에서와 동일하게 uriage_data.insnull().any(axis=0) 을
# 실행해서 결과를 확인해보자

for trg in list(uriage_data["item_name"].sort_values().unique()):
        print(trg + "의 최고가:" + str(uriage_data.loc[uriage_data["item_name"]==trg]
                ["item_price"].max()) + "의 최저가:" + str(uriage_data.loc[uriage_data
                ["item_name"]==trg]["item_price"].min(skipna=False)))
        
# 앞에서와는 달리 item_price False로, item_price 의 결측치가
# 없어진것을 확인할수 있다.

# 1행에서 모든 상품에 대해서 반복문 처리를 합니다
# 반복문에서는 상품에 설정된 최대금액과  최소금액을
# 출력해서 보여준다.

# min(skipna=False)에서 skipna는 NaN의 무시 여부를 설정해주는것.
# 이번에는 False로 지정했기 때문에
# NaN이 존재할경우 최솟값이 NaN으로 표시된다.

# 응용 방법으로 결측치 수정 처리를 하기전에 이처리를 먼저해보면
# 최솟값이 NaN으로 표시되는것을 확인할수 있다.

상품A의 최고가:100.0의 최저가:100.0
상품B의 최고가:200.0의 최저가:200.0
상품C의 최고가:300.0의 최저가:300.0
상품D의 최고가:400.0의 최저가:400.0
상품E의 최고가:500.0의 최저가:500.0
상품F의 최고가:600.0의 최저가:600.0
상품G의 최고가:700.0의 최저가:700.0
상품H의 최고가:800.0의 최저가:800.0
상품I의 최고가:900.0의 최저가:900.0
상품J의 최고가:1000.0의 최저가:1000.0
상품K의 최고가:1100.0의 최저가:1100.0
상품L의 최고가:1200.0의 최저가:1200.0
상품M의 최고가:1300.0의 최저가:1300.0
상품N의 최고가:1400.0의 최저가:1400.0
상품O의 최고가:1500.0의 최저가:1500.0
상품P의 최고가:1600.0의 최저가:1600.0
상품Q의 최고가:1700.0의 최저가:1700.0
상품R의 최고가:1800.0의 최저가:1800.0
상품S의 최고가:1900.0의 최저가:1900.0
상품T의 최고가:2000.0의 최저가:2000.0
상품U의 최고가:2100.0의 최저가:2100.0
상품V의 최고가:2200.0의 최저가:2200.0
상품W의 최고가:2300.0의 최저가:2300.0
상품X의 최고가:2400.0의 최저가:2400.0
상품Y의 최고가:2500.0의 최저가:2500.0
상품Z의 최고가:2600.0의 최저가:2600.0


### 016_고객 이름의 오류를 수정하자

In [14]:
# 고객 정보에서 고객 이름의 오류를 수정해보자
# 데이터를 먼저 확인 해본다.

kokyaku_data["고객이름"].head()

# 고객 정보의 고객 이름이다

0    김 현성
1    김 도윤
2    김 지한
3    김 하윤
4    김 시온
Name: 고객이름, dtype: object

In [15]:
uriage_data["customer_name"].head()

# 매출 이력의 고객 이름이다

# 두 데이터를 비교해보면 고객이름 이외에는 두개의 데이터를
# 연결할 키가 존재하지 않기 때문에 고객이름을
# 반드시 수정해야 한다.

0    김가온
1    김우찬
2    김유찬
3    김재현
4    김강현
Name: customer_name, dtype: object

In [16]:
# 고객 정보의 고객이름에서 공백을 제거해보자
# 처리 방법은 상품명을 수정한 방법과 거의 동일하다

kokyaku_data["고객이름"] = kokyaku_data["고객이름"].str.replace("  ","")
kokyaku_data["고객이름"] = kokyaku_data["고객이름"].str.replace(" ","")
kokyaku_data["고객이름"].head()

# str.replace() 로 공백을 제거한다

# replace 는 문자열을 변경하는 함수이다.
# 문자열 안에서 특정 문자를 새로운 문자로 변경하는 기능이다.


0    김현성
1    김도윤
2    김지한
3    김하윤
4    김시온
Name: 고객이름, dtype: object

### 017_날짜 오류를 수정하자

In [17]:
# 날짜를 동일한 데이터로 통일 해보자

flg_is_serial = kokyaku_data["등록일"].astype("str").str.isdigit()
flg_is_serial.sum()

# 1행의 flg_is_serial = kokyaku_data["등록일"].astype("str").str.isdigit() 에서
# 고객 정보의 등록이링 숫자인지 아닌지를
# str.isdigit() 로 판정하는것
# 판정 결과를 숫자로 된 장소를 flg_is_serial 에 저장하는것이다
# 2행은 나중에 검증을 하기위해서 개수를 표시하는것
# 22건의 숫자 데이터가 있음을 알수가있다

# str.isdigit() 은 문자열이 숫자로만 이루어져있는지 확인하는 함수이다
# 문자가 단 하나라도 있다면 False를 반환하고
# 모든 문자가 숫자로만 이루어져있다면 True 를 반환한다

# 두가지 사용방법이 있다
# str.isdigit("판단하고자 하는 문자열")
# "판단하고자 하는 문자열".isdigit()

22

In [18]:
# 숫자로 등록된 부분을 수정해보자

fromSerial = pd.to_timedelta(kokyaku_data.loc[flg_is_serial, "등록일"].astype("float"), unit="D") + pd.to_datetime("1900/01/01")
fromSerial

# pd.to_timeedelta() 함수를 이용해서 숫자를 날짜로 변환하는것이다
# loc() 를 이용해서 flg_is_serial 조건으로 데이터를 추출하고 날짜로 변경한다.
# 숫자가 날짜형으로 변환된것을 확인할수가 있다

# timedelta 는 datetime 의 내장 모듈로 기간을 표현하기위해 사용된다

1     2017-02-18
3     2017-05-19
4     2018-01-29
21    2017-07-06
27    2017-06-17
47    2017-01-08
49    2017-07-15
53    2017-04-10
76    2018-03-31
80    2018-01-12
99    2017-06-01
114   2018-06-05
118   2018-01-31
122   2018-04-18
139   2017-05-27
143   2017-03-26
155   2017-01-21
172   2018-03-24
179   2017-01-10
183   2017-07-26
186   2018-07-15
192   2018-06-10
Name: 등록일, dtype: datetime64[ns]

In [19]:
# 날짜로 변환된 데이터도 서식을 통일해보자

fromString = pd.to_datetime(kokyaku_data.loc[~flg_is_serial, "등록일"])
fromString

# 날짜 변환 결과

# 2018/01/04 와 같이 슬래시로 구분된 서식을
# 하이픈으로 구분된 서식으로 통일하기 위한 처리를 했다

0     2018-01-04
2     2018-01-07
5     2017-06-20
6     2018-06-11
7     2017-05-19
         ...    
195   2017-06-20
196   2018-06-20
197   2017-04-29
198   2019-04-19
199   2019-04-23
Name: 등록일, Length: 178, dtype: datetime64[ns]

In [20]:
# 숫자를 날짜로 수정한 데이터와
# 서식을 변경한 데이터를 결합해서 데이터를 갱신해보자

kokyaku_data["등록일"] = pd.concat([fromSerial, fromString])
kokyaku_data

# 숫자를 날짜로 수정한 데이터 fromSerial 과
# 서식을 변경한 데이터 fromString 을 concat 으로 결합하고
# 원래 '등록일'에 대입해 갱신한것이다
# 등록일이 깨끗하게 수정된것을 알수 있다.

# concat 은 연결의 뜻을 가지고있다
# 데이터프레임을 말그대로 물리적으로 이어 붙여주는 함수이다

Unnamed: 0,고객이름,지역,등록일
0,김현성,H시,2018-01-04
1,김도윤,E시,2017-02-18
2,김지한,A시,2018-01-07
3,김하윤,F시,2017-05-19
4,김시온,E시,2018-01-29
...,...,...,...
195,김재희,G시,2017-06-20
196,김도영,E시,2018-06-20
197,김이안,F시,2017-04-29
198,김시현,H시,2019-04-19


In [21]:
# 등록일로부터 등록월을 추출해서 집계해보자

kokyaku_data["등록연월"] = kokyaku_data["등록일"].dt.strftime("%Y%m")
rslt = kokyaku_data.groupby("등록연월").count()["고객이름"]
print(rslt)
print(len(kokyaku_data))

# 수정한 날짜에서 '등록 연월'을 작성하고 groupby() 로 집계한다
# groupby 를 한후, count() 로 데이터의 개수를 집계하고
# 집계 결과를 화면에 출력한다
# 그리고 검증을 위해 len(kokyaku_data) 로 고객 대장의 총데이터 수를 표시한다


등록연월
201701    15
201702    11
201703    14
201704    15
201705    13
201706    14
201707    17
201801    13
201802    15
201803    17
201804     5
201805    19
201806    13
201807    17
201904     2
Name: 고객이름, dtype: int64
200


In [22]:
# 등록일 칼럼에 숫자 데이터가 남아있는지를 확인해보자

flg_is_serial = kokyaku_data["등록일"].astype("str").str.isdigit()
flg_is_serial.sum()

# sum() 은 합을 구해주는 함수

# isdigit() 는 문자열이 숫자로만 이루어져있는지 확인하는 함수이다

# 문자열이란 문자, 단어등으로 구성된 문자들의 집합을 의미
# 따옴표로 둘러싸여있으먄 모두 문자열이다

# 처음에 22개였던 결과가 0개가 되어
# 모든 숫자데이터가 날짜로 수정된것으로
# 확인할수있다

0

### 018_고객 이름을 키로 두 개의 데이터를 결합(조인)하자

In [24]:
join_data = pd.merge(uriage_data, kokyaku_data, left_on="customer_name", right_on="고객이름", 
                    how="left")
join_data = join_data.drop("customer_name", axis=1)
join_data

# left_on, right_on 으로 결합할 데이터를 지정한다
# left_on 의 인수로는 uriage_data 의 customer_name 칼럼을 키로 지정
# right_on 의 인수로는 kokyaku_data 의 고객 이름 칼럼을 키로 지정
# how 는 결합방법의 뜻으로 left 로 지정
# 이것은 uriage_data 를 기준으로 kokyaku_data 를 결합한다는 말이다

Unnamed: 0,purchase_date,item_name,item_price,purchase_month,고객이름,지역,등록일,등록연월
0,2019-06-13 18:02:00,상품A,100.0,201906,김가온,C시,2017-01-26,201701
1,2019-07-13 13:05:00,상품S,1900.0,201907,김우찬,C시,2018-04-07,201804
2,2019-05-11 19:42:00,상품A,100.0,201905,김유찬,A시,2018-06-19,201806
3,2019-02-12 23:40:00,상품Z,2600.0,201902,김재현,D시,2018-07-22,201807
4,2019-04-22 03:09:00,상품A,100.0,201904,김강현,D시,2017-06-07,201706
...,...,...,...,...,...,...,...,...
2994,2019-02-15 02:56:00,상품Y,2500.0,201902,김정민,B시,2017-07-01,201707
2995,2019-06-22 04:03:00,상품M,1300.0,201906,김재원,E시,2018-03-31,201803
2996,2019-03-29 11:14:00,상품Q,1700.0,201903,김지율,B시,2017-03-15,201703
2997,2019-07-14 12:56:00,상품H,800.0,201907,김승주,E시,2018-07-15,201807


### 019_정제한 데이터를 출력(덤프)하자

In [25]:
dump_data = join_data[["purchase_date", "purchase_month", "item_name", "item_price", 
                      "고객이름", "지역", "등록일"]]
dump_data

# join_data 에서 필요한 칼럼을 임의의 순서로 정렬한다.

Unnamed: 0,purchase_date,purchase_month,item_name,item_price,고객이름,지역,등록일
0,2019-06-13 18:02:00,201906,상품A,100.0,김가온,C시,2017-01-26
1,2019-07-13 13:05:00,201907,상품S,1900.0,김우찬,C시,2018-04-07
2,2019-05-11 19:42:00,201905,상품A,100.0,김유찬,A시,2018-06-19
3,2019-02-12 23:40:00,201902,상품Z,2600.0,김재현,D시,2018-07-22
4,2019-04-22 03:09:00,201904,상품A,100.0,김강현,D시,2017-06-07
...,...,...,...,...,...,...,...
2994,2019-02-15 02:56:00,201902,상품Y,2500.0,김정민,B시,2017-07-01
2995,2019-06-22 04:03:00,201906,상품M,1300.0,김재원,E시,2018-03-31
2996,2019-03-29 11:14:00,201903,상품Q,1700.0,김지율,B시,2017-03-15
2997,2019-07-14 12:56:00,201907,상품H,800.0,김승주,E시,2018-07-15


In [33]:
# 위 작업을 dunp_data 에 저장한다

dump_data.to_csv("dump_data.csv", index=False)

# index 는 위치값을 뜻한다
# 대다수의 프로그래밍 언어는 인덱스가 0부터 시작한다
# index=False 는 데이터를 저장할떄 index 를 제외하고 저장 하는것

### 020_데이터를 집계하자

In [27]:
# 덤프 파일을 읽어 들인다

import_data = pd.read_csv("dump_data.csv")
import_data

# read_csv 로 데이터를 불러온다

Unnamed: 0,purchase_date,purchase_month,item_name,item_price,고객이름,지역,등록일
0,2019-06-13 18:02:00,201906,상품A,100.0,김가온,C시,2017-01-26
1,2019-07-13 13:05:00,201907,상품S,1900.0,김우찬,C시,2018-04-07
2,2019-05-11 19:42:00,201905,상품A,100.0,김유찬,A시,2018-06-19
3,2019-02-12 23:40:00,201902,상품Z,2600.0,김재현,D시,2018-07-22
4,2019-04-22 03:09:00,201904,상품A,100.0,김강현,D시,2017-06-07
...,...,...,...,...,...,...,...
2994,2019-02-15 02:56:00,201902,상품Y,2500.0,김정민,B시,2017-07-01
2995,2019-06-22 04:03:00,201906,상품M,1300.0,김재원,E시,2018-03-31
2996,2019-03-29 11:14:00,201903,상품Q,1700.0,김지율,B시,2017-03-15
2997,2019-07-14 12:56:00,201907,상품H,800.0,김승주,E시,2018-07-15


In [28]:
# purchase_month 를 세로축으로 해서 상품별로 집계해보자

byItem = import_data.pivot_table(index="purchase_month", columns="item_name", 
                                 aggfunc="size", fill_value=0)
byItem

# 하단에 26 columns 라고 적혀있으므로 상품 A~Z 까지 26 개의 상품이 집계된것을 알수있다

item_name,상품A,상품B,상품C,상품D,상품E,상품F,상품G,상품H,상품I,상품J,...,상품Q,상품R,상품S,상품T,상품U,상품V,상품W,상품X,상품Y,상품Z
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,18,13,19,17,18,15,11,16,18,17,...,17,21,20,17,7,22,13,14,10,0
201902,19,14,26,21,16,14,14,17,12,14,...,22,22,22,23,19,22,24,16,11,1
201903,17,21,20,17,9,27,14,18,12,16,...,23,16,20,12,23,18,16,21,16,0
201904,17,19,24,20,18,17,14,11,18,13,...,20,20,16,16,11,15,14,16,20,0
201905,24,14,16,14,19,18,23,15,16,11,...,13,22,18,16,16,9,21,16,20,0
201906,24,12,11,19,13,18,15,13,19,22,...,15,16,21,12,18,20,17,15,13,0
201907,20,20,17,17,12,17,19,19,19,23,...,15,19,23,21,13,28,16,18,12,0


In [29]:
byPrice = import_data.pivot_table(index="purchase_month", columns="item_name", 
                                  values="item_price", aggfunc="sum", fill_value=0)
byPrice

# 구입 연월, 매출 금액 집계결과

item_name,상품A,상품B,상품C,상품D,상품E,상품F,상품G,상품H,상품I,상품J,...,상품Q,상품R,상품S,상품T,상품U,상품V,상품W,상품X,상품Y,상품Z
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,1800,2600,5700,6800,9000,9000,7700,12800,16200,17000,...,28900,37800,38000,34000,14700,48400,29900,33600,25000,0
201902,1900,2800,7800,8400,8000,8400,9800,13600,10800,14000,...,37400,39600,41800,46000,39900,48400,55200,38400,27500,2600
201903,1700,4200,6000,6800,4500,16200,9800,14400,10800,16000,...,39100,28800,38000,24000,48300,39600,36800,50400,40000,0
201904,1700,3800,7200,8000,9000,10200,9800,8800,16200,13000,...,34000,36000,30400,32000,23100,33000,32200,38400,50000,0
201905,2400,2800,4800,5600,9500,10800,16100,12000,14400,11000,...,22100,39600,34200,32000,33600,19800,48300,38400,50000,0
201906,2400,2400,3300,7600,6500,10800,10500,10400,17100,22000,...,25500,28800,39900,24000,37800,44000,39100,36000,32500,0
201907,2000,4000,5100,6800,6000,10200,13300,15200,17100,23000,...,25500,34200,43700,42000,27300,61600,36800,43200,30000,0


In [30]:
byCustomer = import_data.pivot_table(index="purchase_month", columns="고객이름", 
                                 aggfunc="size", fill_value=0)
byCustomer

# 구입 연월, 고객 이름별 구입 수 집계결과

고객이름,김가온,김강민,김강현,김건우,김건희,김경민,김규민,김규현,김다온,김대현,...,김현수,김현승,김현우,김현준,김현진,김호준,정도형,정영훈,정우석,정준기
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,1,2,1,2,5,3,1,1,1,5,...,3,2,4,2,1,1,4,4,4,3
201902,3,1,4,3,3,5,2,3,1,5,...,5,3,7,0,0,1,2,0,2,2
201903,4,0,3,1,1,2,2,1,1,5,...,3,2,1,2,1,2,1,2,3,4
201904,1,0,3,0,2,1,2,6,2,4,...,0,4,3,1,1,2,2,4,3,1
201905,0,0,2,2,1,4,6,3,3,1,...,2,2,1,4,3,0,0,0,1,2
201906,5,0,3,0,2,1,6,1,1,1,...,2,4,1,0,4,2,2,0,0,2
201907,3,1,3,2,2,1,4,1,4,3,...,2,1,0,4,0,2,6,1,2,3


In [31]:
byRegion = import_data.pivot_table(index="purchase_month", columns="지역", 
                                 aggfunc="size", fill_value=0)
byRegion

# 구입 연월, 지역별 판매수 집계결과

# pivot_table() 함수의 기본 구성요소는 다음과 같다
# 행 인덱스
# 열 인덱스
# 데이터 값
# 데이터 집계함수

지역,A시,B시,C시,D시,E시,F시,G시,H시
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
201901,59,55,72,34,49,57,49,42
201902,71,46,65,48,61,52,43,63
201903,64,52,57,43,52,59,51,59
201904,64,48,54,45,48,58,40,52
201905,57,52,68,48,59,65,35,43
201906,53,47,61,30,51,51,58,58
201907,76,53,61,42,54,64,47,54


In [32]:
# 집계 기간에 구매 이력이 없는 사용자

away_data = pd.merge(uriage_data, kokyaku_data, left_on="customer_name", right_on="고객이름", 
                     how="right")
away_data[away_data["purchase_date"].isnull()][["고객이름", "등록일"]]

Unnamed: 0,고객이름,등록일
2999,김서우,2019-04-23
