In [1]:
import pandas as pd
uriage_data = pd.read_csv("uriage.csv")
uriage_data.head()

# 매출이력(uriage.csv)을 출력한것
# 하지만 오류가 보인다
# 데이터에 나타나는 입력 오류나 표기방법 차이가 부정합을 일으킬때
# 데이터의 정합성에 문제가 있다 라고 한다

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
1,2019-07-13 13:05,상 품 S,,김우찬
2,2019-05-11 19:42,상 품 a,,김유찬
3,2019-02-12 23:40,상품Z,2600.0,김재현
4,2019-04-22 3:09,상품a,,김강현


In [2]:
kokyaku_data = pd.read_excel("kokyaku_daicho.xlsx")
kokyaku_data.head()

# 고객정보(kokyaku_daicho.xlsx)을 출력한것
# 데이터의 속성이나 의미를 이해하고
# 데이터의 오류를 파악하는 것부터 시작해볼것

Unnamed: 0,고객이름,지역,등록일
0,김 현성,H시,2018-01-04 00:00:00
1,김 도윤,E시,42782
2,김 지한,A시,2018-01-07 00:00:00
3,김 하윤,F시,42872
4,김 시온,E시,43127


### 012_데이터의 오류를 살펴보자

In [3]:
# 매출 이력에서 item_name을 추출해서 데이터의 오류를 확인해보자

uriage_data["item_name"].head()

# item_name 을 간단히 표시하고있지만
# 데이터를 보면 상품 A, a 등 하나의 데이터를 대소문자와 공백으로 인해
# 상품A 에 관한 정확한 집계가 되지않고있다

0      상품A
1    상 품 S
2    상 품 a
3      상품Z
4      상품a
Name: item_name, dtype: object

In [4]:
# item_price 도 확인해보자

uriage_data["item_price"].head()

# 결측치 NaN을 확인할수가 있다.
# 집계 대상 데이터에 오류나 결측치가 있으면 정확한 집계를 할수가 없다
# 우선 시험 삼아 이대로 집계를 진행해볼것이다

0     100.0
1       NaN
2       NaN
3    2600.0
4       NaN
Name: item_price, dtype: float64

### 013_데이터에 오류가 있는 상태로 집계해 보자

In [5]:
# 매출 이력에서 상품별로 월 매출 합계를 집계해보자

uriage_data["purchase_date"] = pd.to_datetime(uriage_data["purchase_date"])
uriage_data["purchase_month"] = uriage_data["purchase_date"].dt.strftime("%Y%m")
res = uriage_data.pivot_table(index="purchase_month", columns="item_name", aggfunc="size", fill_value=0)
res

# to_datetime 은 시간 데이터를 다루는 코드이다

item_name,상 품 n,상품 E,상품 M,상품 P,상품 S,상품 W,상품 X,상품W,상 품O,상 품Q,...,상품k,상품l,상품o,상품p,상품r,상품s,상품t,상품v,상품x,상품y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,1,0,0,0,0,0,0,0,0,0,...,1,1,1,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,1,1,0,0
201903,0,1,1,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,0,0,0,0,0,0,0,1,0,1,...,0,0,0,0,0,1,0,0,0,0
201905,0,0,0,0,1,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
201906,0,0,0,0,0,1,0,0,0,0,...,0,0,0,1,0,0,0,0,1,0
201907,0,0,0,0,0,0,0,0,1,0,...,0,0,1,0,2,0,0,0,0,0


In [6]:
# 가로축에 item_price 를 설정해서 집계해보자

res = uriage_data.pivot_table(index="purchase_month", columns="item_name", values="item_price", 
                             aggfunc="sum", fill_value=0)
res

# 이미 날짜 처리는 끝났기때문에 pivot_table로 집계처리만 하면된다
# 결과가 올바르지 않은 자료이다

# res 는 결과를 의미하는 코드라고 한다
# fill_value 는 재색인 과정중 발생하는 비어있는 데이터를 채우기 위한 값이다
# NA 값이 아니라 그대로 있는 값만 반환하고 싶다면
# fill_value 파라미터 값을 0 으로 주면된다.
# fill_value=0

item_name,상 품 n,상품 E,상품 M,상품 P,상품 S,상품 W,상품 X,상품W,상 품O,상 품Q,...,상품k,상품l,상품o,상품p,상품r,상품s,상품t,상품v,상품x,상품y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,1400,0,0,0,0,0,0,0,0,0,...,1100,1200,1500,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,2400,0,0,0,...,0,0,0,0,0,1900,2000,2200,0,0
201903,0,500,1300,1600,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,0,0,0,0,0,0,0,2300,0,1700,...,0,0,0,0,0,1900,0,0,0,0
201905,0,0,0,0,1900,0,0,0,0,0,...,0,1200,0,0,0,0,0,0,0,2500
201906,0,0,0,0,0,2300,0,0,0,0,...,0,0,0,1600,0,0,0,0,2400,0
201907,0,0,0,0,0,0,0,0,0,0,...,0,0,1500,0,1800,0,0,0,0,0


### 014_상품명 오류를 수정하자

In [8]:
# 공백 오류를 수정해보자 (비교적 간단한 오류)
# 결과가 올바른 결과인지 아닌지를 판정하기위해
# 현재 상태를 파악하는것은 매우 중요하다

print(len(pd.unique(uriage_data.item_name)))

# 매출이력의 item_name의 중복을 제외한 데이터 건수를
# pd.unique로 확인할수 있다.

# unique() 는 데이터에 고유값들이 어떠한 종류들이 있는지
# 알고싶을때 사용하는 함수이다

99


In [14]:
# 데이터 오류 수정하기

uriage_data["item_name"] = uriage_data["item_name"].str.upper()
uriage_data["item_name"] = uriage_data["item_name"].str.replace(" ", "")
uriage_data["item_name"] = uriage_data["item_name"].str.replace(" ", "")
uriage_data.sort_values(by=["item_name"], ascending=True)

# 1행에서 상품명에 있는 소문자를 str.upper()을 이용해 대문자로 변환한다.
# 2,3행의 str.replace()로 공백을 제거한다.
# 4행에서 데이터를 item_name 순으로 정렬해 화면에 표시한다.

# 데이터를 보면 바르게 수정된것처럼 보이지만
# 반드시 결과를 검증하는것을 잊지말자

# replace 는 문자열을 변경하는 함수이다
# 문자열안에서 특정문자를 새로운 문자로
# 변경하는 기능

# ascending 인수를 이용하여 오름차순과 내림차순을 설정할수있다
# 기본값은 True 로 오름차순이다
# 내림차순의 경우 False

Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month
0,2019-06-13 18:02:00,상품A,100.0,김가온,201906
1748,2019-05-19 20:22:00,상품A,100.0,김시훈,201905
223,2019-06-25 08:13:00,상품A,100.0,김유진,201906
1742,2019-06-13 16:03:00,상품A,100.0,김건희,201906
1738,2019-02-10 00:28:00,상품A,100.0,김하랑,201902
...,...,...,...,...,...
2880,2019-04-22 00:36:00,상품Y,,김동욱,201904
2881,2019-04-30 14:21:00,상품Y,,김하준,201904
1525,2019-01-24 10:27:00,상품Y,2500.0,김범준,201901
1361,2019-05-28 13:45:00,상품Y,2500.0,김수현,201905


In [13]:
# 결과 검증하기

print(len(pd.unique(uriage_data["item_name"])))
print(pd.unique(uriage_data["item_name"]))

# unique() 로 상품평과 그 개수를 가져온다.
# A ~ Z 까지 26 건의 상품으로 통일되어
# 데이터 오류가 없어진것을 확인할수있다.

26
['상품A' '상품S' '상품Z' '상품V' '상품O' '상품U' '상품L' '상품C' '상품I' '상품R' '상품X' '상품G'
 '상품P' '상품Q' '상품Y' '상품N' '상품W' '상품E' '상품K' '상품B' '상품F' '상품D' '상품M' '상품H'
 '상품T' '상품J']
