**목적**
- 대리점 매출 이력과 고객 정보 데이터는 직원이 수작업으로 입력하기 때문에 오류 다수 포함 가능성 높음       
-> 오류가 많이 포함되어 있는 지저분한 데이터 처리 경험 쌓기

**정보**
- 상품: A ~ Z까지 26개의 상품 취급
- 데이터 설명
    1. uriage.csv
        - 매출 이력 (201901~201907)
    2. kokyaku_daicho.xlsx
        - 대리점에서 관리하는 고객 정보

In [1]:
import pandas as pd

# Data Load

In [2]:
uriage_data = pd.read_csv('data_code/2장/uriage.csv')
uriage_data.head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
1,2019-07-13 13:05,상 품 S,,김우찬
2,2019-05-11 19:42,상 품 a,,김유찬
3,2019-02-12 23:40,상품Z,2600.0,김재현
4,2019-04-22 3:09,상품a,,김강현


- item_name: 공백 오류, 대소문자 형식 불일치
- item_price: 결측치

In [3]:
kokyaku_data = pd.read_excel('data_code/2장/kokyaku_daicho.xlsx')
kokyaku_data.head()

Unnamed: 0,고객이름,지역,등록일
0,김 현성,H시,2018-01-04 00:00:00
1,김 도윤,E시,42782
2,김 지한,A시,2018-01-07 00:00:00
3,김 하윤,F시,42872
4,김 시온,E시,43127


- 등록일: 형식 불일치

# 데이터 전처리
- 데이터 오류, 결측치 처리

## item_name
- 대문자로 통일, 공백 제거

In [12]:
uriage_data['item_name']

0       상품A
1       상품S
2       상품A
3       상품Z
4       상품A
       ... 
2994    상품Y
2995    상품M
2996    상품Q
2997    상품H
2998    상품D
Name: item_name, Length: 2999, dtype: object

In [8]:
len(uriage_data['item_name'].unique())

99

In [7]:
uriage_data['item_name'].unique()

array(['상품A', '상 품 S', '상 품 a', '상품Z', '상품a', '상품S', '상품 a', '상품V', '상품O',
       '상 품U', '상품L', '상  품V', '상 품O', '상품C', '상품I', '상품r', '상품X', '상품 g',
       '상품R', '상품P', '상품Q', '상품y', '상품 A', '상품N', '상품W', '상 품E', '상품K',
       '상품B', '상품F', '상 품s', ' 상품W', ' 상 품 n', '상 품F', '상품D', '상품M',
       '상품Y', '상품U', '상품H', '상품T', '상품J', '상  품O', '상품E', '상  품Q',
       ' 상품 S', ' 상품 M', '상  품T', '상품G', '상 품G', ' 상품 P', ' 상품 E', '상 품N',
       '상 품Y', '상품 J', '상품 V', '상품 K', '상 품V', '상 품D', '상 품A', '상품 F',
       '상품 H', '상 품K', '상 품T', '상품 X', '상품 Q', '상 품X', '상 품H', '상 품C',
       '상품 B', '상품 O', '상품 T', '상품v', '상품p', '상품i', '상품 w', '상 품 s',
       '상 품 q', '상품s', '상품l', '상품t', '상품k', '상품g', '상품o', '상품 R', '상품 S',
       '상 품M', '상품j', '상품d', '상품 I', '상품 E', '상품 o', '상품c', '상품 v', '상품e',
       '상품x', '상 품I', ' 상품 W', ' 상품 X', '상품 M', '상 품P'], dtype=object)

In [9]:
# 대문자 통일, 공백 제거
uriage_data['item_name'] = uriage_data['item_name'].str.upper()
uriage_data['item_name'] = uriage_data['item_name'].str.replace(' ', '')
uriage_data.sort_values(by='item_name', ascending=True)

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
1748,2019-05-19 20:22,상품A,100.0,김시훈
223,2019-06-25 8:13,상품A,100.0,김유진
1742,2019-06-13 16:03,상품A,100.0,김건희
1738,2019-02-10 0:28,상품A,100.0,김하랑
...,...,...,...,...
2880,2019-04-22 0:36,상품Y,,김동욱
2881,2019-04-30 14:21,상품Y,,김하준
1525,2019-01-24 10:27,상품Y,2500.0,김범준
1361,2019-05-28 13:45,상품Y,2500.0,김수현


In [10]:
len(uriage_data['item_name'].unique())

26

In [11]:
uriage_data['item_name'].unique()

array(['상품A', '상품S', '상품Z', '상품V', '상품O', '상품U', '상품L', '상품C', '상품I',
       '상품R', '상품X', '상품G', '상품P', '상품Q', '상품Y', '상품N', '상품W', '상품E',
       '상품K', '상품B', '상품F', '상품D', '상품M', '상품H', '상품T', '상품J'],
      dtype=object)

## item_price
- 결측치 처리
- 전제조건 중 집계 기간에 상품 단가 변동이 없었음 -> 같은 상품의 유효한 단가로 결측치 대체

In [13]:
uriage_data.isnull().sum()

purchase_date      0
item_name          0
item_price       387
customer_name      0
dtype: int64