In [20]:
# pandas 라이브러리 로드
import pandas as pd

In [21]:
# read_csv() 를 이용하여 csv 파일 로드
uriage = pd.read_csv("./csv/uriage.csv")
uriage.head()
df = uriage.copy()

### 비정형 데이터로 정형화 작업을 진행
- 문제점
    1. item_name의 데이터가 대소문자가 자기맘대로 
    2. item_name의 데이터가 문자열 중간에 공백 존재 
    3. item_price의 데이터에 결측치 존재
- 해결 방안
    1. 대소문자 하나로 통일 (upper() or lower())
    2. 문자열 사이의 공백 제거(replace())
    3. 결측치 특정데이터로 대체
        - item_name에 맞는 item_price의 값을 대체

In [22]:
# item_name을 모두 대문자로 변경 (upper())
# upper() : 문자열을 모두 대문자로 변경하는 문자열 내부 함수

# case1 (apply + 일반함수)

# 함수 선언
def change(x):
    # x는 문자열
    result = x.upper()
    return result

# apply({함수명}) : 스리즈 형태의 데이터를 하나씩 함수에 대입하여 새로운 스리즈를 출력
df['item_name'].apply(change)


0         상품A
1       상 품 S
2       상 품 A
3         상품Z
4         상품A
        ...  
2994      상품Y
2995      상품M
2996      상품Q
2997      상품H
2998      상품D
Name: item_name, Length: 2999, dtype: object

In [None]:
# case2 (apply + lambda 함수)
df['item_name'].apply(
    lambda x : x.upper()
)

In [24]:
# case 3 ( 스리즈 데이터에서 문자열 내부 함수 사용 )
df['item_name'] = df['item_name'].str.upper()

In [25]:
# item_name 공백 제거
# 문자열 내부함수인 replace()를 사용
    # replace({변경할 문자열}, {대체할 문자열})
    # replace(" ","")
# 스리즈 내부함수 replace()함수도 존재
    # replace({변경항 value}, {대체할 value})
 
# case1 (문자열 내부 함수)   
df['item_name'] = df['item_name'].str.replace(" ","")

# case2 (apply + lambda 함수)  
df['item_name'].apply(
    lambda x : x.replace(" ","")
)


0       상품A
1       상품S
2       상품A
3       상품Z
4       상품A
       ... 
2994    상품Y
2995    상품M
2996    상품Q
2997    상품H
2998    상품D
Name: item_name, Length: 2999, dtype: object

In [26]:
# 한번에 공백제거, 문자열 모두 대문자로 변경
df2 = df.copy()
# case1 (apply)
def change(x):
    # # 대문자로 변경
    # result = x.upper()
    # # 공백 제거
    # result = result.replace(" ","")
    result = x.upper().replace(" ","")
    return result

df2['item_name'].apply(change)    

0       상품A
1       상품S
2       상품A
3       상품Z
4       상품A
       ... 
2994    상품Y
2995    상품M
2996    상품Q
2997    상품H
2998    상품D
Name: item_name, Length: 2999, dtype: object

In [None]:
# case2 (apply + lambda 함수)
df2['item_name'].apply(
    lambda x : x.upper().replace(" ","")
)

In [None]:
# case3 ( 스리즈에서 문자열 내부함수 )
df2['item_name'].str.upper().str.replace(" ","")

In [36]:
# 결측치를 특정 데이터로 대체
# item_name의 값에 따라 item_price의 대체한 데이터가 다른 경우

flag = df['item_name'] == '상품A'
df.loc[flag]

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
2,2019-05-11 19:42,상품A,,김유찬
4,2019-04-22 3:09,상품A,,김강현
6,2019-05-18 19:16,상품A,,김재준
9,2019-01-28 10:47,상품A,100.0,김태윤
...,...,...,...,...
2875,2019-06-03 17:33,상품A,100.0,김서진
2886,2019-04-25 17:15,상품A,100.0,김강현
2897,2019-05-20 14:05,상품A,100.0,김지안
2951,2019-05-06 2:24,상품A,100.0,김주혁


In [57]:
# item_name 이 상품A(조건1)이고 item_price의가 결측치(조건2)인 데이터 출력
# flag = (df['item_name'] == '상품A') & ~(df['item_price'].isna())    -> 조건앞에 비트연산자(~)를 조건앞에 추가시 반대의 의미로도 사용가능
flag = (df['item_name'] == '상품A') & (df['item_price'].isna())
df.loc[flag]

Unnamed: 0,purchase_date,item_name,item_price,customer_name


In [None]:
flag = df['item_name'] == '상품A'
flag_null = df['item_price'].isna()
df.loc[flag & flag_null]

In [48]:
# item_name이 '상품A'이고 item_price가 결측치가 아닌 데이터의 item_price 의 평균 값
a_mean = df.loc[flag & ~flag_null, 'item_price'].mean()

In [51]:
# item_name이 '상품A'이고 item_price가 결측치인 데이터를 출력해서 item_price에 a_mean을 대체
df.loc[flag & flag_null, 'item_price'] = df.loc[flag & flag_null, 'item_price'].fillna(a_mean)

In [53]:
df.head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
1,2019-07-13 13:05,상품S,,김우찬
2,2019-05-11 19:42,상품A,100.0,김유찬
3,2019-02-12 23:40,상품Z,2600.0,김재현
4,2019-04-22 3:09,상품A,100.0,김강현


In [None]:
# 상품A 결측치 값 채우는 과정 합치기
flag = df['item_name'] == '상품A'
flag_null = df['item_price'].isna()
a_mean = df.loc[flag & ~flag_null, 'item_price'].mean()
df.loc[flag & flag_null, 'item_price'] = a_mean

In [65]:
# item_name 의 데이터들 중 유니크한 배열
# set(df['item_name'].values)
df['item_name'].value_counts().index

# unique() 함수를 사용하여 중복데이터를 제거한 배열 생성
item_list = df['item_name'].unique()

In [67]:
# 반복문
# for 변수명 in 자료형데이터(튜플,리스트):
for i in item_list:
    flag = df['item_name'] == i
    flag_null = df['item_price'].isna()
    a_mean = df.loc[flag & ~flag_null, 'item_price'].mean()
    df.loc[flag & flag_null, 'item_price'] = a_mean

In [70]:
df.isna().sum()

purchase_date    0
item_name        0
item_price       0
customer_name    0
dtype: int64

In [73]:
df.loc[df['item_name']=='상품D']
df.loc[df['item_name']=='상품F', 'item_price'].mean()

600.0