In [None]:
import pandas as pd

1. csv폴더에서 uriage.csv 로드 
2. purchase_date 컬럼의 데이터를 시계열데이터 변경
3. item_name의 데이터의 모든 문자열을 대문자로 변경
4. item_name의 데이터의 공백을 모두 삭제
5. item_name을 기준으로 오름차순 정렬
6. 인덱스를 초기화
7. 결측치를 채우는 작업
    - item_price 컬럼에 결측치가 존재
    - 상품A인 경우 결측치는 상품A의 item_price중 결측치가 아닌 값으로 치환
    - 위의 작업을 상품A부터 상품Z까지 반복 작업

In [None]:
uriage = pd.read_csv("../csv/uriage.csv")
uriage.head()

In [None]:
uriage.info()

In [None]:
uriage.isna().sum()

In [None]:
# 시계열 데이터로 데이터의 형태를 변경
# pd.to_datetime(변경할 데이터, format = "")
t = '04/05/05'
pd.to_datetime(t, format="%y/%m/%d")

In [None]:
# purchase_date 컬럼을 시계열로 변경
uriage['purchase_date']
uriage['purchase_date'] = pd.to_datetime(uriage['purchase_date'], 
                format = '%Y-%m-%d %H:%M')

In [None]:
uriage.info()

In [None]:
# 원본데이터를 생성
origin_data = uriage.copy()

In [None]:
origin_data

In [None]:
uriage.drop("item_name", axis=1, inplace=True)
uriage.head(1)

In [None]:
uriage = origin_data.copy()

In [None]:
uriage.info()

In [None]:
# item_name컬럼의 데이터를 모두 대문자로 변경
# upper() : 문자열을 모두 대문자 변환
# str.upper() 사용하여 문자열을 대문자로 변경하는 방식
uriage['item_name'] = uriage['item_name'].str.upper()

In [None]:
# apply() 함수를 이용하여 글자를 모두 소문자로 변경
# apply()는 스리즈형태데이터.apply(함수) --> 
# 스리즈의 데이터들을 하나씩 함수안에 넣어서 결과값으로 
# 새로운 스리즈형태의 데이터를 생성 

def change(x):
    result = x.lower()
    return result

uriage['item_name'] = uriage['item_name'].apply(change)

In [None]:
# apply(lambda함수)

uriage['item_name'] = uriage['item_name'].apply(lambda x : x.upper())

In [None]:
def change(x):
    print(x)
    return x

uriage.apply(change)

In [None]:
# item_name에 있는 공백을 제거 한다.
# 공백을 제거 하는 함수 : strip() -> 문자열의 좌우 공백을 제거 -> 
# 현재 데이터에서는 strip() 사용 불가
# 문자열 사이의 공백까지 제거하려면 사용할 함수의 이름?
# replace(기준문자열, 대체할문자열)
# replace(" ", "")
uriage["item_name"].str.replace(" ", "")

In [None]:
def change(x):
    result = x.replace(" ", "")
    result = result.lower()
    return result

uriage['item_name'].apply(change)

In [None]:
uriage['item_name'] = uriage['item_name'].apply(lambda x : x.replace(" ", "").upper())

In [None]:
uriage.head()

In [None]:
# item_name기준으로 오름차순 정렬
uriage.sort_values("item_name", inplace=True)

In [None]:
# 인덱스를 초기화 -> 기존의 인덱스는 삭제
uriage.reset_index(drop=True, inplace=True)

In [None]:
uriage['item_price'].isna().value_counts()

1. 상품A의 item_price의 값은 결측치 중 상품A이면 이 값을 치환
2. 나머지 상품들도 같은 작업을 반복 

In [None]:
# 상품A의 item_price을 출력
# 행의 조건? 결측치가 아니다, item_name이 상품A이다, 
# 열의 조건? item_price

# 결측치가 아닌 조건
flg_null = uriage['item_price'].isna()
# uriage.isna().any(1)


In [None]:
# 결측치인 값들을 출력
uriage.loc[flg_null]

In [None]:
# item_name이 상품A인 경우만 출력
uriage.loc[uriage['item_name'] == '상품A']

In [104]:
# 상품A이고 item_price가 결측치인 경우
uriage.loc[(flg_null) & (uriage['item_name'] == '상품A')]

Unnamed: 0,purchase_date,item_name,item_price,customer_name
18,2019-04-11 02:22:00,상품A,100.0,김선우
22,2019-07-07 21:49:00,상품A,100.0,김은우
32,2019-07-14 03:39:00,상품A,100.0,김시우
38,2019-05-25 12:51:00,상품A,100.0,김재민
44,2019-02-28 04:11:00,상품A,100.0,김서준
46,2019-02-13 07:28:00,상품A,100.0,김시환
48,2019-07-31 01:32:00,상품A,100.0,김윤찬
51,2019-04-06 11:06:00,상품A,100.0,김태인
58,2019-03-15 09:14:00,상품A,100.0,김강현
59,2019-06-24 05:06:00,상품A,100.0,김시호


In [100]:
# 상품A이고 item_price가 결측치가 아닌 경우
price = uriage.loc[(uriage['item_name'] == '상품A') &\
     ~(flg_null), 'item_price'].value_counts().index[0]

In [None]:
# 결측치에 값을 치환하는 함수
# fillna(n) : n의 값으로 결측치를 채운다.

uriage.loc[(flg_null) & (uriage['item_name'] == '상품A')].fillna(price)

In [103]:
uriage.loc[(flg_null) &\
     (uriage['item_name'] == '상품A'), 'item_price'] = price

In [106]:
# item_name의 리스트를 출력
name_list = uriage['item_name'].unique()

In [107]:
for i in name_list:
    # item_price의 값을 구한다. 
    # item_name이 i와 같고 결측치가 아닌 데이터에서 price를 출력
    price = uriage.loc[~(flg_null) & \
        (uriage['item_name'] == i), 'item_price']\
            .value_counts().index[0]

    # item_name이 i와 같고 결측치인 데이터에서 item_price에 
    # price라는 변수를 삽입
    uriage.loc[(flg_null) & \
        (uriage['item_name'] == i), 'item_price'] = price
    

In [108]:
uriage.isna().sum()

purchase_date    0
item_name        0
item_price       0
customer_name    0
dtype: int64