In [None]:
import pandas as pd

1. csv 폴더에서 uriage.csv 로드
2. purchase_date 컬럼의 데이터를 시계열데이터로 변경
3. item_name의 데이터의 모든 문자열을 대문자로 변경
4. item_name의 데이터의 공백을 모두 삭제
5. item_name을 기준으로 오름차순 정렬
6. 인덱스를 초기화
7. 결측치를 채우는 작업
    - item_price 컬럼에 결측치가 존재
    - 상품A인 경우 결측치는 상품A의 item_price 중 결측치가 아닌 값으로 치환
    - 위의 작업을 상품A부터 상품Z까지 반복 작업

In [None]:
uriage = pd.read_csv('../230331/230403/230404/csv/uriage.csv')
uriage.head()

In [None]:
uriage.info()

In [None]:
uriage.isna().sum()

In [None]:
# 시계열 데이터로 데이터의 형태를 변경
# pd.to_datetime(변경할 데이터, format = "")
t = 20230405
pd.to_datetime(t, format = "%Y%m%d")


In [None]:
# purchase_date 컬럽을 시계열로 변경
uriage['purchase_date'] = pd.to_datetime(uriage['purchase_date'], format = "%Y-%m-%d %H:%M")

In [None]:
uriage.info()

In [None]:
# 원본 데이터를 생성
origin_data = uriage.copy()

In [None]:
# item_name 컬럼의 데이터를 모두 대문자로 변경
# upper() : 문자열을 모두 대문자로 변경
# str.upper() 을 사용하여 문자열을 대문자로 변경
uriage['item_name'] = uriage['item_name'].str.upper()

In [None]:
# apply() 함수를 이용하여 글자를 모두 소문자로 변경
# apply() 는 스리즈데이터.apply(함수) => 스리즈의 데이터들을 하나씩 함수 안에 넣어서 결과값으로, 새로운 스리즈 형태의 데이터를 생성
def change(x):
    result = x.lower()
    return result

uriage['item_name'] = uriage["item_name"].apply(change)

In [None]:
# apply(lambda 함수) 

uriage['item_name'] = uriage['item_name'].apply(lambda x : x.upper()) 


In [None]:
def change(x):
    print(x)
    return x


uriage.apply(change)

In [None]:
# item_name의 공백을 제거
# 공백을 제거하는 함수 : strip() => 문자열의 좌우 공백 제거
# 현재 데이터에서는 가운데 공백의 존재로 인해 strip() 사용 불가
# 문자열 사이의 공백까지 제거하려면 사용할 함수의 이름?
# replace(기준 문자열, 대체할 문자열)
# replace(" ", "")
# seires니까 str

uriage["item_name"].str.replace(" ","")

In [None]:
def change(x) :
    result = x.replace(" ","")
    result = result.lower()
    return result

uriage['item_name'].apply(change)

In [None]:
uriage['item_name'] = uriage['item_name'].apply(lambda x : x.replace(" ","").upper())

In [None]:
uriage['item_name']

In [None]:
# item_name을 기준으로 오름차순 정렬

uriage.sort_values('item_name', inplace = True)

In [None]:
# 인덱스를 초기화 => 기존의 인덱스는 삭제
uriage.reset_index(drop = True, inplace = True)

In [None]:
uriage.isna().sum()

1. 상품A의 item_price의 값은 결측치 중 상품A이면 이 값을 치환 
2. 나머지 상품들도 같은 작업을 반복

In [None]:
# 상품A의 item_price를 출력
# 행의 조건? 결측치가 아니다, item_name이 상품A이다 
# 열의 조건? item_price

# 결측치가 아닌 조건
flg_null = uriage['item_price'].isna()
#uriage.isna().any(1)


In [None]:
# 결측치인 값들을 출력
uriage.loc[flg_null]

In [None]:
# item_name이 상품A인 경우만 출력
uriage.loc[uriage['item_name'] == '상품A']

In [None]:
# 상품A이면서 item_price가 결측치인 경우
uriage.loc[(flg_null) & (uriage['item_name'] == '상품A')]

In [None]:
price = uriage.loc[(~flg_null) & (uriage['item_name'] == '상품A'), 'item_price'].value_counts().index[0]

In [None]:
# 결측치에 값을 치환하는 함수
# fillna(n) : n의 값으로 결측치를 채운다.
uriage.loc[(flg_null) & (uriage['item_name'] == '상품A')].fillna(price)

In [None]:
uriage.loc[(flg_null) & (uriage['item_name'] == '상품A'), 'item_price'] = price

In [None]:
# item_name의 리스트 출력

name_list = uriage['item_name'].unique()

In [None]:
for i in name_list : 
    # item_price의 값을 구한다.
    # item_name이 i와 같고 결측치가 아닌 데이터에서 price를 출력
    price = uriage.loc[(~flg_null) & (uriage['item_name'] == i), 'item_price'].value_counts().index[0]
    
    # item_name이 i와 같고 결측치인 데이터에서 item_price에 price라는 변수를 삽입
    uriage.loc[(flg_null) & (uriage['item_name'] == i), 'item_price'] = price
    
    

In [None]:
uriage.isna().sum()