In [None]:
# csv 폴더 안에 있는 uriage.csv 파일을 로드 
import pandas as pd

In [None]:
# 상대경로 
# 상위 디렉토리 이동(../) -> 하위 csv 디렉토리(csv/) -> uriage.csv

uriage = pd.read_csv("../csv/uriage.csv")

In [None]:
uriage.info()

In [None]:
uriage.head()

In [None]:
uriage.tail()

In [None]:
# 결측치의 개수를 확인 
uriage.isna().sum()

- 문제점 
    1. 결측치
        - item_price 컬럼에서 결측치 존재 
        - 결측치의 개수가 전체 데이터 개수와 비교해서 대략 10% 이상
        - 결측치를 특정 데이터로 치환 
    2. 데이터 정형화
        - item_name의 데이터에서 데이터의 규칙의 문제 
            - 대, 소문자 문제 
                - 모든 문자를 대문자, 소문자로 통일 
                - 문자열 함수 중 upper(), lower(), title()
            - 문자 사이에 공백 문제 
                - 문자 사이에 있는 공백을 제거 
                - 문자 시작과 끝에만 공백이 존재한다면 -> strip() 함수를 이용하여 제거가 가능
                - 문자열 사이에 공백를 제거하려면 -> replace() 함수를 이용하여 공백을 빈 문자로 치환하여 해결 

In [None]:
# 문자를 모두 대문자 변경 
# item_name의 데이터를 확인 
# Series안에 values의 개수를 파악한다. 
# value + 개수(count) -> value_counts()
uriage['item_name'].value_counts()

In [None]:
# 데이터에서 중복 값들은 제외 -> 유일한 리스트 데이터 생성 
# 유일(unique)
uriage['item_name'].unique()

In [None]:
# 문자를 대문자로 변경 -> upper() -> str class 안에 존재하는 함수 
# str.upper()
uriage.loc[2, 'item_name'].upper()

In [None]:
# Series에서는 upper() 함수가 사용이 가능한가?? -> 불가능 -> 해당 함수가 존재하지 않는다.
# uriage['item_name'].upper()

In [None]:
# 복사본 생성 
df = uriage.copy()

In [None]:
# case1
# 반복문을 이용하여 모든 문자를 대문자로 변경 
# 반복 횟수 : 2999번(데이터프레임의 길이)
for i in range(0, len(df)):
    df.loc[i, 'item_name'] = df.loc[ i, 'item_name' ].upper()

In [None]:
df['item_name']

In [None]:
df2 = uriage.copy()

In [None]:
# case2 
# Series.map() 함수를 이용하여 데이터 변환 
# map() -> 1차원 데이터에서 각각의 원소들을 함수에 대입하여 결과를 
# 받아와서 새로운 1차원 데이터 생성
# map에서 사용하는 함수 일반 def 키워드 함수, lambda 함수 가능 
# lambda 함수를 이용
df2['item_name'].map(
    # x의 타입은 str -> 문자열 내장함수인 upper() 사용 가능
    lambda x : x.upper()
)

In [None]:
# map + 일반함수 
def change(x):
    # x의 대입이 되는 데이터는 타입이 str인 데이터 
    # x에 문자열 내장함수 사용 가능
    x = x.upper()
    return x

df2['item_name'] = df2['item_name'].map(
    change
)

In [None]:
df3 = uriage.copy()

In [None]:
# case3
# Series 데이터에서 문자열 함수를 사용하기 위해 타입은 변경 
df3['item_name'] = df3['item_name'].str.upper()

In [None]:
# 문자열 대문자 변환 문제는 해결

In [None]:
# 문자열 사이에 있는 공백을 제거 문제 
# replace( ' ', '' )
df['item_name'].str.replace(' ', '')

In [None]:
_val = [True, False, True]

test = pd.Series(
    _val
)

In [None]:
test.astype(str).str.upper().astype(bool)

In [None]:
# uriage 데이터에서 item_name의 문자들을 일괄적으로 변환 
uriage['item_name'].str.upper().str.replace(' ', '')

In [None]:
uriage['item_name'] = uriage['item_name'].str.upper()
uriage['item_name'] = uriage['item_name'].str.replace(' ', '')

In [None]:
type(
    uriage['item_name'].str.upper().str.replace(' ', '')
    )

In [None]:
uriage['item_name'].value_counts()

In [None]:
uriage['item_name'].unique()

- item_price 데이터에 결측치 채우기 
    - 상품별 결측치를 제외한 item_price의 평균을 구한다.
    - 해당 상품의 item_price가 결측치인 데이터에 평균값을 대입 

In [None]:
# 상품A의 item_price가 결측치가 아닌 데이터를 확인 
# 조건식 -> item_name이 상품A인( uriage['item_name'] == '상품A' )
#          item_price가 결측치 인 조건 ( uriage['item_price'].isna() )
flag = uriage['item_name'] == '상품A'
flag_null = uriage['item_price'].isna()

In [None]:
# item_name이 상품A(flag) 이고(그리고) item_price가 결측치가 아닌(~flag_null) 
# 상품 정보(모든 컬럼)를 확인 
uriage.loc[
    flag & ~flag_null, 
]
# 위의 인덱스 조건에서 item_price 컬럼(컬럼의 조건식)의 데이터의 평균값(mean()) 구한다. 
mean_price = uriage.loc[
    flag & ~flag_null, 
    'item_price'
].mean()

In [None]:
# mean_price를 item_name이 상품A(flag) 이고 item_price가 결측치인(flag_ null) 
# item_price에(컬럼의 조건) 대입
uriage.loc[flag & flag_null, 'item_price'].fillna(mean_price, inplace=True)

In [None]:
uriage.loc[flag & flag_null, 'item_price'] = \
    uriage.loc[flag & flag_null, 'item_price'].fillna(mean_price)

In [None]:
uriage.loc[flag & flag_null, 'item_price']

In [None]:
flag

In [None]:
# 위의 작업들을 상품A부터 상품Z까지(item_name 데이터에서 중복으로 제거한 리스트) 반복 실행 
item_list = uriage['item_name'].unique()

# 반복문을 작성 
# item_list의 길이만큼 반복 
for item_name in item_list:
# for i in range(len(item_list)):
    # item_name 변수에는 item_list의 각각의 원소들이 대입 
    # i는 -> item_list의 index값이 대입
    flag = uriage['item_name'] == item_name
    # flag = uriage['item_name'] == item_list[i]
    flag_null = uriage['item_price'].isna()

    mean_price = uriage.loc[flag & ~flag_null, 'item_price'].mean()

    uriage.loc[flag & flag_null, 'item_price'] = mean_price

In [None]:
# 결측치의 개수를 확인 
uriage.isna().sum()

In [None]:
uriage.groupby(['item_name'])['item_price'].mean()