In [48]:
import pandas as pd

1. csv폴더에 있는 uriage.csv 로드 
2. 데이터의 이상 체크 
    - 결측치가 존재하는가?
    - 데이터의 정형화가 잘 되어있는가?
3. 문제가 있는 데이터를 수정(데이터의 전처리)

In [49]:
uriage = pd.read_csv("../csv/uriage.csv")

In [50]:
# 결측치가 존재하는가?
uriage.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2999 entries, 0 to 2998
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   purchase_date  2999 non-null   object 
 1   item_name      2999 non-null   object 
 2   item_price     2612 non-null   float64
 3   customer_name  2999 non-null   object 
dtypes: float64(1), object(3)
memory usage: 93.8+ KB


In [51]:
# 결측치의 개수를 확인
uriage.isna().sum()

purchase_date      0
item_name          0
item_price       387
customer_name      0
dtype: int64

In [52]:
uriage.head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
1,2019-07-13 13:05,상 품 S,,김우찬
2,2019-05-11 19:42,상 품 a,,김유찬
3,2019-02-12 23:40,상품Z,2600.0,김재현
4,2019-04-22 3:09,상품a,,김강현


In [53]:
# item_name의 데이터가 대,소문자 문제
# 해결방법 -> 대문자, 소문자 하나로 통일
uriage['item_name'].str.upper()

0         상품A
1       상 품 S
2       상 품 A
3         상품Z
4         상품A
        ...  
2994      상품Y
2995      상품M
2996      상품Q
2997      상품H
2998      상품D
Name: item_name, Length: 2999, dtype: object

In [54]:
# apply(일반함수)
def change(x):
    # 매개변수 x에 들어오는 데이터는? -> item_name에 각각의 데이터들
    # 매개변수 x의 데이터의 타입은 문자열
    result = x.upper()
    return result

uriage['item_name'].apply(change)

0         상품A
1       상 품 S
2       상 품 A
3         상품Z
4         상품A
        ...  
2994      상품Y
2995      상품M
2996      상품Q
2997      상품H
2998      상품D
Name: item_name, Length: 2999, dtype: object

In [55]:
# apply(lambda함수)

uriage['item_name'].apply(
    lambda x : x.upper()
)

0         상품A
1       상 품 S
2       상 품 A
3         상품Z
4         상품A
        ...  
2994      상품Y
2995      상품M
2996      상품Q
2997      상품H
2998      상품D
Name: item_name, Length: 2999, dtype: object

In [56]:
# item_name의 데이터가 문자열 사이에 공백이 존재
# 해결방법 -> 문자열에 공백을 모두 제거 
uriage['item_name'].str.replace(' ', '')

0       상품A
1       상품S
2       상품a
3       상품Z
4       상품a
       ... 
2994    상품Y
2995    상품M
2996    상품Q
2997    상품H
2998    상품D
Name: item_name, Length: 2999, dtype: object

In [57]:
# 스리즈형태의 데이터를 공백을 제거 대문자로 변환

def change(x):
    # result = x.upper()
    # result = result.replace(" ", "")
    result = x.upper().replace(" ", "")
    return result

uriage['item_name'].apply(change)

0       상품A
1       상품S
2       상품A
3       상품Z
4       상품A
       ... 
2994    상품Y
2995    상품M
2996    상품Q
2997    상품H
2998    상품D
Name: item_name, Length: 2999, dtype: object

In [58]:
uriage['item_name'].apply(
    lambda x : x.upper().replace(" ", "")
)

0       상품A
1       상품S
2       상품A
3       상품Z
4       상품A
       ... 
2994    상품Y
2995    상품M
2996    상품Q
2997    상품H
2998    상품D
Name: item_name, Length: 2999, dtype: object

In [59]:
uriage['item_name'] = uriage['item_name'].str.upper().str.replace(" ", "")

In [60]:
# item_name의 값들의 개수 출력
uriage['item_name'].value_counts()

item_name
상품S    140
상품A    139
상품R    136
상품P    135
상품V    134
상품C    133
상품F    126
상품D    125
상품Q    125
상품O    124
상품W    121
상품N    119
상품T    117
상품J    116
상품X    116
상품I    114
상품B    113
상품M    113
상품L    110
상품G    110
상품K    109
상품H    109
상품U    107
상품E    105
상품Y    102
상품Z      1
Name: count, dtype: int64

In [61]:
import numpy as np

In [62]:
# 결측치에 비교연산자를 사용하면 False로 고정

a = np.nan
b = np.nan
print(a == b)

False


In [63]:
# item_price가 결측치인 데이터들을 확인
uriage.loc[uriage['item_price'].isna() == 1]

Unnamed: 0,purchase_date,item_name,item_price,customer_name
1,2019-07-13 13:05,상품S,,김우찬
2,2019-05-11 19:42,상품A,,김유찬
4,2019-04-22 3:09,상품A,,김강현
6,2019-05-18 19:16,상품A,,김재준
14,2019-06-11 12:57,상품A,,김재호
...,...,...,...,...
2987,2019-01-04 13:05,상품K,,김정훈
2990,2019-07-16 11:34,상품O,,김서준
2992,2019-07-27 10:13,상품C,,김동하
2996,2019-03-29 11:14,상품Q,,김지율


In [64]:
# ~ 연산자는 스리즈형태 데이터가 bool형태일때 부정연산자로 사용이 가능
uriage.loc[~(uriage['item_price'].isna())]

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02,상품A,100.0,김가온
3,2019-02-12 23:40,상품Z,2600.0,김재현
5,2019-03-20 19:16,상품S,1900.0,김우진
7,2019-04-18 0:14,상품V,2200.0,김민혁
8,2019-01-10 15:51,상품O,1500.0,김선우
...,...,...,...,...
2991,2019-02-18 14:36,상품W,2300.0,김우빈
2993,2019-01-25 3:57,상품C,300.0,김이안
2994,2019-02-15 2:56,상품Y,2500.0,김정민
2995,2019-06-22 4:03,상품M,1300.0,김재원


In [65]:
# 상품A인 경우에는 결측치를 item_name이 상품A이고 item_price의 결측치를 제외한 평균값으로 대체

flag = uriage['item_name'] == '상품A'
flag_null = uriage['item_price'].isna()

# 조건식을 이용하여 item_name이 상품A이고 item_price가 결측치인 데이터를 확인
price_mean = uriage.loc[ flag & (flag_null == 0) , 'item_price'].mean()

In [66]:
uriage2 = uriage.copy()

In [67]:
# 상품A인 데이터에서 item_price가 결측치인 데이터에 price_mean를 대체

uriage2.loc[flag & flag_null] = uriage2.loc[flag & flag_null].fillna(price_mean)

In [68]:
uriage2.loc[flag & flag_null]

Unnamed: 0,purchase_date,item_name,item_price,customer_name
2,2019-05-11 19:42,상품A,100.0,김유찬
4,2019-04-22 3:09,상품A,100.0,김강현
6,2019-05-18 19:16,상품A,100.0,김재준
14,2019-06-11 12:57,상품A,100.0,김재호
300,2019-04-06 11:06,상품A,100.0,김태인
361,2019-01-21 3:33,상품A,100.0,김진우
667,2019-03-16 17:23,상품A,100.0,김주원
838,2019-06-24 5:06,상품A,100.0,김시호
844,2019-03-15 9:14,상품A,100.0,김강현
957,2019-07-19 14:12,상품A,100.0,김서윤


In [69]:
# 스리즈형태의 데이터에 = '값'
uriage2['customer_age'] = 20

In [70]:
uriage2['customer_age']

0       20
1       20
2       20
3       20
4       20
        ..
2994    20
2995    20
2996    20
2997    20
2998    20
Name: customer_age, Length: 2999, dtype: int64

In [71]:
# item_name이 상품A이고 item_price가 결측치인 데이터에 price_mean를 대입
uriage.loc[flag & flag_null, 'item_price'] = price_mean

In [72]:
uriage.loc[flag].isna().sum()

purchase_date    0
item_name        0
item_price       0
customer_name    0
dtype: int64

In [73]:
# in 연산자
# 자료형 데이터에 해당하는 값이 포함되어있는지 비교
# not in 연산자 
# 자료형 데이터에 해당하는 값이 포함되어있지 않는 경우를 비교
_list = ['a', 'b', 'c']

print('a' not in _list)
print('d' in _list)

False
False


In [74]:
# item_name의 데이터를 중복데이터가 없이 리스트형태로 출력

# case1(중복된 데이터를 추가하지 않고 새로운 데이터만 배열에 추가)
item_list = []

for item in uriage['item_name']:
    # print(item)
    # item이 item_list에 포함되어있다면 아무런 행동하지 않는다. 
    # 포함되어있지 않다면 item_list item 추가
    if item not in item_list:
        item_list.append(item)

item_list


['상품A',
 '상품S',
 '상품Z',
 '상품V',
 '상품O',
 '상품U',
 '상품L',
 '상품C',
 '상품I',
 '상품R',
 '상품X',
 '상품G',
 '상품P',
 '상품Q',
 '상품Y',
 '상품N',
 '상품W',
 '상품E',
 '상품K',
 '상품B',
 '상품F',
 '상품D',
 '상품M',
 '상품H',
 '상품T',
 '상품J']

In [75]:
# 집합형 데이터로 변환 -> list 형태로 변환
list(set(uriage['item_name']))

['상품J',
 '상품G',
 '상품O',
 '상품V',
 '상품T',
 '상품A',
 '상품Q',
 '상품N',
 '상품U',
 '상품Z',
 '상품M',
 '상품H',
 '상품W',
 '상품L',
 '상품P',
 '상품S',
 '상품D',
 '상품Y',
 '상품E',
 '상품F',
 '상품B',
 '상품I',
 '상품R',
 '상품C',
 '상품K',
 '상품X']

In [76]:
# value_counts()를 이용하여 고유한 값을 출력
uriage['item_name'].value_counts().index

Index(['상품S', '상품A', '상품R', '상품P', '상품V', '상품C', '상품F', '상품D', '상품Q', '상품O',
       '상품W', '상품N', '상품T', '상품J', '상품X', '상품I', '상품B', '상품M', '상품L', '상품G',
       '상품K', '상품H', '상품U', '상품E', '상품Y', '상품Z'],
      dtype='object', name='item_name')

In [77]:
uriage['item_name'].unique()

array(['상품A', '상품S', '상품Z', '상품V', '상품O', '상품U', '상품L', '상품C', '상품I',
       '상품R', '상품X', '상품G', '상품P', '상품Q', '상품Y', '상품N', '상품W', '상품E',
       '상품K', '상품B', '상품F', '상품D', '상품M', '상품H', '상품T', '상품J'],
      dtype=object)

In [78]:
uriage3 = uriage.copy()

In [79]:
item_list

['상품A',
 '상품S',
 '상품Z',
 '상품V',
 '상품O',
 '상품U',
 '상품L',
 '상품C',
 '상품I',
 '상품R',
 '상품X',
 '상품G',
 '상품P',
 '상품Q',
 '상품Y',
 '상품N',
 '상품W',
 '상품E',
 '상품K',
 '상품B',
 '상품F',
 '상품D',
 '상품M',
 '상품H',
 '상품T',
 '상품J']

In [80]:
# item_list 자료형 데이터를 이용하여 반복문 작성
for item in item_list:
    # item 변수에는 item_list의 원소들이 하나씩 대입하여 반복
    print(item)

    flag = uriage['item_name'] == item
    flag_null = uriage['item_price'].isna()

    # 조건식을 이용하여 item_name이 상품A이고 item_price가 결측치 아닌 데이터의 평균
    price_mean = uriage.loc[ flag & ~flag_null , 'item_price'].mean()
    # 상품명의 조건과 item_price가 결측치인 데이터에 item_price컬러 데이터에 price_mean 대입
    uriage.loc[flag & flag_null, 'item_price'] = price_mean

상품A
상품S
상품Z
상품V
상품O
상품U
상품L
상품C
상품I
상품R
상품X
상품G
상품P
상품Q
상품Y
상품N
상품W
상품E
상품K
상품B
상품F
상품D
상품M
상품H
상품T
상품J


In [81]:
uriage.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2999 entries, 0 to 2998
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   purchase_date  2999 non-null   object 
 1   item_name      2999 non-null   object 
 2   item_price     2999 non-null   float64
 3   customer_name  2999 non-null   object 
dtypes: float64(1), object(3)
memory usage: 93.8+ KB


In [82]:
uriage.loc[ uriage['item_name'] == '상품R' , "item_price"].value_counts()

item_price
1800.0    136
Name: count, dtype: int64

In [83]:
# map 함수를 이용하여 결측치 데이터를 대입
def na_fill(item):
    flag = uriage3['item_name'] == item
    flag_null = uriage3['item_price'].isna()

    # 조건식을 이용하여 item_name이 상품A이고 item_price가 결측치 아닌 데이터의 평균
    price_mean = uriage3.loc[ flag & ~flag_null , 'item_price'].mean()
    # 상품명의 조건과 item_price가 결측치인 데이터에 item_price컬러 데이터에 price_mean 대입
    uriage3.loc[flag & flag_null, 'item_price'] = price_mean
    result = f'{item}컬럼 결측치 작업 완료'
    return result

In [84]:
item_list

['상품A',
 '상품S',
 '상품Z',
 '상품V',
 '상품O',
 '상품U',
 '상품L',
 '상품C',
 '상품I',
 '상품R',
 '상품X',
 '상품G',
 '상품P',
 '상품Q',
 '상품Y',
 '상품N',
 '상품W',
 '상품E',
 '상품K',
 '상품B',
 '상품F',
 '상품D',
 '상품M',
 '상품H',
 '상품T',
 '상품J']

In [85]:
list(map(na_fill, item_list))

['상품A컬럼 결측치 작업 완료',
 '상품S컬럼 결측치 작업 완료',
 '상품Z컬럼 결측치 작업 완료',
 '상품V컬럼 결측치 작업 완료',
 '상품O컬럼 결측치 작업 완료',
 '상품U컬럼 결측치 작업 완료',
 '상품L컬럼 결측치 작업 완료',
 '상품C컬럼 결측치 작업 완료',
 '상품I컬럼 결측치 작업 완료',
 '상품R컬럼 결측치 작업 완료',
 '상품X컬럼 결측치 작업 완료',
 '상품G컬럼 결측치 작업 완료',
 '상품P컬럼 결측치 작업 완료',
 '상품Q컬럼 결측치 작업 완료',
 '상품Y컬럼 결측치 작업 완료',
 '상품N컬럼 결측치 작업 완료',
 '상품W컬럼 결측치 작업 완료',
 '상품E컬럼 결측치 작업 완료',
 '상품K컬럼 결측치 작업 완료',
 '상품B컬럼 결측치 작업 완료',
 '상품F컬럼 결측치 작업 완료',
 '상품D컬럼 결측치 작업 완료',
 '상품M컬럼 결측치 작업 완료',
 '상품H컬럼 결측치 작업 완료',
 '상품T컬럼 결측치 작업 완료',
 '상품J컬럼 결측치 작업 완료']

In [86]:
uriage3.isna().sum()

purchase_date    0
item_name        0
item_price       0
customer_name    0
dtype: int64