# 데이터 확인 및 정리

1. 데이터 불러오기
    - 컬렁 정리
2. 컬럼별 원소 확인
    - 소재, 색상 등 명칭 통일
    - nan 값 정리
3. 새로운 csv 파일로 저장

## 1. 데이터 불러오기

In [1]:
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

In [2]:
raw = pd.read_csv('/Users/mac/AIFFEL/hackathon/무신사_업사이클링브랜드+추가4.csv', engine='python')
print(raw.shape)
raw.head()

(715, 12)


Unnamed: 0,사이트,사용자이름(ID),색상,소재,종류,평점,성별(구매자),가격,"무늬(있으면 1, 없으면 0)",업사이클링브랜드(1) 그외(0),라벨(업사이클링브랜드),웹페이지주소
0,무신사,멤버_464f9cc84f7d,레드,면,상의,5,남자,39000,0,0,119레오,https://www.musinsa.com/app/goods/1876547/0
1,무신사,멤버_464f9cc84f7d,카키,면,하의,5,남자,42000,0,0,119레오,https://www.musinsa.com/app/goods/2396824/0
2,무신사,멤버_464f9cc84f7d,레드,면,모자,5,남자,59000,0,0,119레오,https://www.musinsa.com/app/goods/2428013/0
3,무신사,멤버_464f9cc84f7d,블랙,면,상의,5,남자,35000,0,0,119레오,https://www.musinsa.com/app/goods/470357/0
4,무신사,멤버_464f9cc84f7d,아이보리,아라미드/캔버스,가방,5,남자,48000,1,1,119레오,https://www.musinsa.com/app/goods/1766332/0


In [3]:
# 불필요한 컬럼 제거
raw.drop(['사이트'], axis=1, inplace=True)
raw.head()

Unnamed: 0,사용자이름(ID),색상,소재,종류,평점,성별(구매자),가격,"무늬(있으면 1, 없으면 0)",업사이클링브랜드(1) 그외(0),라벨(업사이클링브랜드),웹페이지주소
0,멤버_464f9cc84f7d,레드,면,상의,5,남자,39000,0,0,119레오,https://www.musinsa.com/app/goods/1876547/0
1,멤버_464f9cc84f7d,카키,면,하의,5,남자,42000,0,0,119레오,https://www.musinsa.com/app/goods/2396824/0
2,멤버_464f9cc84f7d,레드,면,모자,5,남자,59000,0,0,119레오,https://www.musinsa.com/app/goods/2428013/0
3,멤버_464f9cc84f7d,블랙,면,상의,5,남자,35000,0,0,119레오,https://www.musinsa.com/app/goods/470357/0
4,멤버_464f9cc84f7d,아이보리,아라미드/캔버스,가방,5,남자,48000,1,1,119레오,https://www.musinsa.com/app/goods/1766332/0


In [4]:
# 컬럼 이름 정의
raw.columns = ['user', 'color', 'contents', 'category', 'ratings', 
               'gender', 'price', 'style', 'up_check', 'brand', 'url']
raw.head()

Unnamed: 0,user,color,contents,category,ratings,gender,price,style,up_check,brand,url
0,멤버_464f9cc84f7d,레드,면,상의,5,남자,39000,0,0,119레오,https://www.musinsa.com/app/goods/1876547/0
1,멤버_464f9cc84f7d,카키,면,하의,5,남자,42000,0,0,119레오,https://www.musinsa.com/app/goods/2396824/0
2,멤버_464f9cc84f7d,레드,면,모자,5,남자,59000,0,0,119레오,https://www.musinsa.com/app/goods/2428013/0
3,멤버_464f9cc84f7d,블랙,면,상의,5,남자,35000,0,0,119레오,https://www.musinsa.com/app/goods/470357/0
4,멤버_464f9cc84f7d,아이보리,아라미드/캔버스,가방,5,남자,48000,1,1,119레오,https://www.musinsa.com/app/goods/1766332/0


In [5]:
# raw 데이터 프레임 정보 확인
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 715 entries, 0 to 714
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   user      715 non-null    object
 1   color     715 non-null    object
 2   contents  688 non-null    object
 3   category  715 non-null    object
 4   ratings   715 non-null    int64 
 5   gender    575 non-null    object
 6   price     715 non-null    int64 
 7   style     715 non-null    int64 
 8   up_check  715 non-null    int64 
 9   brand     715 non-null    object
 10  url       715 non-null    object
dtypes: int64(4), object(7)
memory usage: 61.6+ KB


## 2. 컬럼별 원소 확인

### user

In [6]:
# user 데이터 확인
print('#user unique 데이터 개수 :', raw['user'].nunique())
print('#user nan 개수 :', raw['user'].isnull().sum())

#user unique 데이터 개수 : 97
#user nan 개수 : 0


### color

In [7]:
# color unique 데이터 개수, nan 확인
print('#color unique 데이터 개수 :', raw['color'].nunique())
print('#color nan 개수 :', raw['color'].isnull().sum())
print()
print(raw['color'].value_counts())

#color unique 데이터 개수 : 39
#color nan 개수 : 0

블랙            231
그레이            65
블루             63
화이트            51
네이비            44
그린             41
카키             35
멀티             31
베이지            30
차콜             16
아이보리           15
브라운            12
오렌지            11
크림             10
레드             10
핑크              8
퍼플              7
기타              4
옐로우             4
블랙화이트           3
네온              3
오트밀             3
모카              2
민트              1
멀티(샌드 카키)       1
올리브             1
그레이(오트밀)        1
민트 그레이          1
실버              1
코랄              1
검정              1
레드(멀티)          1
브라운             1
엘로우             1
멀티(오트밀멜란지)      1
인디고             1
멜란지             1
오크밀             1
파랑              1
Name: color, dtype: int64


* '멀티(오트밀멜란지)','레드(멀티)','멀티(샌드 카키)','블랙화이트' : 멀티
* '민트 그레이' , '엘로우', '실버', '멜란지' , '오크밀', '코랄', '모카', '옐로우','오트밀', '네온', '퍼플', '핑크', '레드', '오렌지', '브라운' : 기타
* '인디고', '파랑' : 블루
* '검정' : 블랙
* '민트' : 그린
* '그레이(오트밀)', '차콜' : 그레이
* '크림' : 아이보리

In [8]:
# color 데이터 정리
raw.replace({'color':['멀티(오트밀멜란지)','레드(멀티)','멀티(샌드 카키)','블랙화이트']}, '멀티', inplace=True)
raw.replace({'color':['민트 그레이' , '엘로우', '실버', '멜란지' , '오크밀', '코랄', '모카', '옐로우','오트밀', '네온', '퍼플', '핑크', '레드', '오렌지']}, '기타', inplace=True)
raw.replace({'color':['인디고', '파랑']}, '블루', inplace=True)
raw.replace({'color':'검정'}, '블랙', inplace=True)
raw.replace({'color':'민트'}, '그린', inplace=True )
raw.replace({'color':'그레이(오트밀)'}, '그레이', inplace=True)
raw.replace({'color':'크림'}, '아이보리', inplace=True)
raw.replace({'color':['브라운 ', '브라운']}, '기타', inplace=True)
raw.replace({'color':'차콜'}, '그레이', inplace=True)
raw.replace({'color':'올리브'}, '카키', inplace=True )

In [9]:
print('#수정 후 color unique 데이터 개수 :', raw['color'].nunique(), '\n')
print(raw['color'].value_counts())

#수정 후 color unique 데이터 개수 : 11 

블랙      232
그레이      82
기타       71
블루       65
화이트      51
네이비      44
그린       42
멀티       37
카키       36
베이지      30
아이보리     25
Name: color, dtype: int64


### contents

In [10]:
# contents unique 데이터 개수, nan 확인
print('#contents unique 데이터 개수 :', raw['contents'].nunique())
print('#contents nan 개수 :', raw['contents'].isnull().sum())
print()
print(raw['contents'].unique())
print(raw['contents'].value_counts())

#contents unique 데이터 개수 : 76
#contents nan 개수 : 27

['면' '아라미드/캔버스' '면/폴리에스터' '울/폴리' '폴리에스터' '면/폴리' '아크릴' '아라미드' '폴리에스터/나일론'
 '폴리에스터/레이온/폴리우레탄' '트윌' '폴리' '폴리에스터/폴리우레탄' '울/폴리/레이온/스판' '리사이클' nan
 '아라미드/소방복' '면/레이온/폴리' '광고현수막' '나일론' '타이어이너튜브' '폴리에스터/레이온' '타이어튜브' '면/마'
 '폴리에스터/레이온/나일론' '폴리에스터/레더' '울/나일론' '레더' '면/레이온' '면/폴라에스터' '폴리에스터/폴리'
 '면/폴리에스터/나일론' '면/폴리우레탄' '면/나일론/폴리우레탄' '면/나일론' '면/린넨' '폴리에스터/아크릴/폴리우레탄'
 '나일론/합성가죽' '나일론/폴리에스터' '면/폴리에스터/스판' '면/폴리에스터/폴리우레탄' '면/나일론/폴리에스터'
 '폴리에스터/캐시미어/모' '폴리/스판' '면/스판' '울' '면/나일론/폴리' '타포린' '톤백' '울/아크릴/나일론'
 '리사이클폴리에스터' '아크릴/울/나일론' '아크릴/면/나일론' '레이온' '리사이클폴리에스터/리사이클스판덱스'
 '리사이클폴리에스터/폴리우레탄' '면/모달' '타이벡' '아크릴/폴리에스터/울/나일론/폴리우레탄'
 '폴리에스터/레이온/울/폴리우레탄' '레이온/폴리에스터' '폴리에스터/스판' '천연가죽/폴리에스터' '울/복합소재'
 '폴리에스터/레이온/스판' '면/아크릴' '캐시미어/나일론/울' '아크릴/폴리에스터/스판' '코듀라' '비건 레더'
 '아크릴/나일론/울' '테리' '레이온/나일론' '면/종이' '울/나일론/아크릴/폴리에스트/스판' '비스코스/폴리/나일론'
 '울/아크릴']
면                    250
폴리에스터                 54
나일론                   51
면/폴리에스터               45
폴리에스터/레이온/폴리우레탄       29

* 소재 명칭 통일

In [11]:
# contents 데이터 수정
raw.replace({'contents':'폴리'}, '폴리에스터', inplace=True)
raw.replace({'contents':'폴리에스터/스판'}, '폴리에스터/폴리우레탄', inplace=True)
raw.replace({'contents':'천연가죽/폴리에스터'}, '레더/폴리에스터', inplace=True)
raw.replace({'contents':'폴리에스터/레이온/스판'}, '폴리에스터/레이온/폴리우레탄', inplace=True)
raw.replace({'contents':'아크릴/폴리에스터/스판'}, '아크릴/폴리에스터/폴리우레탄', inplace=True)
raw.replace({'contents':'면/폴리'}, '면/폴리에스터', inplace=True)
raw.replace({'contents':'비건 레더'}, '레더', inplace=True)
raw.replace({'contents':'울/폴리'}, '울/폴리에스터', inplace=True)
raw.replace({'contents':'테리'}, '면', inplace=True)
raw.replace({'contents':'면/스판'}, '면/폴리우레탄', inplace=True)
raw.replace({'contents':'울/나일론/아크릴/폴리에스트/스판'}, '울/나일론/아크릴/폴리에스터/폴리우레탄', inplace=True)
raw.replace({'contents':'비스코스/폴리/나일론'}, '레이온/폴리에스터/나일론', inplace=True)
raw.replace({'contents':'나일론/합성가죽'}, '나일론/레더', inplace=True)
raw.replace({'contents':'면/폴리에스터/스판'}, '면/폴리에스터/폴리우레탄', inplace=True)
raw.replace({'contents':'폴리에스터/캐시미어/모'}, '폴리에스터/캐시미어/울', inplace=True)
raw.replace({'contents':'폴리/스판'}, '폴리에스터/폴리우레탄', inplace=True)
raw.replace({'contents':'면/나일론/폴리'}, '면/나일론/폴리에스터', inplace=True)
raw.replace({'contents':'아라미드/캔버스'}, '면/아라미드', inplace=True)
raw.replace({'contents':'트윌'}, '면', inplace=True)
raw.replace({'contents':'울/폴리/레이온/스판'}, '울/폴리에스터/레이온/폴리우레탄', inplace=True)
raw.replace({'contents':['리사이클', '아라미드/소방복']}, '아라미드', inplace=True)
raw.replace({'contents':'면/레이온/폴리'}, '린넨/면/레이온/폴리에스터', inplace=True)
raw.replace({'contents':'면/모달'}, '면/레이온', inplace=True)

In [12]:
print('#수정 후 contents unique 데이터 개수 :', raw['contents'].nunique(), '\n')
print(raw['contents'].value_counts())

#수정 후 contents unique 데이터 개수 : 62 

면                        252
폴리에스터                     65
면/폴리에스터                   58
나일론                       51
폴리에스터/폴리우레탄               44
                        ... 
울/아크릴/나일론                  1
울/나일론/아크릴/폴리에스터/폴리우레탄      1
폴리에스터/레이온/울/폴리우레탄          1
면/나일론/폴리우레탄                1
폴리에스터/아크릴/폴리우레탄            1
Name: contents, Length: 62, dtype: int64


In [13]:
# contents '/' 를 공백으로 대체
raw['contents'] = raw['contents'].str.replace('/', ' ')
raw

Unnamed: 0,user,color,contents,category,ratings,gender,price,style,up_check,brand,url
0,멤버_464f9cc84f7d,기타,면,상의,5,남자,39000,0,0,119레오,https://www.musinsa.com/app/goods/1876547/0
1,멤버_464f9cc84f7d,카키,면,하의,5,남자,42000,0,0,119레오,https://www.musinsa.com/app/goods/2396824/0
2,멤버_464f9cc84f7d,기타,면,모자,5,남자,59000,0,0,119레오,https://www.musinsa.com/app/goods/2428013/0
3,멤버_464f9cc84f7d,블랙,면,상의,5,남자,35000,0,0,119레오,https://www.musinsa.com/app/goods/470357/0
4,멤버_464f9cc84f7d,아이보리,면 아라미드,가방,5,남자,48000,1,1,119레오,https://www.musinsa.com/app/goods/1766332/0
...,...,...,...,...,...,...,...,...,...,...,...
710,허싱싱,기타,폴리에스터 폴리우레탄,가방,5,여자,59000,0,1,플리츠마마,https://www.musinsa.com/app/goods/2041227/0
711,허싱싱,아이보리,울 아크릴,모자,5,여자,35000,0,0,플리츠마마,https://www.musinsa.com/app/goods/2196725/0
712,석재은,베이지,아크릴,모자,5,여자,29000,0,0,플리츠마마,https://www.musinsa.com/app/goods/2122170/0
713,석재은,블랙,면 폴리에스터,상의,5,여자,138000,0,0,플리츠마마,https://www.musinsa.com/app/goods/2064480/0


In [14]:
# nan 값 'None' 으로 대체
raw['contents'] = raw['contents'].fillna('None')
print('#수정 후 contents nan 개수 :', raw['contents'].isnull().sum())

#수정 후 contents nan 개수 : 0


### category

In [15]:
# category unique 데이터 개수, nan 확인
print('#category unique 데이터 개수 :', raw['category'].nunique())
print('#category nan 개수 :', raw['category'].isnull().sum())
print()
print(raw['category'].unique())
print(raw['category'].value_counts())

#category unique 데이터 개수 : 6
#category nan 개수 : 0

['상의' '하의' '모자' '가방' '파우치' '셋업']
상의     329
하의     158
가방     120
모자      76
파우치     16
셋업      16
Name: category, dtype: int64


### gender

In [16]:
# gender unique 데이터, nan 확인
print('#gender unique 데이터 개수 :', raw['gender'].nunique())
print('#gender nan 개수 :', raw['gender'].isnull().sum())
print()
print(raw['gender'].value_counts())

#gender unique 데이터 개수 : 2
#gender nan 개수 : 140

남자    289
여자    286
Name: gender, dtype: int64


In [17]:
# nan 값 '알수없음' 으로 대체
raw['gender'] = raw['gender'].fillna('알수없음')
print('#수정 후 gender nan 개수 :', raw['gender'].isnull().sum())

#수정 후 gender nan 개수 : 0


### price

In [18]:
# price unique 데이터 개수, nan 확인
print('#price unique 데이터 개수 :', raw['price'].nunique())
print('#price nan 개수 :', raw['price'].isnull().sum())

#price unique 데이터 개수 : 192
#price nan 개수 : 0


In [19]:
# price 데이터 요약
raw['price'].describe()

count    7.150000e+02
mean     7.484263e+04
std      9.316163e+04
min      1.000000e+02
25%      3.900000e+04
50%      5.800000e+04
75%      8.770000e+04
max      2.168182e+06
Name: price, dtype: float64

### style

- 0 : 무늬 없음
- 1 : 무늬 있음

In [20]:
# style 데이터 개수, nan 확인
print('#style nan 개수 :', raw['style'].isnull().sum())
print()
print(raw['style'].value_counts())

#style nan 개수 : 0

0    587
1    128
Name: style, dtype: int64


### up_check

- 0 : 비업사이클링 제품
- 1 : 업사이클링 제품

In [21]:
# 업사이클링 제품 / 비업사이클링 제품 데이터 개수 확인, nan 확인
print('#up_check nan 개수 :', raw['up_check'].isnull().sum())
print()
print(raw['up_check'].value_counts())


#up_check nan 개수 : 0

0    605
1    110
Name: up_check, dtype: int64


### brand

In [22]:
# brand 데이터 개수 확인, nan 확인
print('#brand unique 데이터 개수 :', raw['brand'].nunique())
print('#brand nan 개수 :', raw['brand'].isnull().sum())
print()
print(raw['brand'].value_counts())

#brand unique 데이터 개수 : 6
#brand nan 개수 : 0

플리츠마마      212
누깍         188
오버랩업사이클    181
119레오       68
큐클리프        35
카네이테이       31
Name: brand, dtype: int64


## 3. 새로운 csv 파일로 저장

In [23]:
# 최종 raw 데이터 프레임 확인
raw

Unnamed: 0,user,color,contents,category,ratings,gender,price,style,up_check,brand,url
0,멤버_464f9cc84f7d,기타,면,상의,5,남자,39000,0,0,119레오,https://www.musinsa.com/app/goods/1876547/0
1,멤버_464f9cc84f7d,카키,면,하의,5,남자,42000,0,0,119레오,https://www.musinsa.com/app/goods/2396824/0
2,멤버_464f9cc84f7d,기타,면,모자,5,남자,59000,0,0,119레오,https://www.musinsa.com/app/goods/2428013/0
3,멤버_464f9cc84f7d,블랙,면,상의,5,남자,35000,0,0,119레오,https://www.musinsa.com/app/goods/470357/0
4,멤버_464f9cc84f7d,아이보리,면 아라미드,가방,5,남자,48000,1,1,119레오,https://www.musinsa.com/app/goods/1766332/0
...,...,...,...,...,...,...,...,...,...,...,...
710,허싱싱,기타,폴리에스터 폴리우레탄,가방,5,여자,59000,0,1,플리츠마마,https://www.musinsa.com/app/goods/2041227/0
711,허싱싱,아이보리,울 아크릴,모자,5,여자,35000,0,0,플리츠마마,https://www.musinsa.com/app/goods/2196725/0
712,석재은,베이지,아크릴,모자,5,여자,29000,0,0,플리츠마마,https://www.musinsa.com/app/goods/2122170/0
713,석재은,블랙,면 폴리에스터,상의,5,여자,138000,0,0,플리츠마마,https://www.musinsa.com/app/goods/2064480/0


In [24]:
# csv 파일 저장
raw.to_csv('new_musinsa(upcycling).csv')