# 제품명 정제

### Data

##### products

* id
* text: 냉장고 브랜드, 제품 명, 제품 번호, 가격을 담은 문자열

### 초기 코드 선택

Python, R 중 본인의 선호 언어에 따라 초기 코드를 선택하세요. Python을 선호한다면 Python 초기 코드를, R을 선호한다면 R 초기 코드만 남기면 됩니다.

In [1]:
# 초기코드 - python
import pandas as pd

# 데이터 로드
df = pd.read_csv('./data/products.csv', index_col = 'id')
df.head()

Unnamed: 0_level_0,text
id,Unnamed: 1_level_1
0,"[밀레] 프리미엄 F17WDST 710,520원"
1,"[밀레] 통돌이 블랙라벨 플러스 T16DU 605,130원"
2,"[밀레] 통돌이 TR13BK 359,760원"
3,"[밀레] 통돌이 TR14WK1 381,100원"
4,"[삼성 전자] 액티브워시 WA14N6781TG 411,670원"


In [None]:
# 초기코드 - R

# 데이터 로드
df <- read.csv('./data/products.csv')
head(df)

# 과제

사용자가 입력한 데이터나, 다른 회사에서 전달받은 데이터는 정제되지 않은 경우가 많습니다. 전달받은 제품 정보를 특정한 규격에 맞춰 재가공하는 것이 이번 과제 목표입니다.

### 할 일

##### 1. 전달받은 데이터를 형식에 맞게 가공

전달받은 데이터의 형식은 다음과 같습니다: `[브랜드] 제품명 제품번호 가격`

| id    | text                                              |
|----   |-------------------------------------------------  |
| 0     | [밀레] 프리미엄 F17WDST 710,520원                    |
| 1     | [밀레] 통돌이 블랙라벨 플러스 T16DU 605,130원    |
| 2     | [밀레] 통돌이 TR13BK 359,760원                    |
| 3     | [밀레] 통돌이 TR14WK1 381,100원                   |
| 4     | [삼성 전자] 액티브워시 WA14N6781TG 411,670원        |

<br/>
<center><예시: 전달받은 데이터 형식></center>

이 데이터를 이용해 제품의 브랜드, 제품명, 제품번호, 가격을 추출해주세요. 정확한 코드를 작성했다면 다음과 같은 결과가 나옵니다.

| id    | brand     | name                      | number        | price     |
|----   |---------- |------------------------   |-------------  |--------   |
| 0     | 밀레      | 프리미엄                    | F17WDST       | 710520    |
| 1     | 밀레      | 통돌이 블랙라벨 플러스  | T16DU         | 605130    |
| 2     | 밀레      | 통돌이                   | TR13BK        | 359760    |
| 3     | 밀레      | 통돌이                   | TR14WK1       | 381100    |
| 4     | 삼성 전자     | 액티브워시                 | WA14N6781TG   | 411670    |

<br/>
<center><예시: 전달받은 데이터로부터 필드 추출></center>
    
*노트* 

전달받은 데이터를 가공할 때 다음에 주의하세요.

* 문자열을 가공할 때에는 공백 문자를 유지해주세요. 즉, '삼성 전자' 브랜드를 '삼성전자'와 같이 가공하면 안 됩니다.
    * 브랜드와 제품 명에는 공백 문자가 포함되어있습니다.
    * 제품 번호와 가격에는 공백 문자가 없습니다.
* 브랜드를 가공할 때에는 square bracket, 즉 `[`와 `]`를 제거해주세요.
* 가격을 가공할 때에는 쉼표와 '원'을 제거하고, 데이터를 **정수형**으로 바꿔주세요.

In [84]:
product = open('./data/products.csv', 'r')
f = product.readlines()
ff = f[1:]
ff[1]

'1,"[밀레] 통돌이 블랙라벨 플러스 T16DU 605,130원"\n'

In [85]:
test1 = ff[25].rstrip('\n').split('] ')
test1

['25,"[삼성 전자', '버블샷 애드워시 WF21N8750TV 2,890,000원"']

In [86]:
brand_name = test1[0].split('[')
brand_name[1]

'삼성 전자'

In [87]:
test2 = test1[1].rstrip('원"').split()
test2

['버블샷', '애드워시', 'WF21N8750TV', '2,890,000']

In [88]:
price=test2[-1].split(',')
int(''.join(price))

2890000

In [89]:
number = test2[-2]
number

'WF21N8750TV'

In [90]:
name = test2[:-2]
' '.join(name)

'버블샷 애드워시'

In [91]:
id = []
brand = []
name = []
number = []
price = []

for i in range(len(ff)):
    id.append(i)
    test1 = ff[i].rstrip('\n').split('] ')
    brand_name = test1[0].split('[')
    brand.append(brand_name[1])
    test2 = test1[1].rstrip('원"').split()
    price_list = test2[-1].split(',')
    price.append(int(''.join(price_list)))
    number.append(test2[-2])
    name_list = test2[:-2]
    name.append(' '.join(name_list))

In [92]:
id

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99,
 100,
 101,
 102,
 103,
 104,
 105,
 106,
 107,
 108,
 109,
 110,
 111,
 112,
 113,
 114,
 115,
 116,
 117,
 118,
 119,
 120,
 121,
 122,
 123,
 124,
 125,
 126,
 127,
 128,
 129,
 130,
 131,
 132,
 133,
 134,
 135,
 136,
 137,
 138,
 139,
 140,
 141,
 142,
 143,
 144,
 145,
 146,
 147,
 148,
 149,
 150,
 151,
 152,
 153,
 154,
 155,
 156,
 157,
 158,
 159,
 160,
 161,
 162,
 163,
 164,
 165,
 166,
 167,
 168,
 169,
 170,
 171,
 172,
 173,
 174,
 175,
 176,
 177,
 178,
 179,
 180,
 181,
 182,
 183,
 184,


In [93]:
brand

['밀레',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '밀레',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '대우전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '대우전자',
 '삼성 전자',
 '삼성 전자',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '대우전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '삼성 전자',
 '대우전자',
 '밀레',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '삼성 전자',
 '대우전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '대우전자',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '삼성 전자',
 '삼성 전자',
 '삼성 전자',
 '밀레',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '삼성 전자',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '대우전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '밀레',
 '밀레',
 '삼성 전자',
 '밀레',
 '밀레',
 '대우전자',
 '밀레',
 '삼성 전자',
 '삼성 전자',
 '밀레',
 '대우전자',
 '삼성 전자',
 '삼성 전자',
 '대우전자',
 '밀레',
 '삼성 전자',
 '삼성 전자',
 '삼성 전자',
 '밀레',
 '밀레',
 '대우전자',
 '밀레',
 '삼성 전자',
 '밀레',
 '대우전자',
 '밀레',
 '밀레',
 

In [94]:
name

['프리미엄',
 '통돌이 블랙라벨 플러스',
 '통돌이',
 '통돌이',
 '액티브워시',
 '프리미엄',
 '프리미엄',
 '프리미엄',
 '프리미엄',
 '통돌이',
 '프리미엄',
 '액티브워시',
 '프리미엄',
 '워블',
 '프리미엄',
 '공기방울',
 '프리미엄 트윈워시',
 '워블',
 '프리미엄',
 '프리미엄',
 '공기방울',
 '워블',
 '워블',
 '통돌이 블랙라벨 플러스',
 '통돌이 블랙라벨 플러스',
 '버블샷 애드워시',
 '프리미엄',
 '공기방울',
 '프리미엄',
 '플렉스워시',
 '프리미엄',
 '액티브워시',
 '통돌이 블랙라벨',
 '아가사랑',
 '프리미엄 트윈워시',
 '액티브워시',
 '통돌이',
 '통돌이 블랙라벨 플러스',
 '프리미엄',
 '플렉스워시',
 '버블샷',
 '공기방울',
 '통돌이 블랙라벨 플러스',
 '프리미엄 트윈워시',
 '통돌이',
 '프리미엄',
 '버블샷',
 '버블샷 애드워시',
 '공기방울',
 '프리미엄 트윈워시',
 '플렉스워시',
 '통돌이 블랙라벨 플러스',
 '프리미엄 트윈워시',
 '클라쎄',
 '통돌이 블랙라벨 플러스',
 '통돌이 블랙라벨 플러스',
 '플렉스워시',
 '통돌이 블랙라벨 플러스',
 '통돌이',
 '통돌이 블랙라벨 플러스',
 '플렉스워시',
 '버블샷',
 '액티브워시',
 '액티브워시',
 '통돌이',
 '프리미엄',
 '통돌이 블랙라벨 플러스',
 '통돌이 블랙라벨 플러스',
 '버블샷',
 '워블',
 '프리미엄 트윈워시',
 '프리미엄',
 '플렉스워시',
 '프리미엄',
 '프리미엄 트윈워시',
 '통돌이 블랙라벨 플러스',
 '액티브워시',
 '프리미엄',
 '프리미엄 트윈워시',
 '프리미엄',
 '프리미엄 트윈워시',
 '플렉스워시',
 '프리미엄 트윈워시',
 '통돌이 블랙라벨 플러스',
 '프리미엄',
 '프리미엄',
 '액티브워시',
 '통돌이',
 '프리미엄 트윈워시',
 '플렉스워시',
 '통돌이 블랙라벨',
 '공기방

In [95]:
number

['F17WDST',
 'T16DU',
 'TR13BK',
 'TR14WK1',
 'WA14N6781TG',
 'F19VDT',
 'F21VDT',
 'FR14WQT',
 'F17VDW1',
 'TR16SK',
 'F16WDBT',
 'WA10J5710SY1',
 'F14WQT',
 'WA16M6551KS',
 'F21VDP',
 'DWF-11GAWP',
 'F21VDWM',
 'WA10F5S2QWW1',
 'F9WK',
 'FR17VPT',
 'DWF-06EBWP',
 'WA14M6540KY',
 'WA17M7550TW',
 'T15WU',
 'T18DT',
 'WF21N8750TV',
 'F19VDW',
 'DWF-15GAWP',
 'F19VDAW',
 'WR22M9970KV',
 'F14SQT',
 'WA17M7850TV',
 'T20BV',
 'WA30F1K6QSA',
 'F17WDSTM',
 'WA16N6790TV',
 'TR14WK',
 'T15DU',
 'F21VDAT',
 'WR26M9970KV',
 'WF14F5K3AVW1',
 'DWF-14GAWR',
 'T16DT',
 'F19VDAWM',
 'TR12WK',
 'F17WDBU',
 'WF17N7210TP',
 'WD16J7800KS',
 'DWF-15GDGP',
 'F21VDTM',
 'WV20M9670KW',
 'T17WT',
 'F21VDATM',
 'DWD-15PDWCR',
 'T16DR',
 'T18ST',
 'WR20M9970KV',
 'T18VV',
 'TR14BK1',
 'T18SV',
 'WR24M9970KV',
 'WD14F5K3ACW1',
 'WA17M7850GV',
 'WA16N6790TS',
 'TR15SK1',
 'F19VBAT',
 'TS16BV',
 'TS20VV',
 'WF12F9K3UMW11',
 'WA15M6551KS',
 'FH17VBC',
 'F21VBT',
 'WV22M9670KW',
 'F9WKB',
 'F19VDTM',
 'T17WR',
 'WA19

In [96]:
price

[710520,
 605130,
 359760,
 381100,
 411670,
 1172970,
 1358990,
 689940,
 822030,
 470850,
 507600,
 661980,
 2555090,
 634690,
 451180,
 1186610,
 260990,
 1741580,
 286800,
 2759990,
 422090,
 398990,
 1263500,
 383580,
 475000,
 2890000,
 1157250,
 2176200,
 368800,
 367700,
 1158990,
 300880,
 1543900,
 765860,
 628560,
 3166590,
 368960,
 432400,
 1136690,
 585180,
 2629000,
 405120,
 572720,
 1336490,
 1957220,
 553090,
 283990,
 1428080,
 366860,
 340970,
 781990,
 3264840,
 908930,
 328990,
 1819800,
 1196500,
 2478290,
 644890,
 677990,
 791500,
 848370,
 2860940,
 2341910,
 446970,
 1367310,
 1990480,
 647780,
 848840,
 555630,
 471540,
 1007430,
 1610990,
 1358170,
 480220,
 4174450,
 3431000,
 599720,
 3827950,
 825670,
 760950,
 1818620,
 801910,
 2087830,
 1500880,
 1798600,
 966560,
 524820,
 499630,
 1205210,
 3499990,
 3007790,
 2059240,
 3572970,
 1216080,
 296990,
 1750860,
 681870,
 633260,
 165990,
 2700000,
 2807090,
 594000,
 1378840,
 1291120,
 938040,
 561020,

In [102]:
data = {'id': id, 'brand': brand, 'name':name, 'number':number, 'price':price}
data

{'id': [0,
  1,
  2,
  3,
  4,
  5,
  6,
  7,
  8,
  9,
  10,
  11,
  12,
  13,
  14,
  15,
  16,
  17,
  18,
  19,
  20,
  21,
  22,
  23,
  24,
  25,
  26,
  27,
  28,
  29,
  30,
  31,
  32,
  33,
  34,
  35,
  36,
  37,
  38,
  39,
  40,
  41,
  42,
  43,
  44,
  45,
  46,
  47,
  48,
  49,
  50,
  51,
  52,
  53,
  54,
  55,
  56,
  57,
  58,
  59,
  60,
  61,
  62,
  63,
  64,
  65,
  66,
  67,
  68,
  69,
  70,
  71,
  72,
  73,
  74,
  75,
  76,
  77,
  78,
  79,
  80,
  81,
  82,
  83,
  84,
  85,
  86,
  87,
  88,
  89,
  90,
  91,
  92,
  93,
  94,
  95,
  96,
  97,
  98,
  99,
  100,
  101,
  102,
  103,
  104,
  105,
  106,
  107,
  108,
  109,
  110,
  111,
  112,
  113,
  114,
  115,
  116,
  117,
  118,
  119,
  120,
  121,
  122,
  123,
  124,
  125,
  126,
  127,
  128,
  129,
  130,
  131,
  132,
  133,
  134,
  135,
  136,
  137,
  138,
  139,
  140,
  141,
  142,
  143,
  144,
  145,
  146,
  147,
  148,
  149,
  150,
  151,
  152,
  153,
  154,
  155,
  156,
  157

In [103]:
df = pd.DataFrame(data)
df.head()

Unnamed: 0,id,brand,name,number,price
0,0,밀레,프리미엄,F17WDST,710520
1,1,밀레,통돌이 블랙라벨 플러스,T16DU,605130
2,2,밀레,통돌이,TR13BK,359760
3,3,밀레,통돌이,TR14WK1,381100
4,4,삼성 전자,액티브워시,WA14N6781TG,411670


In [104]:
df2 = df.set_index('id')
df2.head()

Unnamed: 0_level_0,brand,name,number,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,밀레,프리미엄,F17WDST,710520
1,밀레,통돌이 블랙라벨 플러스,T16DU,605130
2,밀레,통돌이,TR13BK,359760
3,밀레,통돌이,TR14WK1,381100
4,삼성 전자,액티브워시,WA14N6781TG,411670


In [None]:
# 코드를 작성해주세요

##### 2. 결과 저장

채점을 하기 위해, 가공한 데이터를 현재 파일과 같은 디렉토리(.ipynb 파일이 있는 디렉토리)에 `refined.csv`라는 이름으로 저장해주세요. 저장할 파일 포맷은 상단의 예시와 data 디렉터리의 `refined(sample).csv` 파일을 참고하세요.

*주의* 

1. csv 파일의 컬럼은 반드시 id-brand-name-number-price 순이어야 합니다.
2. **index 순서(id)는 꼭 0부터 시작해야하며, 오름차 순이어야 합니다.**

In [None]:
# 코드를 작성해주세요 (하단의 예시 참고)

In [107]:
# csv 파일 저장 예시 - python
df2.to_csv('refined.csv')

In [106]:
# df2.to_csv('refined2.csv')

In [None]:
# csv 파일 저장 예시 - R
write.csv(df, file='refined.csv')