# 뉴발란스 992 EDA

### import package

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

import warnings
warnings.filterwarnings(action='ignore') # 빨간색 경고메시지 무시해줌

import matplotlib
matplotlib.rc('font', family='AppleGothic') # Mac OS 한글깨짐 방지
matplotlib.rc('axes', unicode_minus=False)

from IPython.display import set_matplotlib_formats # 선명한 그래프
set_matplotlib_formats('retina')

# 데이터프레임이 짤려보이는 것을 해결해줌
pd.options.display.max_rows=100
pd.options.display.max_columns=100
# pd.set_option('display.float_format','{:.4f}'.format) # 숫자포맷설정

### Data Load

In [10]:
newbal = pd.read_csv('./data/newbalance_992.csv')

In [11]:
newbal = newbal.drop(newbal.columns[0], axis=1)

### EDA

In [12]:
newbal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2846 entries, 0 to 2845
Data columns (total 41 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ad                      2846 non-null   bool   
 1   bizseller               2846 non-null   bool   
 2   checkout                2846 non-null   bool   
 3   contact_hope            2846 non-null   bool   
 4   free_shipping           2846 non-null   bool   
 5   is_adult                2846 non-null   bool   
 6   is_super_up_shop        0 non-null      float64
 7   location                2469 non-null   object 
 8   max_cpc                 0 non-null      float64
 9   name                    2846 non-null   object 
 10  num_comment             2846 non-null   int64  
 11  num_faved               2846 non-null   int64  
 12  only_neighborhood       2846 non-null   bool   
 13  outlink_url             0 non-null      float64
 14  pid                     2846 non-null   

In [13]:
newbal.columns

Index(['ad', 'bizseller', 'checkout', 'contact_hope', 'free_shipping',
       'is_adult', 'is_super_up_shop', 'location', 'max_cpc', 'name',
       'num_comment', 'num_faved', 'only_neighborhood', 'outlink_url', 'pid',
       'price', 'product_image', 'pu_id', 'ref_campaign', 'ref_code',
       'ref_medium', 'ref_content', 'ref_source', 'status', 'style',
       'super_up', 'tag', 'uid', 'update_time', 'used',
       'bun_pay_filter_enabled', 'imp_id', 'ad_ref', 'faved', 'datetime',
       'year', 'month', 'day', 'week', 'weekday', 'hour'],
      dtype='object')

In [14]:
columns = ['ad', 'location', 'name', 'num_comment', 'num_faved', 'price', 'status', 'uid', 'used','bun_pay_filter_enabled',
           'datetime', 'year', 'month', 'day', 'week', 'weekday', 'hour']

In [15]:
newbal_df = newbal[columns]

In [16]:
newbal_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2846 entries, 0 to 2845
Data columns (total 17 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   ad                      2846 non-null   bool  
 1   location                2469 non-null   object
 2   name                    2846 non-null   object
 3   num_comment             2846 non-null   int64 
 4   num_faved               2846 non-null   int64 
 5   price                   2846 non-null   int64 
 6   status                  2846 non-null   int64 
 7   uid                     2846 non-null   int64 
 8   used                    2846 non-null   int64 
 9   bun_pay_filter_enabled  2846 non-null   bool  
 10  datetime                2846 non-null   object
 11  year                    2846 non-null   int64 
 12  month                   2846 non-null   int64 
 13  day                     2846 non-null   int64 
 14  week                    2846 non-null   int64 
 15  week

# 뉴발란스 992 그레이

## name 컬럼

- 일단 정확하게 '뉴발란스 992 그레이'라고 적어놓은 제품만 추출함.
- 인덱스는 항상 초기화 해주어야한다.

In [141]:
newbal_gray = newbal_df[newbal_df['name'].str.contains("뉴발란스 992 그레이")]
newbal_gray = newbal_gray.reset_index(drop=True)

In [142]:
newbal_gray['name']

0            265) 뉴발란스 992 그레이 팝니다.
1      270) 뉴발란스 992 그레이 팝니다(박스구겨짐)
2                [280] 뉴발란스 992 그레이
3                  뉴발란스 992 그레이 265
4                [285] 뉴발란스 992 그레이
                   ...             
364              [235] 뉴발란스 992 그레이
365              [270] 뉴발란스 992 그레이
366              [230] 뉴발란스 992 그레이
367                뉴발란스 992 그레이 270
368                뉴발란스 992 그레이 270
Name: name, Length: 369, dtype: object

#### 제품명

In [143]:
newbal_gray['pname'] = '뉴발란스 992 그레이'

**제품명에서 파생하여 brand, product_type, color 가져옴.**

In [144]:
newbal_gray['brand'] = '뉴발란스'

In [145]:
newbal_gray['product_type'] = '뉴발란스 992'

In [146]:
newbal_gray['color'] = '그레이'

#### size 처리
- name컬럼에서 숫자만 뽑아낸뒤, 992숫자를 지운다.
- 이상한값들이 많아서 이는 나중에 없애줘야한다.
- 숫자로 변환해서 150~350 사이숫자만 냅두고, 나머지는 Null값으로 둔다.

In [147]:
import re
# name에서 숫자만 추출
number = []
for i in range(0, len(newbal_gray)):
    number.append(re.sub(r'[^0-9]','',newbal_gray['name'].values[i]))
newbal_gray["size"] = pd.DataFrame(number)

In [148]:
# name에서 992 제거
size = []
for i in range(0, len(newbal_gray)):
    size.append(re.sub('992','',newbal_gray['size'][i]))
newbal_gray["size"] = pd.DataFrame(size)

In [149]:
# 1단계
def size (x):
    return x[0:3]

In [150]:
newbal_gray['size'] = newbal_gray['size'].apply(size)

In [151]:
# # 2단계
# int 변환 후 150 ~ 350 사이값
newbal_gray['size'] = newbal_gray['size'].replace('','0')
newbal_gray['size'] = newbal_gray['size'].astype(int)
newbal_gray['size'][(newbal_gray['size'] >= 200) & (newbal_gray['size'] <= 350)].value_counts().sort_index()

220     2
225     6
230     6
235     7
240     9
245    17
250    17
255    14
260    44
265    49
270    45
275    48
280    40
285    10
290    12
295     7
300     3
310     2
320     1
Name: size, dtype: int64

## price 컬럼
- 정발가 : 259,000원
- 뉴발란스 992 그레이 크림 거래 범위 기준 : 200,000 이상 500,000 이하
- 이상한 값들 제거해야함

In [154]:
newbal_gray = newbal_gray[(newbal_gray['price'] >= 200000) & (newbal_gray['price'] <= 500000)]

In [155]:
newbal_gray

Unnamed: 0,ad,location,name,num_comment,num_faved,price,status,uid,used,bun_pay_filter_enabled,datetime,year,month,day,week,weekday,hour,pname,brand,product_type,color,size
0,False,서울특별시 강서구 발산제1동,265) 뉴발란스 992 그레이 팝니다.,0,9,410000,0,1585398,2,True,2021-11-11 09:24:24,2021,11,11,45,3,9,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,265
1,False,서울특별시 강서구 발산제1동,270) 뉴발란스 992 그레이 팝니다(박스구겨짐),0,3,390000,0,1585398,2,True,2021-11-11 09:24:24,2021,11,11,45,3,9,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,270
2,False,인천광역시 서구 청라3동,[280] 뉴발란스 992 그레이,0,0,380000,0,3756852,2,False,2021-11-11 08:31:40,2021,11,11,45,3,8,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,280
3,False,경기도 부천시 상동,뉴발란스 992 그레이 265,0,0,400000,0,75182195,2,False,2021-11-11 08:04:30,2021,11,11,45,3,8,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,265
4,False,경상남도 창원시 성산구 상남동,[285] 뉴발란스 992 그레이,0,0,345000,0,9987908,2,False,2021-11-11 07:55:01,2021,11,11,45,3,7,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,285
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
364,False,서울특별시 송파구 풍납2동,[235] 뉴발란스 992 그레이,0,0,300000,3,5619804,2,True,2021-06-10 13:04:55,2021,6,10,23,3,13,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,235
365,False,경기도 고양시 일산서구 주엽2동,[270] 뉴발란스 992 그레이,0,0,390000,3,2477372,2,False,2021-06-07 02:23:56,2021,6,7,23,0,2,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,270
366,False,경기도 군포시 금정동,[230] 뉴발란스 992 그레이,0,5,360000,3,7623840,2,False,2021-05-04 09:56:52,2021,5,4,18,1,9,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,230
367,False,서울특별시 서대문구 홍제제2동,뉴발란스 992 그레이 270,0,2,420000,3,12944178,13,False,2021-03-29 10:10:27,2021,3,29,13,0,10,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,270


## location 컬럼

In [175]:
newbal_gray['location'].head()

0     서울특별시 강서구 발산제1동
1     서울특별시 강서구 발산제1동
2       인천광역시 서구 청라3동
3          경기도 부천시 상동
4    경상남도 창원시 성산구 상남동
Name: location, dtype: object

In [194]:
def loc_split(x):
    return x.split()

In [195]:
newbal_gray['location'][0].split()

['서울특별시', '강서구', '발산제1동']

In [196]:
newbal_gray['location'].apply(loc_split)

AttributeError: 'float' object has no attribute 'split'

In [174]:
if test[0][-1] == '시':
    print(test[0])

서울특별시


In [197]:
newbal_gray

Unnamed: 0,ad,location,name,num_comment,num_faved,price,status,uid,used,bun_pay_filter_enabled,datetime,year,month,day,week,weekday,hour,pname,brand,product_type,color,size
0,False,서울특별시 강서구 발산제1동,265) 뉴발란스 992 그레이 팝니다.,0,9,410000,0,1585398,2,True,2021-11-11 09:24:24,2021,11,11,45,3,9,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,265
1,False,서울특별시 강서구 발산제1동,270) 뉴발란스 992 그레이 팝니다(박스구겨짐),0,3,390000,0,1585398,2,True,2021-11-11 09:24:24,2021,11,11,45,3,9,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,270
2,False,인천광역시 서구 청라3동,[280] 뉴발란스 992 그레이,0,0,380000,0,3756852,2,False,2021-11-11 08:31:40,2021,11,11,45,3,8,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,280
3,False,경기도 부천시 상동,뉴발란스 992 그레이 265,0,0,400000,0,75182195,2,False,2021-11-11 08:04:30,2021,11,11,45,3,8,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,265
4,False,경상남도 창원시 성산구 상남동,[285] 뉴발란스 992 그레이,0,0,345000,0,9987908,2,False,2021-11-11 07:55:01,2021,11,11,45,3,7,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,285
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
364,False,서울특별시 송파구 풍납2동,[235] 뉴발란스 992 그레이,0,0,300000,3,5619804,2,True,2021-06-10 13:04:55,2021,6,10,23,3,13,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,235
365,False,경기도 고양시 일산서구 주엽2동,[270] 뉴발란스 992 그레이,0,0,390000,3,2477372,2,False,2021-06-07 02:23:56,2021,6,7,23,0,2,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,270
366,False,경기도 군포시 금정동,[230] 뉴발란스 992 그레이,0,5,360000,3,7623840,2,False,2021-05-04 09:56:52,2021,5,4,18,1,9,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,230
367,False,서울특별시 서대문구 홍제제2동,뉴발란스 992 그레이 270,0,2,420000,3,12944178,13,False,2021-03-29 10:10:27,2021,3,29,13,0,10,뉴발란스 992 그레이,뉴발란스,뉴발란스 992,그레이,270
