### Simple EDA

간단하게 데이터를 탐색한다.

In [1]:
import pandas as pd

# 컬럼이 없는 데이터 프레임들은 임의로 컬럼명을 생성하여 사용한다.
df1 = pd.DataFrame(pd.read_csv("./crawl_14435163.csv").values, columns=['title', 'write_date', 'views']) # 데이터프레임 1
df2 = pd.DataFrame(pd.read_csv("./crawl_20720299.csv").values, columns=['title', 'write_date', 'views']) # 데이터프레임 2

df1 = df1[['title', 'views']] # title과 views열만 사용한다
df2 = df2[['title', 'views']]
df3 = pd.read_csv("./naver_cafe_crawl_fix.csv")[['title', 'views']]

### about df1

In [2]:
df1.isna().sum() # 결측치 확인

title    10
views    10
dtype: int64

In [3]:
df1.info() # data type 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75059 entries, 0 to 75058
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   75049 non-null  object
 1   views   75049 non-null  object
dtypes: object(2)
memory usage: 1.1+ MB


In [4]:
df1.dropna(inplace=True, axis = 0) # 결측치 제거

df1['title'] = df1['title'].str.replace("[^ㄱ-ㅎ|ㅏ-ㅣ|가-힣|a-zA-Z ]", "", regex=True) # 한글과 알파벳, 공백을 제외하고 제거
df1['views'] = df1['views'].str.replace("[^0-9]", "", regex=True).astype(int) # label값을 구하기 위해 int타입으로 형전환

dup_cnt = df1['title'].loc[df1['title'].duplicated() == True].count() # 중복되는 개수 조회
print(f"{dup_cnt}개의 중복 자료가 존재합니다.")

df1.drop_duplicates(subset=['title'], inplace=True) # 중복 행 제거
df1 = df1.reset_index(drop = True) # 인덱스 초기화
print(f"{df1.isna().sum().sum()}개의 결측치가 존재합니다.") # 결측치 확인

57456개의 중복 자료가 존재합니다.
0개의 결측치가 존재합니다.


In [5]:
df1.head() # 한글과 알파엣, 공백이 잘 지워졌는지 확인

Unnamed: 0,title,views
0,분양중고양이무료분양 스코티쉬코숏 믹스 살 여아 바다의 새로운 가족이 되어주세요경남 김해,18
1,무엇이든 물어보살,16
2,서마일,9
3,안아드리오,6
4,안녕하세요,1


### about df2

In [6]:
df2.isna().sum() # 결측치 확인

title    10242
views    10242
dtype: int64

In [7]:
df2.info() # data type 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85341 entries, 0 to 85340
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   75099 non-null  object
 1   views   75099 non-null  object
dtypes: object(2)
memory usage: 1.3+ MB


In [8]:
# df1과 동일한 방식으로 진행
df2.dropna(inplace=True, axis = 0)

df2['title'] = df2['title'].str.replace("[^ㄱ-ㅎ|ㅏ-ㅣ|가-힣|a-zA-Z ]", "", regex=True)
df2['views'] = df2['views'].str.replace("[^0-9]", "", regex=True).astype(int)

dup_cnt = df2['title'].loc[df2['title'].duplicated() == True].count()
print(f"{dup_cnt}개의 중복 자료가 존재합니다.")

df2.drop_duplicates(subset=['title'], inplace=True)
df2 = df2.reset_index(drop = True)
print(f"{df2.isna().sum().sum()}개의 결측치가 존재합니다.")

62989개의 중복 자료가 존재합니다.
0개의 결측치가 존재합니다.


### about df3

In [9]:
df3.isna().sum() # 결측치 확인

title    0
views    1
dtype: int64

In [10]:
df3.info() # data type 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43168 entries, 0 to 43167
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   title   43168 non-null  object 
 1   views   43167 non-null  float64
dtypes: float64(1), object(1)
memory usage: 674.6+ KB


In [11]:
# 소수점 자리 아래 확인을 위해서 views 컬럼을 string으로 타입캐스팅
df3['views'] = df3['views'].astype('string')
df3['views'].loc[df3['views'].str.endswith(".0") == True].count() # 모두 소수점 아래 자리는 0이다.

43167

In [12]:
df3.dropna(inplace=True, axis = 0) # 결측치 제거

In [13]:
# 소수점 아래 자리가 모두 .0 이므로 차후에 정수형으로 변환한다.
df3['views'] = df3['views'].astype('string')
df3['views'][0].endswith(".0")

True

In [14]:
#  df1, df2에서 진행한 전처리과정 동일하게 진행
df3['title'] = df3['title'].str.replace("[^ㄱ-ㅎ|ㅏ-ㅣ|가-힣|a-zA-Z ]", "", regex=True)
df3['views'] = df3['views'].str.replace("[^0-9].", "", regex=True).astype(float).astype(int)

dup_cnt = df3['title'].loc[df3['title'].duplicated() == True].count()
print(f"{dup_cnt}개의 중복 자료가 존재합니다.")

df3.drop_duplicates(subset=['title'], inplace=True)
df3 = df3.reset_index(drop = True)
print(f"{df3.isna().sum().sum()}개의 결측치가 존재합니다.")

669개의 중복 자료가 존재합니다.
0개의 결측치가 존재합니다.


In [15]:
df = pd.concat([df1, df2, df3]).reset_index(drop = True) # 전처리 완료한 세 개의 데이터 프레임을 합친다.

In [16]:
df.isna().sum() # 결측치 다시확인

title    0
views    0
dtype: int64

In [17]:
df.head()

Unnamed: 0,title,views
0,분양중고양이무료분양 스코티쉬코숏 믹스 살 여아 바다의 새로운 가족이 되어주세요경남 김해,18
1,무엇이든 물어보살,16
2,서마일,9
3,안아드리오,6
4,안녕하세요,1


In [18]:
df.info() # data type 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72201 entries, 0 to 72200
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   72201 non-null  object
 1   views   72201 non-null  int32 
dtypes: int32(1), object(1)
memory usage: 846.2+ KB


### 라벨링 진행
각 view_cnt의 평균을 내서 평균보다 높으면 1, 아니라면 0을 부여한다.

In [19]:
mean_val = int(df['views'].mean())

In [20]:
mean_val

250

In [21]:
def get_label_list(values, standard):
    label_list = []
    for value in values:
        if value >= standard:
            label_list.append(1)
        else:
            label_list.append(0)
            
    return label_list

df['label'] = get_label_list(df['views'].values, mean_val)

### 데이터 병합
전처리 후 라벨링 한 두 데이터 프레임을 병합합니다.

In [22]:
df

Unnamed: 0,title,views,label
0,분양중고양이무료분양 스코티쉬코숏 믹스 살 여아 바다의 새로운 가족이 되어주세요경남 김해,18,0
1,무엇이든 물어보살,16,0
2,서마일,9,0
3,안아드리오,6,0
4,안녕하세요,1,0
...,...,...,...
72196,편백루바로 만든 장난감 강아지집,249,0
72197,목공은 너무 재밌는거 같아요,467,1
72198,박스훼손품 그 이후,336,1
72199,사는이야기미세먼지냐 추위냐네요,46,0


### 라벨값 분포 확인
각 라벨별 분포를 확인합니다.

In [23]:
df['label'].value_counts()

label
0    46544
1    25657
Name: count, dtype: int64

### 시행착오 1 : 라벨값 간 불균형

평균

|라벨 0|라벨 1|
|---|---|
|46544건|25657건|

평균은 라벨값 간의 큰 격차를 불러오기에, 분위수를 사용한다

제 1 사분위수

|라벨 0|라벨 1|
|---|---|
|18040건|54161건|

제 2 사분위수

|라벨 0|라벨 1|
|---|---|
|36001건|36200건|

그나마 균등하게 분포되는 제 2 사분위수로 채택

In [24]:
df_quantile1 = df['views'].quantile(.5)
print(int(df_quantile1))

176


In [25]:
df['label'] = get_label_list(df['views'], df_quantile1)

In [26]:
df

Unnamed: 0,title,views,label
0,분양중고양이무료분양 스코티쉬코숏 믹스 살 여아 바다의 새로운 가족이 되어주세요경남 김해,18,0
1,무엇이든 물어보살,16,0
2,서마일,9,0
3,안아드리오,6,0
4,안녕하세요,1,0
...,...,...,...
72196,편백루바로 만든 장난감 강아지집,249,1
72197,목공은 너무 재밌는거 같아요,467,1
72198,박스훼손품 그 이후,336,1
72199,사는이야기미세먼지냐 추위냐네요,46,0


In [29]:
df['label'].value_counts()
# df.to_csv("./origin_df.csv", sep=",", encoding="utf8", index=False)

label
1    36200
0    36001
Name: count, dtype: int64

In [32]:
df['views'].mean()

250.00933505076108

In [28]:
pd.read_csv("./origin_df.csv")

Unnamed: 0,title,views,label
0,분양중고양이무료분양 스코티쉬코숏 믹스 살 여아 바다의 새로운 가족이 되어주세요경남 김해,18,0
1,무엇이든 물어보살,16,0
2,서마일,9,0
3,안아드리오,6,0
4,안녕하세요,1,0
...,...,...,...
72196,편백루바로 만든 장난감 강아지집,249,1
72197,목공은 너무 재밌는거 같아요,467,1
72198,박스훼손품 그 이후,336,1
72199,사는이야기미세먼지냐 추위냐네요,46,0
