# Import Library

In [9]:
import re

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline 

# Load Dataset

In [4]:
train = pd.read_csv('./dataset/train.csv')
train.head()

Unnamed: 0,id,text,target
0,0,"\nThey were, and even if Washington might cons...",10
1,1,"We run ""SpaceNews & Views"" on our STAREACH BBS...",14
2,2,\n\n\nNot to worry. The Masons have been demo...,19
3,3,"Only Brendan McKay, or maybe ARF, would come t...",17
4,4,Help: I am running some sample problems from O...,5


In [7]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9233 entries, 0 to 9232
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      9233 non-null   int64 
 1   text    9233 non-null   object
 2   target  9233 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 216.5+ KB


In [5]:
temp = train.target.unique()
np.sort(temp)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

# preprocessing

In [6]:
def check_missing_col(dataframe):
    missing_col = []
    counted_missing_col = 0
    
    for i, col in enumerate(dataframe.columns):
        missing_values = sum(dataframe[col].isna())
        is_missing = True if missing_values >= 1 else False
        
        if is_missing:
            counted_missing_col += 1
            print(f'결측치가 있는 컬럼은: {col}입니다')
            print(f'해당 컬럼에 총 {missing_values}개의 결측치가 존재합니다.')
            missing_col.append([col, dataframe[col].dtype])
            
    if counted_missing_col == 0:
        print('결측치가 존재하지 않습니다')
        
    return missing_col

missing_col = check_missing_col(train)

결측치가 존재하지 않습니다


In [2]:
def clean_text(texts):
    corpus = []
    
    for i in range(0, len(texts)):
        # @%*=()/+ 와 같은 문장부호 제거
        review = re.sub(
            r'[@%\\*=()/~#&\+á?\xc3\xa1\-\|\.\:\;\!\-\,\_\~\$\'\"\n\]\[\>]', '', texts[i])
        review = re.sub(r'\d+', '', review)      # 숫자 제거
        review = review.lower()                  # 소문자 변환
        review = re.sub(r'\s+', ' ', review)     # extra space 제거
        review = re.sub(r'<[^>]+>', '', review)  # Html tags 제거
        review = re.sub(r'\s+', ' ', review)     # spaces 제거
        review = re.sub(r"^\s+", '', review)     # space from start 제거
        review = re.sub(r'\s+$', '', review)     # space from the end 제거
        review = re.sub(r'_', ' ', review)       # space from the end 제거
        corpus.append(review)

    return corpus

In [10]:
temp = clean_text(train['text']) 
train['text'] = temp
train.head()

Unnamed: 0,id,text,target
0,0,they were and even if washington might conside...,10
1,1,we run spacenews views on our stareach bbs a l...,14
2,2,not to worry the masons have been demonized an...,19
3,3,only brendan mckay or maybe arf would come to ...,17
4,4,help i am running some sample problems from or...,5


## 뉴스 그룹 비율 확인

In [13]:
val_count = train['target'].value_counts()

for i in range(20):
    print(f'라벨 {i}인 리뷰 갯수 : {val_count[i]}')

라벨 0인 리뷰 갯수 : 386
라벨 1인 리뷰 갯수 : 480
라벨 2인 리뷰 갯수 : 458
라벨 3인 리뷰 갯수 : 467
라벨 4인 리뷰 갯수 : 490
라벨 5인 리뷰 갯수 : 496
라벨 6인 리뷰 갯수 : 494
라벨 7인 리뷰 갯수 : 493
라벨 8인 리뷰 갯수 : 475
라벨 9인 리뷰 갯수 : 490
라벨 10인 리뷰 갯수 : 482
라벨 11인 리뷰 갯수 : 488
라벨 12인 리뷰 갯수 : 483
라벨 13인 리뷰 갯수 : 490
라벨 14인 리뷰 갯수 : 467
라벨 15인 리뷰 갯수 : 515
라벨 16인 리뷰 갯수 : 428
라벨 17인 리뷰 갯수 : 455
라벨 18인 리뷰 갯수 : 387
라벨 19인 리뷰 갯수 : 309


## 텍스트 길이 확인

In [19]:
str_len_max = np.max(train['text'].str.len())
str_len_min = np.min(train['text'].str.len())
str_len_mean = np.mean(train['text'].str.len())

print(f'뉴스의 최대 길이 : {round(str_len_max, 0)}')
print(f'뉴스의 최소 길이 : {round(str_len_min, 0)}')
print(f'뉴스의 평균 길이 : {round(str_len_mean, 0)}')

뉴스의 최대 길이 : 71331
뉴스의 최소 길이 : 0
뉴스의 평균 길이 : 1020.0


# Submit

In [23]:
test = pd.read_csv('./dataset/test.csv')
test.head()

Unnamed: 0,id,text
0,0,\nThe VL-IDE Adapter can be much faster then t...
1,1,\n\nYeah. In a fire that reportedly burned ho...
2,2,":Judge: ""I grant you immunity from whatever ma..."
3,3,"I, too, put a corbin seat on my Hawk. I got t..."
4,4,\n\nDo I ever!!!!!! After 2 years of having h...


---

테스트 데이터 전처리

---

In [24]:
submission = pd.read_csv('./dataset/sample_submission.csv')
submission.head()

Unnamed: 0,id,target
0,0,0
1,1,0
2,2,0
3,3,0
4,4,0


In [None]:
submission['target'] = pred
submission.head()

In [None]:
submission.to_csv('./submission.csv', index=False)