# 데이터 불러오기
* 사용한 데이터는 아래 git에 정리되어 있는 데이터를 사용했습니다.
* [링크](https://github.com/bab2min/corpus/tree/master/sentiment)

## urlib.request 모듈 사용
* url을 가져오기 위한 파이썬 모듈.
* 웹과 관련된 데이터를 쉽게 다룰 수 있게 됨.
* 주요 함수.
  * `urlib.urlopen` : string이나 Request 객체인 url을 열어서 사용.
  * `urlib.urlretrieve` : url이 가리키는 주소에 접근해서 해당 데이터를 로컬컴퓨터로 가져오는 방법.


[참고링크1](https://docs.python.org/ko/3/howto/urllib2.html)
[참고링크2](https://han-py.tistory.com/320)
[참고링크3](https://ctkim.tistory.com/entry/%ED%8C%8C%EC%9D%B4%EC%8D%AC-urllib-%EB%AA%A8%EB%93%88)

In [None]:
# 예시
from urllib.request import urlopen    
response = urlopen('http://www.google.co.kr')  
print(response) # 데이터에 대한 객체 반환.
print(response.status) # 상태값(HTTP Status)을 가져위한 status 변수 200시 url열기에 성공했다는 의미.
#response.read() # 결과 값을 읽기 위한 open 실행.


<http.client.HTTPResponse object at 0x7f319b376d70>
200


b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="en"><head><meta content="Search the world\'s information, including webpages, images, videos and more. Google has many special features to help you find exactly what you\'re looking for." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="NFR3a3f4XsQzcsmz1nQEdw">(function(){var _g={kEI:\'_NB1ZL6SFsu70PEPtveBgAE\',kEXPI:\'0,1359409,6059,206,4804,2316,383,246,5,1129120,1197767,124,380599,16115,19398,9286,22431,1361,284,12030,2821,14772,4990,17075,6885,31559,2872,2891,3926,214,4208,3406,606,60690,2614,12710,2025,1,16916,2652,4,1528,2304,29062,13063,13660,2980,1457,9358,13246,6636,7593,1,42154,2,14022,2373,342,21269,1755,6699,953,30169,4569,6258,23418,1252,5835,12141,2827,4332,7484,445,2,2,1,10957,15675,8155,7381,2

In [18]:
import urllib.request
urllib.request.urlretrieve("https://raw.githubusercontent.com/bab2min/corpus/master/sentiment/naver_shopping.txt", filename="naver_shopping.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/bab2min/corpus/master/sentiment/steam.txt", filename="steam.txt")

('steam.txt', <http.client.HTTPMessage at 0x7f317defc970>)

In [22]:
import pandas as pd
naver_data = pd.read_table('naver_shopping.txt', names = ['평가', '데이터'])
steam_data = pd.read_table('steam.txt', names = ['평가', '데이터'])

## 데이터 확인 및 분석

In [27]:
naver_data.head()

Unnamed: 0,평가,데이터
0,5,배공빠르고 굿
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고
2,5,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다. 전...
4,5,민트색상 예뻐요. 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ


In [24]:
steam_data.head()

Unnamed: 0,평가,데이터
0,0,노래가 너무 적음
1,0,"돌겠네 진짜. 황숙아, 어크 공장 그만 돌려라. 죽는다."
2,1,막노동 체험판 막노동 하는사람인데 장비를 내가 사야돼 뭐지
3,1,차악!차악!!차악!!! 정말 이래서 왕국을 되찾을 수 있는거야??
4,1,시간 때우기에 좋음.. 도전과제는 50시간이면 다 깰 수 있어요


In [26]:
len(naver_data), len(steam_data)

(200000, 100000)

In [29]:
# naver 평가 수 확인
naver_data['평가'].value_counts()

5    81177
2    63989
1    36048
4    18786
Name: 평가, dtype: int64

In [30]:
steam_data['평가'].value_counts()

0    50004
1    49996
Name: 평가, dtype: int64

In [34]:
naver_data.info(), steam_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   평가      200000 non-null  int64 
 1   데이터     200000 non-null  object
dtypes: int64(1), object(1)
memory usage: 3.1+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   평가      100000 non-null  int64 
 1   데이터     100000 non-null  object
dtypes: int64(1), object(1)
memory usage: 1.5+ MB


(None, None)

## 라벨링.
* 라벨링 및 기존 데이터삭제
* 합치기

In [52]:
def mapping_naver(x):
  if x >= 4:
    return 1
  elif x <= 2:
    return 0

In [57]:
naver_data['label']=naver_data['평가'].apply(mapping_naver)
steam_data['label']=steam_data['평가']

In [56]:
naver_data.head()

Unnamed: 0,평가,데이터,label
0,5,배공빠르고 굿,1
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고,0
2,5,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...,1
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다. 전...,0
4,5,민트색상 예뻐요. 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ,1


In [60]:
steam_data.head()

Unnamed: 0,평가,데이터,label
0,0,노래가 너무 적음,0
1,0,"돌겠네 진짜. 황숙아, 어크 공장 그만 돌려라. 죽는다.",0
2,1,막노동 체험판 막노동 하는사람인데 장비를 내가 사야돼 뭐지,1
3,1,차악!차악!!차악!!! 정말 이래서 왕국을 되찾을 수 있는거야??,1
4,1,시간 때우기에 좋음.. 도전과제는 50시간이면 다 깰 수 있어요,1


In [66]:
naver_data = naver_data.drop('평가', axis =1)

In [68]:
naver_data.head(3)

Unnamed: 0,데이터,label
0,배공빠르고 굿,1
1,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고,0
2,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...,1


In [64]:
steam_data = steam_data.drop('평가', axis = 1)

In [67]:
steam_data.head(3)

Unnamed: 0,데이터,label
0,노래가 너무 적음,0
1,"돌겠네 진짜. 황숙아, 어크 공장 그만 돌려라. 죽는다.",0
2,막노동 체험판 막노동 하는사람인데 장비를 내가 사야돼 뭐지,1


In [69]:
total_data = pd.concat([naver_data, steam_data])

In [70]:
total_data.head(3)

Unnamed: 0,데이터,label
0,배공빠르고 굿,1
1,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고,0
2,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...,1


## 중복 및 빈 데이터 확인

In [72]:
# 빈 데이터 확인
print(f'naver:\n{naver_data.isnull().sum()}\nsteam: \n{steam_data.isnull().sum()}\ntotal:\n{total_data.isnull().sum()}') 

naver:
데이터      0
label    0
dtype: int64
steam: 
데이터      0
label    0
dtype: int64
total:
데이터      0
label    0
dtype: int64


In [76]:
# 중복 데이터 확인
print(f'naver: {naver_data.duplicated().sum()}')
print(f'steam: {steam_data.duplicated().sum()}')
print(f'total: {total_data.duplicated().sum()}')

naver: 82
steam: 1
total: 91


In [78]:
# 중복 데어터 제거
naver_data.drop_duplicates(inplace = True)
steam_data.drop_duplicates(inplace = True)
total_data.drop_duplicates(inplace = True)

In [79]:
# 확인
print(f'naver: {len(naver_data)}')
print(f'steam: {len(steam_data)}')
print(f'total: {len(total_data)}')

naver: 199918
steam: 99999
total: 299909


# 라벨링 확인

In [82]:
print(f'naver:\n{naver_data["label"].value_counts()}')
print(f'steam:\n{steam_data["label"].value_counts()}')
print(f'total:\n{total_data["label"].value_counts()}')

naver:
0    99960
1    99958
Name: label, dtype: int64
steam:
0    50003
1    49996
Name: label, dtype: int64
total:
0    149956
1    149953
Name: label, dtype: int64
