# 텍스트 분석 + a

이번 시간에는 판다스로 텍스트를 정리하고 분석하는 방법에 대해 배웁니다. 또한 1주차에서 배우지 못한 판다스의 DataFrame을 다루는 몇몇 고급 기능과, 데이터를 고치면서 주기적으로 백업하는 방법 등에 대해서도 배울 것입니다.

In [1]:
import pandas as pd

## 한글 파일을 읽어오기

판다스로 텍스트 분석을 할 때 가장 곤란을 겪은 부분 중 하나가 한글 파일을 읽어오는 것입니다. 대부분의 한글 파일은 잘 읽히지만, 간혹 읽히지 않거나 한글이 깨져서 나오는 경우가 많습니다. (관공서 데이터가 가장 대표적입니다)

이번 시간에는 이러한 한글 데이터를 어떻게 읽어올 수 있는지 배워보겠습니다.

In [5]:
# 일반적인 한글 데이터는 평범하게 read_csv를 해도 잘 읽힙니다.
pd.read_csv("data/review.csv")

In [4]:
# 하지만 몇몇 데이터(특히나 관공서 데이터)의 경우
# UnicodeDecodeError 가 나면서 잘 안 읽히는 경우가 있습니다.
pd.read_csv("data/car-crash.csv")

In [26]:
# 이 경우에는 engine="python" 옵션을 주면 잘 읽히는 경우가 있습니다.
# engine="python" 옵션은 csv를 해결하는 프로그램을 C버전을 사용할지, Python 버전을 사용할지 선택하는 것입니다.
# C버전이 빠르기 때문에 기본 설정이며, Python 버전을 쓰면 느리지만 한글 데이터에서 잘 동작합니다.
# 하지만 이 파일은 engine="python" 옵션으로 읽어왔을 경우 한글 파일이 깨져 보입니다.
pd.read_csv("data/car-crash.csv", engine='python')

Unnamed: 0,�߻��⵵,����,�հ�,�Ϲݱ���,���浵,Ư�������õ�,�õ�,����.1,���ӱ���,��Ÿ
0,2013,�߻��Ǽ�,215354,17450,18655,87139,65877,6865,3231,16137
1,2013,������(%),100,8.1,8.7,40.5,30.6,3.2,1.5,7.5
2,2013,������,-8302,-2185,-1189,-7954,-2194,-244,-319,5783
3,2013,������,-3.7,-11.1,-6,-8.4,-3.2,-3.4,-9,55.9
4,2012,�߻��Ǽ�,223656,19635,19844,95093,68071,7109,3550,10354
5,2012,������(%),100,8.8,8.9,42.5,30.4,3.2,1.6,4.6
6,2012,������,-,-,-,-,-,-,-,-
7,2012,������,-,-,-,-,-,-,-,-


In [27]:
# 또다른 옵션인 encoding='euc-kr' 를 주었습니다.
# 보통 한글 파일의 경우 UTF-8이라는 포멧으로 저장하는데, 예전 파일이나 웹페이지의 경우 EUC-KR이라는 포멧으로 저장합니다.
# 그래서 encoding='euc-kr' 옵션을 주면 잘 읽히는 것을 알 수 있습니다.
pd.read_csv("data/car-crash.csv", encoding='euc-kr')

Unnamed: 0,발생년도,구분,합계,일반국도,지방도,특별광역시도,시도,군도,고속국도,기타
0,2013,발생건수,215354,17450,18655,87139,65877,6865,3231,16137
1,2013,구성비(%),100,8.1,8.7,40.5,30.6,3.2,1.5,7.5
2,2013,증감수,-8302,-2185,-1189,-7954,-2194,-244,-319,5783
3,2013,증감률,-3.7,-11.1,-6,-8.4,-3.2,-3.4,-9,55.9
4,2012,발생건수,223656,19635,19844,95093,68071,7109,3550,10354
5,2012,구성비(%),100,8.8,8.9,42.5,30.4,3.2,1.6,4.6
6,2012,증감수,-,-,-,-,-,-,-,-
7,2012,증감률,-,-,-,-,-,-,-,-


In [28]:
# 만일 encoding='euc-kr' 옵션을 넣어도 잘 읽히지 않는다면,
# 구글 드라이브 https://drive.google.com 에서 CSV파일을 업로드 하고 다시 다운로드 받아보세요.
# 구글 드라이브가 자동으로 UTF-8로 변경해서 제공해줍니다.
pd.read_csv("data/car-crash-gd.csv")

Unnamed: 0,발생년도,구분,합계,일반국도,지방도,특별광역시도,시도,군도,고속국도,기타
0,2013,발생건수,215354,17450,18655,87139,65877,6865,3231,16137
1,2013,구성비(%),100,8.1,8.7,40.5,30.6,3.2,1.5,7.5
2,2013,증감수,-8302,-2185,-1189,-7954,-2194,-244,-319,5783
3,2013,증감률,-3.7,-11.1,-6,-8.4,-3.2,-3.4,-9,55.9
4,2012,발생건수,223656,19635,19844,95093,68071,7109,3550,10354
5,2012,구성비(%),100,8.8,8.9,42.5,30.4,3.2,1.6,4.6
6,2012,증감수,-,-,-,-,-,-,-,-
7,2012,증감률,-,-,-,-,-,-,-,-


### 텍스트 데이터를 다루기

이번에는 읽어온 한굴 데이터를 활용해 텍스트를 정리하고 분석하는 작업을 진행해보겠습니다. 

판다스의 ```Series```에는 ```.str```이라는 옵션을 제공하는데, 이 옵션을 통해 판다스의 텍스트(이하 문자열)를 다양한 방식으로 정리하고 분석할 수 있습니다.

In [29]:
# 일반적인 한글 데이터는 평범하게 read_csv를 해도 잘 읽힙니다.
review = pd.read_csv("data/review.csv")
review

Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점
1,박진형,위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 매...,9점
2,강석민,"한국인 직원이 있어서 채크인/아웃 할때 많이 편했고, 음식점 추천과 예약 등 세심하...",10점
3,최진강,호텔이 너무 좋아서 밖으로 못나감..ㅠㅠ 정말 최고입니다.,8점


In [30]:
# 텍스트의 길이를 구할 수 있습니다.
review["리뷰"].str.len()

0     32
1     60
2    134
3     32
Name: 리뷰, dtype: int64

In [31]:
# 영어의 경우 upper 옵션을 통해 모든 알파벳을 대문자로 바꿀 수 있습니다.
review["리뷰"].str.upper()

0                     위치나 시설, 직원태도등 최근 방문한 호텔중 BEST였음.
1    위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 매...
2    한국인 직원이 있어서 채크인/아웃 할때 많이 편했고, 음식점 추천과 예약 등 세심하...
3                     호텔이 너무 좋아서 밖으로 못나감..ㅠㅠ 정말 최고입니다.
Name: 리뷰, dtype: object

In [32]:
# 정 반대에 해당하는 lower 옵션도 있습니다.
review["리뷰"].str.lower()

0                     위치나 시설, 직원태도등 최근 방문한 호텔중 best였음.
1    위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 매...
2    한국인 직원이 있어서 채크인/아웃 할때 많이 편했고, 음식점 추천과 예약 등 세심하...
3                     호텔이 너무 좋아서 밖으로 못나감..ㅠㅠ 정말 최고입니다.
Name: 리뷰, dtype: object

In [33]:
# 특정 사용자만 가져오는 방식은 판다스의 일반적인 색인 기능을 사용하면 됩니다.
review[review["사용자"] == "김경이"]

Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점


In [34]:
# 여러 명의 사용자를 가져오고 싶다면? isin 옵션을 사용하면 됩니다.
user_list = ["김경이", "박진형"]
review[review["사용자"].isin(user_list)]

Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점
1,박진형,위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 매...,9점


In [72]:
# 특정 단어나 문장을 replace를 통해 바꿔줄 수도 있습니다.
review["리뷰"].str.replace("채크인", "체크인")

0                     위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.
1    위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 매...
2    한국인 직원이 있어서 체크인/아웃 할때 많이 편했고, 음식점 추천과 예약 등 세심하...
3                     호텔이 너무 좋아서 밖으로 못나감..ㅠㅠ 정말 최고입니다.
Name: 리뷰, dtype: object

In [35]:
# contains를 쓰면 특정 단어나 문장이 포함되어있는지 여부를 알 수 있습니다.
review["리뷰"].str.contains("위치")

0     True
1     True
2    False
3    False
Name: 리뷰, dtype: bool

In [36]:
# or(|) operator를 통해 위치나 시설 중 하나가 들어가있는지를 체크할 수 있습니다.
# 아래와 같은 표현을 전문용어로 정규표현식(regular expression)이라고 합니다.
review["리뷰"].str.contains("위치|시설")

0     True
1     True
2     True
3    False
Name: 리뷰, dtype: bool

In [37]:
# and 조건은 조금 복잡하지만 마찬가지로 정규표현식을 통해 표현할 수 있습니다.
# 정규표현식은 이번 수업의 메인 주제가 아니기 때문에 간단하게 다루도록 하겠습니다.
review["리뷰"].str.contains("(?=.*위치)(?=.*시설)")

0     True
1    False
2    False
3    False
Name: 리뷰, dtype: bool

In [38]:
# 단순히 존재하냐/존재하지 않냐가 아니라, 해당 단어의 갯수가 몇 개인지도 파악할 수 있습니다.
review["리뷰"].str.count("(?=.*위치)(?=.*시설)")

0    1
1    0
2    0
3    0
Name: 리뷰, dtype: int64

In [39]:
# split를 사용하면 문장을 단어로 쪼갤 수 있습니다. 단어로 쪼개는 가장 기본 조건은 띄어쓰기(" ")입니다.
review["리뷰"].str.split()

0             [위치나, 시설,, 직원태도등, 최근, 방문한, 호텔중, Best였음.]
1    [위치도, 좋고, 침대가, 편안해서, 숙면을, 취한점이, 좋았습니다., 직원들도, ...
2    [한국인, 직원이, 있어서, 채크인/아웃, 할때, 많이, 편했고,, 음식점, 추천과...
3             [호텔이, 너무, 좋아서, 밖으로, 못나감..ㅠㅠ, 정말, 최고입니다.]
Name: 리뷰, dtype: object

In [40]:
# split에 쪼개는 조건을 넣어주면 해당 조건으로 쪼갤 수 있습니다.
review["리뷰"].str.split(",")

0                  [위치나 시설,  직원태도등 최근 방문한 호텔중 Best였음.]
1    [위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 ...
2    [한국인 직원이 있어서 채크인/아웃 할때 많이 편했고,  음식점 추천과 예약 등 세...
3                   [호텔이 너무 좋아서 밖으로 못나감..ㅠㅠ 정말 최고입니다.]
Name: 리뷰, dtype: object

In [41]:
# 데이터를 다루다가 가끔 일어나는 문제인데, 데이터를 제공해주는 측에서 정리를 실수해서
# 컬럼 이름에 띄어쓰기(" ")가 포함해서 제공해주는 경우도 있습니다.
raw_review = review.copy()

# 컬럼에 띄어쓰기가 들어가 있습니다.
raw_review.columns = ["사용자 ", " 리뷰 ", " 평점"]

# 이 경우 DataFrame을 출력하는 화면에서는 눈치챌 수 없습니다.
raw_review

Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점
1,박진형,위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 매...,9점
2,강석민,"한국인 직원이 있어서 채크인/아웃 할때 많이 편했고, 음식점 추천과 예약 등 세심하...",10점
3,최진강,호텔이 너무 좋아서 밖으로 못나감..ㅠㅠ 정말 최고입니다.,8점


In [42]:
# 이 경우 "사용자" 라고 검색하면 컬럼을 가져오지 못합니다.
raw_review["사용자"]

KeyError: '사용자'

In [43]:
# 하지만 "사용자 " 라고 검색하면 컬럼을 가져옵니다.
raw_review["사용자 "]

0    김경이
1    박진형
2    강석민
3    최진강
Name: 사용자 , dtype: object

In [44]:
# 이럴 때는 데이터를 로딩할 때 컬럼에서 띄어쓰기를 제거해 줘야 하는데,
# 이 경우 가장 많이 쓰이는 기능이 strip 입니다.
raw_review.columns.str.strip()

Index(['사용자', '리뷰', '평점'], dtype='object')

In [45]:
# lstrip은 왼쪽 띄어쓰기만 제거하고
raw_review.columns.str.lstrip()

Index(['사용자 ', '리뷰 ', '평점'], dtype='object')

In [46]:
# rstrip은 오른쪽 띄어쓰기만 제거합니다.
raw_review.columns.str.rstrip()

Index(['사용자', ' 리뷰', ' 평점'], dtype='object')

In [47]:
# strip을 활용해서 컬럼의 띄어쓰기를 제거해주면
raw_review.columns = raw_review.columns.str.strip()

# 이제는 "사용자 "가 아닌 "사용자"로 가져올 수 있습니다.
raw_review["사용자"]

0    김경이
1    박진형
2    강석민
3    최진강
Name: 사용자, dtype: object

In [48]:
# str에는 get_dummies라는 재미있는 기능이 있습니다.
# sep에 구분자가 되는 텍스트를 지정해 주면, 1) 해당 텍스트로 문장을 쪼개준 뒤
# 2) 쪼갠 결과(아마도 단어)가 문장마다 몇 개가 있는지를 알아서 계산해줍니다.
review_tokens = review["리뷰"].str.get_dummies(sep=" ")
review_tokens

Unnamed: 0,Best였음.,깨끗하고,너무,등,따로,"룸서비스,조식",만족한,많이,매우,모두,...,친절해서,침대가,편안해서,"편했고,",포함되어있지,한국인,할때,현대적입니다.,호텔이,호텔중
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
1,0,0,0,0,0,0,1,0,1,1,...,1,1,1,0,0,0,0,0,0,0
2,0,1,0,1,1,1,0,1,0,0,...,0,0,0,1,1,1,1,1,0,0
3,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


In [49]:
# 이를 concat를 통해 원본 데이터 옆에 붙여준 뒤 분석에 포함시키는 게 일반적인 사용 방식입니다.
pd.concat([review, review_tokens], axis=1)

Unnamed: 0,사용자,리뷰,평점,Best였음.,깨끗하고,너무,등,따로,"룸서비스,조식",만족한,...,친절해서,침대가,편안해서,"편했고,",포함되어있지,한국인,할때,현대적입니다.,호텔이,호텔중
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
1,박진형,위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 매...,9점,0,0,0,0,0,0,1,...,1,1,1,0,0,0,0,0,0,0
2,강석민,"한국인 직원이 있어서 채크인/아웃 할때 많이 편했고, 음식점 추천과 예약 등 세심하...",10점,0,1,0,1,1,1,0,...,0,0,0,1,1,1,1,1,0,0
3,최진강,호텔이 너무 좋아서 밖으로 못나감..ㅠㅠ 정말 최고입니다.,8점,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


## 파일 저장하기

대용량의 데이터를 판다스로 많은 작업을 하게되면, 종종 같은 작업을 반복하지 않도록 처리 결과를 중간중간 미리 저장해놓으면 좋습니다. 판다스와 파이썬에는 다양한 저장 방식이 있는데, 가장 빈번하게 사용하는 것은 1) CSV, 2) pickle, 3) joblib 입니다.

** CSV로 파일 저장하기 / 로드하기 **

판다스의 가장 기본적인 저장 방식입니다. 장점은 저장 결과가 사람이 읽을 수 있는 텍스트 형태로 나오기 때문에 가독성이 있습니다. 단점은 가독성을 중시하기 때문에 파일을 압축하지 않아 저장 용량도 크고 저장 속도도 다소 오래 걸립니다.

In [50]:
review_large = pd.concat([review.copy() for _ in range(10000)])

print(review_large.shape)
review_large.head()

(40000, 3)


Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점
1,박진형,위치도 좋고 침대가 편안해서 숙면을 취한점이 좋았습니다. 직원들도 모두 친절해서 매...,9점
2,강석민,"한국인 직원이 있어서 채크인/아웃 할때 많이 편했고, 음식점 추천과 예약 등 세심하...",10점
3,최진강,호텔이 너무 좋아서 밖으로 못나감..ㅠㅠ 정말 최고입니다.,8점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점


In [51]:
# to_csv로 저장하면
%time review_large.to_csv("review_large.csv", index=False)

CPU times: user 128 ms, sys: 114 ms, total: 242 ms
Wall time: 354 ms


In [52]:
# read_csv로 읽어올 수 있습니다.
%time review_large = pd.read_csv("review_large.csv")
review_large.head(1)

CPU times: user 68.3 ms, sys: 12.5 ms, total: 80.8 ms
Wall time: 85.9 ms


Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점


In [53]:
!stat -f '%z' "review_large.csv"

7070024


** pickle로 파일 저장하기/로드하기 **

파이썬에서 권장하는 가장 기본적인 저장 방식입니다. 장점은 1) 데이터프레임뿐만 아니라 모든 형식의 데이터는 전부 Pickle로 저장할 수 있곡, 2) CSV보다 더 효율적인 용량으로 저장할 수 있고 3) 저장 속도와 파일을 읽는 속도 둘 다 훨씬 빠릅니다. 단점은 CSV와는 달리 가독성있는 형태로 저장되지 않습니다.

보통 전처리 중간중간 파일을 저장하고 싶을 경우 가장 많이 사용하는 포멧입니다.

In [54]:
import pickle

%time pickle.dump(review_large, open("review_large.p", "wb"))

CPU times: user 4.88 ms, sys: 1.92 ms, total: 6.8 ms
Wall time: 6.28 ms


In [55]:
%time review_large = pickle.load(open("review_large.p", "rb"))
review_large.head(1)

CPU times: user 5.48 ms, sys: 2.96 ms, total: 8.43 ms
Wall time: 11.2 ms


Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점


In [56]:
!stat -f '%z' "review_large.p"

241761


** joblib로 파일 저장하기/로드하기 **

파이썬에는 pickle 외에도 joblib라고 하는 데이터 저장용 패키지가 있습니다. pickle과 유사하게 동작하지만, 1) compress=True 옵션을 주면 파일 크기가 비약적으로 작아지고, 2) pickle보다 속도가 다소 느리지만 그렇다고 심각하진 않습니다. 하지만 joblib라는 별도의 라이브러리를 설정해줘야 하는 단점이 있습니다.

보통은 데이터가 작으면 pickle, 데이터가 크면 joblib를 사용합니다.

In [57]:
!pip install joblib



In [58]:
import joblib
# from sklearn.externals import joblib

%time joblib.dump(review_large, 'review_large.pkl', compress=True)

CPU times: user 12.5 ms, sys: 2.22 ms, total: 14.7 ms
Wall time: 14.2 ms


['review_large.pkl']

In [59]:
%time review_large = joblib.load('review_large.pkl')
review_large.head(1)

CPU times: user 13.8 ms, sys: 5.9 ms, total: 19.7 ms
Wall time: 19.5 ms


Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점


In [60]:
!stat -f '%z' "review_large.pkl"

5557


또한 파일을 저장할 때 폴더를 지정할 수 있는데, 이 경우 폴더가 없을 것을 대비하여 새 폴더를 만들어주는 코드를 추가로 작성해주는 게 도움이 됩니다.

In [64]:
import os
import pickle

# 폴더명을 지정합니다.
directory = "history/"

# 해당 폴덕가 없으면
if not os.path.exists(directory):
    # makedires로 새 폴더를 만듭니다.
    os.makedirs(directory)

# 이후 해당 폴더에 파일을 저장합니다.
filepath = directory + "review_large.p"
pickle.dump(review_large, open(filepath, "wb"))

In [65]:
review_large = pickle.load(open("review_large.p", "rb"))
review_large.head(1)

Unnamed: 0,사용자,리뷰,평점
0,김경이,"위치나 시설, 직원태도등 최근 방문한 호텔중 Best였음.",8점
