# **01. 자연어 처리(natural language processing) 준비하기**

자연어(natural language)란 우리가 일상 생활에서 사용하는 언어를 말합니다. 자연어 처리(natural language processing)란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말합니다.

자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야입니다.

최근 딥 러닝의 뛰어난 성능이 괄목할만한 성과를 얻으면서, 인공지능이 IT 분야의 중요 키워드로 떠오르고 있습니다. 자연어 처리는 기계에게 인간의 언어를 이해시킨다는 점에서 인공지능에서 가장 의미있는 연구 분야이면서도 아직도 정복되어야 할 산이 많은 분야입니다.

이 책에서는 자연어 처리에 필요한 전처리 방법, 딥 러닝 이전 주류로 사용되었던 통계 기반의 언어 모델, 그리고 자연어 처리의 비약적인 성능을 이루어낸 딥 러닝을 이용한 자연어 처리에 대한 전반적인 지식을 다룹니다.

이번 챕터는 자연어 처리 공부를 시작하기에 앞서 기본적인 셋팅 방법과 앞으로 공부하게 될 머신 러닝에 대한 전체적인 워크플로우에 대해서 다룹니다.

## **01-01 아나콘다(Anaconda)와 코랩(Colab)**

머신 러닝 실습을 하기 위해서는 많은 패키지가 필요합니다. 이를 일일히 설치하는 것보다는 필요한 패키지들을 모아놓은 파이썬 배포판 '아나콘다'를 설치하는 것을 권장합니다. 아나콘다는 Numpy, Pandas, Jupyter Notebook, IPython, scikit-learn, matplotlib, seaborn, nltk 등 이 책에서 사용할 대부분의 패키지를 전부 포함하고 있습니다.

여기서는 윈도우 환경을 기준으로 두고 아나콘다를 설치하는 방법과 인터넷을 통해 편하게 사용할수 있는 파이썬 실습 환경인 구글의 코랩(Colab)을 소개합니다.

### **1. 아나콘다(Anaconda) 설치**
링크 : https://www.anaconda.com/distribution/

![image.png](attachment:image.png)



위 사이트 링크로 이동하여 사이트 하단으로 이동하면 (저자가 이 책을 작성할 당시 기준) 좌측에 파이썬 3.7 버전과 우측에 파이썬 2.7 버전의 아나콘다 설치 파일이 있습니다. 여기서는 파이썬 3.7 버전 64 비트를 설치합니다.

![image.png](attachment:image.png)



설치 파일을 실행한 후에 다른 윈도우 프로그램을 설치하는 것과 마찬가지로 Next > 를 누르면서 설치를 완료하면 됩니다. 아나콘다를 설치하면 머신 러닝을 위한 기본적인 파이썬 패키지들은 자동으로 설치가 됩니다. 다만 텐서플로우, 케라스, 젠심, 코엔엘파이와 같은 패키지들은 별도 설치가 필요한데 이에 대해서는 뒤에서 추가적으로 설명하겠습니다.

아나콘다를 다 설치했다면 아나콘다 프롬프트를 오픈하겠습니다.

![image-2.png](attachment:image-2.png)

아나콘다 프롬프트를 열었다면 아나콘다 프롬프트에 아래의 커맨드를 입력하여 아나콘다 파이썬 패키지를 전부 최신 버전으로 업데이트 합니다.



```terminal
    > conda update -n base conda  
    > conda update --all  
```

이 책이 작성되었을 당시에는 파이썬 3.7 버전이 최신 버전이었지만, 독자분들이 파이썬을 설치하기 위해서 아나콘다 페이지에 접속하였을 때는 3.7보다 더욱 최신 버전으로 업데이트가 되었을 수 있습니다. 이 경우 무작정 파이썬 최신 버전을 설치하는 것은 좋은 방법이 아닙니다. 일반적으로 아래의 링크에서 파이썬 버전과 호환되는 텐서플로우 버전에 대한 안내가 나와있으니 반드시 설치 전 확인이 필요합니다.

링크 : https://www.tensorflow.org/install/pip?hl=ko

예를 들어 위 페이지에서 'Python 3.9 지원에는 Tensorflow 2.5 이상이 필요합니다.' 라고 기재되어져 있다면, 파이썬 3.9를 설치하였을 때는 반드시 Tensorflow는 2.5 이상을 설치해야만 합니다.

### **2. 구글의 코랩(Colab)**

텐서플로우는 기본적으로 64비트 플랫폼만을 지원하므로 32비트 환경에서는 딥 러닝 실습 환경을 구축하기에는 많은 애로 사항이 있습니다. 또는 개인의 컴퓨터 사양이나 다른 이유로 아나콘다나 여러 패키지 설치가 어려운 경우도 있을 것입니다. 이런 경우에는 인터넷만 된다면 바로 파이썬을 실습할 수 있는 구글의 코랩(Colab)이 있습니다. 구글의 Colab은 뒤에서 설명하게 될 '주피터 노트북'과 매우 유사한 실습 환경을 제공합니다.

* Colab 주소 : https://colab.research.google.com/

구글의 Colab에 접속하는 방법은 위의 URL을 통해서 접속하거나, 구글(http://www.google.co.kr/)에서 Colab이라고 검색해서 접속할 수 있습니다.

#### **1) 파이썬 실습하기**
Colab 사용 시에는 구글 계정이 필요하므로 구글 아이디가 없으신 분들은 먼저 회원가입 후 로그인부터 해주세요.

![image.png](attachment:image.png)

로그인 후 좌측 상단에서 파일 > 새 노트 를 클릭합니다. 조금만 기다리면 파이썬을 실습할 수 있는 실습 환경 창이 뜨게 됩니다.

![image-2.png](attachment:image-2.png)

이때 위 그림과 같이 Colab에서 코드를 작성하는 부분의 단위를 '셀'이라고 합니다. 그림에서 보이는 좌측 상단의 '+ 코드' 버튼을 클릭하여 새로운 셀을 추가할 수 있으며, 셀에서 코드를 작성하고 Shift + Enter키를 눌러서 코드를 실행할 수 있습니다.

![image-3.png](attachment:image-3.png)

셀에 3 + 5라는 코드를 작성하고, Shift + Enter를 누르면 8이라는 결과가 나오게 됩니다. 좌측에 [1]은 해당 코드가 몇 번째로 실행되었는지를 의미합니다. 셀을 추가해보면서 다른 파이썬 코드도 추가적으로 작성해보세요.

#### **2) 무료로 GPU 사용하기**
딥 러닝에서는 CPU보다는 GPU를 사용합니다. Colab에서 실습할 때의 장점은 GPU를 무료로 사용할 수 있다는 점입니다. GPU가 장착된 컴퓨터가 없는 딥 러닝 입문자들은 향후 이 책의 실습을 진행할 때 **Colab에서 GPU를 사용하면서 딥 러닝을 공부하는 것을 강하게 권장드립니다.** GPU를 사용하지 않고 실습을 진행하면 딥 러닝 모델을 학습하는 시간이 지나치게 소요될 수 있습니다.

![image.png](attachment:image.png)


Colab에서 GPU를 사용하는 방법은 새 노트에 진입했을 때 상단에서 런타임 > 런타임 유형 변경을 클릭합니다.

![image-2.png](attachment:image-2.png)

노트 설정의 하드웨어 가속기 > GPU 를 선택 후 저장을 누릅니다. 이후 실습을 진행합니다.

#### **3) 파일 업로드**

![image.png](attachment:image.png)

구글의 Colab에서 데이터를 업로드하여 해당 데이터로 실습을 하고자 한다면, 좌측 상단에서 폴더 모양의 버튼을 클릭합니다. 그 후 윗 방향의 화살표(↑)가 그려진 버튼을 클릭하여 파일을 업로드 할 수 있습니다. 위 그림에서 숫자 1번 버튼과 숫자 2번 버튼이 각각 이에 해당합니다. 예를 들어 test.txt 파일을 업로드한다고 해봅시다.

![image-2.png](attachment:image-2.png)

업로드 후에는 파일 목록에 test.txt 파일이 보입니다.
