## 자료분석을 위한 소프트웨어

컴퓨터를 비롯한 IT 기기에서 사용하는 **프로그램(program)** 또는 **소프트웨어(software)**는 크게 **상용 소프트웨어**와 **공개 소프트웨어** 두 가지로 나눌 수 있습니다.
상용 소프트웨어는 대가를 지불하고 사용하는 소프트웨어를 말하고, 공개 소프트웨어는 모든 것이 공개되어 있고 누구나 자유롭게 사용할 수 있는 소프트웨어를 말합니다.
자료분석을 위한 소프트웨어도 마찬가지이며 아래와 같은 소프트웨어를 예로 들 수 있겠습니다.

 * 상용 자료분석 소프트웨어: BMDP, SPSS, SAS, MINITAB, Stat, Systat, S-plus, etc.
 * 공개 자료분석 소프트웨어: GNU Octave, R, Python etc.

 **자유 소프트웨어 운동(Free Software Movement)**운동은 모든 소프트웨어를 누구든지 자유로이 사용할 수 있고, 필요에 따라 변경할 수 있으며, 변경된 소프트웨어를 자유로이 배포할 수 있게 하자는 운동입니다.
 1998년 이후 자유 소프트웨어란 용어의 의미를 분명히 하기위해 **오픈 소스 소프트웨어(open source software, OSS, 공개 소프트웨어)**란 용어를 사용하기 시작하였습니다.
 사용자의 수 측면에서도 과거에는 상용 소프트웨어 사용자가 많았지만 2010년 대에 접어들면서 공개 소프트웨어 사용자가 더 많아졌으며 그 차이는 급격하게 벌어지고 있습니다.
 현재 가장 많이 사랑받는 자료분석용 공개 소프트웨어는 **R**과 **파이썬(Python)**입니다.
 특히 파이썬은 **객체지향 프로그래밍**을 지원하는 **범용 프로그래밍 언어**이기 때문에 더 많은 관심을 받고 있습니다.

## 파이썬을 배워야 하는 이유

1. 배우기 쉬운 프로그래밍 언어 중 하나입니다.
2. 범용 프로그래밍 언어이므로 데이터 분석이 아닌 다른 프로그램을 개발할 때도 사용할 수 있습니다.
3. 특히 데이터 분석(통계분석), 기계학습(machine learning, 머신러닝), 심층학습(deep learning, 딥 러닝), 빅 데이터(big data), 인공지능(artificial intelligence, AI)에 탁월한 능력을 가지고 있습니다.

이런 이유로 최근 가장 인기있는 프로그래밍 언어가 파이썬입니다.
파이썬의 인기를 가늠할 수 있는 한 가지 예로 세계 최대 데이터 분석 사이트인 [Kaggle](https://www.kaggle.com/)에서 `kernels`를 검색해보면 참여자들이 가장 많이 사용하는 언어가 파이썬 임을 확인할 수 있습니다.

## 강의자의 개인적인 경험

1. 1980년대: SPSS
2. 1990년대: SAS
3. 2000년대: R
4. 2010년 이후: Python

## 파이썬

**파이썬(Python)**은 2005년부터 2012년까지 구글, 2013년부터 지금까지 Dropbox에서 일하는 네델란드 출신으로 프로그래머 **귀도 반 로섬(Guido van Rossum, 1956~)**이 1991년 발표한 고급 프로그래밍 언어입니다.

파이썬은

1. **플랫폼 독립(platform independent)**이며,
2. **인터프리터(interpreter)** 언어이며,
3. **객체지향 프로그래밍(object-oriented programming)**을 지원하며,
4. **동적 타이핑(dynamically typed)**을 지원합니다.

## 파이썬 로고

![파이썬 공식 로고](https://www.python.org/static/community_logos/python-logo-master-v3-TM.png)

## 파이썬 배포판

1. [파이썬 공식 배포판](https://www.python.org/downloads/)
2. [과학기술용 배포판: Anaconda](https://anaconda.org/)

현재 데이터 분석, 빅 데이터 분석, 기계학습, 심층학습용으로 가장 널리 사용되는 파이썬 배포판은 Anaconda입니다.

## 데이터 분석, 기계학습, 심층학습을 위한 파이썬 라이브러리

모든 프로그래밍 언어는 **라이브러리(library)**를 제공합니다.
라이브러리는 특정한 용도로 사용할 수 있게 미리 작성한 프로그램을 말하는 것으로 프로그램을 작성하는 사람들은 일반적으로 라이브러리를 이용해서 프로그램을 작성합니다.
이런 방법으로 프로그램을 작성하는 시간과 오류를 줄일 수 있습니다.

통계분석, 기계학습, 심층학습, 빅 데이터, 인공지능 분야를 위한 파이썬 라이브러리 중에서 중요한 것만 소개하면 다음과 같습니다.

1. [numpy](http://www.numpy.org/): 백터와 행렬 연산을 위한 패키지
2. [scipy](https://www.scipy.org/): 과학연구를 위한 패키지
3. [pandas](https://pandas.pydata.org/): 데이터 분석을 위한 자료구조를 지원하는 패키지
4. [statsmodels](http://www.statsmodels.org/stable/index.html): 통계 분석을 위한 패키지
5. [scikit-learn](http://scikit-learn.org/stable/): 기계학습을 지원하는 패키지
6. [scikit-image](http://scikit-image.org/): 이미지 처리를 위한 패키지
6. [nltk](http://www.nltk.org/), [gensim](https://radimrehurek.com/gensim/): 텍스트 처리를 위한 패키지
7. [konlpy](http://konlpy-ko.readthedocs.io): 한국어 텍스트 처리를 위한 패키지
8. [keras](https://keras.io/), [tensorflow](https://www.tensorflow.org/), [theano](http://deeplearning.net/software/theano/): 심층학습을 위한 패키지
9. [matplotlib](https://matplotlib.org/), [bokeh](https://bokeh.pydata.org/), [seaborn](http://www.statsmodels.org/): 그래프 작성을 위한 패키지

## 프로그램을 작성하기 위해 필요한 것

1. 프로그래밍 언어에 대한 지식
2. 프로그램을 작성할 때 사용할 메모장(notepad)과 같은 편집기(editor)
3. 프로그램을 실행해 줄 프로그램

현재 파이썬 사용자가 가장 많이 사용하는 것이 **쥬피터 노트북(Jupyter Notebook)**입니다.
쥬피터 노트북은 프로그램을 작성할 수 있게 해줄 뿐만 아니라 실행도 할 수 있으며 실행 결과도 볼 수 있는 프로그래밍에 필요한 모든 기능을 제공하는 통합 환경을 제공합니다.
뿐만 아니라 문서도 동시에 작성할 수 있게 해주기 때문에 데이터 분석에 필요한 모든 작업을 할 수 있는 환경이라고 할 수 있습니다.

## 파이썬 프로그래밍 환경 구축하기

파이썬으로 프로그램을 개발하기 위한 환경을 구축하는 방법 중 두 가지를 살펴보면 다음과 같습니다.

1. 자신의 컴퓨터에 프로그램 개발 환경을 구축하기
2. 클라우드에서 제공하는 개발환경을 사용하기

현재 마이크로소프트(MicroSoft), 구글(Google), 아마존(Amazon)과 같은 세계적인 IT 기업들은 파이썬 프로그램 개발 환경을 제공하고 있기 때문에 두 번째 방법을 사용하고자 합니다.
특히 무료로 사용할 수 있는 구글 Colab을 이용하여 파이썬 프로그래밍을 강의하겠습니다.
다음과 같은 사항을 만족하면 아무런 설치없이 구글 Colab을 이용하여 바로 파이썬 프로그램을 작성할 수 있습니다.

1. 구글 계정
2. 웹 브라우저(Edge, Chrome 등) 