<a href="https://colab.research.google.com/gist/FinanceData/72018fe8333c59cc823d8ca8224970c3/notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lab - 데이터 프로젝트 과정 요약

<img width="300" src="http://i.imgur.com/tHmNhjm.png" >

***2017-2022 FinanceData.KR http://financedata.kr***
<!-- TEASER_END -->

## 데이터 프로젝트 과정 요약
0. 라이브러리 임포트 
    - HTML 형식의 데이터를 수집하기 위해 requests 라이브러리 import 
1. 데이터 수집
   - 해당 URL의 데이터를 수집하기 위해 requests 라이브러리를 이용하여 수집
2. 데이터 전처리
    - 수집된 데이터를 공백을 기준으로 분리하여 LIST 자료구조에 저장한다.
3. 데이터 분석
   - Counter 모듈을 이용하여 수집된 단어의 갯수를 구한다
4. 결과 리포트, 응용
   - 단어중 가자 많이 나오는 단어를 20개를 출력한다.
   - w[0] : 단어, w[1] : 반복되는 단어의 수

In [5]:
# 라이브러리 임포트
import requests
from collections import Counter

# 1. 데이터 수집
r = requests.get('https://www.gnu.org/licenses/gpl.txt')

# 2. 데이터 전처리와 저장
words_list = r.text.split()

# 3. 데이터 분석
count = Counter(words_list)

# 4. 결과 리포트, 의사결정 적용
for w in count.most_common(20):
    print('count of "{}" = {}'.format(w[0], w[1]))

count of "the" = 309
count of "of" = 208
count of "to" = 174
count of "a" = 165
count of "or" = 131
count of "you" = 102
count of "that" = 89
count of "and" = 86
count of "this" = 72
count of "for" = 70
count of "in" = 70
count of "is" = 67
count of "work" = 60
count of "not" = 46
count of "under" = 44
count of "any" = 41
count of "with" = 41
count of "License" = 40
count of "covered" = 40
count of "by" = 39


# 예제의 주요 구성
1. 주석 (comment)
    - 코드셀에서 코드의 내용을 설명하거나 코맨트가 필요한 경우 #을 이용할 수 있으며 #는 
      파이썬 인터프리터에서 실행되지 않는다
2. import 모듈: import, from ~ import
    - 다른 파이썬 코드를 내 파이썬 프로그램에서 사용하고자 할때 사용하는 명령어
3. requests
    - 특정 URL로부터 페이지를 가져오고 싶을때 사용하는 모듈임
5. str.lower(), str.split()
    - 파이썬 문자열 함수로 lower()는 모든 영문자를 소문자로 변경해준다.
    - str.split()는 문자열을 공백 기준으로 분리하여 LIST 에 저장해 준다.
6. for..in
    - 순회가능한 변수 저장되어 있는 값을 하나씩 출력하여 준다 
7. Counter, Counter.most_common()
    - 문장을 분석할 때 유용한 모듈로 반복되는 문자의 갯수중 많은 순으로 자료를 출력할 수 있다.  
8. print(), str.format()
    - 콘솔 출력시 사용하는 함수로 일정한 형식으로 사용하는 경우 format()을 이용하여 표현할 수 있다.

# 주석
* 코드셀에서 코드의 내용을 설명하거나 코맨트가 필요한 경우 #을 이용할 수 있으며 #는 파이썬 인터프리터에서 실행되지 않는다

In [None]:
# comment

# 모듈 가져오기
* 다른 파이썬 코드를 내 파이썬 프로그램에서 사용하고자 할때 사용하는 명령어

In [7]:
import requests
from collections import Counter

# requests 모듈
requests 특정 URL로 부터 페이지를 가져온다. get() 혹은 post()를 주로 사용한다.
import 혹은 from ~ import 를 사용한다.

In [8]:
r = requests.get('https://www.gnu.org/licenses/gpl.txt')
print (r.text[:400])

                    GNU GENERAL PUBLIC LICENSE
                       Version 3, 29 June 2007

 Copyright (C) 2007 Free Software Foundation, Inc. <https://fsf.org/>
 Everyone is permitted to copy and distribute verbatim copies
 of this license document, but changing it is not allowed.

                            Preamble

  The GNU General Public License is a free, copyleft license for
software a


# str.lower(), str.split()
* lower() 함수: 문자열을 소문자로 전환
* split() 함수: 문자열을 잘라서 리스트로 반환

In [9]:
words = r.text.lower().split()
print(len(words))

5644


In [None]:
words[:10]

['gnu',
 'general',
 'public',
 'license',
 'version',
 '3,',
 '29',
 'june',
 '2007',
 'copyright']

# 개수 세기, TOP-N 구하기
collections.Counter 를 사용하면 간편하게 개수를 셀 수 있습니다.

* Counter() 딕셔너리에 저장된 값을 카운드 
* Counter.most_common(10) 최상위 10개
 - 반복되는 단어의 갯수중 가장 많은 단어를 순서데로 10개 출력

https://docs.python.org/3/library/collections.html#counter-objects

In [11]:
# 반복되는 단어의 수를 구하고 가장 많이 반복되는 단어를 순서데로 출력한다.
count = Counter(words)
common = count.most_common(10)
common

[('the', 344),
 ('of', 219),
 ('to', 188),
 ('a', 178),
 ('or', 142),
 ('you', 123),
 ('and', 91),
 ('that', 89),
 ('this', 83),
 ('for', 83)]

In [None]:
import requests
from collections import Counter

# 1. 데이터 수집
# 해당 페이지에서 get방식을 이용하여 데이터를 수집
r = requests.get('https://www.gnu.org/licenses/gpl.txt') 

# 2. 데이터 전처리
# 수집된 데이터의 문자열을 잘라서 리스트에 저장
words_list = r.text.split()

# 3. 데이터 분석
count = Counter(words_list)

# 4. 결과 리포트, 응용
for w in count.most_common(20):
    print('count of "{}" = {}'.format(w[0], w[1]))

count of "the" = 309
count of "of" = 208
count of "to" = 174
count of "a" = 165
count of "or" = 131
count of "you" = 102
count of "that" = 89
count of "and" = 86
count of "this" = 72
count of "for" = 70
count of "in" = 70
count of "is" = 67
count of "work" = 60
count of "not" = 46
count of "under" = 44
count of "any" = 41
count of "with" = 41
count of "License" = 40
count of "covered" = 40
count of "by" = 39


***2017-2022 FinanceData.KR http://financedata.kr***
