## 학습정리
### 9장. 파이썬으로 데이터 수집하기 

#### 9.1 stdin과 stdout
* 데이터 파이핑(piping) 
    * 커맨드라인에서 파이썬 코드 실행 : sys.stdin , sys.stdout
    * 파일에 숫자가 포함된 줄이 몇개나 있는지 확인
    * cat SomeFile.txt | python egrep.py "[0-9]" | python line_count.py 
        * '|' : 파이프 기호, "왼쪽의 출력을 오른편의 입력으로 사용"

#### 9.2 파일 읽기
* 텍스트 파일의 기본
    * 읽기 : file_for_reading = open('reading_file.txt','r')
        * r : default
    * 쓰기 : file_for_reading = open('writing_file.txt','w')
        * 해당파일이 이미 존재하면 기존 파일을 제거
    * 추가하기 : file_for_reading = open('appending_file.txt','a')
        * 파일의 맨 끝에 덧 붙임
    * 작업 끝난후 파일을 닫음 : file_for_writing.close()

* 파일을 저절로 닫아주는 with
    * with open(filename) as f :

* 구분자가 있는 파일
    * 보통 ','이나 탭('\t')으로 분리되어 있음
    * 파일에 헤더가 없다면 csv.reader로 각 행을 리스트로 바꿀 수 있다. 
        * import csv
        * reader.next : 행을 건너뀜
        * csv.DictReader : 헤더를 key로 사용하는 딕셔너리로 저장
        * csv.writer : 구분자가 있는 파일 생성
        
#### 9.3 웹 스크래핑
* 웹 스크래핑 : 웹페이지에서 데이터를 긁어오는 것
    * HTML과 파싱 
        * Beautiful Soup : HTML 요소를 tree구조로 저장해서 쉽게 접근하게 해주는 라이브러리
        * Request : 효과적으로 HTTP 요청을 할 수 있는 Requests 라이브러리
        * html5lib parser : 파이썬에 기본적으로 탑재된 HTML parser보다 효과적으로 사용가능
        * 소스 보기 기능으로 URL링크를 확인 할 수 있다.
            * text = requests.get(url).text
            * soup = BeautifulSoup(text,"html5lib")
            * 정규표현식을 활용해서 url찾기
             
#### 9.4 API 사용하기
* API(application programming interface) : 데이터를 구조화된 형태로 제공
* JSON(JavaScript Object Notation) : 직렬화된 문자열 형태로 API를 통해 요청가능
    * 파이썬의 json모듈을 통해 파싱 가능
    * json.loads 함수 : 직렬화된 문자열 형태의 JSON을 파이썬 객체로 분리
* XML
    * Beautiful Soup으로 HTML에서 갖고 온 것처럼 XML에서도 가능
    
* 인증이 필요하지 않은 API 사용하기
    * 대부분의 API는 사용자 인증을 거쳐야 함
        * 인증없이 간단한 작업가능 깃허브 API
    * 파이썬의 장점 : 거의 모든 API에 접근할 수 있는 라이브러리가 존재
    
* API 찾기
    * 특정 사이트의 데이터가 필요할 때
    * developers 혹은 API라는 페이지 탐색
    * python ... api 검색 (ex. yelp, instagram, spotify..)
    * Real Pytjon on GitHub : python wrapper API목록 확인
    * API 라이브러리를 찾을 수 없다면 스크래핑(크롤링)

* 트위터 API : Twython 라이브러리
    * 설치 : python -m pip install twython
    * 인증 받기 : 트위터 계정을 통해 인증
        * [인증 및 key 받는 방법](http://hleecaster.com/twitter-api-developer/)
        * Consumer API keys 
            * Keys and tokens에서 API key와 API secret key를 포함
            * 공유해서는 안됨. 
                * credentials.json을 만들어 키를 저장해두고 json.load로 사용
    * 사용하기
        * 본인 인증 : twitter api 가장 까다로운 부분
            * 트위터 Search API는 임의로 몇개만 보여줌
        * Streaming API로 많은 트윗 탐색 가능
            * 사용을 위해 접속 토큰을 사용해서 인증
            * TwythonStream 상속
            * on_success 함수와 (on_error)치환하는 클래스를 정의
    * 실제 프로젝트를 진행할 때는 불러온 트윗을 인메모리인 리스트에 저장하지 않고 파일이나 DB에 저장하여 보관

* Scrapy : 모르는 링크를 따라가는 기능 같이 좀더 복잡한 웹스크래퍼를 만드는데 필요한 도구,라이브러리 

## code

In [None]:
# egrep.py
# 문서를 읽고 주어진 정규표현식(regex)과 매칭되는 줄을 출력 
import sys, re
# sys.argv :커맨드라인에서 사용할 수 있는 모든 인자에 대한 리스트
# sys.argv[0] : 프로그램의 이름
# sys.argv[1] : 커맨드라인에서 주어지는 정규표현식
regex = sys.argv[1]
# 문서의 모든 줄에 대해 
for line in sys.stdin :
    # regex에 매칭된다면 stdout으로 출력 
    if re.search(regex, line) :
        sys.stdout.write(line)

In [None]:
# line_count.py
import sys 

count = 0
for line in sys.stdin :
    count += 1

# 출력값은 sys.stdout으로 보냄
print(count)

In [None]:
# 입력되는 문서의 단어를 모두 세어보고 가장 자주 나오는 단어를 출력
# most_common_words.py
import sys
from collections import Counter

# 출력하고 싶은 단어의 수를 첫 번째 인자로 입력 
try :
    num_words = int(sys.argv[1])
except : 
    print("usage: most_common_words.py num_words")
    sys.exit(1) # exit 코드 뒤에 0 외의 숫자가 들어오면 에러를 의미

counter = Counter(word.lower() #단어 소문자로 변환 
                 for line in sys.stdin 
                 for word in line.strip().split() #띄어쓰기 기준으로 나눔
                 if word) # 비어 있는 word는 무시

for word, count in counter.most_common(num_words):
    sys.stdout.write(str(count))
    sys.stdout.write("\t")
    sys.stdout.write(word)
    sys.stdout.write("\n")
    

In [2]:
# 터미널 : cat the_bible.txt | python most_common_words.py 10  
# 10개 출력

In [None]:
# 파일을 저절로 닫아주는 with
with open(filename) as f:        
    data = function_that_gets_data_from(f)
# 이 시점부터는 f가 이미 종료되었기 때문에 f 사용 불가
process(data)  

In [None]:
# 텍스트 파일 전체를 불러오기 
start_with_hash = 0

with open('input.txt') as f :
    for line in f:
        if re.match("^#",line) : # regex로 줄이 '#'으로 시작하는지 확인
            starts_with_hash += 1 

# 항상 새로운 줄의 시작을 의미하는 개행 문자로 끝남 
# strip을 사용해서 제거해야함

In [None]:
# 이메일 주소가 적혀 있는 파일 email_addresses.txt
# 메일 도메인을 구해주는 함수

def get_domain(email_address: str ) -> str :
    """'@' 기준으로 주소를 자르고 마지막 부분 반환"""
    return email_address.lower().split("@")[-1]

# 테스트
assert get_domain('joelgrus@gmail.com') == 'gmail.com'
assert get_domain('joel@m.datasciencester.com') == 'm.datasciencester.com'

from collections import Counter

with open('email_addresses.txt', 'r') as f :
    domain_counts = Counter(get_domain(line.strip())
                           for line in f
                           if "@" in line)
    

In [None]:
import csv 
# 탭으로 분리된 파일 읽기
with open('tab_delimited_stock_prices.txt') as f :
    tab_reader = csv.reader(f, delimiter = '\t')
    for row in tab_reader :
        date = row[0]
        symbol = row[1]
        closing_price = float(row[2])
        process(date, symbol, closing_price)
        

In [None]:
# 헤더를 키로 사용하는 딕셔너리로 저장 
with open('colon_delimited_stock_prices.txt') as f :
    colon_reader = csv.DictReader(f, delimiter = ':')
    for dict_row in colon_reader :
        date = dict_row["date"]
        symbol = dict_row["symbol"]
        closing_price = float(dict_row["closing_price"])
        process(date, symbol, closing_price)
    

In [5]:
import csv

In [6]:
# csv_writer : 구분자','가 있는 파일 comma_delimited_stock_prices.txt 생성
todays_prices = {'AAPL' : 90.91, 'MSFT' : 41.68, 'FB' : 64.5}

with open('comma_delimited_stock_prices.txt', 'w') as f :
    csv_writer = csv.writer(f,delimiter = ',')
    
    for stock,price in todays_prices.items() :
        csv_writer.writerow([stock, price])
# 필드안에 쉼표가 있더라도 csv.writer는 올바르게 처리해줌

In [25]:
# bs4함수에 HTML을 전달(requests.get의 결괏값을 전달)
from bs4 import BeautifulSoup
import requests

# 사용할 HTML
# 공백으로 분리된 문자열은 하나로 연결된다
url = ("https://raw.githubusercontent.com/joelgrus/data/master/getting-data.html")
html = requests.get(url).text
soup = BeautifulSoup(html, 'html5lib')

first_paragraph = soup.find('p') # 혹은 soup.p

first_paragraph_text = soup.p.text 

first_paragraph_words = soup.p.text.split()

first_paragraph_id = soup.p['id'] # id가 없으면 key error 발생
first_paragraph_id2 = [p for p in soup('p') if p.get('id')] # id가 없으면 None 반환

all_paragraphs = soup.find_all('p') # 혹은 just soup('p')
paragraphs_with_ids = [p for p in soup('p') if p.get('id')] # 태그 p중 id있는 것


# 특정 class의 태그가 필요한 경우 1,2,3다 같은 결과물 
important_paragraphs = soup('p', {'class' : 'important'})
important_paragraphs2 = soup('p', 'important')
important_paragraphs3 = [p for p in soup('p')
                        if 'important' in p.get('class', [])]

# 함수를 결합하여 더욱 정교한 논리 만들기 
# 주의 : 만약 여러 <div>안에 똑같은 <span>이 존재한다면
# 동일한 <span>을 중복으로 반환
# 이런 경우 더욱 정교한 논리가 필요
spans_inside_divs = [span
                    for div in soup('div')  # 모든 <div>에
                    for span in div('span')] # 포함된 <span>을 탐색


In [9]:
first_paragraph

<p id="p1">This is the first paragraph.</p>

In [10]:
first_paragraph_text

'This is the first paragraph.'

In [11]:
first_paragraph_words

['This', 'is', 'the', 'first', 'paragraph.']

In [14]:
first_paragraph_id

'p1'

In [15]:
first_paragraph_id2

[<p id="p1">This is the first paragraph.</p>]

In [17]:
all_paragraphs

[<p id="p1">This is the first paragraph.</p>,
 <p class="important">This is the second paragraph.</p>]

In [18]:
paragraphs_with_ids

[<p id="p1">This is the first paragraph.</p>]

In [20]:
important_paragraphs 

[<p class="important">This is the second paragraph.</p>]

In [22]:
important_paragraphs2

[<p class="important">This is the second paragraph.</p>]

In [23]:
important_paragraphs3

[<p class="important">This is the second paragraph.</p>]

In [26]:
spans_inside_divs

[<span id="name">Joel</span>,
 <span id="twitter">@joelgrus</span>,
 <span id="email">joelgrus-at-gmail</span>]

### 예시 : 의회 감시하기

In [27]:
# 의회 감시하기
# 모든 의원의 웹사이트로 연결해주는 링크 
url = "https://www.house.gov/representatives"
text = requests.get(url).text
soup = BeautifulSoup(text,"html5lib")

all_urls = [a['href']
           for a in soup('a')          
           if a.has_attr('href')]  # 링크속성 모두 뽑음

print(len(all_urls))


966


In [30]:
all_urls

['#main-content',
 '/',
 '/',
 '/representatives',
 '/leadership',
 '/committees',
 '/legislative-activity',
 '/the-house-explained',
 '/visitors',
 '/educators-and-students',
 '/media',
 '/doing-business-with-the-house',
 '/employment',
 '/representatives',
 '/leadership',
 '/committees',
 '/legislative-activity',
 '/the-house-explained',
 '/visitors',
 '/educators-and-students',
 '/media',
 '/doing-business-with-the-house',
 '/employment',
 '/the-house-explained',
 'http://aoc.gov/cc/cobs/chob.cfm',
 'http://aoc.gov/cc/cobs/lhob.cfm',
 'http://aoc.gov/cc/cobs/rhob.cfm',
 'http://www.visitthecapitol.gov/visit/capitol_complex_map/index.html',
 '#room-numbers',
 '#by-state',
 '#by-name',
 '#state-alabama',
 '#state-california',
 '#state-delaware',
 '#state-florida',
 '#state-georgia',
 '#state-hawaii',
 '#state-idaho',
 '#state-kansas',
 '#state-louisiana',
 '#state-maine',
 '#state-nebraska',
 '#state-ohio',
 '#state-pennsylvania',
 '#state-rhode-island',
 '#state-south-carolina',
 '#s

In [36]:
# 정규표현식을 활용해서 원하는 url만 뽑기
import re
# .house.gov 또는 .house.gov/로 끝나야함
regex = r"^https?://.*\.house\.gov/?$" 

# 정규표현식이 제대로 작동하는지 확인
assert re.match(regex, "http://joel.house.gov")
assert re.match(regex, "http://joel.house.gov/")
assert re.match(regex, "http://joel.house.com") #gov로 끝나지 않음
assert re.match(regex, "http://joel.house.gov/bio")



AssertionError: 

In [38]:
# 적용
good_urls = [url for url in all_urls if re.match(regex, url)]

print(len(good_urls))

872


In [39]:
# 중복 확인 및 제거 : set
good_urls = list(set(good_urls))

print(len(good_urls))

436


In [40]:
# 보도자료 링크
html = requests.get('https://jayapal.house.gov').text
soup = BeautifulSoup(html, 'html5lib')

# 링크가 여러차례 등장 할 수 있으므로 집합 사용
links = {a['href'] for a in soup('a') if 'press releases' in a.text.lower()}

print(links) 

{'https://jayapal.house.gov/category/press-releases/', 'https://jayapal.house.gov/category/news/'}


In [43]:
# 링크가 상대 경로로 구성되어 있기 때문에 원래 사이트의 주소를 기억
from typing import Dict, Set

press_releases : Dict[str, Set[str]] = {}

for house_url in good_urls :
    html = requests.get(house_url).text
    soup = BeautifulSoup(html, 'html5lib')
    pr_links = {a['href'] for a in soup('a') if 'press releases' in a.text.lower()}
    
print(f"{house_url} : {pr_links}")
press_releases[house_url] = pr_links

https://bobbyscott.house.gov : {'/media-center/press-releases'}


In [44]:
def paragraph_mentions(text: str, keyword: str) -> bool :
    """
    텍스트 안의 <p>가 특정 {keyword}를 언급하면 True를 반환
    """
    soup = BeautifulSoup(text, 'html5lib')
    paragraphs = [p.get_text() for p in soup('p')]
    
    return any(keyword.lower() in paragraph.lower()
              for paragraph in paragraphs)



In [50]:
# 함수실험
text = """<body><h1>Facebook</h1><p>Twitter</p>"""
assert paragraph_mentions(text, "twitter") # <p>안에 있는 경우
assert not paragraph_mentions(text, "facebook") # <p>안에 있지 않은 경우


In [61]:
# 데이터를 언급한 의원을 전달 
for house_url, pr_links in press_releases.items() :
    for pr_link in pr_links :
        url = f"{house_url}/{pr_link}"
        text = requests.get(url).text
        
        if paragraph_mentions(text,'data') :
            print( f"{house_url}" )
            break # done with this house_url        

In [62]:
import json

serialized = """{"title" : "Data Science Book",
                 "author" : "Joel Grus",
                 "publicationYear" : 2019,
                 "topics" : ["data","science","data science"]}"""

# JSON을 파이썬 딕셔너리로 파싱
deserialized = json.loads(serialized)
deserialized


{'title': 'Data Science Book',
 'author': 'Joel Grus',
 'publicationYear': 2019,
 'topics': ['data', 'science', 'data science']}

In [65]:
# github API
import requests, json

github_user = "kkyuhun94"
endpoint = f"https://api.github.com/users/{github_user}/repos"

# repos : 딕셔너리의 리스트
# 각 딕셔너리 : 본인 계정의 공개 저장소
repos = json.loads(requests.get(endpoint).text)


In [66]:
repos

[{'id': 282603913,
  'node_id': 'MDEwOlJlcG9zaXRvcnkyODI2MDM5MTM=',
  'name': '2020-TEAMLAB-trainning',
  'full_name': 'kkyuhun94/2020-TEAMLAB-trainning',
  'private': False,
  'owner': {'login': 'kkyuhun94',
   'id': 68608357,
   'node_id': 'MDQ6VXNlcjY4NjA4MzU3',
   'avatar_url': 'https://avatars1.githubusercontent.com/u/68608357?v=4',
   'gravatar_id': '',
   'url': 'https://api.github.com/users/kkyuhun94',
   'html_url': 'https://github.com/kkyuhun94',
   'followers_url': 'https://api.github.com/users/kkyuhun94/followers',
   'following_url': 'https://api.github.com/users/kkyuhun94/following{/other_user}',
   'gists_url': 'https://api.github.com/users/kkyuhun94/gists{/gist_id}',
   'starred_url': 'https://api.github.com/users/kkyuhun94/starred{/owner}{/repo}',
   'subscriptions_url': 'https://api.github.com/users/kkyuhun94/subscriptions',
   'organizations_url': 'https://api.github.com/users/kkyuhun94/orgs',
   'repos_url': 'https://api.github.com/users/kkyuhun94/repos',
   'events

In [67]:
from collections import Counter
from dateutil.parser import parse

dates = [parse(repo["created_at"]) for repo in repos]
month_counts = Counter(date.month for date in dates)
weekday_counts = Counter(date.weekday() for date in dates)


In [68]:
# 가장 최근에 만든 저장소 5개
last_5_repositories = sorted(repos,
                            key=lambda r : r["pushed_at"],
                            reverse=True)[:5]

# 그 중 사용된 프로그래밍 언어  
last_5_languages = [repo["language"]
                   for repo in last_5_repositories]


In [69]:
dates,month_counts,weekday_counts

([datetime.datetime(2020, 7, 26, 8, 0, 27, tzinfo=tzutc()),
  datetime.datetime(2020, 8, 10, 2, 43, 53, tzinfo=tzutc()),
  datetime.datetime(2020, 8, 31, 10, 18, 21, tzinfo=tzutc()),
  datetime.datetime(2020, 8, 10, 15, 47, 55, tzinfo=tzutc())],
 Counter({7: 1, 8: 3}),
 Counter({6: 1, 0: 3}))

In [70]:
last_5_repositories

[{'id': 291682840,
  'node_id': 'MDEwOlJlcG9zaXRvcnkyOTE2ODI4NDA=',
  'name': 'Matrix_Factorization',
  'full_name': 'kkyuhun94/Matrix_Factorization',
  'private': False,
  'owner': {'login': 'kkyuhun94',
   'id': 68608357,
   'node_id': 'MDQ6VXNlcjY4NjA4MzU3',
   'avatar_url': 'https://avatars1.githubusercontent.com/u/68608357?v=4',
   'gravatar_id': '',
   'url': 'https://api.github.com/users/kkyuhun94',
   'html_url': 'https://github.com/kkyuhun94',
   'followers_url': 'https://api.github.com/users/kkyuhun94/followers',
   'following_url': 'https://api.github.com/users/kkyuhun94/following{/other_user}',
   'gists_url': 'https://api.github.com/users/kkyuhun94/gists{/gist_id}',
   'starred_url': 'https://api.github.com/users/kkyuhun94/starred{/owner}{/repo}',
   'subscriptions_url': 'https://api.github.com/users/kkyuhun94/subscriptions',
   'organizations_url': 'https://api.github.com/users/kkyuhun94/orgs',
   'repos_url': 'https://api.github.com/users/kkyuhun94/repos',
   'events_url

In [71]:
last_5_languages

['Jupyter Notebook', 'Jupyter Notebook', 'Jupyter Notebook', 'HTML']

In [None]:
# twitter API
import os

# 환경 변수를 통해서 key,secret을 전달 
# 직접 key와 secret을 건네주도록 수정해도 좋음
CONSUMER_KEY = os.environ.get("TWITTER_CONSUMER_KEY")
CONSUMER_SECRET = os.environ.get("TWITTER_CONSUMER_SECRET")

# 클라이언트의 인스턴스 생성, 인증 URL 받아오기
import webbrowser
from twython import Twython

temp_client = Twython(CONSUMER_KEY, CONSUMER_SECRET)
temp_creds = temp_client.get_authentication_tokens()
url = temp_creds['auth_url']

# URL 방문, API인증, PIN받기 
print(f"go visit {url} and get the PIN code and paste it below")
webbrowser.open(url)
PIN_CODE = input("please enter the PIN code: ")

# PIN_CODE를 이용해서 실제 토큰 받기
auth_client = Twyhon(CONSUMER_KEY,
                    CONSUMER_SECRET,
                    temp_creds['oauth_token'],
                    temp_creds['oauth_token_secret'])

final_step = auth_client.get_authentication_tokens(PIN_CODE)
ACCESS_TOKEN = final_step['oauth_token']
ACCESS_TOKEN_SECRET = final_step['oauth_token_secret']

# 새 Twython 인스턴스 생성
# token과 token_secret을 안전한 장소에 저장, 다음부터 복잡한 절차를 피함 
twitter = Twython(CONSUMER_KEY,
                 CONSUMER_SECRET,
                 ACCESS_TOKEN,
                 ACCESS_TOKEN_SECRET)


In [None]:
# 'data science'라는 구절이 포함된 트윗을 검색
for status in twitter.search(q='"data science"')["statuses"] :
    user = status["user"]["screen_name"]
    text = status["text"]
    print(f"{user} : {text}\n")


In [None]:
# Streaming API
from twython import TwythonStreamer

# 주의 : 데이터를 전역 변수에 추가하는 것이 좋은 예제는 아님
tweets = []

# 트위터 스트림에 접속, 데이터가 보낼 때까지 대기
# 데이터(파이썬 객체로 표현) : on_success에 보냄

class MyStreamer(TwythonStreamer):
    def on_success(self,data) :
        """
        data : 파이썬 딕셔너리로 표현된 트윗
        """
        # 오직 영어로 된 트윗만 모음
        if data.get('lang') == 'en':
            tweets.append(data)
            print(f"received tweet #{len(tweets)}")
            
        # 충분히 모으면 stop
        if len(tweets) >= 100 :
            self.disconnect()
    
    def on_error(self, status_code, data):
        print(status_code, data)
        self.disconnect()

stream = MyStreamer(CONSUMER_KEY, CONSUMER_SECRET, ACCESS_TOKEN, ACCESS_TOKEN_SECRET)

# 공개된 트윗 중 data라는 키워드를 포함하고 있는 트윗
stream.statuses.filter(track='data')

# 모든 트윗 받아오기
# stream.statuses.sample() 사용


In [None]:
# 위 코드가 멈추면 받아온 트윗을 분석가능
top_hashtags = Counter(hashtag['text'].lower()
                      for tweet in tweets
                      for hashtag in tweet["entities"]["hashtags"])
print(top_hashtags.most_common(5))
