# #JSON 데이터 수집

## ## 인터넷을 통해 수집할 수 있는 데이터의 형식

형식 |
설명<br>
TEXT | 단순텍스트 파일을 내려받아서 문자열 변수에 저장해야 함<br>
CSV,XLSX | Pandas가 자체적으로 처리 가능<br>
JSON requests | 모듈을 통해 데이터를 받아온 후 JSON 클래스를 통해 DataFrame으로 변환<br>
HTML,XML | requests 모듈을 통해 문자열 형태로 내려받고 BeautifulSoup 클래스를 통해 데이터 추출<br>
이미지,동영상 | requests 모듈을 통해 직접 파일 다운로드 구현<br>

## requests 모듈
HTTP 통신 기능을 제공하는 파이썬 패키지

명령프롬프트를 관리자 권한으로 실행한 후 다음의 명령어로 설치

- pip install --upgrade requests

--upgrade 옵션은 이미 설치가 되어 있다면 최신버전으로 교체하는 옵션

In [30]:
## #01. 필요한 패키지 가져오기

import requests
import json
from pandas import DataFrame
from matplotlib import pyplot

--------------------
## #02.간단한 텍스트 데이터 가져오기

텍스트 데이터 URL

In [16]:
simple_text_url = 'http://itpaper.co.kr/demo/python/simple_text.txt'

특정 웹 페이지에 접속

In [17]:
r = requests.get(simple_text_url)
r

<Response [200]>

접속에 실패한 경우에 대한 예외처리

- 200 : OK
- 400,403 : 잘못된 접근 혹은 접근 권한 없음
- 404 : Page Not Found(URL오타)
- 50x : Server Error(접속 대상이 에러인 상황)

In [18]:
if r.status_code != 200:
    #에러코드와 에러메시지 출력
    print("[%d Error] $s" % (r.status_code, r.reason))
    #프로그램 강제 종료
    quit()

텍스트 데이터 추출

In [19]:
# 인코딩 형식 지정(대상 파일이 저장된 방식을 명시해야 함)
r.encoding = "utf-8"

#텍스트 출력
r.text

'Hello Python~!!!\n안녕하세요. 파이썬~!!!\n'

--------------------
## #03.간단한 JSON 데이터 가져오기

requests 모듈이 지정된 URL의 내용을 모두 텍스트로만 가져오기 때문에 가져온 데이터의 형식에 따라 변환 처리가 필요하다

간단한 JSON 데이터 가져오기

In [31]:
#URL 지정
simple_json_url = 'http://itpaper.co.kr/demo/python/simple.json'

#데이터 가져오기
r = requests.get(simple_json_url)

# 결과 검사
if r.status_code != 200:
    #에러코드와 에러메시지 출력
    print("[%d Error] $s" % (r.status_code, r.reason))
    #프로그램 강제 종료
    quit()
    
# 인코딩 형식 지정(대상 파일이 저장된 방식을 명시해야 함)
r.encoding = "utf-8"

#텍스트 출력
print(type(r.text))
r.text    

<class 'str'>


'{\n    "name": "갤럭시 S6",\n    "type": "삼성",\n    "img": "http://itpaper.co.kr/demo/app/img/GalaxyS6.png"\n}'

## 딕셔너리를 DataFrame으로 변환

DataFrame을 생성이 가능한 파라미터 형식

- 2차 리스트
- 리스트를 포함한 딕셔너리
- 딕셔너리를 포함한 리스트

수신 결과는 단순한 딕셔너리 이므로 이 값을 통째로 리스트에 넣어줘야 한다.

## #JSON 형식의 문자열을 딕셔너리로 변환

In [38]:
result = json.loads(r.text)

print(type(result))
result

<class 'dict'>


{'name': '갤럭시 S6',
 'type': '삼성',
 'img': 'http://itpaper.co.kr/demo/app/img/GalaxyS6.png'}

In [39]:
simple_df = DataFrame([result])
simple_df

Unnamed: 0,name,type,img
0,갤럭시 S6,삼성,http://itpaper.co.kr/demo/app/img/GalaxyS6.png
