### JSON에서 데이터 추출하기

#### 간단한 JSON 가져오기

In [1]:
import requests

import json
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# JSON 데이터의 URL지정

simple_json_url = "http://itpaper.co.kr/data/simple.json"

In [3]:
# 접속에 필요한 header 정보 생성

# 브라우저 버전 정보
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"

# http 헤더 정보 구성
header_info = {'User-agent': user_agent, 'referer': None}


In [4]:
# JSON 데이터 가져오기

# 데이터 가져오기
r = requests.get(simple_json_url, headers=header_info)

# 결과 검사 
# 접속 성공/실패 여부 확인
if r.status_code != 200:
    # 에러코드와 에러메시지 출력
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "%d %s 에러가 발생했습니다." % (r.status_code, r.reason)
    raise Exception(err_msg)
    
# 인코딩 형식 지정
r.encoding = "utf8"

# 결과 출력
r.text

'{\n    "name": "갤럭시 S6",\n    "type": "삼성",\n    "img": "http://itpaper.co.kr/demo/app/img/GalaxyS6.png"\n}'

In [5]:
# JSON 형식의 문자열을 딕셔너리로 변환
result = json.loads(r.text)
result

{'name': '갤럭시 S6',
 'type': '삼성',
 'img': 'http://itpaper.co.kr/demo/app/img/GalaxyS6.png'}

In [7]:
# 딕셔너리를 데이터 프레임 형태로 변환

data_list = [result]
simple_df = pd.DataFrame(data_list)
simple_df

Unnamed: 0,name,type,img
0,갤럭시 S6,삼성,http://itpaper.co.kr/demo/app/img/GalaxyS6.png


#### 리스트 형식의 데이터를 포함하는 JSON

In [8]:
# 데이터 수집

# JSON URL
json_list_url = "http://itpaper.co.kr/data/grade_card.json"

# 데이터 가져오기
r = requests.get(json_list_url, headers=header_info)

# 결과 검사 
# 접속 성공/실패 여부 확인
if r.status_code != 200:
    # 에러코드와 에러메시지 출력
    # 에러코드와 에러메시지를 문자열로 구성
    err_msg = "%d %s 에러가 발생했습니다." % (r.status_code, r.reason)
    raise Exception(err_msg)
    
# 인코딩 형식 지정
r.encoding = "utf8"

# JSON 형식의 문자열을 딕셔너리로 변환
result = json.loads(r.text)
result

{'grade_card': [{'이름': '철수',
   '학년': 1,
   '성별': '남자',
   '국어': 98,
   '영어': None,
   '수학': 88,
   '과학': 64},
  {'이름': '영희', '학년': 2, '성별': '여자', '국어': 88, '영어': 90, '수학': 62, '과학': 72},
  {'이름': '민수',
   '학년': 1,
   '성별': '남자',
   '국어': 92,
   '영어': 70,
   '수학': None,
   '과학': None},
  {'이름': '수현', '학년': 3, '성별': '여자', '국어': 63, '영어': 60, '수학': 31, '과학': 70},
  {'이름': '호영',
   '학년': 4,
   '성별': '남자',
   '국어': 120,
   '영어': 50,
   '수학': None,
   '과학': 88}]}

In [11]:
# 데이터 프레임으로 변환
student_df = pd.DataFrame(result['grade_card'])
student_df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [13]:
# 학생 이름을 인덱스로 지정
성적표df = student_df.set_index("이름")
성적표df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [21]:
# 학생별 평균점수를 새로운 컬럼으로 추가

성적표df2 = 성적표df.copy()

성적표df2['평균'] = 성적표df[['국어', '영어', '수학', '과학']].fillna(0).mean(axis=1)
성적표df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,평균
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,,88.0,64.0,62.5
영희,2,여자,88,90.0,62.0,72.0,78.0
민수,1,남자,92,70.0,,,40.5
수현,3,여자,63,60.0,31.0,70.0,56.0
호영,4,남자,120,50.0,,88.0,64.5
