## 자바스크립트 내에 숨어 있는 JSON 데이터 추출하기
- (패킷스니핑시 응답 데이터가 HTML인 경우)

### 매물 한 개의 정보 추출하기

In [None]:
# 코드 작성 흐름

# 1. 추출하고자 하는 패킷을 cURL 형태로 복사한다
#    - 브라우저 개발자 도구의 네트워크 탭에서 원하는 요청을 마우스 우클릭하고 'Copy as cURL' 옵션을 선택합니다.

# 2. 복사한 cURL을 cURL Convert 페이지에서 변환한다
#    - curlconverter.com과 같은 온라인 도구를 사용해 cURL 명령어를 Python requests 코드로 변환합니다.

# 3. 변환해서 얻은 값을 코드셀에서 실행해서 응답 코드를 확인한다
#    - 변환된 Python 코드를 실행하여 HTTP 상태 코드(예: 200은 성공)를 확인합니다.

# 4. 응답데이터에 .text를 적용시 html을 반환하면, 자바스크립트 코드 내에 숨겨진 JSON을 추출해본다
#    - response.text를 통해 HTML 내용을 문자열로 받고, 그 안에 내장된 JSON 데이터를 찾습니다.

# 5. JSON을 추출할 때는 정규표현식을 사용해서 추출한다
#    - re 모듈과 적절한 패턴을 사용하여 원하는 데이터 영역을 정확히 타겟팅합니다.

# 6. 응답 데이터에 정규표현식 패턴 및 그룹 추출을 적용해 원하는 JSON 데이터를 추출한다
#    - 괄호()로 캡처 그룹을 만들고 group(1)과 같은 메서드로 원하는 부분만 추출합니다.

# 7. 추출한 데이터를 보기 좋게 만들기 위해서 json 라이브러리에 있는 loads() 메서드를 사용한다
#    - 문자열 형태의 JSON을 Python 딕셔너리 객체로 변환하여 데이터 접근을 용이하게 합니다.

# 8. JSON에서 원하는 값을 추출하기 위해서 get() 메서드를 활용해 키 이름을 입력한다
#    - 딕셔너리의 .get() 메서드를 사용하여 키에 해당하는 값을 안전하게 추출합니다.

In [2]:
import requests

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Referer': 'https://begincoding.pythonanywhere.com/level1',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="135", "Not-A.Brand";v="8", "Chromium";v="135"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"macOS"',
}

response = requests.get('https://begincoding.pythonanywhere.com/level1/2456802095', headers=headers)
response

<Response [200]>

In [None]:
import re
import json

# 패턴 내에 있는 '()'은 '그룹'이다.
    # 그룹은 생성 개수에 따라 '첫 번째 그룹', '두 번째 그룹' 등으로 나뉜다.
패턴 = r'window\.__PRELOADED_STATE__\s*=\s*(\{.*?\})'; 

# 're.DOTALL'을 추가해줘야 '.'을 이용해서 '모든 내용'을 추출할 수 있다.
매치 = re.search(패턴, response.text, re.DOTALL)

# "패턴에서 사용한 '첫 번째 그룹을 추출하겠다'"는 의미이다.
제이슨_데이터 = 매치.group(1)
# print(제이슨_데이터) # 이렇게 가져 올 경우, JSON 데이터가 들여쓰기 및 줄바꿈이 안 되어 있어서 가독성이 안 좋다.

제이슨_데이터_전처리 = json.loads(제이슨_데이터) # 키값 형태로 줄바꿈해서 JSON 데이터를 가져온다
제이슨_데이터_전처리
# print(제이슨_데이터_전처리.get('article_detail_desc'))

상세내용 = 제이슨_데이터_전처리.get('article_detail_desc')
부동산명 = 제이슨_데이터_전처리.get('article_realtor_name')
부동산_주소 = 제이슨_데이터_전처리.get('article_realtor_address')


print(f"<상세내용>\n\n{상세내용}")
print(f"<상세내용>\n\n{부동산명}")
print(f"<상세내용>\n\n{부동산_주소}")

### 여러 개의 매물 정보 추출하기

In [None]:
import requests

headers = {
    'Accept': '*/*',
    'Accept-Language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7',
    'Connection': 'keep-alive',
    'Referer': 'https://begincoding.pythonanywhere.com/level1',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="135", "Not-A.Brand";v="8", "Chromium";v="135"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"macOS"',
}

params = {
    'page': '1',
    'pageSize': '20',
}

response = requests.get('https://begincoding.pythonanywhere.com/api/articles', params=params, headers=headers)
제이슨_데이터들 = response.json()
제이슨_데이터들

# 매물명 : article_name
# 매물가격 : article_deal_or_warrant_price
# 크기 : article_area_size
# 층수 : article_floor
# 방향 : article_direction

for 제이슨_데이터 in 제이슨_데이터들:
    # print(제이슨_데이터['article_name'])
    매물명 = 제이슨_데이터['article_name']
    매물가격 = 제이슨_데이터['article_deal_or_warrant_price']
    크기 = 제이슨_데이터['article_area_size']
    층수 = 제이슨_데이터['article_floor']
    방향 = 제이슨_데이터['article_direction']

    print(매물명, 매물가격, 크기, 층수, 방향, sep='\n')
    print('-' * 20)

### 패킷스니핑+자바스크립트 크롤링으로 한 번에 많은 양의 데이터(상세페이지 포함)를 크롤링 하는 방법

In [None]:
# 코드 작성 흐름

# 1. 공개 API를 통한 매물 목록 가져오기
#    - requests 라이브러리로 GET 요청을 보내 매물 목록 데이터를 JSON 형태로 받아옵니다.
#    - 여기서 '/api/articles'는 엔드포인트로, 매물 목록 정보에 접근할 수 있는 특정 URL 경로입니다.
#    - 엔드포인트는 API에서 특정 기능이나 데이터를 제공하는 고유한 접근점입니다.

# 2. JSON 배열에서 각 매물의 기본 정보 추출
#    - 루프를 통해 각 매물 객체에서 매물번호, 매물명, 가격, 크기, 층수, 방향 정보를 추출합니다.

# 3. 매물번호를 이용한 상세 페이지 URL 생성
#    - 각 매물번호를 사용해 상세 페이지 URL을 생성하고 요청을 보냅니다.

# 4. 상세 페이지에서 자바스크립트 변수 찾기
#    - 상세 페이지 HTML에서 'window.__PRELOADED_STATE__' 변수에 할당된 데이터를 찾습니다.

# 5. 정규표현식으로 JSON 데이터 추출
#    - re.search()와 캡처 그룹을 사용해 JSON 데이터 부분만 추출합니다.

# 6. JSON 문자열을 파이썬 딕셔너리로 변환
#    - json.loads() 함수로 추출한 문자열을 Python 딕셔너리로 변환합니다.

# 7. 딕셔너리에서 추가 정보 추출
#    - get() 메서드로 상세내용, 부동산명, 부동산_주소 정보를 추출합니다.

# 8. 모든 정보를 리스트에 추가
#    - 추출한 정보를 리스트로 구성해 data 배열에 추가합니다.

# 9. 데이터를 판다스 데이터프레임으로 변환
#    - pandas를 사용해 수집한 데이터를 데이터프레임으로 변환하고 열 이름을 지정합니다.

In [43]:
import requests
import pandas as pd

headers = {
    'Accept': '*/*',
    'Accept-Language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7',
    'Connection': 'keep-alive',
    'Referer': 'https://begincoding.pythonanywhere.com/level1',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Google Chrome";v="135", "Not-A.Brand";v="8", "Chromium";v="135"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"macOS"',
}

params = {
    'page': '1',
    'pageSize': '20',
}

response = requests.get('https://begincoding.pythonanywhere.com/api/articles', params=params, headers=headers)
제이슨_데이터들 = response.json()
제이슨_데이터들


data = []
for 제이슨_데이터 in 제이슨_데이터들:
    # print(제이슨_데이터['article_no'])
    
    매물번호 = 제이슨_데이터['article_no']
    매물명 = 제이슨_데이터['article_name']
    매물가격 = 제이슨_데이터['article_deal_or_warrant_price']
    크기 = 제이슨_데이터['article_area_size']
    층수 = 제이슨_데이터['article_floor']
    방향 = 제이슨_데이터['article_direction']

    
    # 매물마다 URL 뒤에 있는 매물번호()가 바뀌는 특징이 있어 반복문으로 매물번호를 추출하고, 해당 매출번호를 URL 뒤에 심어준다.
    response = requests.get(f'https://begincoding.pythonanywhere.com/level1/{매물번호}', headers=headers)
    response
    
    import re
    import json

    # 패턴 내에 있는 '()'은 '그룹'이다.
        # 그룹은 생성 개수에 따라 '첫 번째 그룹', '두 번째 그룹' 등으로 나뉜다.
    패턴 = r'window\.__PRELOADED_STATE__\s*=\s*(\{.*?\})'; 

    # 're.DOTALL'을 추가해줘야 '.'을 이용해서 '모든 내용'을 추출할 수 있다.
    매치 = re.search(패턴, response.text, re.DOTALL)

    # "패턴에서 사용한 '첫 번째 그룹을 추출하겠다'"는 의미이다.
    제이슨_데이터 = 매치.group(1)
    # print(제이슨_데이터) # 이렇게 가져 올 경우, JSON 데이터가 들여쓰기 및 줄바꿈이 안 되어 있어서 가독성이 안 좋다.

    제이슨_데이터_전처리 = json.loads(제이슨_데이터) # 키값 형태로 줄바꿈해서 JSON 데이터를 가져온다
    제이슨_데이터_전처리
    # print(제이슨_데이터_전처리.get('article_detail_desc'))

    상세내용 = 제이슨_데이터_전처리.get('article_detail_desc')
    부동산명 = 제이슨_데이터_전처리.get('article_realtor_name')
    부동산_주소 = 제이슨_데이터_전처리.get('article_realtor_address')

    # print(매물명, 매물가격, 크기, 층수, 방향, 상세내용, 부동산명, 부동산_주소, sep='\n')
    # print('-' * 20)
    data.append([매물명, 매물가격, 크기, 층수, 방향, 상세내용, 부동산명, 부동산_주소])

data


df = pd.DataFrame(data, columns = ['매물명', '매물가격', '크기', '층수', '방향', '상세내용', '부동산명', '부동산_주소'])
df

Unnamed: 0,매물명,매물가격,크기,층수,방향,상세내용,부동산명,부동산_주소
0,K타워(도시형),"2억 2,000",16,4/14,남동향,- 선릉역 도보5분이내\n\n- 위치가 좋아 공실걱정없는 임차수요\n\n- 24시간...,더퍼플공인중개사사무소,서울특별시 강남구 대치동 889-41
1,K타워(도시형),"2억 1,000",16,4/14,남동향,"＊ 선릉역 도보 5분 거리 위치\n\n＊ 월세, 전세 임대 잘 맞춰지는 오피스텔입니...",뉴황금공인중개사사무소,서울특별시 강남구 역삼로63길 6 2층
2,SK허브젠(주상복합),15억,84,7/15,서향,"- 강남역 4번출구 300m 도보 5분거리\n- 에어컨, 빌트인 김치냉장고 되어있습...",빌딩나비강남역쉐르빌부동산중개주식회사,서울특별시 강남구 강남대로 328 1층 110호 (역삼동)
3,SK허브젠(주상복합),"18억 8,000",84,11/15,남향,직접매물O.강남역세권 갭투자아파트매매입니다\r\n\r\n매도인이 직접 거주하시며 수...,강남플러스부동산중개법인,"서울 강남구 역삼동827-14 1층 102-2호(역삼동, 프레스티지투)"
4,강남서해그랑블(주상복합),13억,78,6/10,남서향,"특올수리,주인직접, 빠른 입주, 양재/강남역, 한티 근접\r\n\r\n◆주차대수 :...",주식회사 우대빵부동산중개센터 강남지점,"서울 강남구 언주로 425,2층"
5,강남서해그랑블(주상복합),13억,78,6/10,남향,* 올수리되어 컨디션최상\n\n* 교통 교육환경 우수\n\n* 입주협의가능\n\n궁...,빌딩나비강남역쉐르빌부동산중개주식회사,서울특별시 강남구 강남대로 328 1층 110호 (역삼동)
6,강남서해그랑블(주상복합),13억,78,6/10,남향,전화로 문의주시면 친절히 안내해드리겠습니다. \r\n가격조정가 \r\n특올수리 해놓...,부자부동산공인중개사사무소,서울 강남구 대치동1030 1층 S109호 (대치동 상가)
7,강남서해그랑블(주상복합),13억,78,중/10,남향,-올 리모델링 완료\n- 내부깔끔한 관리잘된매물\n- 역삼초 도곡중 인근 교육환경좋...,에스디(SD)공인중개사 사무소,서울특별시 서초구 잠원동 34-14 1층 01호
8,강남서해그랑블(주상복합),13억,78,6/10,남서향,,신한공인중개사사무소,"서울특별시 강남구 선릉로 571,지하2층 1호(역삼동)"
9,강남센트럴아이파크,45억,125,13/35,남향,> 선릉역세권 편리한 교통\r\n> 방4 화장실3 확장형의 넓은 구조 (세대분리형원...,강남최고공인중개사사무소,"서울 강남구 언주로86길 11,305호(역삼동, 한화진넥스빌)"
