## Open API
- 데이터를 제공하는 주소와 요청 시 필요한 데이터들을 요청 메시지에 추가하여 요청 (request)
- 필요한 데이터들과 주소가 명확하다면 응답 메시지 반환
- 서버에게 요청을 보내는 라이브러리: requests
    - requests에 내장된 get() 함수를 이용하여 요청을 보내고 응답 메시지를 받는다.

In [None]:
# 서버에 요청 + 응답 받아오는 라이브러리
# 웹 브라우저는 받아온 데이터를 화면에 구성
# requests 라이브러리는 문자 그대로 보여줌
import requests

In [6]:
url = 'https://apis.data.go.kr/B190001/salesPolicy'
# 250908 폴더의 'key.txt' 파일에서 서비스키 가져오기
service_key = 'dtbWOdJ/Cz5HE0DGLU+CRPe7pOW0NIQBUcGEqsHZaTRiYCI/5+zugwzQjcvuId7NPdg6rUiW+ft3fm7yqyD4pw=='
sub_url = '/paper'

# 공공데이터포털의 해당 데이터 페이지에서 정확한 매개변수명을 보고 작성
# 매개변수명이 데이터마다 다른 경우가 있음
params = {
    'serviceKey': service_key,
    'pageNo': 1,
    'numOfRows': 10
}

res = requests.get(url+sub_url, params)

In [7]:
res

<Response [200]>

In [8]:
type(res.content)

bytes

In [17]:
import pandas as pd

In [18]:
pd.DataFrame(res.content)
# --> Error!

ValueError: DataFrame constructor not properly called!

In [19]:
# bytes 타입의 데이터는 DataFrame 변환 불가능
# json 형태의 데이터인 경우 json 라이브러리 호출
# json 라이브러리 안의 loads() 함수를 이용하여 데이터 타입 변환
import json
res_data = json.loads(res.content)
type(res_data)

dict

In [21]:
# res_data에는 데이터셋 뿐만 아니라, 요청에 대한 응답 결과들 또한 포함되어 있음
# 원하는 데이터셋만 따로 추출하여 데이터프레임화
# res_data
    # res_data를 확인해보니 다차원이므로, 2차원으로 만들기 위해 가장 끝의 괄호인 [] 없애기
# res_data['data']
df = pd.DataFrame(res_data['data'])
df2 = df.copy()

Pandas 데이터프레임의 컬럼 이름(레이블)을 변경하는 데 사용되는 두 가지 주요 방법
- **df.columns**</br>: 데이터프레임의 모든 컬럼 이름이 담긴 속성(Attribute). 이 속성에 새로운 리스트를 통째로 할당하여, <U>모든 컬럼 이름을 한 번에 일괄적으로</U> 변경.
    - 예시: ```df.columns = ['col1', 'col2', 'col3', ...]```
    - 리스트의 길이가 기존 컬럼 개수와 정확히 일치해야 함. (불일치 시 ValueError 발생)
- **df.rename( )**</br>: 데이터프레임의 <U>일부 컬럼이나 인덱스의 이름을 선택적으로</U> 변경할 때 사용하는 메소드 (class의 메서드를 이용하여 내부의 데이터를 변경)
    - 딕셔너리( ```{'이전이름': '새이름'}``` )
    </br>예시: ```df.rename(columns={'old_col': 'new_col'}, inplace=True)```
    - 원본 객체는 변경하지 않고 새로운 데이터프레임을 반환 (기본값) $\rightarrow$ 변경 내용 확인 후 inplace로 확정 가능
    - 인덱스와 컬럼 둘 다 변경 가능
    - 기존 컬럼 순서나 다른 컬럼에 영향을 주지 않음
    - 모든 컬럼 이름을 변경해야 할 때는 비효율적

In [51]:
# api를 제공하는 사이트에서 데이터프레임에의 각 컬럼명을 확인하여 변경
# 방법 1 - columns
df.columns = ['법인할인구매가능여부', '법인단순구매가능여부', '기준일자', '할인정책적용시작일자', '할인정책종료일자', '할인율', '일간구매제한금액', '예외정책여부', '최대할인제한금액', '최대환전제한금액', '월간구매제한금액', '제공기관코드', '사용처지역코드', '연간구매제한금액']

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   법인할인구매가능여부  10 non-null     object 
 1   법인단순구매가능여부  10 non-null     object 
 2   기준일자        10 non-null     object 
 3   할인정책적용시작일자  10 non-null     object 
 4   할인정책종료일자    2 non-null      object 
 5   할인율         10 non-null     int64  
 6   일간구매제한금액    10 non-null     int64  
 7   예외정책여부      10 non-null     object 
 8   최대할인제한금액    2 non-null      float64
 9   최대환전제한금액    10 non-null     int64  
 10  월간구매제한금액    10 non-null     int64  
 11  제공기관코드      10 non-null     object 
 12  사용처지역코드     10 non-null     object 
 13  연간구매제한금액    10 non-null     int64  
dtypes: float64(1), int64(5), object(8)
memory usage: 1.2+ KB


In [24]:
# columns 속성
cols = df2.columns
new_cols = ['법인할인구매가능여부', '법인단순구매가능여부', '기준일자', '할인정책적용시작일자', '할인정책종료일자', '할인율', '일간구매제한금액', '예외정책여부', '최대할인제한금액', '최대환전제한금액', '월간구매제한금액', '제공기관코드', '사용처지역코드', '연간구매제한금액']

In [25]:
cols_dict = {}
for old, new in zip(cols, new_cols):
    cols_dict[old] = new

In [26]:
cols_dict

{'corp_dscnt_prchs_yn': '법인할인구매가능여부',
 'corp_smpl_prchs_yn': '법인단순구매가능여부',
 'crtr_ymd': '기준일자',
 'dscnt_plcy_aplcn_bgng_ymd': '할인정책적용시작일자',
 'dscnt_plcy_aplcn_end_ymd': '할인정책종료일자',
 'dscnt_rt': '할인율',
 'dy_prchs_lmt_amt': '일간구매제한금액',
 'expt_plcy_yn': '예외정책여부',
 'max_dscnt_lmt_amt': '최대할인제한금액',
 'max_excng_lmt_amt': '최대환전제한금액',
 'mm_prchs_lmt_amt': '월간구매제한금액',
 'pvsn_inst_cd': '제공기관코드',
 'usage_rgn_cd': '사용처지역코드',
 'yr_prchs_lmt_amt': '연간구매제한금액'}

In [None]:
# 방법 2 - rename() 함수
df2.rename(columns= cols_dict, inplace=True)

데이터를 저장하는 데 사용되는 두 가지 주요 방법
- 파일로 저장
    - ```to_형식(저장할 위치)```
    </br>: csv, excel, json, xml 등 파일의 형태를 지정하여 저장
        - to : 일반적으로 데이터 타입을 변경할 때 자주 사용하는 키워드
        </br> 예시: ```to_dict()``` $\rightarrow$ 딕셔너리 형태로 변환
- 자체적인 DataBase에 저장
    1. 각 행의 데이터들을 insert query 문을 이용하여 대입
    2. sqlalchemy 라이브러리를 이용하여 DBserver와 연결하고 to_sql( )을 이용하여 데이터프레임 전체를 테이블에 대입
        - 테이블이 존재하는 경우 - 교체, 추가
        - 테이블이 존재하지 않는 경우 - 테이블 생성

In [None]:
# api에서 수집한 데이터를 저장
# 방법 1 - 파일로 저장하는 방법 (csv)
df.to_csv("./test.csv", index=False, )

In [30]:
import os
# 특정 경로에 파일이 존재하는가? = 존재 유무 판단 (is) + 파일 (file)

if os.path.isfile("./test.csv"):
    # 특정 경로에 파일이 존재하는 경우
    # 해당 파일에 데이터를 추가
    # 데이터프레임에서 헤더와 인덱스 저장 X
    df.to_csv("./test.csv", index=False, mode='a', header=False)
else:
    # 파일이 존재하지 않는 경우
    # 파일을 새로 생성하여 헤더는 저장, 인덱스는 저장 X
    df.to_csv("./test.csv", index=False)
# mode 매개변수
    # 'w'(기본값): 기존 파일이 존재한다면 대체, 없다면 생성
    # 'a': 기존 파일에 데이터 추가
    # 'x': 기존 파일이 존재한다면 대입 X (기존 파일 보존)

In [42]:
# 서울시 열린데이터 api 사용
service_key2 = '6546674f4664617237314274704d75'
data_type = 'xml'
service_name = 'LOCALDATA_082604_SM'
start_idx = '1'
end_idx = '10'

# https로 쓰지 않도록 주의 - 보안을 위해 http 사용
url = f'http://openapi.seoul.go.kr:8088/{service_key2}/{data_type}/{service_name}/{start_idx}/{end_idx}/'
url

'http://openapi.seoul.go.kr:8088/6546674f4664617237314274704d75/xml/LOCALDATA_082604_SM/1/10/'

In [43]:
res2 = requests.get(url)

In [44]:
res2.content

b'<?xml version="1.0" encoding="UTF-8"?>\n<LOCALDATA_082604_SM>\n<list_total_count>17515</list_total_count>\n<RESULT>\n<CODE>INFO-000</CODE>\n<MESSAGE>\xec\xa0\x95\xec\x83\x81 \xec\xb2\x98\xeb\xa6\xac\xeb\x90\x98\xec\x97\x88\xec\x8a\xb5\xeb\x8b\x88\xeb\x8b\xa4</MESSAGE>\n</RESULT>\n<row>\n<OPNSFTEAMCODE>3120000</OPNSFTEAMCODE>\n<MGTNO>2002312010723200033</MGTNO>\n<APVPERMYMD>2002-08-28</APVPERMYMD>\n<APVCANCELYMD/>\n<TRDSTATEGBN>03</TRDSTATEGBN>\n<TRDSTATENM>\xed\x8f\x90\xec\x97\x85</TRDSTATENM>\n<DTLSTATEGBN>03</DTLSTATEGBN>\n<DTLSTATENM>\xed\x8f\x90\xec\x97\x85\xec\xb2\x98\xeb\xa6\xac</DTLSTATENM>\n<DCBYMD>2012-12-12</DCBYMD>\n<CLGSTDT/>\n<CLGENDDT/>\n<ROPNYMD/>\n<SITETEL>362-6328</SITETEL>\n<SITEAREA/>\n<SITEPOSTNO>120-170</SITEPOSTNO>\n<SITEWHLADDR>\xec\x84\x9c\xec\x9a\xb8\xed\x8a\xb9\xeb\xb3\x84\xec\x8b\x9c \xec\x84\x9c\xeb\x8c\x80\xeb\xac\xb8\xea\xb5\xac \xeb\x8c\x80\xed\x98\x84\xeb\x8f\x99 **\xeb\xb2\x88\xec\xa7\x80 **\xed\x98\xb8</SITEWHLADDR>\n<RDNWHLADDR>\xec\x84\x9c\xec\x9a\

In [45]:
# res2의 데이터는 xml 형태로 데이터 확인
# 익숙한 데이터의 타입인 dict 형태로 데이터 변환
# !pip install xmltodict
import xmltodict

In [46]:
# xml 형태인 바이트 데이터를 dict 형태로 변환
# xmltodict에 내장된 parse() 함수 이용
data = xmltodict.parse(res2.content)
data

{'LOCALDATA_082604_SM': {'list_total_count': '17515',
  'RESULT': {'CODE': 'INFO-000', 'MESSAGE': '정상 처리되었습니다'},
  'row': [{'OPNSFTEAMCODE': '3120000',
    'MGTNO': '2002312010723200033',
    'APVPERMYMD': '2002-08-28',
    'APVCANCELYMD': None,
    'TRDSTATEGBN': '03',
    'TRDSTATENM': '폐업',
    'DTLSTATEGBN': '03',
    'DTLSTATENM': '폐업처리',
    'DCBYMD': '2012-12-12',
    'CLGSTDT': None,
    'CLGENDDT': None,
    'ROPNYMD': None,
    'SITETEL': '362-6328',
    'SITEAREA': None,
    'SITEPOSTNO': '120-170',
    'SITEWHLADDR': '서울특별시 서대문구 대현동 **번지 **호',
    'RDNWHLADDR': '서울특별시 서대문구 신촌로 *** (대현동)',
    'RDNPOSTNO': '120-170',
    'BPLCNM': '기프트닷컴',
    'LASTMODTS': '2012-12-12 14:35:57',
    'UPDATEGBN': 'I',
    'UPDATEDT': '2022-04-22 00:22:33.0',
    'UPTAENM': '-',
    'X': '195214.990355229',
    'Y': '450530.472512122',
    'ASETSCP': '0',
    'BCTOTAM': '0',
    'CAPT': '0',
    'SILMETNM': None},
   {'OPNSFTEAMCODE': '3120000',
    'MGTNO': '2002312010723200042',
    'APVPERM

In [47]:
from pprint import pprint

In [48]:
pprint(data)

{'LOCALDATA_082604_SM': {'RESULT': {'CODE': 'INFO-000',
                                    'MESSAGE': '정상 처리되었습니다'},
                         'list_total_count': '17515',
                         'row': [{'APVCANCELYMD': None,
                                  'APVPERMYMD': '2002-08-28',
                                  'ASETSCP': '0',
                                  'BCTOTAM': '0',
                                  'BPLCNM': '기프트닷컴',
                                  'CAPT': '0',
                                  'CLGENDDT': None,
                                  'CLGSTDT': None,
                                  'DCBYMD': '2012-12-12',
                                  'DTLSTATEGBN': '03',
                                  'DTLSTATENM': '폐업처리',
                                  'LASTMODTS': '2012-12-12 14:35:57',
                                  'MGTNO': '2002312010723200033',
                                  'OPNSFTEAMCODE': '3120000',
                                  'RDNPO

In [49]:
df3 = pd.DataFrame(data['LOCALDATA_082604_SM']['row'])
df3.head()

Unnamed: 0,OPNSFTEAMCODE,MGTNO,APVPERMYMD,APVCANCELYMD,TRDSTATEGBN,TRDSTATENM,DTLSTATEGBN,DTLSTATENM,DCBYMD,CLGSTDT,...,LASTMODTS,UPDATEGBN,UPDATEDT,UPTAENM,X,Y,ASETSCP,BCTOTAM,CAPT,SILMETNM
0,3120000,2002312010723200033,2002-08-28,,3,폐업,3,폐업처리,2012-12-12,,...,2012-12-12 14:35:57,I,2022-04-22 00:22:33.0,-,195214.990355229,450530.472512122,0,0,0,
1,3120000,2002312010723200042,2002-09-03,,4,취소/말소/만료/정지/중지,7,직권말소,,,...,2013-02-20 17:55:28,I,2022-04-22 00:22:33.0,-,,,0,0,0,
2,3120000,2002312010723200062,2002-09-16,,3,폐업,3,폐업처리,2008-02-01,,...,2011-12-26 13:35:52,I,2022-04-22 00:22:33.0,-,,,0,0,0,
3,3120000,2002312010723200080,2001-12-20,,3,폐업,3,폐업처리,2007-08-28,,...,2007-08-28 16:09:48,I,2022-04-22 00:22:33.0,-,197316.790897542,453287.92068054,0,0,0,
4,3120000,2002312010723200085,2000-04-14,,1,영업/정상,1,정상영업,,,...,2019-10-22 14:22:04,I,2019-10-24 00:22:57.0,기타,195125.659700742,450688.154142148,0,0,0,인터넷


In [None]:
df3.to_csv("./서울시서대문통신판매업인허가현황.csv", index=False)

In [52]:
# 방법 2 - 자체적인 DataBase에 저장
# 데이터베이스에 연결
import pymysql

**$\downarrow$ $\downarrow$ 보안을 신경쓰는 것도 포트폴리오에서 중요한 부분!!!!!!**

In [53]:
# service_key, DB server 정보들은 외부 노출 시 보안상 큰 문제 발생
# (일반적인 방법) .env에 데이터를 저장하고 외부에는 해당 파일을 업로드하지 않는다.
# dotenv 라이브러리를 이용하여 .env의 데이터를 가져온다.
# !pip install python-dotenv




[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
from dotenv import load_dotenv      # load_dotenv() : 작업공간에 있는 .env 파일을 환경 변수에 등록
import os                           # os : 시스템 환경 변수에 접근
# .env 파일을 생성해 MySQL 워크벤치의 정보를 기입

In [56]:
load_dotenv()

True

In [58]:
# 환경 변수에서 서버의 정보를 불러온다.
os.getenv('port')
# .env에는 숫자로 넣어뒀지만 getenv하니 문자형으로 불러짐 -> 숫자로 바꿔줘야 함

'3306'

In [59]:
# DB server 연결(connect)
db = pymysql.connect(
    host= os.getenv('host'),
    port= int(os.getenv('port')),
    user= os.getenv('user'),
    password= os.getenv('pw'),
    database= os.getenv('db_name')
)

In [60]:
# python 환경과 DB server 환경 사이에 가상의 공간(cursor) 생성
# cursor() -> 기본값으로 사용하면 쿼리의 결과를 tuple 형태로 되돌려줌
# DictCursor를 사용하면 dict 형태로 되돌려줌
cursor = db.cursor(pymysql.cursors.DictCursor)

In [68]:
# 수집한 데이터를 저장할 공간(table) 생성
# 'table = 엑셀 파일'이라고 생각
# table을 생성하는 query문은 CREATE문 (table이나 Database를 생성할 때 사용)
# 필드 이름,  타입,  제약 조건
create_query = """
    CREATE TABLE test
    (
        a varchar(32) primary key,
        b varchar(32) not null
    )    
"""

# df3의 컬럼 개수가 29개
query_head = "CREATE TABLE test_data ("
query_tail = ')'

for col in df3.columns:
    # print(col)
    text = f"{col} varchar(32), "
    # print(text)
    # text를 query_head에 누적합
    query_head += text

# 맨 뒤의 ', ' 제거하고 tail과 더해줌
query = query_head[:-2] + query_tail
query

'CREATE TABLE test_data (OPNSFTEAMCODE varchar(32), MGTNO varchar(32), APVPERMYMD varchar(32), APVCANCELYMD varchar(32), TRDSTATEGBN varchar(32), TRDSTATENM varchar(32), DTLSTATEGBN varchar(32), DTLSTATENM varchar(32), DCBYMD varchar(32), CLGSTDT varchar(32), CLGENDDT varchar(32), ROPNYMD varchar(32), SITETEL varchar(32), SITEAREA varchar(32), SITEPOSTNO varchar(32), SITEWHLADDR varchar(32), RDNWHLADDR varchar(32), RDNPOSTNO varchar(32), BPLCNM varchar(32), LASTMODTS varchar(32), UPDATEGBN varchar(32), UPDATEDT varchar(32), UPTAENM varchar(32), X varchar(32), Y varchar(32), ASETSCP varchar(32), BCTOTAM varchar(32), CAPT varchar(32), SILMETNM varchar(32))'

In [69]:
# Query 문을 cursor로 보내기
# 질의를 보낸다 (execute())
cursor.execute(query)

0

In [73]:
len(df3.columns)

29

**INSERT 구문을 통한 데이터 입력**
1. 원하는 컬럼에만 선택적으로 값을 삽입
</br>```"INSERT INTO table명 (필드명1, 필드명2, 필드명3, ...) VALUES (데이터1, 데이터2, 데이터3, ...```
    - 테이블 구조가 나중에 변경되더라도 (예: 새로운 컬럼이 추가되거나 기존 컬럼의 순서가 바뀌더라도), 쿼리가 오류 없이 작동
2. 모든 컬럼에 일괄 삽입
</br>```"INSERT INTO table명 VALUES (데이터1, 데이터2, 데이터3, ...)"```
    - 테이블의 모든 컬럼 순서를 정확히 알고 그 순서대로 값을 제공해야 함.
</br>만약 데이터베이스 관리자(DBA)가 테이블에 새로운 컬럼을 중간에 추가하거나 순서를 바꾸면, 이 쿼리는 즉시 ValueError나 Type Error를 발생

In [None]:
# 모든 컬럼에 일괄 삽입
insert_query = "INSERT INTO test_data VALUES ("
end_str = ")"
for i in range(len(df3.columns)):
    insert_query += "%s,"

insert_query = insert_query[:-1] + end_str

In [None]:
# df3의 오늘 values를 문자로 변환
df3 = df3.astype(str)

In [None]:
# execute( query, ?에 들어갈 데이터 ) 함수를 이용해서 쿼리문을 cursor에 보낸다.
cursor.execute(insert_query, list(df3.loc[0].values))

In [None]:
# df3의 오늘 인덱스의 데이터들을 insert문을 이용하여 대입 
for idx in df3.index:
    # 만약에 primary_key 지정된 필드에 같은 데이터가 대입되면 에러 발생
    # 중복 에러
    try:
        cursor.execute(insert_query, 
                    list(df3.loc[idx].values)
                    )
    except:
        # 중복 에러 발생 시 실행되는 부분 
        print('중복 데이터 발견')

In [None]:
# cursor와 db server 동기화
db.commit()
# 워크벤치 확인하면 'test_data' 파일 만들어져 있을 것

### 데이터프레임을 DBserver에 즉각 대입
- sqlalchemy, pandas 라이브러리 사용
    - sqlalchemy에 내장된 create_engine 함수를 이용
    - pandas의 DataFrame에서 to_sql() 함수를 이용
        
- **```to_sql()```의 매개변수**
    - **필수**
        - <span style="color:#ffd33d">**name**</span>
        </br>: 테이블의 이름을 지정
        - <span style="color:#ffd33d">*con**</span>
        </br>: 데이터베이스 서버의 정보 (create_engine)
    - **선택**
        - <span style="color:#ffd33d">**index**</span>
        </br>: index의 데이터를 포함할것인가
            - 기본값: True
        - <span style="color:#ffd33d">**if_exists**</span>
        </br>: 데이터프레임과 동일한 이름의 테이블이 데이터베이스에 이미 존재할 경우, Pandas가 해당 테이블을 어떻게 처리할지 지정
            - 데이터베이스에 데이터를 삽입할 때 데이터 손실이나 중복을 방지하기 위해 필수적
            - 기본값: fail
                - fail : ValueError를 발생시키고 작업을 중단
                - replace : 대체 (덮어쓰기) - 기존 데이터 영구 삭제
                - append : 데이터를 추가

In [70]:
from sqlalchemy import create_engine

In [71]:
# create_engine 함수를 이용하여 서버의 정보를 저장
# "{DB종류+DB연결라이브러리}://{DB유저명}:{비밀번호}@{DBhost}:{port}/{DataBase명}"
engine = create_engine(
    'mysql+pymysql://root:1408@localhost:3306/multicam'
)

In [72]:
df3.to_sql(
    name= 'test_data2',
    con= engine,
    index= False
)
# 10 출력 확인한 뒤 워크벤치 들어가 10개의 데이터 생성되어있는 것 확인

10