<a href="https://colab.research.google.com/github/JinSeungWan-open/Data-Analysis-with-Open-Source/blob/main/______4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# 오픈소스 기반 데이터 분석 4강 - 데이터 수집


## 4-1 CSV 파일 읽기

In [None]:
import pandas as pd

## data.csv 파일 읽기
df = pd.read_csv('data.csv', encoding='UTF-8', sep=',', header=0, index_col=None, skiprows=None, nrows=None)

print(df)

           날짜    체중  골격근량  체지방량
0  2025.02.06  64.7  30.0  11.1
1  2025.02.04  64.0  29.3  11.6


## 4-2 JSON 파일 읽기



In [None]:
import json
import pandas as pd

## data.json 파일 출력
with open('data.json', mode='r', encoding='UTF-8') as f:
    data = json.load(f)
print(data)
## data.json 파일 DataFrame 읽기
df = pd.read_json('data.json', orient='records', encoding='utf-8')
print(df)

{'매출데이터': [{'월': '2025-01', '매출액': 1000000, '비용': 700000, '이익': 300000}, {'월': '2025-02', '매출액': 1200000, '비용': 800000, '이익': 400000}, {'월': '2025-03', '매출액': 1500000, '비용': 900000, '이익': 600000}]}
                                               매출데이터
0  {'월': '2025-01', '매출액': 1000000, '비용': 700000,...
1  {'월': '2025-02', '매출액': 1200000, '비용': 800000,...
2  {'월': '2025-03', '매출액': 1500000, '비용': 900000,...


## 4-3 텍스트 파일 읽기 및 데이터 추출

In [None]:
import re

## 파일(callcenter20250301.log) 오픈 및 읽기
with open('callcenter20250301.log', 'r', encoding='utf-8') as f:
    content = f.read()
## 주민등록번호 패턴 생성
pattern = re.compile(r'(\d{6})-(\d{7})')
## 주민등록번호 마스킹
masked_content = pattern.sub(r'\1-*******',content)

## 마스킹된 파일(callcenter20250301_masked.log) 오픈 및 쓰기
with open('callcenter20250301_masked.log', mode='w') as f:
    f.write(masked_content)

print("주민등록번호 마스킹 완료. 'callcenter20250301_masked.log.txt' 파일로 저장되었습니다.")

주민등록번호 마스킹 완료. 'callcenter20250301_masked.log.txt' 파일로 저장되었습니다.


## 4-4 Open-Meteo의 무료 날씨 API를 통한 특정 지역 온도 조회

In [None]:
import requests
import json

url = "https://api.open-meteo.com/v1/forecast?=&=&current=temperature_2m"
params = {
    "latitude": "37.58638333",
    "longitude": "127.0203333",
    "current": "temperature_2m"
}

try:
    ## URL 및 파라미터 전송
    response = requests.get(url, params=params)
    response.raise_for_status()
    ## JSON 데이터 읽기
    data = response.json()
    print("API 응답:", data)
    print("서울시 종로구의 현재 온도는 : {0}{1} 입니다.".format(data['current']['temperature_2m'], data['current_units']['temperature_2m']))

except requests.exceptions.RequestException as e:
    print(f"API 호출 실패: {e}")
except json.JSONDecodeError as e:
    print(f"JSON 파싱 실패: {e}")

API 응답: {'latitude': 37.6, 'longitude': 127.0, 'generationtime_ms': 0.026941299438476562, 'utc_offset_seconds': 0, 'timezone': 'GMT', 'timezone_abbreviation': 'GMT', 'elevation': 29.0, 'current_units': {'time': 'iso8601', 'interval': 'seconds', 'temperature_2m': '°C'}, 'current': {'time': '2025-10-17T09:15', 'interval': 900, 'temperature_2m': 19.6}}
서울시 종로구의 현재 온도는 : 19.6°C 입니다.


## 4-5 Selenium과 lxml을 이용한 웹 스크래핑

In [None]:
!curl -o google-chrome-stable_current_amd64.deb https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
!apt install ./google-chrome-stable_current_amd64.deb -y
!pip install selenium webdriver_manager

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from lxml import html
import time

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')               # 브라우저 창 없이 실행
chrome_options.add_argument('--no-sandbox')             # 보안모드 비활성화 (Colab 필수)
chrome_options.add_argument('--disable-dev-shm-usage')  # 메모리 부족 방지 (Colab 필수)
chrome_options.add_argument('--window-size=1920x1080')  # 창 크기 설정(가상)
chrome_options.add_argument('--disable-gpu')            # GPU 가속 비활성화 (일부 환경 안정성)
chrome_options.binary_location = "/usr/bin/google-chrome-stable"  # Colab용 크롬 경로 지정

## 드라이버 실행
driver = webdriver.Chrome(options=chrome_options)

## 사이트 접속
url = 'http://professor.knou.ac.kr/jaehwachung/index.do'
driver.ger(url)

## 사이트 접속 대기
time.sleep(2)

## 페이지 제목 출력
page_source = driver.page_source
tree = html.fromstring(page_source)

title_text = tree.xpath('//title/text()')
print(title_text)

## 드라이버 종료
driver.quit()

ModuleNotFoundError: No module named 'selenium'


# 실습 시나리오

## 공공데이터 포털 가입 및 데이터 신청

- [https://www.data.go.kr](https://www.data.go.kr)
- 한국환경공단 에어코리아 대기오염정보 데이터 신청

In [1]:
import requests
import json

API_KEY = "42436d41486a696e3837517354586e"
base_url = "http://openapi.seoul.go.kr:8088"
results = []

for year in range(2015, 2025):
    for month in range(1, 13):
        url = f"{base_url}/{API_KEY}/json/energyUseDataSummaryInfo/1/1000/{year}/{month:02d}"
        try:
            response = requests.get(url)
            if response.status_code == 200 and response.text.strip():
                data = response.json()
                if ("energyUseDataSummaryInfo" in data and "row" in data["energyUseDataSummaryInfo"]):
                    rows = data["energyUseDataSummaryInfo"]["row"]
                    for item in rows:
                        if item.get("MM_TYPE") == "개인":
                            results.append({
                                "연도": item.get("YEAR"),
                                "월": item.get("MON"),
                                "전기 사용량": item.get("EUS"),
                                "가스 사용량": item.get("GUS"),
                                "수도 사용량": item.get("WUS"),
                                "지역난방 사용량": item.get("HUS")
                            })
                    print(f"{year}-{month:02d} 호출 성공")
        except ValueError:
            pass

with open("seoul_energy_use_2015_2024.json", "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=4)

print("데이터 수집 완료")

2015-01 호출 성공
2015-02 호출 성공
2015-03 호출 성공
2015-04 호출 성공
2015-05 호출 성공
2015-06 호출 성공
2015-07 호출 성공
2015-08 호출 성공
2015-09 호출 성공
2015-10 호출 성공
2015-11 호출 성공
2015-12 호출 성공
2016-01 호출 성공
2016-02 호출 성공
2016-03 호출 성공
2016-04 호출 성공
2016-05 호출 성공
2016-06 호출 성공
2016-07 호출 성공
2016-08 호출 성공
2016-09 호출 성공
2016-10 호출 성공
2016-11 호출 성공
2016-12 호출 성공
2017-01 호출 성공
2017-02 호출 성공
2017-03 호출 성공
2017-04 호출 성공
2017-05 호출 성공
2017-06 호출 성공
2017-07 호출 성공
2017-08 호출 성공
2017-09 호출 성공
2017-10 호출 성공
2017-11 호출 성공
2017-12 호출 성공
2018-01 호출 성공
2018-02 호출 성공
2018-03 호출 성공
2018-04 호출 성공
2018-05 호출 성공
2018-06 호출 성공
2018-07 호출 성공
2018-08 호출 성공
2018-09 호출 성공
2018-10 호출 성공
2018-11 호출 성공
2018-12 호출 성공
2019-01 호출 성공
2019-02 호출 성공
2019-03 호출 성공
2019-04 호출 성공
2019-05 호출 성공
2019-06 호출 성공
2019-07 호출 성공
2019-08 호출 성공
2019-09 호출 성공
2019-10 호출 성공
2019-11 호출 성공
2019-12 호출 성공
2020-01 호출 성공
2020-02 호출 성공
2020-03 호출 성공
2020-04 호출 성공
2020-05 호출 성공
2020-06 호출 성공
2020-07 호출 성공
2020-08 호출 성공
2020-09 호출 성공
2020-10 호출 성공
2020-11 호출 성공
2020-1

In [1]:
import pandas as pd
import json

with open('seoul_energy_use_2015_2024.json', encoding='utf-8') as f:
    data = json.load(f)

df = pd.DataFrame(data)

print(df.head())
print(df.info())
print(df.describe())

FileNotFoundError: [Errno 2] No such file or directory: 'seoul_energy_use_2015_2024.json'

In [19]:
import pandas as pd
import json

with open('seoul_energy_use_2015_2024.json', encoding='utf-8') as f:
    data = json.load(f)

df = pd.DataFrame(data)

df['date'] = pd.to_datetime(df['연도'] + '-' + df['월'] + '-01')
df['year'] = df['date'].dt.year

def get_season(month) :
    if month in [3, 4, 5]:
        return '봄'
    elif month in [6, 7, 8]:
        return '여름'
    elif month in [9, 10, 11]:
        return '가을'
    else:
        return '겨울'

df['month'] = df['date'].dt.month
df['season'] = df['month'].apply(get_season)

print(df.head(12))


      연도   월     전기 사용량    가스 사용량        수도 사용량      지역난방 사용량       date  \
0   2015  01  193784708  59133720  12819757.886  22740838.937 2015-01-01   
1   2015  02  189974230  56487358  12656888.218  18793320.213 2015-02-01   
2   2015  03  175215719  49984873  12655474.249  13826348.508 2015-03-01   
3   2015  04  183891769  37306841  12954773.246   5836002.885 2015-04-01   
4   2015  05  177289769  22060892  13086734.214   1320895.801 2015-05-01   
5   2015  06  186073153  12677645  14241651.402    294312.634 2015-06-01   
6   2015  07  165114568   8893640  12083879.038    702863.645 2015-07-01   
7   2015  08  242000479   7619018  15164553.742    460288.965 2015-08-01   
8   2015  09  207540868   6518422  14419078.727    305710.728 2015-09-01   
9   2015  10  186473958   8924018  14711828.766   3167520.127 2015-10-01   
10  2015  11  196892030  20322557  13692668.676   11210982.51 2015-11-01   
11  2015  12  203388142  40095231  13904162.958  21102616.717 2015-12-01   

    year  m

In [None]:
import requests
import pandas as pd
import json
import time

base_url = "http://openapi.seoul.go.kr:8088"
API_KEY = "42436d41486a696e3837517354586e"
results = []

for year in range(2015, 2025):
    for month in range(1, 13):
        url = f"{base_url}/{API_KEY}/json/energyUseDataSummaryInfo/1/100/{year}/{month:02d}"
        try:
            response = requests.get(url)
            if response.status_code == 200:
                if response.text.strip():
                    try:
                        data = response.json()
                        if ("energyUseDataSummaryInfo" in data and
                            "row" in data["energyUseDataSummaryInfo"]):
                            rows = data["energyUseDataSummaryInfo"]["row"]
                            # 조건에 맞는 데이터 존재 여부 확인용 변수
                            has_data = False
                            for item in rows:
                                if (item.get("CL_CODE_NM") == "개인" and
                                    item.get("ENERGY_TYPE_NM") in ["전기", "가스", "수도", "지역난방"]):
                                    results.append({
                                        "연도": year,
                                        "월": month,
                                        "에너지종류": item.get("ENERGY_TYPE_NM"),
                                        "사용량": item.get("USE_AMT")
                                    })
                            print(f"{year}-{month:02d} 호출 성공")
                        else:
                            print(f"{year}-{month:02d} 데이터 없음")
            except json.JSONDecodeError:
                    print(f"{year}-{month:02d} JSON 파싱 오류")
            else:
                print(f"{year}-{month:02d} 응답 본문 비어있음")
        else:
             print(f"{year}-{month:02d} 호출 실패 (상태코드: {response.status_code})")
    except requests.RequestException as e:
        print(f"{year}-{month:02d} 요청 중 예외 발생: {e}")

with open("energy_use_2015_2024.json", "w", encoding="UTF-8") as f:
    json.dump(results, f, ensure_ascii=False, indent=4)

print("데이터 수집 완료")

SyntaxError: expected 'except' or 'finally' block (ipython-input-1654592806.py, line 36)

In [None]:
import requests
import pandas as pd
import json
import time
# 데이터 수집 url 및 API KEY
url = "http://openapi.seoul.go.kr:8088"
API_KEY = "42436d41486a696e3837517354586e"
results = []
# 데이터 결과 저장
data_list = []

# 기간 내 API 호출
for year in range(2015, 2025):
    for month in range(1, 13):
        url = f"{url}/{API_KEY}/json/energyUseDataSummaryInfo/1/100/{year}/{month:02d}"
        response = requests.get(url)
        if response.status_code==200:
            response.text.strip():
                try:
                    data = response.json()
                    if "energyUseDataSummaryInfo" in data and "row" in data["energyUseDataSummaryInfo"]["row"]:
                        for item in data["energyUseDataSummaryInfo"]["row"]:
                            if item.get("CL_CODE_NM") == "개인" and item.get("ENERGY_TYPE_NM") in ["전기", "가스", "수도", "지역난방"]:
                                results.append({
                                    "연도" : year, "월" : month, "에너지종류": item.get("ENERGY_TYPE_NM"), "사용량" : item.get("USE_AMT")
                                })
                            print(f"{year}-{month:02d} 호출 성공")
                        else:
                            print(f"{year}-{month:02d} 데이터 없음")
                    else:
                        print(f"{year}-{month:02d} 호출 실패")
                    time.sleep(0.2)
with open("energy_use_2015_2024.json", "w", encoding="UTF-8") as f:
    json.dump(results, f, ensure_ascii=False, indent=4)

print("데이터 수집 완료")

SyntaxError: invalid syntax (ipython-input-3146587827.py, line 18)

In [None]:
import requests

## 데이터 수집 url 및 api key 설정


params = {
    'serviceKey': api_key,
    'returnType': 'json',
    'numOfRows': '100',
    'pageNo': '1',
    'sidoName': '서울',
    'ver': '1.0'
}

## 데이터 수집

## 호출 성공/실패 출력



In [None]:
import requests

## 데이터 수집 url 및 api key 설정


params = {
    'serviceKey': api_key,
    'returnType': 'json',
    'numOfRows': '100',
    'pageNo': '1',
    'sidoName': '서울',
    'ver': '1.0'
}

## 데이터 수집

## 호출 성공/실패 출력

