<a href="https://colab.research.google.com/github/Taeichang/DataAnalysis/blob/main/%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%B6%84%EC%84%9D_4%EA%B0%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# 오픈소스 기반 데이터 분석 4강 - 데이터 수집


## 3.3 데이터 수집 방법






### 3.3.1 파일

* 로컬 환경이나 네트워크 저장소에 저장된 다양한 형태의 파일에서 데이터를 읽어 분석에 활용
* 정형, 비정형, 반정형 데이터 모두 수집 가능
* 일회성 분석이나 배치(batch) 처리 방식에 적합
* Pandas 라이브러리:
    * 다양한 소스의 데이터를 통합된 방식으로 처리할 수 있는 기능 제공
    * 표 형태의 DataFrame으로 변환하여 구조화된 형태로 다룰 수 있게 함
* DataFrame은 레이블이 있는 다차원 데이터 구조. 다양한 데이터 조작, 정제, 분석 기능을 제공

#### 1) CSV (Comma-Separated Values)

* 쉼표로 구분된 텍스트 데이터 파일로 표 형태의 데이터를 저장하는 데 주로 사용
* 높은 범용성이 서로 다른 시스템/플렛폼 간에 데이터 교환 용이
* 평면적 구조만 지원
* 순수한 텍스트 형식으로만 데이터 저장, 바이너리 데이터는 직접 저장 불가
* 데이터 타입에 대한 명시적 정보 불포함, 숫자와 문자열 구분 추가 처리 필요
* Pandas 라이브러리의 read_csv() 메서드를 통해 DataFrame으로 읽어올 수 있음. 서로 다른 자료형의 데이터를 동일한 표 안에 담을 수 있음.



*   sep: 구분자 지정. 기본적으로 쉼표지만 탭이나 다른 기호 설정 가능
*   header: 열 이름으로 사용할 행 번호를 지정. None으로 설정하면 열 이름 없이 데이터로 처리
* index_col: 인덱스로 사용할 열 번호 / 열 이름 지정
* skiprows: 파일 상위의 n개 행을 건너뛰고 읽기
* nrows: 읽어 올 행의 개수 제한
* encoding: 한글 파일의 경우 주로 utf-8 이나 cp949 사용



In [None]:
## data.csv 파일 읽기
import pandas as pd

df = pd.read_csv('data.csv', encoding = 'utf-8', sep = ',', header = 0, index_col = None, skiprows = None, nrows = None)
print(df)

           날짜    체중  골격근량  체지방량
0  2025.02.06  64.7  30.0  11.1
1  2025.02.04  64.0  29.3  11.6


#### 2) JSON(JavaScript Object Notation)

* JavaScript 객체 표기법을 따르는 텍스트 데이터 파일, 반정형 데이터 저장
* 텍스트 기반이면서도 구조화된 형태, 프로그램 간 데이터 교환 용이
* 키와 값 형태로 이루어진 데이터 포멧
* 중첩된 구조 표현 가능
* 데이터 모델이 자주 변경되거나 확장되는 환경에서 유용
* 데이터 검색이 직관적이지 않을 수 있음
* 데이터를 읽어올 때 json.load()
* 문자열 데이터 읽어올 때 json.loads()
* Pandas 라이브러리의 read_json() 메서드를 통해 DataFrame으로 읽어올 수 있음.



*   JSON 데이터는 저장 방식에 따라 구조가 다름, Pandas의 read_json()은 이런 구조적 차이에 대응하기 위해 orient라는 파라미터를 제공
* orient: JSON 데이터가 어떤 형태로 저장되어 있는지 알려줌
    * records - 리스트 안에 딕셔너리 형태
    * columns - 열 이름이 키가 되고, 각 열의 값들이 리스트로 표현
*   JSON Lines: 각 줄이 하나의 JSON 객체로 구성



In [None]:
# JSON 데이터 처리와 분석에 필요한 라이브러리 불러옴
import json
import pandas as pd

# json.load(f) 사용해 파일 내용을 파이썬 객체(리스트/딕셔너리)로 변환
with open('data.json', mode='r', encoding='utf-8') as f:
        data = json.load(f)
## data.json 파일 출력
print(data)

# pd.read_json 사용해 JSON 파일을 바로 DataFrame으로 읽음 -> 관계형 데이터베이스의 테이블
df = pd.read_json('data.json', orient = 'records', encoding = 'utf-8',lines = False)

print(df)

{'매출데이터': [{'월': '2025-01', '매출액': 1000000, '비용': 700000, '이익': 300000}, {'월': '2025-02', '매출액': 1200000, '비용': 800000, '이익': 400000}, {'월': '2025-03', '매출액': 1500000, '비용': 900000, '이익': 600000}]}
                                               매출데이터
0  {'월': '2025-01', '매출액': 1000000, '비용': 700000,...
1  {'월': '2025-02', '매출액': 1200000, '비용': 800000,...
2  {'월': '2025-03', '매출액': 1500000, '비용': 900000,...


#### 3) 텍스트 파일(TXT, LOG 등)

교재 p. 109 - 110

*   비정형 데이터를 저장하고 활용
* 전처리 과정에서 텍스트 정제, 패턴 추출, 토큰화 같은 추가적인 작업이 필수
*   특정한 표준 형식 없이 자유로운 형태, 특정 데이터를 추출하기 위해 정규표현식(regular expression) 사용



In [None]:
import re

# with open() 구문을 사용해 내용을 읽고 문자열로 저장함
with open('callcenter20250301.log', 'r', encoding='utf-8') as f:
    content = f.read()

# 주민등록번호 패턴 생성 (re.compile 패턴을 컴파일하여 패턴 객체를 반환. 이후 검색이나 추출 시 활용)
pattern = re.compile(r'(\d{6})-(\d{7})')

# 주민등록번호 마스킹 (pattern.sub 검출해낸 정보를 변조시켜 마스킹, 특정 패턴 있을 경우 변조)
masked_content = pattern.sub(r'\1-*******', content)

# 마스킹된 파일(callcenter20250301_masked.log) 오픈 및 쓰기
# 원본 데이터 보존 & 마스킹 데이터 별도 확보
with open('callcenter20250301_masked.log', mode='w') as f:
        f.write(masked_content)

print("주민등록번호 마스킹 완료. 'callcenter20250301_masked.log.txt' 파일로 저장되었습니다.")

주민등록번호 마스킹 완료. 'callcenter20250301_masked.log.txt' 파일로 저장되었습니다.


### 3.3.2 API

#### 2) Requests 라이브러리

* HTTP 프로토콜을 사용하여 웹 서버와 통신할 때 활용되는 파이썬 라이브러리
* 직관적인 문법과 간결한 코드
* 사람이 직접 클릭하는 것이 아닌 프로그램적으로 자동화 가능 (대량의 데이터 수집/주기적으로 갱신 되는 데이터)
* HTTP 요청 방식
    * GET 방식: 서버에서 데이터를 가져올 때
    * POST 방식: 서버레 데이터를 전송/특정 작업을 요청할 때
    * PUT, DELETE, HEAD
* 서버에서 반환한 응답 데이터를 다양한 형태로 처리할 수 있음
    * response.json() - 파이썬 딕셔너리 형식으로 변환
    * response.txt - 문자열 형태로 내용을 확인 가능



*   .get(위치 url, 어떤 인자값), 결과는 객체
*   timeout 설정, 응답 5초 이상 시 요청 중단 설정
*  .raise_for_status()
    * 정상적 응답 반환 시. JSON 형식의 응답 데이터를 파이썬의 딕셔너리로 변환
    * 응답 상태 코드(status code) 확인
    * 상태값에 오류가 있을 때 알려줌
    * 상태값 200(정상) 아닌 경우, HTTP 오류가 발생한 것으로 간주하여 예외 발생




In [None]:
import requests ##requests lib로 파이썬에서 정보를 갖고 옴
import json ##json lib 통해 파이썬 객체로 변환

# API 요청 대상이 되는 URL 설정
url = "https://api.open-meteo.com/v1/forecast?=&=&current=temperature_2m"

# 함께 전송할 정보를 딕셔너리로 생성
params = {
    "latitude": "37.58638333",
    "longitude": "127.0203333",
    "current": "temperature_2m"
}

# try문을 이용하여 API 요청을 보냄, 발생할 수 있는 예외 상황 처리
try:
    # URL과 파라미터 함께 전달
    response = requests.get(url, params = params, timeout = 5)
    response.raise_for_status()

    # JSON 데이터 읽기
    data = response.json()

    print("API 응답:", data)
    #f문자열로 바꾸기
    print("서울시 종로구의 현재 온도는 : {0}{1} 입니다.".format(data['current']['temperature_2m'], data['current_units']['temperature_2m']))

# 네트워크/서버 오류
except requests.exceptions.RequestException as e:
    print(f"API 호출 실패: {e}")

# 데이터 손상/JSON형식 아닐 경우
except json.JSONDecodeError as e:
    print(f"JSON 파싱 실패: {e}")

API 응답: {'latitude': 37.6, 'longitude': 127.0, 'generationtime_ms': 0.024080276489257812, 'utc_offset_seconds': 0, 'timezone': 'GMT', 'timezone_abbreviation': 'GMT', 'elevation': 29.0, 'current_units': {'time': 'iso8601', 'interval': 'seconds', 'temperature_2m': '°C'}, 'current': {'time': '2025-10-09T08:45', 'interval': 900, 'temperature_2m': 19.3}}
서울시 종로구의 현재 온도는 : 19.3°C 입니다.


### 3.3.3 웹 스크래핑

* 웹 크롤링(web crawling): 자동화된 방식으로 웹 페이지를 방문, 링크를 따라 이동, 웹의 구조 탐색하는 과정에서 모든 데이처 수집/인덱싱
* 웹 스크레핑(web scraping)
    * 특정 웹 페이지에서 원하는 데이터만 선택적으로 추출
    * 고려사항
        * 웹 페이지 구조 분석
        * 데이터 추출 방법
        * 웹 사이트 정책 준수
        * 정적 페이지(HTML로만 구성)와 동적 페이지(JavaScript 등 콘텐츠가 변경되는 페이지)
    

#### 데이터 스크래핑

* Selenium
    * 웹 브라우저를 실제로 실행, 사람이 클릭하고 입력하는 것처럼 자동으로 조작
    * WebDriver는 Selenium이 브라우저를 조작할 수 있도록 연결해 주는 프로그램
    * Selenium 코드가 실행될 때 WebDriver가 웹 브라우저를 띄우고 그 위에서 자동화 작업이 이루어짐

* lxml
    * HTML과 XML 문서를 효과적으로 읽고, 특정 정보 추출, 문서 수정/생성
    * 뛰어난 성능(C 기반)과 사용 편의성
    * 효율적으로 파싱
    * 데이터를 읽어 문서 객체로 변환 후 트리 구조로 쉽게 접근

In [1]:
#Selenium과 lxml을 이용한 웹 스크래핑
!curl -o google-chrome-stable_current_amd64.deb https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
!apt install ./google-chrome-stable_current_amd64.deb -y
!pip install selenium webdriver_manager

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  114M  100  114M    0     0  80.2M      0  0:00:01  0:00:01 --:--:-- 80.2M
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
Note, selecting 'google-chrome-stable' instead of './google-chrome-stable_current_amd64.deb'
The following additional packages will be installed:
  libvulkan1 mesa-vulkan-drivers
The following NEW packages will be installed:
  google-chrome-stable libvulkan1 mesa-vulkan-drivers
0 upgraded, 3 newly installed, 0 to remove and 38 not upgraded.
Need to get 10.9 MB/131 MB of archives.
After this operation, 448 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/main amd64 libvulkan1 amd64 1.3.204.1-2 [128 kB]
Get:2 http://archive.ubuntu.com/ubuntu jammy-updates/main amd64 mesa-vulkan-drivers amd64 23.2.1-1ubuntu3.1~22.04.3 [10.7

In [5]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from lxml import html
import time

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')               # 웹 브라우저 창 없이 보이지 않게 설정
chrome_options.add_argument('--no-sandbox')             # 보안모드 비활성화 (Colab 필수)
chrome_options.add_argument('--disable-dev-shm-usage')  # 메모리 부족 방지 (Colab 필수)
chrome_options.add_argument('--window-size=1920x1080')  # 창 크기 설정(가상)
chrome_options.add_argument('--disable-gpu')            # GPU 가속 비활성화 (일부 환경 안정성)
chrome_options.binary_location = "/usr/bin/google-chrome-stable"  # Colab에서 Chrome 실행 경로와 드라이버 경로를 명시적으로 설정해야 함

# 드라이버 실행
driver = webdriver.Chrome(options = chrome_options)

# 사이트 접속
url = 'https://www.naver.com/'
driver.get(url) #눈에 보이지 않지만 접속됨

# 사이트 접속 대기 지연 2초, 없으면 정상적으로 스크랩핑이 안 될 때도 있음
time.sleep(2)

# 페이지 제목 출력
page_source = driver.page_source
# 페이지 자체를 html로 받음. 이를 트리 형태로 바꿈
tree = html.fromstring(page_source)

try:
    #.xpath 특정 요소 갖고옴
    title_text = tree.xpath('//title/text()')
    print('웹 페이지 제목 (XPath): ', title_text[0] if title_text else '제목 없음')
except Exception as e:
    print(f'XPath 추출 실패: {e}')

# 드라이버 종료
driver.quit()

웹 페이지 제목 (XPath):  NAVER



# 실습 시나리오

## 공공데이터 포털 가입 및 데이터 신청

- [https://www.data.go.kr](https://www.data.go.kr)
- 한국환경공단 에어코리아 대기오염정보 데이터 신청

In [None]:
import requests

## 데이터 수집 url 및 api key 설정

##1:06

params = {
    'serviceKey': api_key,
    'returnType': 'json',
    'numOfRows': '100',
    'pageNo': '1',
    'sidoName': '서울',
    'ver': '1.0'
} ##para 어떻게 설정해야하는지 문서 제공

## 데이터 수집

## 호출 성공/실패 출력

