<a href="https://colab.research.google.com/github/csisyoon-hui/Data-Analysis-with-Open-Source/blob/main/4_5%EA%B0%95_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%88%98%EC%A7%91%EA%B3%BC_%EC%A0%80%EC%9E%A5_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 수집




## CSV 파일 읽기

In [2]:
import pandas as pd

## data.csv 파일 읽기 - 요거~
df = pd.read_csv('data.csv', encoding = 'utf-8', sep = ',', header = 0,
                 index_col=None, skiprows=None, nrows=None )
print(df)

           날짜    체중  골격근량  체지방량
0  2025.02.06  64.7  30.0  11.1
1  2025.02.04  64.0  29.3  11.6


## Json 파일 읽기


In [None]:
from IPython.utils import encoding
import json
import pandas as pd

## data.json 파일 출력 - 요거~
with open('data.json', 'r', encoding = 'utf-8') as f:
    data = json.load(f)

print(data)
print('\n\n')

## data.json 파일 DataFrame 읽기 - 요거~
df = pd.read_json('data.json', orient='records', encoding='utf-8', lines = False)
print(df)

{'매출데이터': [{'월': '2025-01', '매출액': 1000000, '비용': 700000, '이익': 300000}, {'월': '2025-02', '매출액': 1200000, '비용': 800000, '이익': 400000}, {'월': '2025-03', '매출액': 1500000, '비용': 900000, '이익': 600000}]}



                                               매출데이터
0  {'월': '2025-01', '매출액': 1000000, '비용': 700000,...
1  {'월': '2025-02', '매출액': 1200000, '비용': 800000,...
2  {'월': '2025-03', '매출액': 1500000, '비용': 900000,...


## 텍스트 파일 읽기 및 데이터 추출

In [None]:
import re

## 파일(callcenter20250301.log) 오픈 및 읽기
with open('callcenter20250301.log', 'r', encoding = 'utf-8') as f:
    content = f.read()

## 주민등록번호 패턴 생성 - 요거~
pattern = re.compile(r'(\d{6})-(\d{7})')

## 주민등록번호 마스킹 - 요거~
masked_content = pattern.sub(r'\1-*******', content)

## 마스킹된 파일(callcenter20250301_masked.log) 오픈 및 쓰기 - 요거~
with open('callcenter20250301_masked.log', 'w', encoding = 'utf-8') as f:
    f.write(masked_content)
print('주민등록번호 마스킹 완료. callcenter20250301_masked.log 파일로 저장되었습니다.')

주민등록번호 마스킹 완료. callcenter20250301_masked.log 파일로 저장되었습니다.


## Open-Meteo의 무료 날씨 API를 통한 특정 지역 온도 조회

In [None]:
import requests
import json

url = "https://api.open-meteo.com/v1/forecast?=&=&current=temperature_2m"
params = {
    "latitude": "37.58638333",
    "longitude": "127.0203333",
    "current": "temperature_2m"
}

try:
    response = requests.get(url, params=params, timeout=5) # - 요거~
    response.raise_for_status()

    data = response.json() # - 요거~
    print('API 응답: ', data)
    print('서울시 종로구의 현재 온도는: {0}{1} 입니다.'.format(data['current']['temperature_2m'], data['current_units']['temperature_2m']))
except requests.exceptions.RequestException as e:
    print(f'API 호출 실패: {e}')
except json.JSONDecodeError as e:
    print(f'JSON 파싱 실패: {e}')

API 응답:  {'latitude': 37.6, 'longitude': 127.0, 'generationtime_ms': 0.027179718017578125, 'utc_offset_seconds': 0, 'timezone': 'GMT', 'timezone_abbreviation': 'GMT', 'elevation': 29.0, 'current_units': {'time': 'iso8601', 'interval': 'seconds', 'temperature_2m': '°C'}, 'current': {'time': '2025-11-28T09:15', 'interval': 900, 'temperature_2m': 2.1}}
서울시 종로구의 현재 온도는: 2.1°C 입니다.


## Selenium과 lxml을 이용한 웹 스크래핑

In [None]:
!curl -o google-chrome-stable_current_amd64.deb https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
!apt install ./google-chrome-stable_current_amd64.deb -y
!pip install selenium webdriver_manager

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  112M  100  112M    0     0   197M      0 --:--:-- --:--:-- --:--:--  197M
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
Note, selecting 'google-chrome-stable' instead of './google-chrome-stable_current_amd64.deb'
The following additional packages will be installed:
  at-spi2-core gsettings-desktop-schemas libatk-bridge2.0-0 libatk1.0-0
  libatk1.0-data libatspi2.0-0 libvulkan1 libxcomposite1 libxtst6
  mesa-vulkan-drivers session-migration
The following NEW packages will be installed:
  at-spi2-core google-chrome-stable gsettings-desktop-schemas
  libatk-bridge2.0-0 libatk1.0-0 libatk1.0-data libatspi2.0-0 libvulkan1
  libxcomposite1 libxtst6 mesa-vulkan-drivers session-migration
0 upgraded, 12 newly installed, 0 to remove and 41 not upgraded.
Need to get 11.2 MB/129 MB of ar

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from lxml import html
import time

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')               # 브라우저 창 없이 실행
chrome_options.add_argument('--no-sandbox')             # 보안모드 비활성화 (Colab 필수)
chrome_options.add_argument('--disable-dev-shm-usage')  # 메모리 부족 방지 (Colab 필수)
chrome_options.add_argument('--window-size=1920x1080')  # 창 크기 설정(가상)
chrome_options.add_argument('--disable-gpu')            # GPU 가속 비활성화 (일부 환경 안정성)
chrome_options.binary_location = "/usr/bin/google-chrome-stable"  # Colab용 크롬 경로 지정

## 드라이버 실행
driver = webdriver.Chrome(options=chrome_options)

## 사이트 접속 # - 요거~
url = 'https://professor.knou.ac.kr/jaehwachung/index.do'
driver.get(url)

## 사이트 접속 대기 # - 요거~
time.sleep(2)

## 페이지 제목 출력 # - 요거~
page_source = driver.page_source
tree = html.fromstring(page_source)
title_text = tree.xpath('//title/text()')
print(title_text)

## 드라이버 종료
driver.quit()

['컴퓨터과학과 정재화 교수']


# 데이터 저장

## CSV 형식 저장

In [None]:
import pandas as pd

data = {
    'student_id': [101, 102, 103, 104, 105],
    'database_score': [85, 76, 92, 63, 88],
    'cloudcomputing_score': [78, 82, 95, 70, 84],
    'python_score': [92, 78, 85, 75, 91],
    'watch_rate': [0.95, 0.87, 0.99, 0.80, 0.93]
}

df = pd.DataFrame(data) # - 요거~
# encoding = 'utf-8' / 한글 데이터 저장을 위한 인코딩 방식 지정
# index = False / 데이터프레임의 인덱스가 불필요하게 저장되는 것을 방지
df.to_csv('student_analysis.csv', encoding = 'utf-8', index = False) # - 요거~


## JSON 형식 저장

In [None]:
import json
import pandas as pd

data = {
    "이름": "홍길동",
    "나이": 25,
    "거주지": "서울",
    "관심사": ["프로그래밍", "데이터 분석", "여행"]
}

# 파일 생성
with open('output.json', 'w', encoding = 'utf-8') as f: # 파일 생성
# data: 저장할 데이터
# f: 파일 객체
# indent = 4: 들여쓰기 설정
# ensure_ascii = False: 한글이 유니코드 변환되는 것을 방지, 한글 그대로 저장
    json.dump(data, f, indent = 4, ensure_ascii = False) # - 요거~

df = pd.DataFrame([data]) # - 요거~
# rient = 'records': DataFrame의 각 행을 json 객체로 변환해 리스트로 만드는 방식
df.to_json('output_df.json', orient = 'records', indent = 4, force_ascii = False)

## Pandas Dataframe 데이터 추출

In [None]:
import pandas as pd

data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5],
    "학과": ["컴퓨터학", "경영학", "농학", "교육학", "영어영문학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}

df = pd.DataFrame(data)

print('index:\n', df.index) # - 요거~
print('\ncolumns:\n', df.columns) # - 요거~
print('\nvalues:\n', df.values.flatten()) # - 요거~
print('\nrows:\n', df.values.tolist()) # - 요거~

index:
 RangeIndex(start=0, stop=5, step=1)

columns:
 Index(['이름', '학년', '학점', '학과', '동아리'], dtype='object')

values:
 ['김철수' 1 4.2 '컴퓨터학' '프로그래밍' '이영희' 2 3.8 '경영학' '독서토론' '박민수' 3 4.5 '농학'
 '로봇공학' '최지훈' 4 3.9 '교육학' '봉사활동' '정소희' 2 3.5 '영어영문학' '음악감상']

rows:
 [['김철수', 1, 4.2, '컴퓨터학', '프로그래밍'], ['이영희', 2, 3.8, '경영학', '독서토론'], ['박민수', 3, 4.5, '농학', '로봇공학'], ['최지훈', 4, 3.9, '교육학', '봉사활동'], ['정소희', 2, 3.5, '영어영문학', '음악감상']]


## DataFrame 생성 방법

In [None]:
import pandas as pd
import json

# 학생 데이터를 포함하는 중첨 딕셔너리 생성
data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5], # 4.5 만점
    "학과": ["컴퓨터공학", "경영학", "전자공학", "의학", "심리학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}

# 딕셔너리를 DataFrame으로 변환, 키는 열 이름, 값은 열 데이터로 설정
df1 = pd.DataFrame.from_dict(data) # - 요거~
# students.csv 파일에서 데이터 읽어오기, 'utf-8' 인코딩 지정하여 한글과 같은 유니코드 문자 올바르게 처리
df2 = pd.read_csv('students.csv', encoding = 'utf-8') # - 요거~
# students.csv 파일 json으로 읽어오기
df3 = pd.read_json('student.json') # - 요거~

## DataFrame 저장 방법

In [None]:
import pandas as pd

data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5],
    "학과": ["컴퓨터공학", "경영학", "전자공학", "의학", "심리학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}

df = pd.DataFrame.from_dict(data, orient = 'index') # - 요거~
df.to_csv('students_scores.csv', encoding = 'utf-8', index = False) # - 요거~
df.to_json('students_scores.json', orient = 'records', index = 4, force_ascii = False) # - 요거~
html_table = df.to_html() # - 요거~
with open('students_scores.html', 'w', encoding = 'utf-8') as f:
    f.write(html_table)


# 실습 시나리오(대기오염 정보 받아오기)

## 대기오염 정보를 요청하고 받아오는 전체 과정

In [None]:
import requests

url = "http://apis.data.go.kr/B552584/ArpltnInforInqireSvc/getMinuDustFrcstDspth"
api_key = '25acd93fac68fc073845a066d9a412f435d86e2eab1f13103a2b3c3957709d46'

params = {
    'serviceKey': api_key,
    'returnType': 'json',
    'numOfRows': '100',
    'pageNo': '1',
    'sidoName': '서울',
    'ver': '1.0'
}

## 데이터 수집 # - 요거~
response = requests.get(url, params=params)

if response.status_code == 200:
    print('API 호출 성공')
    print(response.json())
else:
    print(f'API 호출 실패: {response.status_code}')

API 호출 실패: 401


## DataFrame으로 변환 & DataFrame을 다양한 형식의 파일로 저장하기


In [None]:
import pandas as pd

data = response.json()['response']['body']['items']
pf = pd.DataFrame(data)
print(df.head())


## CSV 형식 데이터 저장
df.to_csv('air_pollution.csv', index=False, encoding='utf-8')

## JSON 형식 데이터 저장
df.to_json('air_pollution.json', indent=4, force_ascii=False)

## EXCEL 형식 데이터 저장
df.to_excel('air_pollution.xlsx', index=False)

## HTML 형식 데이터 저장
df.to_html('air_pollution.html')