<a href="https://colab.research.google.com/github/Taeichang/DataAnalysis/blob/main/%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%B6%84%EC%84%9D_5%EA%B0%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 오픈소스 기반 데이터 분석 5강 - 데이터 저장

## 3.4 데이터 수집 방법

### 3.4.1 파일

* 쉽게 생성하고 접근 가능
* 운영체제에 관계 없이 호환성이 뛰어남
* 대규모 데이터 처리에 비효율적
* 순차적으로 데이터를 읽고 쓰는 방식 -> 입출력 속도 급격히 저하
* 검색 기능 부족
* 무결성과 보안 측면 취약

#### 1) CSV (Comma-Separated Values)

* Pandas의 DataFrame 객체는 CSV 파일과 구조적으로 매우 유사

> index = False - DataFrame의 인덱스가 불필요하게 저장되는 것을 방지


In [3]:
import pandas as pd

data = {
    'student_id': [101, 102, 103, 104, 105],
    'database_score': [85, 76, 92, 63, 88],
    'cloudcomputing_score': [78, 82, 95, 70, 84],
    'python_score': [92, 78, 85, 75, 91],
    'watch_rate': [0.95, 0.87, 0.99, 0.80, 0.93]
}
# DataFrame 생성
df = pd.DataFrame(data)
# CSV 형식 저장
df.to_csv('student_analysis.csv', encoding = 'utf-8', index = False)

#### 2) JSON(JavaScript Object Notation)

* 계층 구조를 가진 데이터를 저장하는데 유용

> json.dump - 첫번째 인자로 저장할 데이터 넘김, 두번째 인자로 파일 객체 전달해 파일에 기록

> indent = 4 - 들여쓰기 설정

> ensure_ascii = False / force_ascii = False - 한글이 유니코드로 변환되는 것을 방지

> orient 옵션에 따라서 저장되는 값이 달라짐

In [8]:
### 라이브러리 임포트
import json
import pandas as pd

data = {
    "이름": "홍길동",
    "나이": 25,
    "거주지": "서울",
    "관심사": ["프로그래밍", "데이터 분석", "여행"]
}

# json.dump를 이용한 저장
with open('output.json', 'w', encoding = 'utf-8') as f:
    json.dump(data, f, indent = 4, ensure_ascii = False)
# 그대로 읽기: DataFrame을 이용한 저장
df = pd.DataFrame(data)
# 관심사 값이 3개, 3행에 대한 데이터를 객체로 만들어서 표현 (차이점 알아두기)
df.to_json('output_df.json', orient = 'records', indent = 4, force_ascii = False)

# 리스트로 읽기:data는 하나의 객체에 여러개 정, 리스트로 묶어줘야 정상적으로 칼럼이 분절
# df = pd.DataFrame([data])


### 3.4.2 데이터베이스



*   대량의 데이터를 일정한 구조에 맞게 정리하여 보관
*   원하는 데이터를 신속하게 검색하거나 수정



*   관계형 데이터베이스(RDBMS)
    *   데이터베이스를 테이블 형태로 저장
    *   행 - 하나의 데이터 기록
    *   열 - 데이터의 속성
    * SQL, MySQL, PostgreSQL, Oracle, SQLServer  
*   비관계형 데이터베이스(NoSQL)
    * 문서 형태, 키와 값의 쌍, 그래프 등 비정형 데이처를 저장
    * 각 시스템에서 제공하는 명령어나 API를 통해 데이터를 조작
    * SQL 사용하지 않음, MongoDB, Cassandra, Redis, Elasticsearch
    * 검색어 자동완성, 실시간 데이터 분석처럼 대량의 데이터를 빠르게 처리할 때 적합
    * 분산처리와 확장성 측면에서 강점




## 3.5 Pandas의 DataFrame 이해 및 활용

### 3.5.1 DataFrame의 구성 요소

* 2차원 데이블 형태의 자료구조
* 값, 인덱스, 컬럼

> set_index() - 특정 행을 빠르게 찾아냄, 데이터를 효율적으로 저장

* Pandas에서
    * 열 이름을 인덱스 처럼 다룰 수 있음
    * 데이터 필터링과 열 순서 재배치 가능

* 데이터 - DataFrame 내부에 저장된 실제값
    * NumPy 배열 형태로 저장
    * 문자열, 날짜, 논리값 등 다양한 형태

In [15]:
import pandas as pd

data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5],
    "학과": ["컴퓨터학", "경영학", "농학", "교육학", "영어영문학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}
df = pd.DataFrame(data)

# DataFrame 인덱스 출력
print('index: \n', df.index)
# DataFrame 컬럼 출력
print('\ncolumns:\n', df.columns)
# DataFrame 행 출력
# NumPy Array형
print('\nvalues(NumPy Array형):\n', df.values)
# 구조화 되어있는 걸 뭉개고 값을 각각 나열
print('\nvalues(flatten):\n', df.values.flatten())
# 파이썬 리스트 형태
print('\nvalues(tolist):\n', df.values.tolist())
# DataFrame 값 출력
print('\nrows:\n', df.values.tolist())

index: 
 RangeIndex(start=0, stop=5, step=1)

columns:
 Index(['이름', '학년', '학점', '학과', '동아리'], dtype='object')

values(NumPy Array형):
 [['김철수' 1 4.2 '컴퓨터학' '프로그래밍']
 ['이영희' 2 3.8 '경영학' '독서토론']
 ['박민수' 3 4.5 '농학' '로봇공학']
 ['최지훈' 4 3.9 '교육학' '봉사활동']
 ['정소희' 2 3.5 '영어영문학' '음악감상']]

values(flatten):
 ['김철수' 1 4.2 '컴퓨터학' '프로그래밍' '이영희' 2 3.8 '경영학' '독서토론' '박민수' 3 4.5 '농학'
 '로봇공학' '최지훈' 4 3.9 '교육학' '봉사활동' '정소희' 2 3.5 '영어영문학' '음악감상']

values(tolist):
 [['김철수', 1, 4.2, '컴퓨터학', '프로그래밍'], ['이영희', 2, 3.8, '경영학', '독서토론'], ['박민수', 3, 4.5, '농학', '로봇공학'], ['최지훈', 4, 3.9, '교육학', '봉사활동'], ['정소희', 2, 3.5, '영어영문학', '음악감상']]

rows:
 [['김철수', 1, 4.2, '컴퓨터학', '프로그래밍'], ['이영희', 2, 3.8, '경영학', '독서토론'], ['박민수', 3, 4.5, '농학', '로봇공학'], ['최지훈', 4, 3.9, '교육학', '봉사활동'], ['정소희', 2, 3.5, '영어영문학', '음악감상']]


### 3.5.2 DataFrame의 생성


* 다양한 데이터 소스로부터 변환 작업을 수행
* from으로 시작 (파일에서 생성하는 경우 일부는 read로 시작) p. 130

In [16]:
import pandas as pd
import json

data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5],
    "학과": ["컴퓨터공학", "경영학", "전자공학", "의학", "심리학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}

# 딕셔너리, csv, json으로 부터 DataFrame 생성
df1 = pd.DataFrame.from_dict(data)
df2 = pd.read_csv('students.csv', encoding = 'utf-8')
df3 = pd.read_json('students.json')

# 세가지 방법 결과 비교
print(df1.shape)
print(df2.shape)
print(df3.shape)

(5, 5)
(5, 5)
(5, 5)


### 3.5.3 DataFrame의 저장


* DataFrame의 내용을 각기 다른 파일 형식이나 데이터 구조로 변환하여 저장
* to_로 시작 p. 131


In [27]:
import pandas as pd

data = {
    "이름": ["김철수", "이영희", "박민수", "최지훈", "정소희"],
    "학년": [1, 2, 3, 4, 2],
    "학점": [4.2, 3.8, 4.5, 3.9, 3.5],
    "학과": ["컴퓨터공학", "경영학", "전자공학", "의학", "심리학"],
    "동아리": ["프로그래밍", "독서토론", "로봇공학", "봉사활동", "음악감상"]
}

# Dataframe 생성
df = pd.DataFrame.from_dict(data, orient = 'index')

# CSV, JSON 형식으로 저장
df.to_csv('students_scores.csv', encoding = 'utf-8', index = False)
df.to_json('students_scores.json', orient = 'records', indent = 4, force_ascii = False)

# HTML 형식으로 저장
html_table = df.to_html()
with open('students_scores.html', 'w', encoding = 'utf-8') as f:
    f.write(html_table)

## 3.6 개념 정리 실습

### 대기오염 정보를 요청하고 받아오는 전체 과정

* Requests 라이브러리를 임포트하여 HTTP 요청을 수행할 수 있도록 준비
* API 요청에 필요한 매개변수들은 params라는 딕셔너리에 담아 관리
* 실제 API 호출은 Requests 라이브러리의 get() 사용

* 요청주소 - API 특정 가능을 실행하기 위한 웹주소
* 요청병수 - API 실행 시 필요한 조건을 지정하는 매개변수
* 서비스키(serviceKey) - 활용 신청 시 발급 받은 일반 인증키(decoding) 사용
* 데이터표출형식(returnType) - josn 형식
* numOfRows - 파라미터를 통해 100개로 설정
* pageNo - 데이터의 페이지를 나타냄


In [None]:
import requests

url = "http://apis.data.go.kr/B552584/ArpltnInforInqireSvc/getMinuDustFrcstDspth"
api_key = '[발급받은 인증키]'

params = {
    'serviceKey': api_key,
    'returnType': 'json',
    'numOfRows': '100',
    'pageNo': '1',
    'sidoName': '서울',
    'ver': '1.0'
}

## 데이터 수집
response = requests.get(url, params = params)

## 호출 성공/실패 출력
if response.status_code == 200:
    print('API 호출 성공')
    print(response.json())
else:
    print(f'API 호출 실패: {response.status_code}')


### DataFrame으로 변환

* 필요한 정보가 있는 부분을 지정해서 변환

In [None]:
import pandas as pd

## requests로부터 response, body, item 항목 읽기
data = response.json(['response']['body']['items'])
print(type(data))
print(len(data))
df = pd.DataFrame(data)
print(df.head())
# 인덱싱 작업
# df['특정 칼럼/열']

### DataFrame을 다양한 형식의 파일로 저장하기


In [None]:
df.to_csv('air_pollution.csv', index=False, encoding='utf-8')

# JSON 형식 데이터 저장
df.to_json('air_pollution.json', orient = 'records', indent = 4, force_ascii = False)

# EXCEL 형식 데이터 저장
df.to_excel('air_pollution.xlsx', index = False)

# 파이썬 전용 형식 (호환성 떨어짐)
df.to_pickle('air_pollution'.pkl)

# HTML 형식 데이터 저장
# 앞전에는 HTML 스트링으로 바꾸고 파일 열어서 했음
df.to_html('air_pollution.html')