## 기온 공공데이터 CSV 파일 읽기

1. CSV 파일이란?
    - Comma Separated Values의 약자로 각각의 데이터 값을 콤마(,)로 구분하는 파일 형식
    - 엑셀, 메모장, 파이썬으로 열 수 있음

2. 파이썬으로 csv 파일 읽기
    - 주피터 노트북 파일과 csv 파일이 동일한 폴더에 있도록 하기
    - [Upload] 클릭해서 업로드 / 윈도우 상에서 파일 옮기기 (두 가지 방법이 있음)

In [None]:
import csv

f = open('incheon_weather.csv', 'r')    # 한글이 안 읽어질 경우, 뒤에 encoding='cp949' 추가
data = csv.reader(f)

for row in data:
    print(row)

f.close()


# 결과 예시
# ['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)']
# ['1904-04-10', '112', '7.5', '6.4', '9.4']
# ['1904-04-11', '112', '8.2', '7.2', '10.1']
# ['1904-04-12', '112', '11', '7.8', '14.6']
# ['1904-04-13', '112', '11.9', '9.6', '14.5']
# ['1904-04-14', '112', '10.9', '9.1', '13.9']

* cf) 코드 상단의 In[*]은 무엇일까?
    - In[*] : 현재 셀이 실행 중
    - In[] : 실행되지 않은 경우
    - In[num] : 셀이 실행된 후

## 헤더 처리하기

1. 헤더(Header)란?
    - 여러 가지 값들이 어떤 의미를 갖는지 표시한 행
    - 대부분 데이터의 첫 번째 줄에 위치하고, 두 번째 줄부터 나타나는 데이터의 속성을 설명함
    - 헤더를 별도로 처리하기 위해 **next() 함수**를 사용할 수 있음

2. 헤더 처리하기

    - next() 함수 : 첫 번째 데이터 행을 읽어오면서 데이터의 탐색 위치를 다음 행으로 이동시키는 명령
    - 파이썬의 내장함수 next()는 반복가능한 객체의 __next__ 메서드를 호출
    

In [1]:
import csv

f = open('incheon_weather.csv', 'r')
data = csv.reader(f)
header = next(data)     # header라는 변수에 헤더 데이터 행을 저장 (next 함수 사용)
print(header)           # header라는 변수 출력

['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)']


## CSV 파일 데이터 읽기

* 파이썬 CSV 모듈에는 데이터를 읽어오기 위한 reader() 함수와 데이터 저장을 위한 writer() 함수가 있음
    - csv.reader() : CSV 파일에서 데이터를 읽어오는 함수
    - csv.writer() : CSV 파일에서 데이터를 저장하는 함수
    - 참고 : https://docs.python.org/3/library/csv.html

* reader() 함수를 사용
    - csv 파일에 저장된 데이터 가져오기

## 모듈, 패키지, 라이브러리

-> 파이썬에서 패키지와 라이브러리는 거의 동일한 의미로 사용됨

* 모듈 (Module) : 특정 기능(함수, 변수, 클래스 등)들이 구현되어있는 파일 (.py)
    1. 파이썬에서 모듈의 기능을 활용해 코드를 분리하고 공유함
    2. 가끔 script라고도 부름. 코드 가장 위에 import로 불러오는 것

* 패키지 (Package) : 특정 기능과 관련된 여러 모듈들을 하나의 폴더에 넣어놓은 것 (여러 하위폴더가 더 존재할 수 있음)
    1. 패키지 관리자를 사용하여 설치하기 위해 준비된 라이브러리
    2. pip install / 가끔은 라이브러리를 배포하는 매커니즘을 말함
    3. 파이썬 3.3 이후 버전부터는 __init.py가 없어도 패키지로 인식하지만, 하위 버전 호환을 위해 이것을 만들어주는게 더 좋음
    4. A.B라고 하면, A는 패키지, B는 모듈이 됨 (matplotlib.pyplot -> matplotlib 패키지 안에 있는 pyplot 모듈)

* 라이브러리 (Library) : 여러 모듈과 패키지를 묶어서 부르는 말
    - 일종의 코드 모음. 크게 표준 라이브러리와 외부 라이브러리로 구분
    
    1. 표준 라이브러리 : 파이썬을 설치할 떄 기본적으로 설치되는 라이브러리
        - ex) time, sys, os, math, random, urllib 등

    2. 외부 라이브러리 : python.org가 아닌, 외부 3rd party에서 개발한 모듈과 패키지를 묶어서 부르는 말
        - ex) requests, scrapy, webbrowser 등
        - **3rd party**를 통해 개발된 모듈, 패키지가 표준 라이브러리보다 더 우수하거나 사용하기 쉬운 경우도 있음
        - 예를 들면, **Numpy, Scipy, requests**

## 기온 공공데이터에 질문하기

* 데이터에 질문하기

    - 데이터 분석은 내가 관심 있는 데이터에 대한 호기심에서 출발
    
    1. 가장 더웠던 날은 언제였을까? 얼마나 더웠을까?
    2. 일교차가 가장 큰 시기는 1년 중 언제일까?
    3. 겨울에는 언제 가장 추울까? 12월? 1월? 2월?
    
    => 질문에 대한 답을 '데이터'에서 찾기

* 결국, 정리해보면 이 과정으로 나아감

    1. CSV 파일 데이터 읽기
    2. 헤더 처리하기
    3. 기온 공공데이터에 질문하기

### 1. 가장 더웠던 날은 언제였을까?

1. 질문 다듬기 : 기상 관측 이래, 인천의 **최고 기온**이 가장 높았던 날은 **언제**였고, **몇 도**였을까?
    - 구체적이고 명확해야 함!

2. 문제 해결 방법 구상하기

    - 질문을 해결하는데 필요한 데이터? 날짜, 최고기온 데이터
    - 과정 : 데이터 읽기 => 순차적으로 최고 기온 확인 => 가장 높았던 데이터 저장 => 최종 저장된 데이터 출력
    - cf) 파이썬은 인덱스 거꾸로 세는 것도 가능 : -1, -2, -3, ...

3. 파이썬 코드로 구현하기

    - 데이터 불러서 (헤더 제외) 한 행씩 출력하기
    - 이때, 리스트는 [], 문자열은 ''로 둘러싸여 있음
    - 데이터 중 최고 기온을 실수(float)로 변환하여 한 행씩 출력하기

* 이때, 최고 기온 데이터는 숫자 값이 아닌 문자열 -> 더하거나 크기 비교 불가능
    - 숫자 타입(type) 데이터로 변환해주어야 함
    - 소수점이 있는 실수이므로 float() 함수를 사용해 실수(float) 데이터로 변환
    - *데이터는 완전무결하지는 않으므로, 결측치 같은 것들은 예외처리가 필요함*

In [2]:
import csv

f = open('incheon_weather.csv', 'r')
data = csv.reader(f)
header = next(data)

# 누락 데이터 (빈 문자열) 처리
# 우리나라의 최고 기온은 일반적으로 35~40도 이므로, 이보다 작은 -100, -999로 정하면 됨

max_temp = -999
max_date = ''

for row in data:
    if row[-1] == '':    # 비교하므로 == 을 사용
        row[-1] = -999
    row[-1] = float(row[-1])
    
    if max_temp < row[-1]:
        max_temp = row[-1]
        max_date = row[0]
    
f.close()

# 기상 관측 이래, 인천의 최고 기온이 가장 높았던 날은 언제였고, 몇 도였을까?
print('기상 관측 이래, 인천의 최고 기온이 가장 높았던 날은', max_date, '이고, ', max_temp, '도 이다.')

기상 관측 이래, 인천의 최고 기온이 가장 높았던 날은 1949-07-16 이고,  38.9 도 이다.
