# 모두의 데이터 분석
> 1장
- toc:true
- branch: master
- badges: true
- comments: true
- author: 김동준
- categories : ["Python", "모데분"]

## 1. 데이터 출력하기

In [4]:
import csv
# csv 모듈을 불러온다.

f = open('seoul.csv', 'r',encoding='cp949')
# csv 파일을 open 함수로 열어서 f(aka파일핸들러)에 저장
# r : 파일읽기모드 read , cp949 : Window 한글 인코딩 방식
# 기본값임

data = csv.reader(f, delimiter=',')
# f를 reader() 함수에 넣어  data라는 csv reader객체를 생성
# CSV 파일 데이터를 콤마 "," 를 기준으로 분리해서 저장

print(data)
# 데이터 출력

f.close()
# open으로 연 파일 닫기

<_csv.reader object at 0x000001ECB44BC820>


### 데이터 확인
f = open('seoul.csv')
data = csv.reader(f)
for row in data :
    print(row)
f.close()

#### csv 데이터 해석
`1` 각 행의 데이터가 대괄호 [] 로 둘러싸여 있다.
$\to$ 리스트 형태이다.

`2` 각 행의 데이터가 ''로 표시되어있다.
$\to$ 각 행의 데이터가 문자열 데이터 str 이다. (크기 비교를 하려면 int형으로 바꾸어야한다.)

`3` 기온 데이터가 일부 누락되었다.
$\to$ 6.25 전쟁 기간이 포함되어서 그 때의 데이터는 누락되었다.

## 3. 헤더 저장하기

### 헤더(header)
`-` 데이터 파일에서 여러가지 값들이 어떤 의미를 갖는지 표시한 행

`-` 헤더를 별도로 저장하려면 next() 함수를 사용

In [5]:
f = open('seoul.csv')
data = csv.reader(f)
header = next(data)
print(header)
f.close()

['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)']


### 데이터 확인 2 (헤더가 안보인다.)
f = open('seoul.csv')
data = csv.reader(f)
header = next(data)
for row in data :
    print(row)
f.close()

## 4. 기온 공공 데이터에 질문하기

`-` 데이터 분석은 내가 관심 있는 데이터에 대한 호기심에서 출발한다.

`-` 나와 직접적으로 관련이 있는 매력적인 데이터를 살펴보면 궁금증이 생긴다.

## 5. 질문 다듬기

`-` 정확한 카테고리가 있는 질문으로 바꾼다.

## 6. 문제 해결 방법 구상하기

`-` 기상 관측 이래, 서울의 최고 기온이 가장 높았던 날은 언제였고, 몇 도 였을까?

`1` 데이터를 불러온다.

`2` 순차적으로 최고 기온을 확인한다.

`3` 최고 기온이 가장 높았던 날짜의 데이터를 저장한다.

`4` 최종 저장된 데이터를 출력한다.

## 7. 파이썬 코드로 구현하기

#hide
# 문자열 데이터를 실수 타입으로 변경
f = open('seoul.csv')
data = csv.reader(f)
header = next(data)
for row in data :
    row[-1] = float(row[-1])
    print(row)
f.close()

$\to$ 오류 나옴

`-` 최고 기온에 작은 따옴표가 사라진 것을 확인할 수 있다.

`-` 기온 데이터가 누락되었기 때문

$\to$ 아주 작은 값을 넣어 이 데이터는 빈 자리 였다는 것을 표시

f = open('seoul.csv')
data = csv.reader(f)
header = next(data)
for row in data :
    if row[-1] == '' :
        row[-1] = -999
    row[-1] = float(row[-1])
    print(row)
f.close()

# 서울의 기온이 가장 높았던 날의 날짜와 기온 구하기

`-` 만약 지금까지의 최고 기온 값보다 현재 행(row)의 최고 기온 값이 더 크다면

 최고 기온 날짜 업데이트
 
 최고 기온 값 업데이트
 
 
 if max_temp < row[-1] : 
 max_date = row[0]
 max_temp = row[-1]

In [16]:
f = open('seoul.csv')
data = csv.reader(f)
header = next(data)
max_temp = -999 # 30 으로 해도 무방
max_date = ''   #날짜는 작은따옴표 로 둘러싸인 문자열 값이라서 빈 문자열로 초깃값을 설정
for row in data :
    if row[-1] == '' :
        row[-1] = -999
    row[-1] = float(row[-1])
    if max_temp < row[-1] :
        max_date = row[0]
        max_temp = row[-1]
    print(row)
f.close()
print('기상 관측 이래 서울의 최고 기온이 가장 높았던 날은' , max_date + '로,', max_temp,'도 였습니다.')

['10-01-07', '108', '13.5', '7.9', 20.7]
['10-02-07', '108', '16.2', '7.9', 22.0]
['10-03-07', '108', '16.2', '13.1', 21.3]
['10-04-07', '108', '16.5', '11.2', 22.0]
['10-05-07', '108', '17.6', '10.9', 25.4]
['10-06-07', '108', '13', '11.2', 21.3]
['10-07-07', '108', '11.3', '6.3', 16.1]
['10-08-07', '108', '8.9', '3.9', 14.9]
['10-09-07', '108', '11.6', '3.8', 21.1]
['10-10-07', '108', '14.2', '6.4', 24.1]
['10-11-07', '108', '15.4', '10.1', 20.4]
['10-12-07', '108', '13.9', '11.1', 17.4]
['10-13-07', '108', '13.8', '8.3', 21.3]
['10-14-07', '108', '13', '6.1', 20.6]
['10-15-07', '108', '13.1', '5.7', 20.9]
['10-16-07', '108', '14.1', '8.2', 20.2]
['10-17-07', '108', '16.4', '10.3', 21.6]
['10-18-07', '108', '14.3', '9.8', 20.9]
['10-19-07', '108', '13.9', '6.7', 21.3]
['10-20-07', '108', '18.3', '12.4', 22.7]
['10-21-07', '108', '15.2', '10.7', 19.9]
['10-22-07', '108', '15.4', '12.1', 19.6]
['10-23-07', '108', '13.1', '8.1', 16.3]
['10-24-07', '108', '9.7', '3.3', 17.1]
['10-25-07',