# 데이터 살펴보기

이번 실습에서는 데이터를 불러오고 확인하는 과정을 수행합니다.

## 라이브러리 불러오기
데이터 분석에서 널리 사용되는 파이썬 패키지 중 하나인 pandas는 데이터를 처리하고 조작하는 데 필수적인 도구를 제공합니다.

In [1]:
import pandas as pd

실습에 사용할 데이터는 **2016년 1월 1일부터 2019년 3월 31일까지의 서울대공원 입장객 데이터**입니다. 데이터에는 날짜, 공휴일 여부, 입장객 연령 등 다양한 정보가 저장되어 있습니다.

## 데이터 불러오기: read_csv()

이제 data폴더에 저장되어있는 데이터인 **seoul_park.csv** 파일을 불러와 데이터프레임 `df`에 저장합니다. csv 파일 형태를 가지므로 `read_csv()`를 활용하여 불러옵니다. `read_csv()`에는 데이터가 저장되어있는 파일의 경로를 입력받습니다.

In [2]:
# 파일 불러오기
df=pd.read_csv("./data/seoul_park.csv")

이제 데이터프레임 `df`에 서울대공원 입장객 데이터가 저장되어있습니다.

### [TODO] data 폴더에 저장되어있는 미세먼지 데이터를 불러와 변수 `mm`에 저장하세요.

* 미세먼지 데이터의 파일의 경로는 `./data/misemunji.csv` 입니다.

In [4]:
# None을 지우고 알맞은 코드를 입력하세요.
mm=pd.read_csv("/data/misemunji.csv")

FileNotFoundError: [Errno 2] No such file or directory: '/data/misemunji.csv'

## 데이터 살펴보기: head(), tail()
데이터의 갯수는 총 1085개로 데이터가 너무 커 한눈에 들어오지 않습니다. pandas 라이브러리에는 데이터를 살펴보기에 유용한 기능들이 있습니다.
`head()`, `tail()`을 사용하면 데이터의 처음과 끝의 일부를 확인할 수 있습니다.

In [5]:
df.head()

Unnamed: 0,날짜,공휴일,날씨,유료합계,어른,청소년,어린이,외국인,단체,무료합계,총계
0,2016-01-01,O,구름 조금,3359,2799,141.0,419,47,0,1023,4382
1,2016-01-02,O,구름 많음,5173,4370,203.0,600,100,111,2092,7265
2,2016-01-03,O,구름 많음,3008,2571,128.0,309,91,0,1549,4557
3,2016-01-04,X,구름 많음,890,602,,235,51,223,800,1690
4,2016-01-05,X,구름 많음,416,319,35.0,62,43,47,840,1256


In [6]:
df.tail()

Unnamed: 0,날짜,공휴일,날씨,유료합계,어른,청소년,어린이,외국인,단체,무료합계,총계
1081,2019-03-27,X,구름 많음,504,464,10,30,21,-,613,1117
1082,2019-03-28,X,구름 많음,761,687,46,28,35,108,904,1665
1083,2019-03-29,X,구름 조금,1644,1447,120,77,14,188,1226,2870
1084,2019-03-30,O,흐림,1539,1326,44,169,29,115,913,2452
1085,2019-03-31,O,구름 조금,3061,2563,111,387,53,-,1357,4418


`head()`나 `tail()`메서드 안에 숫자를 입력하여 출력하는 데이터의 갯수를 지정할 수도 있습니다.

In [7]:
df.head(10)

Unnamed: 0,날짜,공휴일,날씨,유료합계,어른,청소년,어린이,외국인,단체,무료합계,총계
0,2016-01-01,O,구름 조금,3359,2799,141.0,419,47,0,1023,4382
1,2016-01-02,O,구름 많음,5173,4370,203.0,600,100,111,2092,7265
2,2016-01-03,O,구름 많음,3008,2571,128.0,309,91,0,1549,4557
3,2016-01-04,X,구름 많음,890,602,,235,51,223,800,1690
4,2016-01-05,X,구름 많음,416,319,35.0,62,43,47,840,1256
5,2016-01-06,X,구름 조금,367,277,41.0,49,34,0,807,1174
6,2016-01-07,X,맑음,309,250,23.0,36,13,0,735,1044
7,2016-01-08,X,구름 조금,315,251,28.0,36,30,0,611,926
8,2016-01-09,O,구름 많음,1418,1227,78.0,113,47,80,1222,2640
9,2016-01-10,O,구름 많음,2211,1839,96.0,276,34,61,1393,3604


## 데이터 정보 확인: info()

데이터가 몇 개의 값을 가지는지, 어떤 자료형으로 저장되어있는지를 확인하는데에는 `info()`를 활용할 수 있습니다.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1086 entries, 0 to 1085
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   날짜      1086 non-null   object
 1   공휴일     1086 non-null   object
 2   날씨      946 non-null    object
 3   유료합계    1086 non-null   object
 4   어른      1086 non-null   object
 5   청소년     1081 non-null   object
 6   어린이     1086 non-null   object
 7   외국인     1086 non-null   object
 8   단체      1086 non-null   object
 9   무료합계    1086 non-null   object
 10  총계      1086 non-null   object
dtypes: object(11)
memory usage: 93.5+ KB


## 컬럼 이름을 활용한 특정 컬럼 추출
데이터프레임은 여러개의 시리즈가 열을 이루고 있는 자료형입니다. 대괄호를 사용하면 데이터프레임에서 **특정 시리즈(열)를 추출**할 수 있습니다. 예를 들어 데이터프레임 `df`에서 "청소년" 열을 추출하는 코드는 다음과 같습니다.

In [9]:
df["청소년"]

0       141
1       203
2       128
3       NaN
4        35
       ... 
1081     10
1082     46
1083    120
1084     44
1085    111
Name: 청소년, Length: 1086, dtype: object

### [TODO] 미세먼지 데이터 `mm`에서 "초미세먼지" 컬럼을 추출하여 변수 `cho`에 저장하세요.

In [10]:
# None을 지우고 알맞은 코드를 입력하세요.
cho=mm['초미세먼지']

NameError: name 'mm' is not defined

앞으로 특정 메서드에 위의 코드처럼 데이터프레임["컬럼이름"] 형태의 문법이 사용됐다면 **해당 열에만 메서드를 적용**한다고 이해하시면 됩니다. 예를 들어 "날씨" 컬럼의 정보만을 알기 위해 `info()`메서드를 "날씨" 열에만 적용하려면 다음과 같이 활용할 수 있습니다.

In [None]:
df["날씨"].info()

## 데이터 숫자 세기: value_counts()
`value_counts()`를 활용하면 컬럼에 어떤 값들이 몇 개씩 존재하는지 확인할 수 있습니다.

예를 들어 `df`의 날씨 컬럼에는 날씨가 저장되어 있는데 해당 컬럼에 `value_counts()`를 활용하면 어떤 종류의 날씨들이 있는지, 각 날씨별로 몇 개의 데이터가 있는지 확인할 수 있습니다.

In [None]:
df["날씨"].value_counts()

## 채점
* **[TODO]** 중 수행하지 않은 부분이 없는지 확인하세요.
* 채점을 위해 아래 코드를 실행한 뒤 우측 상단의 제출 버튼을 눌러주세요.
* 코드 수정시 정상적인 채점이 이루어지지 않습니다.

In [1]:
import os
import json

mm.to_json("problem_1.json")
cho.to_json("problem_2.json")

result = {}
result["problem_1"] = "problem_1.json"
result["problem_2"] = "problem_2.json"

with open("result.json", "w") as f:
    json.dump(result, f)

NameError: name 'mm' is not defined