# 데이터분석

### 이번 장은 데이터를 살펴보기 위해 불러오고 내용을 파악하는 과정입니다.
### 데이터에 대해 이미 파악하신 상태라면 이번 장을 건너뛰셔도 좋습니다.

## 목차
1. 데이터 불러오기
1. Pandas 사용하기
1. 데이터 소개
1. 사용할 데이터 선택
1. 데이터 정리
1. 데이터 통합

## 1. 데이터 불러오기

### Step 1. 라이브러리 불러오기

실습이 진행되는 동안 numpy, pandas 라이브러리를 자주 사용할 것입니다.  
또한 KT AIDU를 통해 데이터를 불러오기 위한 라이브러리를 추가로 사용해야 합니다.  
파이썬에서 라이브러리를 불러오기 위해 다음의 4개 라이브러리를 import 할 것입니다.  
1. aicentro.session.Session
1. aicentro.framework.keras.Keras
1. numpy
1. pandas

아래 코드를 통해 1번과 2번 라이브러리를 import 해보겠습니다.

In [1]:
from aicentro.session import Session
from aicentro.framework.keras import Keras as AiduFrm
print("--에러 메시지가 나타나지 않았다면 정상적으로 import된 것입니다.--")

--에러 메시지가 나타나지 않았다면 정상적으로 import된 것입니다.--


이제 3번과 4번 라이브러리를 import 해봅시다.

#### (실습 1) 남은 2개 라이브러리를 불러옵니다.

In [2]:
import numpy as np
import pandas as pd

이제 이번 장에 필요한 라이브러리들을 모두 import 했습니다.

### Step 2. 데이터 불러오기

다음으로 우리가 사용할 데이터를 불러올 것입니다.  
다른 방법으로 데이터를 불러올 수도 있지만 AIDU에서는 다음과 같은 방법을 제공합니다.  
아래 코드를 실행해봅시다.

In [3]:
aidu_session = Session(verify=False)
aidu_framework = AiduFrm(session=aidu_session)
data_jan = pd.read_csv("air_data_01.csv", header=0, encoding='cp949')

이처럼 파일의 위치를 알면 간단하게 데이터를 불러올 수 있습니다.  
위의 코드를 통해 아실 수 있겠지만 우리가 사용할 데이터는 11개 파일로 "airmap/air_data_월.csv"로 저장되어 나뉘어 있습니다.  
이제 2월의 데이터를 불러옵시다.

#### (실습 2) 2월의 데이터를 불러옵니다.

In [8]:
# Hint : aidu_session과 aidu_framework는 다시 불러오지 않아도 됩니다.
data_feb = pd.read_csv("air_data_02.csv", header=0, encoding='cp949')


간단하게 변수명만 호출하면 해당 변수를 화면에 표출시킬 수 있습니다.

In [4]:
# 1월의 데이터
data_jan

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,2019-01-01 00:00:00,1,jeju,2,수집,공기질,습도,64.0,64.0,64.00,320.0,5,0.000000,0.0000,,20190101,0,0,,
1,2019-01-01 00:00:00,1,jeju,2,수집,공기질,초미세먼지,15.0,33.0,26.00,130.0,5,6.480741,42.0000,,20190101,0,0,,
2,2019-01-01 00:00:00,1,jeju,3,수집,공기질,습도,56.0,57.0,56.60,283.0,5,0.489898,0.2400,,20190101,0,0,,
3,2019-01-01 00:00:00,1,jeju,3,수집,공기질,초미세먼지,6.0,32.0,15.60,78.0,5,9.891410,97.8400,,20190101,0,0,,
4,2019-01-01 00:00:00,1,jeju,4,수집,공기질,습도,59.0,60.0,59.40,297.0,5,0.489898,0.2400,,20190101,0,0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16221,2019-01-31 16:00:00,1,jeju,58,수집,공기질,온도,1.9,2.0,1.98,9.9,5,0.040000,0.0016,,20190131,16,0,,
16222,2019-01-31 16:00:00,1,jeju,59,수집,공기질,온도,1.6,1.7,1.68,8.4,5,0.040000,0.0016,,20190131,16,0,,
16223,2019-01-31 16:00:00,1,jeju,60,수집,공기질,온도,3.2,3.3,3.26,16.3,5,0.048990,0.0024,,20190131,16,0,,
16224,2019-01-31 16:00:00,1,jeju,61,수집,공기질,온도,3.7,3.7,3.70,18.5,5,0.000000,0.0000,,20190131,16,0,,


왼쪽 아래 행의 수와 열의 수가 표시되는 것을 볼 수 있습니다.  
이러한 정보를 더 자세히 보기 위해선 DataFrame의 info() 기능을 사용할 수 있습니다.

In [5]:
data_jan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16226 entries, 0 to 16225
Data columns (total 20 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       16226 non-null  object 
 1   1       16226 non-null  int64  
 2   2       16226 non-null  object 
 3   3       16226 non-null  int64  
 4   4       16226 non-null  object 
 5   5       16226 non-null  object 
 6   6       16226 non-null  object 
 7   7       16226 non-null  float64
 8   8       16226 non-null  float64
 9   9       16226 non-null  float64
 10  10      16226 non-null  float64
 11  11      16226 non-null  int64  
 12  12      16226 non-null  float64
 13  13      16226 non-null  float64
 14  14      0 non-null      float64
 15  15      16226 non-null  int64  
 16  16      16226 non-null  int64  
 17  17      16226 non-null  int64  
 18  18      0 non-null      float64
 19  19      0 non-null      float64
dtypes: float64(9), int64(6), object(5)
memory usage: 2.5+ MB


우리가 불러온 데이터의 정보를 간략하게 확인할 수 있습니다.  
각 열별 데이터의 타입, 데이터의 크기 등이 표시됩니다.

## 2. Pandas 사용하기

### Step 1. Pandas에 대해

Pandas는 데이터를 여러 형태로부터 불러오고 필요한 열, 행을 추출, 그룹화, 정렬, 계산하기 위한 라이브러리입니다.

Series와 DataFrame이라는 형태를 갖고 있는데 Series를 표에서의 하나의 열, DataFrame을 Series가 모인 표 자체라고 생각하시면 쉽습니다.  
특히 tail(), head() 함수를 쓰면 데이터를 간단하게 파악하기 좋습니다. 기본은 앞, 뒤에서 5행을 보여주고 숫자를 정해주면 더 많은 데이터를 표출할 수도 있습니다.  
1을 통해 우리가 가져온 데이터는 DataFrame의 형식을 갖습니다.

In [9]:
data_jan.head(7)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,2019-01-01 00:00:00,1,jeju,2,수집,공기질,습도,64.0,64.0,64.0,320.0,5,0.0,0.0,,20190101,0,0,,
1,2019-01-01 00:00:00,1,jeju,2,수집,공기질,초미세먼지,15.0,33.0,26.0,130.0,5,6.480741,42.0,,20190101,0,0,,
2,2019-01-01 00:00:00,1,jeju,3,수집,공기질,습도,56.0,57.0,56.6,283.0,5,0.489898,0.24,,20190101,0,0,,
3,2019-01-01 00:00:00,1,jeju,3,수집,공기질,초미세먼지,6.0,32.0,15.6,78.0,5,9.89141,97.84,,20190101,0,0,,
4,2019-01-01 00:00:00,1,jeju,4,수집,공기질,습도,59.0,60.0,59.4,297.0,5,0.489898,0.24,,20190101,0,0,,
5,2019-01-01 00:00:00,1,jeju,4,수집,공기질,초미세먼지,11.0,21.0,13.6,68.0,5,3.773592,14.24,,20190101,0,0,,
6,2019-01-01 00:00:00,1,jeju,5,수집,공기질,습도,60.0,64.0,62.2,311.0,5,1.6,2.56,,20190101,0,0,,


#### (실습 3) 1월 데이터의 뒤 9행을 표시해봅시다.

In [10]:
# Hint : head()와 다른 것은 이름 뿐입니다.
data_jan.tail(9)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
16217,2019-01-31 16:00:00,1,jeju,54,수집,공기질,온도,2.9,3.0,2.98,14.9,5,0.04,0.0016,,20190131,16,0,,
16218,2019-01-31 16:00:00,1,jeju,55,수집,공기질,온도,3.6,3.7,3.66,18.3,5,0.04899,0.0024,,20190131,16,0,,
16219,2019-01-31 16:00:00,1,jeju,56,수집,공기질,온도,3.9,4.0,3.96,19.8,5,0.04899,0.0024,,20190131,16,0,,
16220,2019-01-31 16:00:00,1,jeju,57,수집,공기질,온도,2.7,2.8,2.72,13.6,5,0.04,0.0016,,20190131,16,0,,
16221,2019-01-31 16:00:00,1,jeju,58,수집,공기질,온도,1.9,2.0,1.98,9.9,5,0.04,0.0016,,20190131,16,0,,
16222,2019-01-31 16:00:00,1,jeju,59,수집,공기질,온도,1.6,1.7,1.68,8.4,5,0.04,0.0016,,20190131,16,0,,
16223,2019-01-31 16:00:00,1,jeju,60,수집,공기질,온도,3.2,3.3,3.26,16.3,5,0.04899,0.0024,,20190131,16,0,,
16224,2019-01-31 16:00:00,1,jeju,61,수집,공기질,온도,3.7,3.7,3.7,18.5,5,0.0,0.0,,20190131,16,0,,
16225,2019-01-31 16:00:00,1,jeju,62,수집,공기질,온도,2.1,2.1,2.1,10.5,5,0.0,0.0,,20190131,16,0,,


### Step 2. 데이터 둘러보기

데이터를 살펴보면 각 행의 특징을 알 수 있습니다.  
가령 1번 행은 전체 데이터에서 늘 1인 것처럼 보입니다. 이것은 3번과 4번, 5번 데이터도 마찬가지입니다.  
정말 그런지 확인해봅시다.

#### (실습 4) 데이터의 여러 열들 중 모든 행에서 같은 값만 갖는 열이 무엇인지 살펴봅시다.

In [11]:
# Hint : 의심이 가는 열이 있으면 Series의 함수 중 unique()를 사용할 수 있습니다.
# Hint : DataFrame에서 Series를 추출해봅니다.
data_jan['1'].unique()

array([1])

잘 분석하셨다면 같은 값만 갖는 몇 개의 열을 발견하셨을 겁니다.  
특히 6번 열을 확인하시면 3개의 값만 가지고 있음을 아실 수 있을 겁니다.  
이 3개의 데이터는 초미세먼지, 온도, 습도의 구분입니다.

이 중에서 습도의 데이터만 따로 확인하려면 아래의 방법을 사용할 수 있습니다.

In [12]:
# Hint : 각각의 변수에 값이 어떻게 저장되는지 확인해보세요.
cond_dust = data_jan['6'] == '습도'
data_jan[cond_dust]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,2019-01-01 00:00:00,1,jeju,2,수집,공기질,습도,64.0,64.0,64.0,320.0,5,0.000000,0.00,,20190101,0,0,,
2,2019-01-01 00:00:00,1,jeju,3,수집,공기질,습도,56.0,57.0,56.6,283.0,5,0.489898,0.24,,20190101,0,0,,
4,2019-01-01 00:00:00,1,jeju,4,수집,공기질,습도,59.0,60.0,59.4,297.0,5,0.489898,0.24,,20190101,0,0,,
6,2019-01-01 00:00:00,1,jeju,5,수집,공기질,습도,60.0,64.0,62.2,311.0,5,1.600000,2.56,,20190101,0,0,,
8,2019-01-01 00:00:00,1,jeju,6,수집,공기질,습도,72.0,73.0,72.2,361.0,5,0.400000,0.16,,20190101,0,0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10806,2019-01-31 16:00:00,1,jeju,58,수집,공기질,습도,79.0,80.0,79.6,398.0,5,0.489898,0.24,,20190131,16,0,,
10808,2019-01-31 16:00:00,1,jeju,59,수집,공기질,습도,81.0,81.0,81.0,405.0,5,0.000000,0.00,,20190131,16,0,,
10810,2019-01-31 16:00:00,1,jeju,60,수집,공기질,습도,75.0,76.0,75.2,376.0,5,0.400000,0.16,,20190131,16,0,,
10812,2019-01-31 16:00:00,1,jeju,61,수집,공기질,습도,74.0,75.0,74.4,372.0,5,0.489898,0.24,,20190131,16,0,,


이번엔 온도 데이터만 따로 확인해봅시다.

#### (실습 5) 데이터 중 온도에 해당하는 값만 확인해봅시다.

In [13]:
# Hint : 위의 방법을 사용하되 변수를 알맞게 지정해봅시다.
cond_temp = data_jan['6'] == '온도'
data_jan[cond_temp]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
10816,2019-01-01 00:00:00,1,jeju,32,수집,공기질,온도,4.8,4.8,4.80,24.0,5,0.000000,0.0000,,20190101,0,0,,
10817,2019-01-02 08:00:00,1,jeju,15,수집,공기질,온도,2.0,2.0,2.00,10.0,5,0.000000,0.0000,,20190102,8,0,,
10818,2019-01-01 00:00:00,1,jeju,2,수집,공기질,온도,3.1,3.1,3.10,15.5,5,0.000000,0.0000,,20190101,0,0,,
10819,2019-01-01 00:00:00,1,jeju,3,수집,공기질,온도,4.8,5.1,4.96,24.8,5,0.101980,0.0104,,20190101,0,0,,
10820,2019-01-01 00:00:00,1,jeju,4,수집,공기질,온도,4.9,5.1,5.00,25.0,5,0.089443,0.0080,,20190101,0,0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16221,2019-01-31 16:00:00,1,jeju,58,수집,공기질,온도,1.9,2.0,1.98,9.9,5,0.040000,0.0016,,20190131,16,0,,
16222,2019-01-31 16:00:00,1,jeju,59,수집,공기질,온도,1.6,1.7,1.68,8.4,5,0.040000,0.0016,,20190131,16,0,,
16223,2019-01-31 16:00:00,1,jeju,60,수집,공기질,온도,3.2,3.3,3.26,16.3,5,0.048990,0.0024,,20190131,16,0,,
16224,2019-01-31 16:00:00,1,jeju,61,수집,공기질,온도,3.7,3.7,3.70,18.5,5,0.000000,0.0000,,20190131,16,0,,


이제 18, 19번 열을 보면 대부분 값이 NaN인 것을 알 수 있습니다.  
이 값은 컴퓨터에서 해당 열이 숫자를 저장하기로 한 곳에서 숫자가 아닌 값을 표기하는 방식입니다.  
pandas DataFrame에서는 이렇게 NaN으로 가득찬 열을 쉽게 제거할 수 있습니다.

#### (실습 6) NaN으로 가득찬 열을 제외하고 데이터를 다시 지정해봅시다.

In [14]:
# Hint : pandas 중 dropna를 찾아보세요.
# Hint : 데이터가 다시 잘 지정되었는지 확인해보세요.
data_jan_dropped = data_jan.dropna(how='all', axis='columns')
data_jan_dropped.head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,15,16,17
0,2019-01-01 00:00:00,1,jeju,2,수집,공기질,습도,64.0,64.0,64.0,320.0,5,0.0,0.0,20190101,0,0
1,2019-01-01 00:00:00,1,jeju,2,수집,공기질,초미세먼지,15.0,33.0,26.0,130.0,5,6.480741,42.0,20190101,0,0
2,2019-01-01 00:00:00,1,jeju,3,수집,공기질,습도,56.0,57.0,56.6,283.0,5,0.489898,0.24,20190101,0,0
3,2019-01-01 00:00:00,1,jeju,3,수집,공기질,초미세먼지,6.0,32.0,15.6,78.0,5,9.89141,97.84,20190101,0,0
4,2019-01-01 00:00:00,1,jeju,4,수집,공기질,습도,59.0,60.0,59.4,297.0,5,0.489898,0.24,20190101,0,0
5,2019-01-01 00:00:00,1,jeju,4,수집,공기질,초미세먼지,11.0,21.0,13.6,68.0,5,3.773592,14.24,20190101,0,0
6,2019-01-01 00:00:00,1,jeju,5,수집,공기질,습도,60.0,64.0,62.2,311.0,5,1.6,2.56,20190101,0,0
7,2019-01-01 00:00:00,1,jeju,5,수집,공기질,초미세먼지,16.0,57.0,26.2,131.0,5,15.561491,242.16,20190101,0,0
8,2019-01-01 00:00:00,1,jeju,6,수집,공기질,습도,72.0,73.0,72.2,361.0,5,0.4,0.16,20190101,0,0
9,2019-01-01 00:00:00,1,jeju,6,수집,공기질,초미세먼지,17.0,33.0,25.2,126.0,5,6.337192,40.16,20190101,0,0


## 3. 데이터 소개

### Step 1. 데이터 설명

이제까지는 데이터를 다루기 위한 기본 툴의 사용법을 알아보았습니다.  
아마 각 데이터가 어떤 내용인지 모르는 상태에서 데이터를 다루는 게 복잡하게 느껴지셨을 수도 있습니다.  
또한 데이터를 간단히 정돈하면서 다른 열들이 의미가 있을지 궁금하셨을 수도 있습니다.  
이제 각 열의 의미를 알아봅시다.

그 전에 데이터를 보기 쉽게 다시 표출해 보죠.

In [15]:
data_jan.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,2019-01-01 00:00:00,1,jeju,2,수집,공기질,습도,64.0,64.0,64.0,320.0,5,0.0,0.0,,20190101,0,0,,
1,2019-01-01 00:00:00,1,jeju,2,수집,공기질,초미세먼지,15.0,33.0,26.0,130.0,5,6.480741,42.0,,20190101,0,0,,
2,2019-01-01 00:00:00,1,jeju,3,수집,공기질,습도,56.0,57.0,56.6,283.0,5,0.489898,0.24,,20190101,0,0,,


우리가 사용할 데이터는 제주도의 총 62개 데이터 수집 지점에서 수집한 공기질 데이터입니다.  
총 20개의 열이 있는데 차례로
- **0** : 수집 시간. 5분 간격으로 데이터가 정리되어 있습니다.
- **1** : 데이터소스
- **2** : 서비스 지역
- **3** : 측정장비의 번호
- **4** : 데이터의 출처
- **5** : 데이터의 종류
- **6** : 데이터의 구분
- **7** : 5분 간격 중 최소값.
- **8** : 5분 간격 중 최대값.
- **9** : 5분 간격 중 평균값
- **10** : 5분 간격 중 합.
- **11** : 5분 간격 사이 수집 횟수.
- **12** : 표준편차.
- **13** : 분산.
- **14** : 측정 주기.
- **15** : 날짜
- **16** : 시간
- **17** : 분
- **18** : 수집 담당자
- **19** : 비고

위와 같은 내용을 담고 있습니다.  
또한 각 행의 0열을 보시면 8시간 간격으로 데이터가 구분되어 있는 것을 확인하실 수 있으실 겁니다.  
이런 데이터가 월별로 1월부터 11월까지 나뉘어 air_data_01.csv ~ air_data_11.csv에 각각 저장되어 있고 우리는 이 데이터들을 바탕으로 다음 한 달간의 데이터를 예측하는 AI를 학습할 것입니다.

## 4. 사용할 데이터 선택

### Step 1. 데이터 선택

사실 아무 데이터나 사용해도 좋습니다.  
하지만 우리는 같은 해 1월부터 10월까지의 데이터로 11월의 데이터를 예측한다는 점을 고려하면 월별로 데이터의 경향이 크게 바뀌는 온도, 습도를 학습시키긴 어려워보입니다.  
이런 데이터를 예측하려면 연 주기성을 확보하기 위해 1년 이상의 데이터가 필요할 것입니다.  
따라서 월별 변화가 상대적으로 적을 것으로 예상되는 초미세먼지로 학습 대상을 결정하는 것이 좋아 보입니다.  
하지만 이것이 기온, 습도로는 학습을 진행시킬 수 없다는 의미는 아닙니다.  
1년이 안 되는 데이터지만 기온, 습도로 학습을 진행시킬 수도 있고 우리의 목표는 학습의 과정을 경험해 보는 것입니다.  
해설은 초미세먼지 데이터를 사용할 것입니다.  
하지만 실습 과정에서 여러분이 여러분만의 데이터를 사용하셔도 문제될 일은 없을 것입니다.  
이제 각자 학습을 위해, 적절한 데이터를 선택해보세요.

#### (실습 7) 이제 데이터를 선택해보겠습니다. 9월의 데이터를 불러와 초미세먼지, 온도, 습도 중 여러분이 학습하고자 하는 데이터를 살펴보세요.

In [16]:
# Hint : 이번 장의 과정을 차례로 살펴보세요.
data_sep = pd.read_csv("air_data_09.csv", header=0, encoding='cp949')
data_sep_dropped = data_sep.dropna(how='all', axis='columns')
cond_dust = data_sep_dropped['6'] == '습도'
data_sep_dropped[cond_dust].head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,15,16,17
0,2019-09-01 00:00:00,1,jeju,2,수집,공기질,습도,80.0,81.0,80.4,402.0,5,0.489898,0.24,20190901,0,0
3,2019-09-01 00:00:00,1,jeju,3,수집,공기질,습도,62.0,63.0,62.6,313.0,5,0.489898,0.24,20190901,0,0
6,2019-09-01 00:00:00,1,jeju,4,수집,공기질,습도,68.0,69.0,68.6,343.0,5,0.489898,0.24,20190901,0,0
9,2019-09-01 00:00:00,1,jeju,5,수집,공기질,습도,66.0,67.0,66.2,331.0,5,0.4,0.16,20190901,0,0
12,2019-09-01 00:00:00,1,jeju,6,수집,공기질,습도,75.0,75.0,75.0,375.0,5,0.0,0.0,20190901,0,0


### Step 2. 데이터 줄이기

불러온 데이터를 보면 NaN과 같은 사용하지 않을 데이터도 있고 0열과 15, 16, 17열과 같이 같은 내용을 포함하는 경우, 전체 행에서 동일한 값을 갖는 1, 2, 4, 5와 같은 열도 있습니다.  
그리고 사용할 데이터로도 최소값, 최대값, 평균, 분산, 합, 표준편차 등과 같이 많은 종류가 있습니다.  
이제 우리가 사용할 데이터만 찾아봅시다.

DataFrame에서 다음의 방법으로 원하는 열만 고를 수 있습니다.

In [17]:
data_jan[['3', '6', '8']]

Unnamed: 0,3,6,8
0,2,습도,64.0
1,2,초미세먼지,33.0
2,3,습도,57.0
3,3,초미세먼지,32.0
4,4,습도,60.0
...,...,...,...
16221,58,온도,2.0
16222,59,온도,1.7
16223,60,온도,3.3
16224,61,온도,3.7


혹은 DataFrame의 drop() 기능을 사용하면 사용하지 않을 열을 제외시킬 수 있습니다.

In [18]:
data_jan.drop(data_jan.columns[[4, 5, 14]], axis='columns')

Unnamed: 0,0,1,2,3,6,7,8,9,10,11,12,13,15,16,17,18,19
0,2019-01-01 00:00:00,1,jeju,2,습도,64.0,64.0,64.00,320.0,5,0.000000,0.0000,20190101,0,0,,
1,2019-01-01 00:00:00,1,jeju,2,초미세먼지,15.0,33.0,26.00,130.0,5,6.480741,42.0000,20190101,0,0,,
2,2019-01-01 00:00:00,1,jeju,3,습도,56.0,57.0,56.60,283.0,5,0.489898,0.2400,20190101,0,0,,
3,2019-01-01 00:00:00,1,jeju,3,초미세먼지,6.0,32.0,15.60,78.0,5,9.891410,97.8400,20190101,0,0,,
4,2019-01-01 00:00:00,1,jeju,4,습도,59.0,60.0,59.40,297.0,5,0.489898,0.2400,20190101,0,0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16221,2019-01-31 16:00:00,1,jeju,58,온도,1.9,2.0,1.98,9.9,5,0.040000,0.0016,20190131,16,0,,
16222,2019-01-31 16:00:00,1,jeju,59,온도,1.6,1.7,1.68,8.4,5,0.040000,0.0016,20190131,16,0,,
16223,2019-01-31 16:00:00,1,jeju,60,온도,3.2,3.3,3.26,16.3,5,0.048990,0.0024,20190131,16,0,,
16224,2019-01-31 16:00:00,1,jeju,61,온도,3.7,3.7,3.70,18.5,5,0.000000,0.0000,20190131,16,0,,


우리는 앞서 dropna()를 사용하기도 했습니다.  

기억할 것은, 기본적으로 이 기능들이 저장된 DataFrame에 변형을 일으키지 않는다는 것입니다.  
그래서 우리는 새 변수에 변형된 값을 저장해 사용해야 합니다.  
이제 사용할 데이터만 추출해 봅시다.

이번 실습에서는 측정 [장비의 번호, 데이터의 구분, 평균값, 날짜]의 4가지 데이터만 사용할 것입니다.

#### (실습 8) 1월의 데이터 중 사용할 데이터만 추출해 다른 변수에 지정해 봅시다. 

In [19]:
# Hint : 열을 선택하는 방식, 제외하는 방식 모두 사용할 수 있습니다.
data_jan_dropped = data_jan[['3', '6', '8', '15']]
data_jan_dropped

Unnamed: 0,3,6,8,15
0,2,습도,64.0,20190101
1,2,초미세먼지,33.0,20190101
2,3,습도,57.0,20190101
3,3,초미세먼지,32.0,20190101
4,4,습도,60.0,20190101
...,...,...,...,...
16221,58,온도,2.0,20190131
16222,59,온도,1.7,20190131
16223,60,온도,3.3,20190131
16224,61,온도,3.7,20190131


## 5. 데이터 정리

### Step 1. 데이터 구분하기

이번에는 앞 장에서 사용했던 방법으로 데이터의 종류에 맞게 서로 다른 변수에 데이터를 저장해 봅시다.  
예를 들어 다음의 방법으로 초미세먼지 데이터를 구분할 수 있습니다.

In [20]:
cond_dust = data_jan_dropped['6'] == '초미세먼지'
data_jan_dust = data_jan_dropped[cond_dust]

우리가 8시간 단위의 데이터를 다루고 있다는 것을 생각해 봅시다.  
3종류의 데이터, 하루에 3번씩, 62곳의 데이터를 11개월 가량 사용하면 17만 개가 넘는 방대한 데이터를 사용하게 됩니다.  
따라서 저는 이 데이터를 아주 작게 줄여보겠습니다.  
8시간 단위의 데이터를 1일 단위의 데이터로 바꾸고 데이터를 줄일 때는 중간값을 기준으로 사용해 보겠습니다.  
groupby()를 사용해 그룹화할 열을 지정하고 median()을 사용해 중간값을 기준으로 그룹내 행이 합쳐지도록 하겠습니다.  
이 때 측정 장비의 번호역시 중간값으로 합쳐지지 않도록 같이 그룹화합니다.

In [21]:
data_jan_dust_day = data_jan_dust.groupby(['15', '3']).median()
data_jan_dust_day.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,8
15,3,Unnamed: 2_level_1
20190101,2,29.0
20190101,3,27.0
20190101,4,23.0
20190101,5,17.0
20190101,6,44.0


여기서 데이터가 일 단위로 바뀌면서 행 번호 대신 날짜가 온 것을 볼 수 있습니다.  
다시 행 번호를 붙이려면 reset_index()를 사용합니다.

In [22]:
data_jan_dust_day = data_jan_dust_day.reset_index()
data_jan_dust_day.head()

Unnamed: 0,15,3,8
0,20190101,2,29.0
1,20190101,3,27.0
2,20190101,4,23.0
3,20190101,5,17.0
4,20190101,6,44.0


새로운 DataFrame을 선언해 저장하면 각 열의 이름을 편하게 입력할 수 있습니다.  
이제 date는 수집 날짜, dev는 장비 번호, val은 중간값입니다.

In [23]:
new_data = pd.DataFrame()

In [24]:
new_data['date'] = data_jan_dust_day['15']
new_data['dev'] = data_jan_dust_day['3']
new_data['val'] = data_jan_dust_day['8']
new_data.head()

Unnamed: 0,date,dev,val
0,20190101,2,29.0
1,20190101,3,27.0
2,20190101,4,23.0
3,20190101,5,17.0
4,20190101,6,44.0


이제 이 작업을 2월 데이터에도 적용해봅시다.

#### (실습 9) 2월의 데이터를 불러와 같은 방식으로 편집해봅시다

In [25]:
# Hint : 우선 데이터를 불러온 뒤 Step4의 내용을 반복하면 됩니다.
data_feb = pd.read_csv("air_data_02.csv", header=0, encoding='cp949')

data_feb_dropped = data_feb[['3', '6', '8', '15']]

cond_dust_feb = data_feb_dropped['6'] == '초미세먼지'
data_feb_dust = data_feb_dropped[cond_dust_feb]

data_feb_dust_day = data_feb_dust.groupby(['15', '3']).median()
data_feb_dust_day = data_feb_dust_day.reset_index()

feb_data = pd.DataFrame()
feb_data['date'] = data_feb_dust_day['15']
feb_data['dev'] = data_feb_dust_day['3']
feb_data['val'] = data_feb_dust_day['8']
feb_data.head()

Unnamed: 0,date,dev,val
0,20190201,2,16.0
1,20190201,3,15.0
2,20190201,5,19.0
3,20190201,6,27.0
4,20190201,7,14.0


## 6. 데이터 통합

### Step 1. 데이터 합치기

이 두 데이터를 연결할 땐 pandas의 concat()을 사용할 수 있습니다.

In [26]:
concat_data = pd.concat([new_data, feb_data])
concat_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3456 entries, 0 to 1648
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   date    3456 non-null   int64  
 1   dev     3456 non-null   int64  
 2   val     3456 non-null   float64
dtypes: float64(1), int64(2)
memory usage: 108.0 KB


이제 이 과정을 전체 1월~11월의 데이터에 적용해봅시다.

#### (실습 10) 전체 데이터를 불러와 같은 방식으로 편집한 후 하나의 DataFrame(변수명 : result)로 합칩니다.

In [10]:
# Hint : 배열을 사용해 데이터를 불러오면 반복적으로 호출하기 쉽습니다.
# result = pd.DataFrame()

coloumns_we_need = ['3', '6', '8', '15']
dust = '초미세먼지'

result = pd.DataFrame()

for i in range(1, 12):
    print("data loading..."+str(i))
    data = pd.read_csv("air_data_"+str(i).zfill(2)+".csv", header=0, encoding='cp949')
    data_dropped = data[coloumns_we_need]
    cond_dust = data_dropped['6'] == dust
    
    data_dust = data_dropped[cond_dust]

    data_dust_day = data_dust.groupby(['15', '3']).median()
    data_dust_day = data_dust_day.reset_index()
    
    new_df = pd.DataFrame()
    new_df['date'] = data_dust_day['15']
    new_df['dev'] = data_dust_day['3']
    new_df['val'] = data_dust_day['8']
    
    result = pd.concat([result, new_df])

result.info()

data loading...1
data loading...2
data loading...3
data loading...4
data loading...5
data loading...6
data loading...7
data loading...8
data loading...9
data loading...10
data loading...11
<class 'pandas.core.frame.DataFrame'>
Int64Index: 18824 entries, 0 to 1660
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   date    18824 non-null  int64  
 1   dev     18824 non-null  int64  
 2   val     18824 non-null  float64
dtypes: float64(1), int64(2)
memory usage: 588.2 KB


In [13]:
result

Unnamed: 0,date,dev,val
0,20190101,2,29.0
1,20190101,3,27.0
2,20190101,4,23.0
3,20190101,5,17.0
4,20190101,6,44.0
...,...,...,...
1656,20191130,61,19.0
1657,20191130,62,7.0
1658,20191130,65,20.0
1659,20191130,68,20.0


우리의 계획은 각 데이터를 장치 번호별로 나누어 저장하는 것입니다.  
앞서 학습했던 내용들을 바탕으로 각각의 csv로 저장해보겠습니다.  
pandas를 통해 csv로 저장하는 방법은 아래와 같습니다.

In [14]:
result.to_csv("data_concat.csv",index=False)

이제 장치 번호별, 1월부터 11월까지의 데이터를 저장합시다.  
이 내용은 실습으로 남기겠습니다.

#### (실습 11) 장치 번호별, 1월부터 10월까지 합쳐진 데이터를 저장합니다. 데이터는 data_장치번호.csv 로 저장하겠습니다.

In [15]:
# Hint : data_1.csv, data_2.csv, ...
# Hint : unique()를 사용해 나온 배열을 사용하면 편리합니다.
for item in result['dev'].unique():
    cond_result = result['dev']==item
    temp = result[cond_result]
    temp.to_csv("data_"+str(item)+".csv",index=False)