# [실습2] 데이터 변환하기 1

## 데이터 불러오기

실습에 사용할 데이터를 불러오겠습니다.

In [1]:
import pandas as pd
import numpy as np

#파일불러오기
df=pd.read_csv('./data/seoul_park.csv')
df.head()

Unnamed: 0,날짜,공휴일,날씨,유료합계,어른,청소년,어린이,외국인,단체,무료합계,총계
0,2016-01-01,O,구름 조금,3359,2799,141.0,419,47,0,1023,4382
1,2016-01-02,O,구름 많음,5173,4370,203.0,600,100,111,2092,7265
2,2016-01-03,O,구름 많음,3008,2571,128.0,309,91,0,1549,4557
3,2016-01-04,X,구름 많음,890,602,,235,51,223,800,1690
4,2016-01-05,X,구름 많음,416,319,35.0,62,43,47,840,1256


데이터를 다시 살펴보겠습니다.

In [None]:
df

데이터의 숫자들에는 천 단위로 콤마(,)가 찍혀있습니다. 또한 데이터의 "단체" 컬럼의 윗부분과 아래부분을 보면 윗쪽의 데이터에는 0명이 **0** 으로 적혀있지만, 아래쪽에는 **-** 으로 표기되어있습니다. 이는 년도가 지나면서 기록 방식이 바뀌면서 생긴 문제입니다.

In [None]:
df.info()

`info()`를 사용해 데이터의 타입을 확인해보면 모든 데이터가 수가 아닌 텍스트(Object) 타입으로 저장되어 있습니다. 이는 즉 데이터에 있는 3,359는 숫자 3359가 아닌 텍스트 "3,359"가 저장되어있는 상태입니다. 이 상태로는 숫자의 연산, 나아가 평균값과 같은 통계량을 측정할 수 없습니다. 따라서 우리는 이 텍스트(Object)들을 모두 **정수형(int)** 으로 바꾸어야 합니다.

정수형으로 바꾸기 위해선 텍스트에서 숫자만을 남기고 모두 제거해야 합니다. 이를 위해 숫자로 바꾸어야 하는 컬럼들에서 `str.replace()`를 활용하여 -를 0으로 바꾸고 콤마를 제거합니다.

In [None]:
# 쉽게 데이터 바꾸기
columns=['유료합계', '어른', '청소년', '어린이', '외국인', '단체', '무료합계', '총계']
for i in columns:
    df[i]=df[i].str.replace('-','0')
    df[i]=df[i].str.replace(',','')

In [None]:
df.head()

데이터의 숫자들이 깔끔하게 정리된 것을 확인할 수 있습니다.

## 데이터 타입 변환: astype()

In [None]:
df.info()

데이터의 숫자들이 깔끔하게 정리되기는 했지만, `info`를 활용하여 살펴보면 여전히 데이터 타입은 텍스트(Object)인 것을 알 수 있습니다. 통계적인 분석을 위해 해당 데이터들을 정수(int)형태로 바꿔주어야 합니다.

`astype()`을 사용하면 원하는 타입으로 변환할 수 있습니다. `astype`메서드를 활용해 "어른" 컬럼의 데이터를 정수 형태로 변환하는 코드는 다음과 같습니다.

In [None]:
df["어른"].astype(int)

이제 "어른" 컬럼의 형태가 제대로 변환되었는지 확인해보겠습니다.

In [None]:
df.info()

`df`의 어른 컬럼의 데이터타입은 object로, `astype()`을 사용했지만 바뀌지 않은 것을 확인할 수 있습니다. 어떻게 된 일일까요.

`astype()`을 비롯해 데이터프레임에 뭔가 변형을 가하거나 작업을 하는 메서드들은 데이터프레임 자체를 변환하지 않고, 변환된 새로운 데이터프레임을 반환합니다. 

따라서 `df["어른"].astype(int)`이라는 코드는 `df`의 "어른" 컬럼을 정수형으로 변환하기는 하지만, 그냥 정수형으로 바뀐 "어른" 컬럼을 시리즈 형태로 나타낼 뿐 **`df`의 "어른" 컬럼 그 자체가 바뀌는 것이 아닙니다**. 

`df`의 "어른" 컬럼을 바꾸고 싶다면 `astype()`을 활용해 변환하여 생성한 "어른" 컬럼 시리즈를 `df`의 "어른" 컬럼에 덮어씌워주는 작업이 필요합니다. 이는 다음과 같이 수행할 수 있습니다.

In [None]:
df["어른"]=df["어른"].astype(int)

df.info()

덮어씌워주는 과정을 통해 어른 컬럼의 데이터타입이 정수형(int)으로 바뀐 것을 확인할 수 있습니다. 이런 식으로 원본의 데이터프레임을 가공하기 위해선 덮어씌워주는 작업이 필요하다는 사실과 해당 코드를 익혀두시면 앞으로 강의의 코드를 이해하시기 한결 수월할 것입니다.

## 데이터 타입 변환: to_numeric()

`to_numeric()`은 `astype()`과 같이 데이터의 형태를 변환하지만 원하는 타입을 지정할 수 있는 `astype()`과 달리 숫자로만 변환한다는 차이점이 존재합니다. 특히나 데이터분석에서는 데이터를 숫자로 변환할 일이 많기 때문에 유용하게 사용할 수 있습니다.

In [None]:
df["유료합계"] = pd.to_numeric(df["유료합계"])

df.info()

유료합계 컬럼이 정수형(int)으로 바뀐 것을 확인할 수 있습니다.


### [TODO] `df`의 "외국인" 컬럼의 자료형을 숫자형으로 변환해 변수 `foreigner`에 저장하세요.
* `astype()` 또는 `to_numeric()`을 활용하세요.

In [None]:
foreigner=df["외국인"].astype(int)
#foreigner=pd.to_numeric(df["외국인"])
print(foreigner.info()) # 주석을 해제하고 실행해 올바르게 형변환이 되어 저장됐는지 확인하세요.

이제 for문을 사용해 입장객 수에 관련된 컬럼들을 모두 숫자형으로 바꿔보도록 하겠습니다.

In [None]:
columns=["유료합계", "어른", "청소년", "어린이", "단체", "무료합계", "총계"]
for i in columns:
    df[i]=pd.to_numeric(df[i])
    
df.info()

입장객 수에 관련된 데이터가 모두 숫자형태로 바뀐 것을 확인할 수 있습니다. 이제 이 입장객 수를 활용해 평균, 최대값 등을 계산할 수 있습니다.

## 데이터 타입 변환: to_datetime()

날짜 컬럼에는 데이터가 수집된 날짜가 기록되어있습니다. 하지만 위의 정보를 보면 알 수 있다시피 날짜는 텍스트로 저장되어있습니다. 다시 말해 날짜 컬럼의 "2016-01-01"는 텍스트일 뿐 컴퓨터가 이것을 날짜로 인식할 수 없습니다. 이 날짜를 보다 효과적으로 활용하기 위해 `to_datetime()`을 활용해 날짜컬럼 전체를 `datetime`형식으로 변환해줍니다.

In [None]:
df["날짜"]= pd.to_datetime(df["날짜"])
df.info()

이번엔 날짜 데이터를 사용해보겠습니다. 데이터프레임에서 `datetime` 형태의 데이터에는 연, 월, 일 정보가 담겨있어 이를 활용하면 날짜정보를 비롯해 요일과 같은 새로운 정보를 생성할 수 있습니다. 

이를 위해 `dt` 속성을 사용하여 `datetime` 형태의 데이터에서 특정 정보들을 추출하고 연, 월, 일, 요일 컬럼을 새롭게 생성해보겠습니다.

In [None]:
df['연']=df['날짜'].dt.year
df['월']=df['날짜'].dt.month
df['일']=df['날짜'].dt.day
df['요일']=df['날짜'].dt.dayofweek

In [None]:
df.head()

연, 월, 일, 요일 컬럼이 생성되고 해당하는 정보가 저장된 것을 확인할 수 있습니다. 그런데 요일이 글자가 아닌 **숫자**로 기록되어 있는 것을 확인할 수 있습니다. 

이대로도 데이터 분석을 진행할 수는 있지만, 조금 알아보기 번거롭습니다. 만약 요일에 있는 숫자들을 한글로 바꾸는 것 처럼 데이터에 일괄적으로 변형을 주고 싶다면 어떻게 해야할까요? 이에 대해서는 다음 실습에서 알아보도록 하겠습니다.

## 채점
* **[TODO]** 중 수행하지 않은 부분이 없는지 확인하세요.
* 채점을 위해 아래 코드를 실행한 뒤 우측 상단의 제출 버튼을 눌러주세요.
* 코드 수정시 정상적인 채점이 이루어지지 않습니다.

In [None]:
import os
import json

foreigner.to_json("result.json")