# 1. 데이터 불러오기

#### 🔰 모듈 불러오기

In [1]:
import pandas as pd

In [2]:
# 만약 위 코드가 제대로 실행되지 않는다면 여기서(jupyter notebook 내에서) pip를 이용해 판다스를 설치해준다.
# !conda install -y pandas

-----

#### 🔰 .csv 데이터 불러오기: 서울시 구별 CCTV

- path에서 ".."은 상위 폴더로 가라는 의미이다.
- 한글이 깨져서 나올 경우 뒤에 (..., `encoding='utf-8'`)를 붙여준다.

In [3]:
CCTV_Seoul = pd.read_csv("../data/01. Seoul_CCTV.csv")

- head()의 기본값은 5이다. 데이터 내 상위 5개의 rows(idx[0]~[4])를 반환한다.

In [4]:
CCTV_Seoul.head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613


In [5]:
CCTV_Seoul.head(2)

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377


- 뒤에서 5개를 읽어오면 전체 데이터의 수를 알 수 있다.

In [6]:
CCTV_Seoul.tail()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
20,용산구,2096,1368,218,112,398
21,은평구,2108,1138,224,278,468
22,종로구,1619,464,314,211,630
23,중구,1023,413,190,72,348
24,중랑구,916,509,121,177,109


#### 🔰 컬럼명 바꾸기

- column의 이름을 조회한다.

- 서울시 구의 이름을 Value로 가진 컬럼의 이름을 '기관명'에서 '구별'로 바꾼다.

In [7]:
CCTV_Seoul.columns # 컬럼명을 리스트 형태로 반환한다.

Index(['기관명', '소계', '2013년도 이전', '2014년', '2015년', '2016년'], dtype='object')

In [8]:
CCTV_Seoul.columns[0]

'기관명'

In [9]:
CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0]: "구별"})

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613
5,광진구,878,573,78,53,174
6,구로구,1884,1142,173,246,323
7,금천구,1348,674,51,269,354
8,노원구,1566,542,57,451,516
9,도봉구,825,238,159,42,386


💡 컬럼명이 바뀐 것처럼 보이지만 실제 불러온 원본 데이터에서는 변경되지 않았다.
- 다시 데이터를 불러오면 컬럼[0]명이 "기관명"으로 나타난다.

In [10]:
CCTV_Seoul.head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613


👉 이때 inplace param을 사용한다. (in place of = instead of ~ 대신에)

- `inplace=True` : 불러온 원본 데이터에 변경 사항을 반영한다.

In [11]:
CCTV_Seoul.rename(columns={"기관명": "구별"}, inplace=True)
CCTV_Seoul.head()

Unnamed: 0,구별,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613


#### 🔰 .csv 데이터 저장

In [15]:
CCTV_Seoul.to_csv("./result_data/01_CCTV_result.csv", encoding='utf-8') # sep : str, default ','

-----

#### 🔰 .xls 데이터 불러오기 : 서울시 구별 인구(population)수

판다스 공식 문서 활용 : https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

In [12]:
popul_seoul = pd.read_excel("../data/01. Seoul_Population.xls")
popul_seoul.head()

Unnamed: 0,기간,자치구,세대,인구,인구.1,인구.2,인구.3,인구.4,인구.5,인구.6,인구.7,인구.8,세대당인구,65세이상고령자
0,기간,자치구,세대,합계,합계,합계,한국인,한국인,한국인,등록외국인,등록외국인,등록외국인,세대당인구,65세이상고령자
1,기간,자치구,세대,계,남자,여자,계,남자,여자,계,남자,여자,세대당인구,65세이상고령자
2,2017,합계,4220082,10124579,4957857,5166722,9857426,4830206,5027220,267153,127651,139502,2.34,1365126
3,2017,종로구,73594,164257,80094,84163,154770,75967,78803,9487,4127,5360,2.1,26182
4,2017,중구,60412,134593,66337,68256,125709,62253,63456,8884,4084,4800,2.08,21384


- 중첩된 3개의 컬럼 중 상위 두 열은 필요없으므로 가져올 때 날리고 두번째 줄(header=2)부터 가져온다.
- 그리고 필요한 컬럼이 '계'(excel 내에서 'B', 'D', 'G', 'J', 'N') 부분만 불러온다.

In [13]:
popul_seoul = pd.read_excel(
	"../data/01. Seoul_Population.xls", header=2, usecols="B, D, G, J, N"
)
popul_seoul.head()

Unnamed: 0,자치구,계,계.1,계.2,65세이상고령자
0,합계,10124579,9857426,267153,1365126
1,종로구,164257,154770,9487,26182
2,중구,134593,125709,8884,21384
3,용산구,244444,229161,15283,36882
4,성동구,312711,304808,7903,41273


#### 🔰 컬럼명 변경

판다스 공식 문서 참고 : [DataFrame.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)

In [14]:
popul_seoul.rename(
	columns={
		popul_seoul.columns[0]: "구별",
		popul_seoul.columns[1]: "인구수",
		popul_seoul.columns[2]: "한국인",
		popul_seoul.columns[3]: "외국인",
		popul_seoul.columns[4]: "고령자"
	},
	inplace=True
)
popul_seoul.head()

Unnamed: 0,구별,인구수,한국인,외국인,고령자
0,합계,10124579,9857426,267153,1365126
1,종로구,164257,154770,9487,26182
2,중구,134593,125709,8884,21384
3,용산구,244444,229161,15283,36882
4,성동구,312711,304808,7903,41273


#### 🔰 .xlsx 데이터 저장

In [17]:
popul_seoul.to_excel("./result_data/01_Popul_result.xlsx")

-----