# 데이터 불러오기/살펴보기

### 주요 내용

1. csv, xlsx 파일 불러오기
2. 데이터 살펴보기
3. DRM 보안 파일 불러오기

<br>

### 목표 
1. 분석에 필요한 데이터를 python으로 불러올 수 있다.
2. 데이터의 일부나 특성을 확인할 수 있다. 


<br>
<hr>
<br>

## 1. 파일 불러와서 살펴보기

**pandas** 라이브러리의 *read_csv()* 등의 함수를 활용해서 데이터 불러오기 가능 
아래의 표현들을 활용해서 데이터 파일의 경로 지정 필요 

* `/` : **root**. Windows에서는 C:\
* `~/` : 사용자 폴더. Windows에서는 C:\Users\사용자계정이름
* `./` : 현재 작업 폴더(working directory), 별도로 작업하지 않은 경우 생략 가능
* `../` : 현재 폴더의 상위 폴더


`바탕화면`처럼 익숙한 곳에 새로운 폴더를 만들고, 데이터 파일을 옮겨서 작업하는 것을 추천



In [None]:
# 현재 작업 폴더 확인
    ## print working directory
%pwd

<br>

### 1.1. CSV 파일 불러오기

**pandas** 라이브러리 불러오기 

In [None]:
import pandas as pd

In [None]:
# pandas의 read_csv( ) 활용
df_ins= pd.read_csv("./data/insurance.csv")
df_ins= pd.read_csv("data/insurance.csv")
df_ins    
    ## 경로가 중요! 
    ## ./ : ipynb 노트북 파일 폴더
    ## ./ 생략 가능
    ## Tab으로 자동 완성 기능 활용 가능 

In [None]:
# 타입 확인
type(df_ins)
    ## "DataFrame"

In [None]:
# 메서드의 확인(마침표 뒤에서 Tab 누르기)
df_ins.

<br>

### 1.2. 데이터 살펴보기


In [None]:
# head( )로 앞 몇개 관측치 확인
df_ins.head(n=10)

In [None]:
# tail( )로 끝 몇 개 관측치 확인
df_ins.tail(n=3)

In [None]:
# 관측치/ 변수 개수 확인
df_ins.shape

In [None]:
# 관측치 개수만 확인
df_ins.shape[0]

In [None]:
# index(행 이름) 확인
df_ins.index

In [None]:
# columns(변수 이름) 확인
df_ins.columns

In [None]:
# 변수 형식 확인
df_ins.dtypes

<br>

#### [실습] data 폴더의 PulseRates.csv를 불러와서 df_pr로 저장하기

이후 자유롭게 데이터 탐색하기

In [None]:
df_pr = pd.read_csv("./data/PulseRates.csv")

In [None]:
df_pr.dtypes

#### [참고] Encoding 지정 및 index, header 지정

In [None]:
# 인코딩(글자 저장 방법) 오류 발생
    ## UnicodeDecodeError  'utf-8' codec can't decode byte 0xbc in position 1: invalid start byte
pd.read_csv('data/고용지표_20221115084415.csv')

In [None]:
# 옵션 encoding='CP949' 추가
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949')

In [None]:
# index, header 지정
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949', index_col=0, header=[0,1])

<br>


### 1.3. Excel 파일 불러오기  

`Excel` 파일은 구버전의 **xls**와 새로운 버전의 **xlsx**로 구분하며 추가 라이브러리 `xlrd`와 `openpyxl` 설치 필수
 이후 pandas의 `read_excel( )`을 사용 가능 
 > pandas 1.3 이전 버전에서는 **xlsx** 파일을 불러올 때 함수 안에 `, engine='openpyxl'`를 추가해야할 수도 있습니다.

In [None]:
# 무난한 첫번째 시트 데이터 불러오기
sheet1 = pd.read_excel('./data/test.xlsx')
sheet1

In [None]:
# 시트 번호 지정하고 2줄 무시하기
sheet2 = pd.read_excel('data/test.xlsx', sheet_name="KOR", skiprows=2)
sheet2
    ## sheet_name : 시트 이름이나 번호 지정, 번호는 0부터 시작
    ## skiprows   : 무시할 행 수


In [None]:
# 첫 행부터 데이터가 시작되는 데이터 불러오기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None)
sheet3
    ## header : 첫 행에 변수이름이 저장되었는지 여부


In [None]:
# 첫 행부터 데이터가 시작되는 데이터 불러오면서 변수 이름 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'])
sheet3


In [None]:
# 결측 저장값 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'], na_values='-')
sheet3
    ## NaN : 결측값


<br>  

####  [실습] 아래의 사이트에서 관심있는 데이터를 탐색하기

* csv 파일 중 인코딩 관련 에러가 발생할 경우 read_csv( )안에서 `encoding='CP949'` 옵션 추가
* xlsx의 경우 다운로드한 파일을 열어서 읽기 전용을 해제해야 할 수도 있음



[공공데이터포털](https://www.data.go.kr/index.do)

[서울 열린데이터 광장](http://data.seoul.go.kr/)

[Dacon](https://dacon.io/)





In [None]:
pd.read_csv("/Users/jhpark/Downloads/법무부_국립법무병원 수용 현황_20221231.csv", encoding='cp949')

In [36]:
pd.read_csv("../../../Downloads/법무부_국립법무병원 수용 현황_20221231.csv", encoding='cp949')

Unnamed: 0,연도별,정신분열증,정신지체,조울증,성격(인격)장애,간질,약물중독,기타
0,2008,395,56,67,14,14,51,126
1,2009,428,72,58,17,12,56,181
2,2010,355,100,64,52,25,68,223
3,2011,382,82,42,33,25,50,334
4,2012,450,86,54,38,28,71,294
5,2013,480,89,57,44,26,85,341
6,2014,509,104,72,38,20,176,230
7,2015,533,102,81,35,14,175,240
8,2016,507,97,85,27,12,130,235
9,2017,518,92,84,27,10,117,248


In [None]:
pd.read_csv("/Users/jhpark/Downloads/법무부_국립법무병원 수용 현황_20221231.csv", encoding="cp949")

In [None]:
pd.read_csv("../../../Downloads/법무부_국립법무병원 수용 현황_20221231.csv", encoding="cp949")

In [33]:
pd.read_csv("./data/아파트(매매)__실거래가_20210902153616.csv", encoding="cp949", skiprows=16)

Unnamed: 0,서울특별시 강남구 개포동,1282,1282.1,0000,개포래미안포레스트,59.92,202108,21,"199,500",6,2020,개포로 264,Unnamed: 12
0,서울특별시 강남구 개포동,185,185,0,개포주공 7단지,83.7000,202108,20,280000,2,1983,개포로 516,
1,서울특별시 강남구 개포동,138,138,0,디에이치아너힐즈,59.8732,202108,17,233000,4,2019,삼성로 11,
2,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.9670,202108,14,227000,10,2019,선릉로 8,
3,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.8600,202108,1,169000,10,1992,개포로109길 9,
4,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,33.1800,202108,4,119500,3,1992,개포로109길 9,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
230,서울특별시 강남구 청담동,14,14,0,"청담2차 이-편한세상(201동,202동,203동)",84.9700,202108,14,200000,7,2006,도산대로70길 25,
231,서울특별시 강남구 청담동,15-21,15,21,청담2차 이-편한세상(205동),119.5500,202108,9,215000,3,2006,도산대로78길 51,
232,서울특별시 강남구 청담동,34-13,34,13,청담스위트,13.4250,202108,17,22000,4,2015,학동로73길 13,
233,서울특별시 강남구 청담동,134-38,134,38,청담자이,89.3560,202108,4,400000,16,2011,영동대로138길 12,


## 2.  DRM 보안 적용된 Excel 파일 불러오기



### 2.1. pywin32 활용

In [None]:
import pandas as pd
import win32com.client as win32
import os 

# Excel 실행
excel=win32.Dispatch('Excel.Application')   

# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

filepath

In [None]:
# Sheet 지정
ws = wb.Worksheets(1) 

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count 
nColumn = ws.UsedRange.Columns.Count 

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
pd.DataFrame(listValue[1:] , columns=listValue[0]) 

In [None]:
# Excel 종료
excel.Quit()     

<br>

한번에 실행

In [None]:
import pandas as pd
import win32com.client as win32
import os 

# Excel 실행
excel=win32.Dispatch('Excel.Application')   

# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

# Sheet 지정
ws = wb.Worksheets(1) 

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count 
nColumn = ws.UsedRange.Columns.Count 

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
df_drm = pd.DataFrame(listValue[1:] , columns=listValue[0]) 

excel.Quit()     

df_drm

<br>
<br>

### 2.2. xlwings 라이브러리 활용

+ 장점: VBA 연동 가능

In [None]:
# 라이브러리 설치
# !pip install xlwings 

In [None]:
# 라이브러리 불러오기
import xlwings as xw
import pandas as pd
import os

In [None]:
# Excel 파일 열기
# filepath = os.getcwd() +'/data/test.xlsx'
book = xw.Book('./data/test.xlsx')

In [None]:
# Sheet 선택
sheet = book.sheets[0]    

# 전체 데이터 데이터 불러오기
df_drm = sheet.used_range.options(pd.DataFrame, index = False).value
df_drm


In [None]:
# 특정 부분만 불러오기
sheet = book.sheets[1]    
df_drm = sheet.range("A3:C5").options(pd.DataFrame, index = False).value
df_drm

In [None]:
# 종료
xw.apps.active.quit()

#### End of script