# 데이터 불러오기/살펴보기

### 주요 내용

1. csv, xlsx 파일 불러오기
2. 데이터 살펴보기
3. DRM 보안 파일 불러오기

<br>

### 목표 
1. 분석에 필요한 데이터를 python으로 불러올 수 있다.
2. 데이터의 일부나 특성을 확인할 수 있다. 


<br>
<hr>
<br>

## 1. 파일 불러와서 살펴보기

**pandas** 라이브러리의 *read_csv()* 등의 함수를 활용해서 데이터 불러오기 가능 
아래의 표현들을 활용해서 데이터 파일의 경로 지정 필요 

* `/` : **root**. Windows에서는 C:\
* `~/` : 사용자 폴더. Windows에서는 C:\Users\사용자계정이름
* `./` : 현재 작업 폴더(working directory), 별도로 작업하지 않은 경우 생략 가능
* `../` : 현재 폴더의 상위 폴더


`바탕화면`처럼 익숙한 곳에 새로운 폴더를 만들고, 데이터 파일을 옮겨서 작업하는 것을 추천



In [None]:
# 현재 작업 폴더 확인
    ## print working directory
%pwd

<br>

### 1.1. CSV 파일 불러오기

**pandas** 라이브러리 불러오기 

In [None]:
import pandas as pd

In [None]:
# pandas의 read_csv( ) 활용
#df_ins= pd.read_csv("./data/insurance.csv")
df_ins= pd.read_csv("data/insurance.csv")
df_ins    
    ## 경로가 중요! 
    ## ./ : ipynb 노트북 파일 폴더
    ## ./ 생략 가능
    ## Tab으로 자동 완성 기능 활용 가능 

In [None]:
# 타입 확인
type(df_ins)
    ## "DataFrame"

In [None]:
# 메서드의 확인(마침표 뒤에서 Tab 누르기)
df_ins.

<br>

### 1.2. 데이터 살펴보기


In [None]:
# head( )로 앞 몇개 관측치 확인
df_ins.head(3)

In [None]:
# tail( )로 끝 몇 개 관측치 확인
df_ins.tail(3)

In [None]:
# 관측치/ 변수 개수 확인
df_ins.shape

In [None]:
# 관측치 개수만 확인
df_ins.shape[0]

In [None]:
# index(행 이름) 확인
df_ins.index

In [None]:
# columns(변수 이름) 확인
df_ins.columns

In [None]:
# 변수 형식 확인
df_ins.dtypes

<br>

#### [실습] data 폴더의 PulseRates.csv를 불러와서 df_pr로 저장하기

이후 자유롭게 데이터 탐색하기

In [None]:
df_pr = pd.read_csv("data/PulseRates.csv")
df_pr

In [None]:
df_pr.head(30)

In [None]:
df_pr.dtypes

#### [참고] Encoding 지정 및 index, header 지정

In [None]:
# 인코딩(글자 저장 방법) 오류 발생
    ## UnicodeDecodeError  'utf-8' codec can't decode byte 0xbc in position 1: invalid start byte
pd.read_csv('data/고용지표_20221115084415.csv')

In [None]:
# 옵션 encoding='CP949' 추가
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949')

In [None]:
# index, header 지정
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949', index_col=0, header=[0,1])

<br>


### 1.3. Excel 파일 불러오기  

`Excel` 파일은 구버전의 **xls**와 새로운 버전의 **xlsx**로 구분하며 추가 라이브러리 `xlrd`와 `openpyxl` 설치 필수
 이후 pandas의 `read_excel( )`을 사용 가능 
 > pandas 1.3 이전 버전에서는 **xlsx** 파일을 불러올 때 함수 안에 `, engine='openpyxl'`를 추가해야할 수도 있습니다.

In [None]:
# 무난한 첫번째 시트 데이터 불러오기
sheet1 = pd.read_excel('./data/test.xlsx')
(sheet1)

In [None]:
# 시트 번호 지정하고 2줄 무시하기
sheet2 = pd.read_excel('data/test.xlsx', sheet_name=1, skiprows=2)
sheet2
    ## sheet_name : 시트 이름이나 번호 지정, 번호는 0부터 시작
    ## skiprows   : 무시할 행 수


In [None]:
# 첫 행부터 데이터가 시작되는 데이터 불러오기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None)
sheet3
    ## header : 첫 행에 변수이름이 저장되었는지 여부


In [None]:
# 첫 행부터 데이터가 시작되는 데이터 불러오면서 변수 이름 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'])
sheet3


In [None]:
# 결측 저장값 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'], na_values='-')
sheet3.dtypes
    ## NaN : 결측값


<br>  

####  [실습] 아래의 사이트에서 관심있는 데이터를 탐색하기

* csv 파일 중 인코딩 관련 에러가 발생할 경우 read_csv( )안에서 `encoding='CP949'` 옵션 추가
* xlsx의 경우 다운로드한 파일을 열어서 읽기 전용을 해제해야 할 수도 있음



[공공데이터포털](https://www.data.go.kr/index.do)

[서울 열린데이터 광장](http://data.seoul.go.kr/)

[Dacon](https://dacon.io/)





In [44]:
df_cn = pd.read_excel("../../../Downloads/충청남도_민원데이터상세_20230626/2. 국민신문고 민원처리부(2012~2023).xlsx",
                     sheet_name=2, skiprows=1, index_col=0)
df_cn

Unnamed: 0_level_0,접수일자,제 목,요 지,민원발생지,처리부서국,처리부서,처리일자,처리상태1,처리상태2
순번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,2014-01-02 13:50,공주시청의 횡포를 고발합니다,공주시청의 횡포를 고발합니다,충청남도 공주시,충청남도감사위원회,충청남도감사위원회,2014-01-08 16:19:11,종결,3회 반복종결
2,2014-01-02 13:52,국토의 계획및 이용에 관한 법령 유권해석,국토의 계획및 이용에 관한 법령 유권해석,충청남도 서산시,건설교통국,건설정책과,2014-01-09 14:32:04,완료,단순참고·상담안내
3,2014-01-02 14:18,저공해자동차 공영주차장 이용혜택 관련 문의,저공해자동차 공영주차장 이용혜택 관련 문의,충청남도 아산시,건설교통국,도로교통과,2014-01-06 19:51:29,완료,해결
4,2014-01-02 14:21,충남도청 청소 용역업체 담당자 무자비한 갑을관계로 뇌물비리 권력남용행위 신고.,충남도청 청소 용역업체 담당자 무자비한 갑을관계로 뇌물비리 권력남용행위 신고.,충청남도 홍성군,안전자치행정국,새마을회계과,2014-01-07 18:03:44,완료,해결
5,2014-01-02 14:41,어렵구힘없는용역자들편에서생각해주세요,어렵구힘없는용역자들편에서생각해주세요,충청남도 홍성군,안전자치행정국,새마을회계과,2014-01-07 18:33:36,완료,해결
...,...,...,...,...,...,...,...,...,...
1769,2014-12-31 09:34,****년 **월 *일 충청남도지방소청심사위원회의 기각결정에 대한 재심신청,"“****-**, 전보처분 취소청구”사건의 소청심사위원회(****.**.*.)의 기...",충청남도 공주시,기획조정실,교육법무담당관,2015-01-07 14:56:10,완료,해결
1770,2014-12-31 09:35,공무원 불법행위관련 진정(고인곤),당진시 공무원의 불법행위 조사 요청,충청남도 당진시,충청남도감사위원회,조사과,2015-01-08 19:30:49,완료,해결
1771,2014-12-31 09:44,무너져 가고 있는 천만년의 종묘사직에 역사를 바라보고만 있으려니,무너져 가고 있는 천만년의 종묘사직에 역사를 바라보고만 있으려니,충청남도 아산시,안전자치행정국,도민협력새마을과,2014-12-31 09:44:45,기타,전환처리
1772,2014-12-31 10:15,충남은 대한민국의 정신을 간직한 곳입니다.,지역의 선열들을 챙기고 나라를 지킨 분들에 대한 숭고한 뜻을 교육시켜 달라는 요구....,충청남도 전체,안전자치행정국,총무과,2014-12-31 10:15:04,완료,해결


In [45]:
xl = pd.ExcelFile("/Users/jhpark/Downloads/충청남도_민원데이터상세_20230626/2. 국민신문고 민원처리부(2012~2023).xlsx")
xl.sheet_names  # see all sheet names
#xl.parse('2013년(1547건)', skiprows=1)  # read a specific sheet to DataFrame

['2012년(1566건)',
 '2013년(1547건)',
 '2014년(1773건)',
 '2015년(1566건)',
 '2016년(1760건)',
 '2017년(2930건)',
 '2018년(2775건)',
 '2019년(2984건)',
 '2020년(4287건)',
 '2021년(5655건)',
 '2022년(4566건)',
 '2023년(2289건) ']

## 2.  DRM 보안 적용된 Excel 파일 불러오기



### 2.1. pywin32 활용

In [None]:
import pandas as pd
import win32com.client as win32
import os 

# Excel 실행
excel=win32.Dispatch('Excel.Application')   

# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

filepath

In [None]:
# Sheet 지정
ws = wb.Worksheets(1) 

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count 
nColumn = ws.UsedRange.Columns.Count 

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
pd.DataFrame(listValue[1:] , columns=listValue[0]) 

In [None]:
# Excel 종료
excel.Quit()     

<br>

한번에 실행

In [None]:
import pandas as pd
import win32com.client as win32
import os 

# Excel 실행
excel=win32.Dispatch('Excel.Application')   

# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

# Sheet 지정
ws = wb.Worksheets(1) 

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count 
nColumn = ws.UsedRange.Columns.Count 

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
df_drm = pd.DataFrame(listValue[1:] , columns=listValue[0]) 

excel.Quit()     

df_drm

<br>
<br>

### 2.2. xlwings 라이브러리 활용

+ 장점: VBA 연동 가능

In [None]:
# 라이브러리 설치
# !pip install xlwings 

In [None]:
# 라이브러리 불러오기
import xlwings as xw
import pandas as pd
import os

In [None]:
# Excel 파일 열기
# filepath = os.getcwd() +'/data/test.xlsx'
book = xw.Book('./data/test.xlsx')

In [None]:
# Sheet 선택
sheet = book.sheets[0]    

# 전체 데이터 데이터 불러오기
df_drm = sheet.used_range.options(pd.DataFrame, index = False).value
df_drm


In [None]:
# 특정 부분만 불러오기
sheet = book.sheets[1]    
df_drm = sheet.range("A3:C5").options(pd.DataFrame, index = False).value
df_drm

In [None]:
# 종료
xw.apps.active.quit()

#### End of script