# 데이터 불러오기/살펴보기

### 주요 내용

1. csv, xlsx 파일 불러오기
2. 데이터 살펴보기
3. DRM 보안 파일 불러오기

<br>

### 목표 
1. 분석에 필요한 데이터를 python으로 불러올 수 있다.
2. 데이터의 일부나 특성을 확인할 수 있다. 


<br>
<hr>
<br>

## 1. 파일 불러와서 살펴보기

**pandas** 라이브러리의 *read_csv()* 등의 함수를 활용해서 데이터 불러오기 가능    
아래의 표현들을 활용해서 데이터 파일의 경로 지정 필요 

* `/` : **root**. Windows에서는 C:\
* `~/` : 사용자 폴더. Windows에서는 C:\Users\사용자계정이름
* `./` : 현재 작업 폴더(working directory), 별도로 작업하지 않은 경우 생략 가능
* `../` : 현재 폴더의 상위 폴더



In [1]:
# 현재 작업 폴더 확인
    ## print working directory
%pwd

'C:\\Users\\13lue\\workspace\\solution'

<br>

### 1.1. CSV 파일 불러오기

**pandas** 라이브러리 불러오기 

In [2]:
import pandas as pd

In [3]:
# pandas의 read_csv( ) 활용
df_ins= pd.read_csv("./data/insurance.csv")
df_ins= pd.read_csv("data/insurance.csv")
df_ins    
    ## 경로가 중요! 
    ## ./ : ipynb 노트북 파일 폴더
    ## ./ 생략 가능
    ## Tab으로 자동 완성 기능 활용 가능 

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


In [4]:
# 타입 확인
type(df_ins)
    ## "DataFrame"

pandas.core.frame.DataFrame

In [5]:
# 메서드의 확인(마침표 뒤에서 Tab 누르기)
# df_ins.

<br>

### 1.2. 데이터 살펴보기


In [6]:
# head( )로 앞 몇개 관측치 확인
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [7]:
# tail( )로 끝 몇 개 관측치 확인
df_ins.tail(n=3)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [8]:
# 관측치/ 변수 개수 확인
df_ins.shape

(1338, 7)

In [9]:
# 관측치 개수만 확인
df_ins.shape[0]

1338

In [10]:
# index(행 이름) 확인
df_ins.index

RangeIndex(start=0, stop=1338, step=1)

In [11]:
# columns(변수 이름) 확인
df_ins.columns

Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')

<br>

#### [실습] data 폴더의 PulseRates.csv를 불러와서 df_pr로 저장하기


In [12]:
df_pr=pd.read_csv('./data/PulseRates.csv')

In [13]:
df_pr.head()

Unnamed: 0,Height,Weight,Age,Gender,Smokes,Alcohol,Exercise,Ran,Pulse1,Pulse2,Year
0,173,57.0,18,2,2,1,2,2,86.0,88.0,93
1,179,58.0,19,2,2,1,2,1,82.0,150.0,93
2,167,62.0,18,2,2,1,1,1,96.0,176.0,93
3,195,84.0,18,1,2,1,1,2,71.0,73.0,93
4,173,64.0,18,2,2,1,3,2,90.0,88.0,93


In [14]:
df_pr

Unnamed: 0,Height,Weight,Age,Gender,Smokes,Alcohol,Exercise,Ran,Pulse1,Pulse2,Year
0,173,57.0,18,2,2,1,2,2,86.0,88.0,93
1,179,58.0,19,2,2,1,2,1,82.0,150.0,93
2,167,62.0,18,2,2,1,1,1,96.0,176.0,93
3,195,84.0,18,1,2,1,1,2,71.0,73.0,93
4,173,64.0,18,2,2,1,3,2,90.0,88.0,93
...,...,...,...,...,...,...,...,...,...,...,...
105,93,27.0,19,2,2,2,3,2,119.0,120.0,98
106,161,43.0,19,2,2,2,3,2,90.0,89.0,98
107,182,60.0,22,1,2,1,3,2,86.0,84.0,98
108,170,65.0,18,1,2,1,1,2,69.0,64.0,98


#### [참고] Encoding 지정 및 index, header 지정

In [15]:
# 인코딩(글자 저장 방법) 오류 발생

# pd.read_csv('data/고용지표_20221115084415.csv')
# UnicodeDecodeError  'utf-8' codec can't decode byte 0xbc in position 1: invalid start byte


In [16]:
# 옵션 encoding='CP949' 추가
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949')

Unnamed: 0,성별(1),2021. 08,2021. 08.1,2021. 08.2,2021. 09,2021. 09.1,2021. 09.2,2021. 10,2021. 10.1,2021. 10.2,...,2022. 04.2,2022. 05,2022. 05.1,2022. 05.2,2022. 06,2022. 06.1,2022. 06.2,2022. 07,2022. 07.1,2022. 07.2
0,성별(1),경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,...,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률
1,합계,61.7,4.0,59.2,61.9,3.6,59.7,62.1,4.2,59.5,...,60.4,63.0,3.5,60.8,63.0,3.4,60.8,62.9,3.3,60.9
2,남자,70.0,4.1,67.1,70.3,3.8,67.7,70.6,4.6,67.3,...,68.7,71.8,3.7,69.2,71.6,3.3,69.2,71.3,3.4,68.9
3,여자,54.2,3.9,52.1,54.3,3.4,52.5,54.5,3.7,52.5,...,52.9,55.0,3.3,53.2,55.2,3.6,53.2,55.4,3.1,53


위 결과에서, 0번 index에 잘못된 값이 포함되어 있는 것을 볼 수 있습니다.   
우리는 숫자로 구성된 부분만을 데이터로 쓰고 싶으므로   
상단 두 줄을 모두 헤더로 사용하고   
왼쪽 첫 열을 인덱스로 사용하도록 코드를 수정해 보겠습니다.

In [17]:
# index, header 지정
X=pd.read_csv('data/고용지표_20221115084415.csv',
              encoding='CP949', index_col=0, header=[0,1])

In [18]:
X

성별(1),2021. 08,2021. 08,2021. 08,2021. 09,2021. 09,2021. 09,2021. 10,2021. 10,2021. 10,2021. 11,...,2022. 04,2022. 05,2022. 05,2022. 05,2022. 06,2022. 06,2022. 06,2022. 07,2022. 07,2022. 07
성별(1),경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,...,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률
합계,61.7,4.0,59.2,61.9,3.6,59.7,62.1,4.2,59.5,62.5,...,60.4,63.0,3.5,60.8,63.0,3.4,60.8,62.9,3.3,60.9
남자,70.0,4.1,67.1,70.3,3.8,67.7,70.6,4.6,67.3,71.2,...,68.7,71.8,3.7,69.2,71.6,3.3,69.2,71.3,3.4,68.9
여자,54.2,3.9,52.1,54.3,3.4,52.5,54.5,3.7,52.5,54.6,...,52.9,55.0,3.3,53.2,55.2,3.6,53.2,55.4,3.1,53.0


In [19]:
X.columns

MultiIndex([('2021. 08', '경제활동참가율'),
            ('2021. 08',     '실업률'),
            ('2021. 08',     '고용률'),
            ('2021. 09', '경제활동참가율'),
            ('2021. 09',     '실업률'),
            ('2021. 09',     '고용률'),
            ('2021. 10', '경제활동참가율'),
            ('2021. 10',     '실업률'),
            ('2021. 10',     '고용률'),
            ('2021. 11', '경제활동참가율'),
            ('2021. 11',     '실업률'),
            ('2021. 11',     '고용률'),
            ('2021. 12', '경제활동참가율'),
            ('2021. 12',     '실업률'),
            ('2021. 12',     '고용률'),
            ('2022. 01', '경제활동참가율'),
            ('2022. 01',     '실업률'),
            ('2022. 01',     '고용률'),
            ('2022. 02', '경제활동참가율'),
            ('2022. 02',     '실업률'),
            ('2022. 02',     '고용률'),
            ('2022. 03', '경제활동참가율'),
            ('2022. 03',     '실업률'),
            ('2022. 03',     '고용률'),
            ('2022. 04', '경제활동참가율'),
            ('2022. 04',     '실업률'),
            ('2022. 04',     '고용률'),
 

In [20]:
X['2021. 08']['실업률']

합계    4.0
남자    4.1
여자    3.9
Name: 실업률, dtype: float64

<br>


### 1.3. Excel 파일 불러오기  

`Excel` 파일은 구버전의 **xls**와 새로운 버전의 **xlsx**로 구분하며 추가 라이브러리 `xlrd`와 `openpyxl` 설치 필수
 이후 pandas의 `read_excel( )`을 사용 가능 
 > pandas 1.3 이전 버전에서는 **xlsx** 파일을 불러올 때 함수 안에 `, engine='openpyxl'`를 추가해야할 수도 있습니다.

In [21]:
# 무난한 첫번째 시트 데이터 불러오기
sheet1 = pd.read_excel('./data/test.xlsx')
sheet1

Unnamed: 0,ID,Var1,Var2,Var3
0,1,11,45,75
1,2,54,32,34
2,4,65,43,54


In [22]:
# 시트 번호 지정하고 2줄 무시하기
sheet2 = pd.read_excel('data/test.xlsx', sheet_name=1, skiprows=2)
sheet2
    ## sheet_name : 시트 이름이나 번호 지정, 번호는 0부터 시작
    ## skiprows   : 무시할 행 수


Unnamed: 0,이름,나이,키
0,민서,20,160
1,민준,21,175


In [23]:
# 첫 행부터 데이터가 시작되는 데이터 불러오기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None)
sheet3
    ## header : 첫 행에 변수이름이 저장되었는지 여부


Unnamed: 0,0,1
0,2015,32
1,2016,34
2,2017,-


In [24]:
# 첫 행부터 데이터가 시작되는 데이터 불러오면서 변수 이름 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'])
sheet3


Unnamed: 0,년도,건수
0,2015,32
1,2016,34
2,2017,-


In [25]:
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'])
sheet3


Unnamed: 0,년도,건수
0,2015,32
1,2016,34
2,2017,-


In [26]:
# 결측 저장값 지정하기 (na_values='-')
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'], na_values='-')
sheet3



Unnamed: 0,년도,건수
0,2015,32.0
1,2016,34.0
2,2017,



<br>  

####  [실습] 아래의 사이트에서 관심있는 데이터를 탐색하기

* csv 파일 중 인코딩 관련 에러가 발생할 경우 read_csv( )안에서 `encoding='CP949'` 옵션 추가
* xlsx의 경우 다운로드한 파일을 열어서 읽기 전용을 해제해야 할 수도 있음



[공공데이터포털](https://www.data.go.kr/index.do)

[서울 열린데이터 광장](http://data.seoul.go.kr/)

[Dacon](https://dacon.io/)





In [27]:
# titanic.csv
df_titanic = pd.read_csv('./data/titanic.csv')
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [28]:
# 도로교통공단_사망 교통사고 정보_20211231_utf8.csv
df_road = pd.read_csv('./data/도로교통공단_사망 교통사고 정보_20211231_utf8.csv')
df_road.head()

Unnamed: 0,발생년,발생년월일시,주야,요일,사망자수,부상자수,중상자수,경상자수,부상신고자수,발생지시도,...,사고유형,가해자법규위반,도로형태_대분류,도로형태,가해자_당사자종별,피해자_당사자종별,발생위치X(UTMK),발생위치Y(UTMK),경도,위도
0,2021,2021-01-01 03:00,야,금,1,3,0,3,0,경북,...,추돌,안전운전 의무 불이행,교차로,교차로부근,승용차,승용차,1097010.0,1793385.0,128.578152,36.132653
1,2021,2021-01-01 09:00,주,금,1,0,0,0,0,충남,...,공작물충돌,안전운전 의무 불이행,단일로,기타단일로,승용차,없음,902369.0,1847109.0,126.408201,36.616845
2,2021,2021-01-01 15:00,주,금,1,0,0,0,0,강원,...,측면충돌,안전운전 의무 불이행,교차로,교차로내,원동기장치자전거,승용차,1123975.0,1974509.0,128.907484,37.761842
3,2021,2021-01-01 19:00,야,금,1,0,0,0,0,전남,...,횡단중,안전운전 의무 불이행,단일로,기타단일로,화물차,보행자,886507.0,1613961.0,126.263573,34.513391
4,2021,2021-01-01 21:00,야,금,1,0,0,0,0,경기,...,기타,기타,단일로,기타단일로,승용차,보행자,953522.0,1915403.0,126.976011,37.236327


In [29]:
# 아파트(매매)__실거래가_20210902153636.csv
df_apt = pd.read_csv('./data/아파트(매매)__실거래가_20210902153636.csv',
                    encoding='CP949',
                    skiprows=15)
df_apt.head()

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 서초구 내곡동,BL-1,1,0,서초더샵포레,114.71,202108,14,185000,8,2014,헌릉로8길 58,
1,서울특별시 서초구 반포동,18-1,18,1,래미안퍼스티지,169.31,202108,7,527000,26,2009,반포대로 275,
2,서울특별시 서초구 반포동,757,757,0,반포 주공1단지,106.25,202108,9,455000,2,1973,신반포로 9,
3,서울특별시 서초구 반포동,1341,1341,0,반포래미안아이파크,99.92,202108,5,350000,3,2018,서초중앙로 220,
4,서울특별시 서초구 반포동,1342,1342,0,반포써밋,84.9716,202108,7,300000,20,2018,고무래로 89,


## 2.  DRM 보안 적용된 Excel 파일 불러오기



DRM 보안이 적용된 파일의 경우, 엑셀을 직접 실행하여 접근할 수 있습니다.   

### 2.1. pywin32 활용

In [30]:
import pandas as pd
import win32com.client as win32
import os 

# Excel 실행
excel=win32.Dispatch('Excel.Application')   
excel.Visible =  True
# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

filepath

'C:\\Users\\13lue\\workspace\\solution/data/test.xlsx'

In [31]:
# Sheet 지정
ws = wb.Worksheets(1) 

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count 
nColumn = ws.UsedRange.Columns.Count 

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
pd.DataFrame(listValue[1:] , columns=listValue[0]) 

Unnamed: 0,ID,Var1,Var2,Var3
0,1.0,11.0,45.0,75.0
1,2.0,54.0,32.0,34.0
2,4.0,65.0,43.0,54.0


In [32]:
# Excel 종료
excel.Quit()     

<br>

한번에 실행

In [33]:
import pandas as pd
import win32com.client as win32
import os 

# Excel 실행
excel=win32.Dispatch('Excel.Application')   

# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

# Sheet 지정
ws = wb.Worksheets(1) 

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count 
nColumn = ws.UsedRange.Columns.Count 

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
df_drm = pd.DataFrame(listValue[1:] , columns=listValue[0]) 

excel.Quit()     

df_drm

Unnamed: 0,ID,Var1,Var2,Var3
0,1.0,11.0,45.0,75.0
1,2.0,54.0,32.0,34.0
2,4.0,65.0,43.0,54.0


<br>
<br>

### 2.2. xlwings 라이브러리 활용

+ 장점: VBA 연동 가능

In [34]:
# 라이브러리 설치
# !pip install xlwings 

In [35]:
# 라이브러리 불러오기
import xlwings as xw
import pandas as pd
import os

In [36]:
# Excel 파일 열기
# filepath = os.getcwd() +'/data/test.xlsx'
book = xw.Book('./data/test.xlsx')

In [37]:
# Sheet 선택
sheet = book.sheets[0]    

# 전체 데이터 데이터 불러오기
df_drm = sheet.used_range.options(pd.DataFrame, index = False).value
df_drm


Unnamed: 0,ID,Var1,Var2,Var3
0,1.0,11.0,45.0,75.0
1,2.0,54.0,32.0,34.0
2,4.0,65.0,43.0,54.0


In [38]:
# 특정 부분만 불러오기
sheet = book.sheets[1]    
df_drm = sheet.range("A3:C5").options(pd.DataFrame, index = False).value
df_drm

Unnamed: 0,이름,나이,키
0,민서,20.0,160.0
1,민준,21.0,175.0


In [39]:
# 종료
xw.apps.active.quit()

#### End of script