# 데이터 불러오기/살펴보기

### 주요 내용

1. csv, xlsx 파일 불러오기
2. 데이터 살펴보기
3. DRM 보안 파일 불러오기

<br>

### 목표 
1. 분석에 필요한 데이터를 python으로 불러올 수 있다.
2. 데이터의 일부나 특성을 확인할 수 있다. 


<br>
<hr>
<br>

## 1. 파일 불러와서 살펴보기

**pandas** 라이브러리의 *read_csv()* 등의 함수를 활용해서 데이터 불러오기 가능 
아래의 표현들을 활용해서 데이터 파일의 경로 지정 필요 

* `/` : **root**. Windows에서는 C:\
* `~/` : 사용자 폴더. Windows에서는 C:\Users\사용자계정이름
* `./` : 현재 작업 폴더(working directory), 별도로 작업하지 않은 경우 생략 가능
* `../` : 현재 폴더의 상위 폴더


`바탕화면`처럼 익숙한 곳에 새로운 폴더를 만들고, 데이터 파일을 옮겨서 작업하는 것을 추천



In [1]:
# 현재 작업 폴더 확인
    ## print working directory
%pwd

'C:\\Users\\jhpark\\Desktop\\7_fastcampus\\0620_강의자료\\실습자료_Python 데이터 분석'

<br>

### 1.1. CSV 파일 불러오기

**pandas** 라이브러리 불러오기 

In [2]:
import pandas as pd

In [3]:
# pandas의 read_csv( ) 활용
#df_ins= pd.read_csv("./data/insurance.csv")
df_ins= pd.read_csv("data/insurance.csv")
df_ins    
    ## 경로가 중요! 
    ## ./ : ipynb 노트북 파일 폴더
    ## ./ 생략 가능
    ## Tab으로 자동 완성 기능 활용 가능 

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


In [4]:
# 타입 확인
type(df_ins)
    ## "DataFrame"

pandas.core.frame.DataFrame

In [None]:
# 메서드의 확인(마침표 뒤에서 Tab 누르기)
df_ins.

<br>

### 1.2. 데이터 살펴보기


In [8]:
# head( )로 앞 몇개 관측치 확인
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [9]:
# tail( )로 끝 몇 개 관측치 확인
df_ins.tail(n=3)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [10]:
# 관측치/ 변수 개수 확인
df_ins.shape

(1338, 7)

In [12]:
# 관측치 개수만 확인
df_ins.shape[1]

7

In [13]:
# index(행 이름) 확인
df_ins.index

RangeIndex(start=0, stop=1338, step=1)

In [14]:
# columns(변수 이름) 확인
df_ins.columns

Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')

In [15]:
# 변수 형식 확인
df_ins.dtypes

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

<br>

#### [실습] data 폴더의 PulseRates.csv를 불러와서 df_pr로 저장하기

이후 자유롭게 데이터 탐색하기

In [18]:
df_pulse = pd.read_csv("./data/PulseRates.csv")

In [19]:
df_pulse.head()

Unnamed: 0,Height,Weight,Age,Gender,Smokes,Alcohol,Exercise,Ran,Pulse1,Pulse2,Year
0,173,57.0,18,2,2,1,2,2,86.0,88.0,93
1,179,58.0,19,2,2,1,2,1,82.0,150.0,93
2,167,62.0,18,2,2,1,1,1,96.0,176.0,93
3,195,84.0,18,1,2,1,1,2,71.0,73.0,93
4,173,64.0,18,2,2,1,3,2,90.0,88.0,93


In [21]:
df_pulse.columns

Index(['Height', 'Weight', 'Age', 'Gender', 'Smokes', 'Alcohol', 'Exercise',
       'Ran', 'Pulse1', 'Pulse2', 'Year'],
      dtype='object')

#### [참고] Encoding 지정 및 index, header 지정

In [22]:
# 인코딩(글자 저장 방법) 오류 발생
    ## UnicodeDecodeError  'utf-8' codec can't decode byte 0xbc in position 1: invalid start byte
pd.read_csv('data/고용지표_20221115084415.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 1: invalid start byte

In [23]:
# 옵션 encoding='CP949' 추가
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949')

Unnamed: 0,성별(1),2021. 08,2021. 08.1,2021. 08.2,2021. 09,2021. 09.1,2021. 09.2,2021. 10,2021. 10.1,2021. 10.2,...,2022. 04.2,2022. 05,2022. 05.1,2022. 05.2,2022. 06,2022. 06.1,2022. 06.2,2022. 07,2022. 07.1,2022. 07.2
0,성별(1),경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,...,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률
1,합계,61.7,4.0,59.2,61.9,3.6,59.7,62.1,4.2,59.5,...,60.4,63.0,3.5,60.8,63.0,3.4,60.8,62.9,3.3,60.9
2,남자,70.0,4.1,67.1,70.3,3.8,67.7,70.6,4.6,67.3,...,68.7,71.8,3.7,69.2,71.6,3.3,69.2,71.3,3.4,68.9
3,여자,54.2,3.9,52.1,54.3,3.4,52.5,54.5,3.7,52.5,...,52.9,55.0,3.3,53.2,55.2,3.6,53.2,55.4,3.1,53


In [24]:
# index, header 지정
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949', index_col=0, header=[0,1])

성별(1),2021. 08,2021. 08,2021. 08,2021. 09,2021. 09,2021. 09,2021. 10,2021. 10,2021. 10,2021. 11,...,2022. 04,2022. 05,2022. 05,2022. 05,2022. 06,2022. 06,2022. 06,2022. 07,2022. 07,2022. 07
성별(1),경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,...,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률
합계,61.7,4.0,59.2,61.9,3.6,59.7,62.1,4.2,59.5,62.5,...,60.4,63.0,3.5,60.8,63.0,3.4,60.8,62.9,3.3,60.9
남자,70.0,4.1,67.1,70.3,3.8,67.7,70.6,4.6,67.3,71.2,...,68.7,71.8,3.7,69.2,71.6,3.3,69.2,71.3,3.4,68.9
여자,54.2,3.9,52.1,54.3,3.4,52.5,54.5,3.7,52.5,54.6,...,52.9,55.0,3.3,53.2,55.2,3.6,53.2,55.4,3.1,53.0


<br>


### 1.3. Excel 파일 불러오기  

`Excel` 파일은 구버전의 **xls**와 새로운 버전의 **xlsx**로 구분하며 추가 라이브러리 `xlrd`와 `openpyxl` 설치 필수
 이후 pandas의 `read_excel( )`을 사용 가능 
 > pandas 1.3 이전 버전에서는 **xlsx** 파일을 불러올 때 함수 안에 `, engine='openpyxl'`를 추가해야할 수도 있습니다.

In [25]:
# 무난한 첫번째 시트 데이터 불러오기
sheet1 = pd.read_excel('./data/test.xlsx')
sheet1

Unnamed: 0,ID,Var1,Var2,Var3
0,1,11,45,75
1,2,54,32,34
2,4,65,43,54


In [26]:
# 시트 번호 지정하고 2줄 무시하기
sheet2 = pd.read_excel('data/test.xlsx', sheet_name=1, skiprows=2)
sheet2
    ## sheet_name : 시트 이름이나 번호 지정, 번호는 0부터 시작
    ## skiprows   : 무시할 행 수


Unnamed: 0,이름,나이,키
0,민서,20,160
1,민준,21,175


In [27]:
# 첫 행부터 데이터가 시작되는 데이터 불러오기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None)
sheet3
    ## header : 첫 행에 변수이름이 저장되었는지 여부


Unnamed: 0,0,1
0,2015,32
1,2016,34
2,2017,-


In [28]:
# 첫 행부터 데이터가 시작되는 데이터 불러오면서 변수 이름 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'])
sheet3


Unnamed: 0,년도,건수
0,2015,32
1,2016,34
2,2017,-


In [29]:
# 결측 저장값 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'], na_values='-')
sheet3
    ## NaN : 결측값

Unnamed: 0,년도,건수
0,2015,32.0
1,2016,34.0
2,2017,



<br>  

####  [실습] 아래의 사이트에서 관심있는 데이터를 탐색하기

* csv 파일 중 인코딩 관련 에러가 발생할 경우 read_csv( )안에서 `encoding='CP949'` 옵션 추가
* xlsx의 경우 다운로드한 파일을 열어서 읽기 전용을 해제해야 할 수도 있음



[공공데이터포털](https://www.data.go.kr/index.do)

[서울 열린데이터 광장](http://data.seoul.go.kr/)

[Dacon](https://dacon.io/)





In [None]:
pd.read_csv("../../../../Downloads/서울특별시 송파구_치과기공소현황_20230619.csv")

In [32]:
pd.read_csv("/Users/jhpark/Downloads/서울특별시 송파구_치과기공소현황_20230619.csv", encoding="cp949", index_col=0)

Unnamed: 0_level_0,치과기공소명,소재지(도로명)
순번,Unnamed: 1_level_1,Unnamed: 2_level_1
1,디지털아이콘덴탈랩(Digital iCon Dental LaB),"서울특별시 송파구 백제고분로28길 33, 202호 일부호 (삼전동)"
2,달(DAL)치과기공소,"서울특별시 송파구 동남로 102, 레이102 5층 (문정동)"
3,EDL치과기공소,"서울특별시 송파구 풍성로 69, 1층층 (풍납동)"
4,케이덴탈랩,"서울특별시 송파구 송이로 97, 화영빌딩 2층 (가락동)"
5,유얼라인 투명교정 치과기공소,"서울특별시 송파구 법원로4길 5, 송파법조타운푸르지오 318호 (문정동)"
6,디지털코리아치과기공소,"서울특별시 송파구 송이로 102-1, 3층 (가락동)"
7,목 치과기공소,"서울특별시 송파구 송이로17길 54-27, 302호 (가락동)"
8,에스-텍 치과기공소,"서울특별시 송파구 동남로 113, 401호 (가락동)"
9,에이플러스치과기공소,"서울특별시 송파구 올림픽로32길 22-22, 4층 (방이동)"
10,새로운치과기공소,"서울특별시 송파구 삼학사로8길 5, 지층 B03호 (석촌동)"


## 2.  DRM 보안 적용된 Excel 파일 불러오기



### 2.1. pywin32 활용

In [None]:
import pandas as pd
import win32com.client as win32
import os 

# Excel 실행
excel=win32.Dispatch('Excel.Application')   

# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

filepath

In [None]:
# Sheet 지정
ws = wb.Worksheets(1) 

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count 
nColumn = ws.UsedRange.Columns.Count 

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
pd.DataFrame(listValue[1:] , columns=listValue[0]) 

In [None]:
# Excel 종료
excel.Quit()     

<br>

한번에 실행

In [None]:
import pandas as pd
import win32com.client as win32
import os 

# Excel 실행
excel=win32.Dispatch('Excel.Application')   

# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

# Sheet 지정
ws = wb.Worksheets(1) 

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count 
nColumn = ws.UsedRange.Columns.Count 

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
df_drm = pd.DataFrame(listValue[1:] , columns=listValue[0]) 

excel.Quit()     

df_drm

<br>
<br>

### 2.2. xlwings 라이브러리 활용

+ 장점: VBA 연동 가능

In [None]:
# 라이브러리 설치
# !pip install xlwings 

In [None]:
# 라이브러리 불러오기
import xlwings as xw
import pandas as pd
import os

In [None]:
# Excel 파일 열기
# filepath = os.getcwd() +'/data/test.xlsx'
book = xw.Book('./data/test.xlsx')

In [None]:
# Sheet 선택
sheet = book.sheets[0]    

# 전체 데이터 데이터 불러오기
df_drm = sheet.used_range.options(pd.DataFrame, index = False).value
df_drm


In [None]:
# 특정 부분만 불러오기
sheet = book.sheets[1]    
df_drm = sheet.range("A3:C5").options(pd.DataFrame, index = False).value
df_drm

In [None]:
# 종료
xw.apps.active.quit()

#### End of script