# pandas 기초

### 주요 내용

1. csv, xlsx 파일 불러오기
2. 데이터 살펴보기
3. DRM 보안 파일 불러오기

<br>

### 목표 
1. 분석에 필요한 데이터를 python으로 불러올 수 있다.
2. 데이터의 일부나 특성을 확인할 수 있다. 


<br>
<hr>
<br>

## 1. 파일 불러와서 살펴보기

**pandas** 라이브러리의 *read_csv()* 등의 함수를 활용해서 데이터 불러오기 가능 
아래의 표현들을 활용해서 데이터 파일의 경로 지정 필요 

* `/` : **root**. Windows에서는 C:\
* `~/` : 사용자 폴더. Windows에서는 C:\Users\사용자계정이름
* `./` : 현재 작업 폴더(working directory), 별도로 작업하지 않은 경우 생략 가능
* `../` : 현재 폴더의 상위 폴더


`바탕화면`처럼 익숙한 곳에 새로운 폴더를 만들고, 데이터 파일을 옮겨서 작업하는 것을 추천



In [9]:
# 현재 작업 폴더 확인
    ## print working directory
%pwd

'C:\\Users\\사용자\\Desktop\\02_python시각화'

In [24]:
# 경로 지정 실습
# test.csv

'C:\\Users\\사용자\\Desktop\\02_python시각화\\data\\test.csv'

'C:\\Users\\사용자\\Desktop\\02_python시각화\\data\\test.csv'

<br>

### 1.1. CSV 파일 불러오기

**pandas** 라이브러리 불러오기
- series는 1열로 구성

In [4]:
import pandas as pd

In [32]:
# pandas의 read_csv( ) 활용
df_ins = pd.read_csv("./data/insurance.csv")
# df_ins= pd.read_csv("data/insurance.csv")
display(df_ins) # 스타일이 적용된 출력함수
    ## 경로가 중요!
    ## ./ : ipynb 노트북 파일 폴더
    ## ./ 생략 가능
    ## Tab으로 자동 완성 기능 활용 가능

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


In [29]:
# 타입 확인
type(df_ins)
    ## "DataFrame"

pandas.core.frame.DataFrame

In [33]:
# 메서드의 확인(마침표 뒤에서 Tab 누르기)
type(df_ins.age)

pandas.core.series.Series

In [44]:
df_ins

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


* Comma Separated Value
* `\n`을 기준으로 행 구분, `,`을 기준으로 열 구분

<br>

### 1.2. 데이터 살펴보기


In [49]:
# head( )로 앞 몇개 관측치 확인
df_ins.head(10)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552
5,31,female,25.74,0,no,southeast,3756.6216
6,46,female,33.44,1,no,southeast,8240.5896
7,37,female,27.74,3,no,northwest,7281.5056
8,37,male,29.83,2,no,northeast,6406.4107
9,60,female,25.84,0,no,northwest,28923.13692


In [50]:
# tail( )로 끝 몇 개 관측치 확인
df_ins.tail()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1333,50,male,30.97,3,no,northwest,10600.5483
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [81]:
# 관측치/ 변수 개수 확인
# 튜플 형태
a = df_ins.shape
a

(1338, 7)

In [55]:
# 관측치 개수만 확인
df_ins.shape[0]

1338

In [64]:
# index(행 이름) 확인
# RangeIndex : 데이터 타입
# stop은 포함 X
df_ins.index

RangeIndex(start=0, stop=1338, step=1)

In [63]:
# columns(변수 이름) 확인
df_ins.columns

Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')

In [66]:
# 모든 변수의 형식 확인
# object : 문자열
# 하나의 열은 모두 동일한 데이터 타입으로 해석할 수 있어야 함
df_ins.dtypes

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

<br>

#### [실습] data 폴더의 PulseRates.csv를 불러와서 df_pr로 저장하기

- 이후 자유롭게 데이터 탐색하기

In [67]:
# data 폴더의 PulseRates.csv를 불러와서 df_pr로 저장하기
import pandas as a
df_pr = a.read_csv("./data/PulseRates.csv")

df_pr.shape
df_pr.dtypes
df_pr.head()
df_pr.tail()
df_pr.index
df_pr.columns

Index(['Height', 'Weight', 'Age', 'Gender', 'Smokes', 'Alcohol', 'Exercise',
       'Ran', 'Pulse1', 'Pulse2', 'Year'],
      dtype='object')

In [77]:
df_pr.columns

Index(['Height', 'Weight', 'Age', 'Gender', 'Smokes', 'Alcohol', 'Exercise',
       'Ran', 'Pulse1', 'Pulse2', 'Year'],
      dtype='object')

#### [참고] Encoding 지정 및 index, header 지정

In [None]:
# csv 파일의 인코딩 문제
pd.read_csv('./data/고용지표_20221115084415.csv')

In [87]:
# 옵션 encoding='CP949' 추가
pd.read_csv('./data/고용지표_20221115084415.csv', encoding='cp949')

Unnamed: 0,성별(1),2021. 08,2021. 08.1,2021. 08.2,2021. 09,2021. 09.1,2021. 09.2,2021. 10,2021. 10.1,2021. 10.2,...,2022. 04.2,2022. 05,2022. 05.1,2022. 05.2,2022. 06,2022. 06.1,2022. 06.2,2022. 07,2022. 07.1,2022. 07.2
0,성별(1),경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,...,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률
1,합계,61.7,4.0,59.2,61.9,3.6,59.7,62.1,4.2,59.5,...,60.4,63.0,3.5,60.8,63.0,3.4,60.8,62.9,3.3,60.9
2,남자,70.0,4.1,67.1,70.3,3.8,67.7,70.6,4.6,67.3,...,68.7,71.8,3.7,69.2,71.6,3.3,69.2,71.3,3.4,68.9
3,여자,54.2,3.9,52.1,54.3,3.4,52.5,54.5,3.7,52.5,...,52.9,55.0,3.3,53.2,55.2,3.6,53.2,55.4,3.1,53


In [97]:
# index, header 지정
pd.read_csv('./data/고용지표_20221115084415.csv', encoding='CP949', index_col=0, header=[0,1])

성별(1),2021. 08,2021. 08,2021. 08,2021. 09,2021. 09,2021. 09,2021. 10,2021. 10,2021. 10,2021. 11,...,2022. 04,2022. 05,2022. 05,2022. 05,2022. 06,2022. 06,2022. 06,2022. 07,2022. 07,2022. 07
성별(1),경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,...,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률,경제활동참가율,실업률,고용률
합계,61.7,4.0,59.2,61.9,3.6,59.7,62.1,4.2,59.5,62.5,...,60.4,63.0,3.5,60.8,63.0,3.4,60.8,62.9,3.3,60.9
남자,70.0,4.1,67.1,70.3,3.8,67.7,70.6,4.6,67.3,71.2,...,68.7,71.8,3.7,69.2,71.6,3.3,69.2,71.3,3.4,68.9
여자,54.2,3.9,52.1,54.3,3.4,52.5,54.5,3.7,52.5,54.6,...,52.9,55.0,3.3,53.2,55.2,3.6,53.2,55.4,3.1,53.0


<br>


### 1.3. Excel 파일 불러오기  

`Excel` 파일은 구버전의 **xls**와 새로운 버전의 **xlsx**로 구분하며 추가 라이브러리 `xlrd`와 `openpyxl` 설치 필수
 이후 pandas의 `read_excel( )`을 사용 가능 
* encoding 지정 없어도 가능

In [98]:
# 무난한 첫번째 시트 데이터 불러오기

sheet1 = pd.read_excel('./data/test.xlsx')
sheet1

Unnamed: 0,ID,Var1,Var2,Var3
0,1,11,45,75
1,2,54,32,34
2,4,65,43,54


In [110]:
# 시트 번호 지정하고 2줄 무시하기
    ## sheet_name : 시트 이름이나 번호 지정, 번호는 0부터 시작
    ## skiprows   : 무시할 행 수
    
dic_df = pd.read_excel('./data/test.xlsx', sheet_name=2, header=None)
dic_df

Unnamed: 0,0,1
0,2015,32
1,2016,34
2,2017,-


In [112]:
# 첫 행부터 데이터가 시작되는 데이터 불러오면서 변수 이름 지정하기

sheet3 = pd.read_excel('./data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'])
sheet3.dtypes # 건수는 '-'가 있기 때문에 문자열로 지정(결측치)

년도     int64
건수    object
dtype: object

In [115]:
# 결측 저장값 지정하기
    ## NaN : 결측값
    ## int < float
sheet3 = pd.read_excel('./data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'], na_values='-')
display(sheet3)
sheet3.dtypes

Unnamed: 0,년도,건수
0,2015,32.0
1,2016,34.0
2,2017,


년도      int64
건수    float64
dtype: object

## [참고] 2. DRM 보안 적용된 Excel 파일 불러오기



### 2.1. pywin32 활용

In [None]:
import pandas as pd
import win32com.client as win32
import os

# Excel 실행
excel=win32.Dispatch('Excel.Application')

# 경로 지정 및 파일 열기
filepath = os.getcwd() +'/data/test.xlsx'
wb = excel.Workbooks.Open(filepath)

# Sheet 지정
ws = wb.Worksheets(1)

# 전체 행, 열 수 확인
nRow = ws.UsedRange.Rows.Count
nColumn = ws.UsedRange.Columns.Count

# 불러올 범위 지정
listValue = ws.Range(ws.Cells(1,1) , ws.Cells(nRow,nColumn)).Value
df_drm = pd.DataFrame(listValue[1:] , columns=listValue[0]) # pd가 갖고있는 DataFrame (생성자 함수)

excel.Quit()

df_drm

<br>
<br>

### 2.2. xlwings 라이브러리 활용 (엑셀 미설치 생략)

In [None]:
# 라이브러리 설치
# !pip install xlwings 

In [None]:
# 라이브러리 불러오기
import xlwings as xw
import pandas as pd
import os

In [None]:
# Excel 파일 열기
# filepath = os.getcwd() +'/data/test.xlsx'
book = xw.Book('./data/test.xlsx')

In [None]:
# Sheet 선택
sheet = book.sheets[0]    

# 전체 데이터 데이터 불러오기
df_drm = sheet.used_range.options(pd.DataFrame, index = False).value
df_drm

In [None]:
# 특정 부분만 불러오기
sheet = book.sheets[1]    
df_drm = sheet.range("A3:C5").options(pd.DataFrame, index = False).value
df_drm

In [None]:
# 종료
xw.apps.active.quit()

#### End of script