# 데이터 불러오기/살펴보기

### 주요 내용

1. csv, xlsx 파일 불러오기
2. 데이터 살펴보기

<br>

### 목표 
1. 분석에 필요한 데이터를 python으로 불러올 수 있다.
2. 데이터의 일부나 특성을 확인할 수 있다. 


<br>
<hr>
<br>

## 1. 파일 불러와서 살펴보기

**pandas** 라이브러리의 *read_csv()*, *read_excel()* 등의 함수를 활용해서 데이터 불러오기 가능 




<br>

### 1.1. CSV 파일 불러오기

**pandas** 라이브러리 불러오기 

In [None]:
import pandas as pd

In [None]:
# pandas의 read_csv( ) 활용
df_ins= pd.read_csv("./data/insurance.csv")
df_ins= pd.read_csv("data/insurance.csv")
df_ins    
    ## 경로가 중요! 
    ## ./ : ipynb 노트북 파일 폴더
    ## ./ 생략 가능
    ## Tab으로 자동 완성 기능 활용 가능 

In [None]:
# 타입 확인
type(df_ins)
    ## "DataFrame"

In [None]:
# 메서드의 확인(마침표 뒤에서 Tab 누르기)
df_ins.

<br>

### 1.2. 데이터 살펴보기


In [None]:
# head( )로 앞 몇개 관측치 확인
df_ins.head()

In [None]:
# tail( )로 끝 몇 개 관측치 확인
df_ins.tail(n=3)

In [None]:
# 관측치/ 변수 개수 확인
df_ins.shape

In [None]:
# 관측치 개수만 확인
df_ins.shape[0]

In [None]:
# index(행 이름) 확인
df_ins.index

In [None]:
# columns(변수 이름) 확인
df_ins.columns

In [None]:
# 변수 형식 확인
df_ins.dtypes

In [None]:
# 데이터의 전반적인 정보 확인
df_ins.info()

In [None]:
# 수치형 변수의 통계량 확인
df_ins.describe()

<br>

#### [실습] data 폴더의 PulseRates.csv를 불러와서 df_pr로 저장하기

이후 자유롭게 데이터 탐색하기

#### [참고] Encoding 지정 및 index, header 지정

In [None]:
# 인코딩(글자 저장 방법) 오류 발생
    ## UnicodeDecodeError  'utf-8' codec can't decode byte 0xbc in position 1: invalid start byte
pd.read_csv('data/고용지표_20221115084415.csv')

In [None]:
# 옵션 encoding='CP949' 추가
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949')

In [None]:
# index, header 지정
pd.read_csv('data/고용지표_20221115084415.csv', encoding='CP949', index_col=0, header=[0,1])

#### 데이터프레임 저장

In [None]:
df_ins.to_csv('path')

In [None]:
df_ins.to_excel('path')

<br>


### 1.3. Excel 파일 불러오기  

`Excel` 파일은 구버전의 **xls**와 새로운 버전의 **xlsx**로 구분하며 추가 라이브러리 `xlrd`와 `openpyxl` 설치 필수
 이후 pandas의 `read_excel( )`을 사용 가능 
 > pandas 1.3 이전 버전에서는 **xlsx** 파일을 불러올 때 함수 안에 `, engine='openpyxl'`를 추가해야할 수도 있습니다.

In [None]:
# 무난한 첫번째 시트 데이터 불러오기
sheet1 = pd.read_excel('./data/test.xlsx')
sheet1

In [None]:
# 시트 번호 지정하고 2줄 무시하기
sheet2 = pd.read_excel('data/test.xlsx', sheet_name=1, skiprows=2)
sheet2
    ## sheet_name : 시트 이름이나 번호 지정, 번호는 0부터 시작
    ## skiprows   : 무시할 행 수


In [None]:
# 첫 행부터 데이터가 시작되는 데이터 불러오기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None)
sheet3
    ## header : 첫 행에 변수이름이 저장되었는지 여부


In [None]:
# 첫 행부터 데이터가 시작되는 데이터 불러오면서 변수 이름 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'])
sheet3


In [None]:
# 결측 저장값 지정하기
sheet3 = pd.read_excel('data/test.xlsx', sheet_name=2, header=None, names=['년도','건수'], na_values='-')
sheet3
    ## NaN : 결측값


<br>  

####  [실습] 아래의 사이트에서 관심있는 데이터를 탐색하기

* csv 파일 중 인코딩 관련 에러가 발생할 경우 read_csv( )안에서 `encoding='CP949'` 옵션 추가
* xlsx의 경우 다운로드한 파일을 열어서 읽기 전용을 해제해야 할 수도 있음



[공공데이터포털](https://www.data.go.kr/index.do)

[서울 열린데이터 광장](http://data.seoul.go.kr/)

[Dacon](https://dacon.io/)



