In [1]:
import pandas as pd

# 외부 데이터 이용하기

데이터를 분석할 때는 직접 데이터를 입력하기 보다 외부에서 생성된 데이터를 불러와 분석하는 경우가 더 많다. 데이터를 관리할 때 가장 많이 사용하는 엑셀 파일과 CSV 파일을 불러와 데이터 프레임을 만드는 방법과 파일로 저장하는 방법이 적혀있다.

## 엑셀 파일 불러오기

엑셀 파일을 불러와 데이터 프레임을 만들어보자

### 1. 엑셀 파일 살펴보기

`excel_exam.xlsx` 파일을 다운로드한 뒤 살펴보면, 5개의 변수가 존재한다. 변수는 학생의 `id`(번호), `nclass`(반), `math`(수학), `english`(영어), `science`(과학) 세 과목의 시험 점수를 담고 있다. 그리고 21개의 행 중 첫 번째 행을 제외하면 총 20개의 행이 남으니, 이 데이터는 20명의 학생 데이터를 담고 있다는 것을 확인할 수 있다.

### 2. 워킹 디렉터리에 엑셀 파일 삽입(옵션)

### 3. 엑셀 파일 불러오기

`pandas`의 `read_excel()`을 이용해 엑셀 파일을 불러온다. `read_excel()`은 엑셀 파일을 데이터 프레임으로 만드는 기능을 한다. 괄호 안에 불러올 엑셀 파일명을 입력하면 된다. 파일명을 입력할 땐 확장자(`.xlsx`)까지 입력해야 하고, 파일명 앞뒤에 따옴표(`'`)를 붙여야 한다. 이 기능을 통해 불러들인다면 엑셀에서 봤던 것과 같은 내용을 확인할 수 있다. 

In [2]:
df_exam = pd.read_excel('excel_exam.xlsx')
df_exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


절대 경로로도 표현 가능하다.

In [5]:
df_exam = pd.read_excel('/home/<Absolute_Path>/excel_exam.xlsx')
df_exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


### 4. 분석하기

데이터를 불러왔으니 이제 분석해보자. 영어 점수와 과학 점수의 전체 평균을 구해보자.

In [10]:
sum(df_exam['english']) / len(df_exam)     # 20

84.9

In [9]:
sum(df_exam['science']) / len(df_exam)     # 20

59.45

### 엑셀 파일의 첫 번째 행이 변수명이 아니라면?

`read_excel()`은 엑셀 파일의 첫 번째 행을 변수명으로 인식해서 불러오는데, 만약 엑셀 파일의 첫 번째 행에 변수명이 없고 데이터가 입력될 때 어떠할까? 바로 첫 번째 행의 데이터가 변수명으로 지정되면서 데이터가 소실된다.

In [12]:
df_exam_novar = pd.read_excel('excel_exam_noheader.xlsx')
df_exam_novar

Unnamed: 0,1,1.1,50,98,50.1
0,2,1,60,97,60
1,3,1,45,86,78
2,4,1,30,98,58
3,5,2,25,80,65
4,6,2,50,89,98
5,7,2,80,90,45


이렇게 된다면 원본의 데이터와는 달리 6행까지밖에 호출하지 않는다.

이럴 땐 `read_excel()` 함수의 매개변수 중 `header` 부분은 `None`으로 설정하면 첫 번째 행을 변수명이 아닌 데이터로 인식해 불러오고, 변수명은 0부터 시작하는 숫자로 자동 지정된다.

In [15]:
df_exam_novar = pd.read_excel('excel_exam_noheader.xlsx', header=None)
df_exam_novar

Unnamed: 0,0,1,2,3,4
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45


### 엑셀 파일에 시트가 여러 개 있다면?

엑셀 파일에 시트가 여러 개 있을 때 특정 시트의 데이터만 불러오려면 `sheet_name` 파라미터에 시트 이름을 입력하거나 몇 번째 시트를 불러올 지 숫자를 입력하면 된다. 예를 들어 세 번째 시트를 불러오려면 `sheet_name=2`를 입력하면 된다.(0부터 시작)

In [20]:
# Sheet1 시트의 데이터 불러오기
df_exam = pd.read_excel('excel_exam_sheets.xlsx', sheet_name = 'Sheet1')
df_exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [21]:
# 두 번째 시트의 데이터 불러오기
df_exam = pd.read_excel('excel_exam_sheets.xlsx', sheet_name = 1)
df_exam

Unnamed: 0,id,nclass,math,english,science
0,5,1,34,98,23
1,6,1,75,97,76
2,7,1,43,46,95
3,8,1,88,45,34


## CSV 파일 불러오기

CSV 파일은 비단 엑셀뿐 아니라 R, SAS, SPSS 등 데이터를 다루는 대부분의 프로그램에서 읽고 쓸 수 있는 범용 데이터 파일이다. 확장자명에서도 알 수 있듯이 CSV(Comma-Seperated-Values) 파일은 값이 쉼표로 구분된 형태이다. 다양한 프로그램에서 지원하고 엑셀 파일보다 용량이 작아서 데이터를 주고받을 때는 CSV 파일을 자주 이용한다.

### 1. 워킹 디렉터리에 CSV 파일 삽입하기 (옵션)

### 2. CSV 파일 불러오기

`pandas`의 `read_csv()`를 이용하면 CSV 파일을 불러올 수 있다.

In [23]:
df_csv_exam = pd.read_csv('exam.csv')
df_csv_exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


## 데이터 프레임을 CSV 파일로 저장하기

데이터 프레임을 CSV 파일로 저장하면 파이썬 외에도 데이터를 다루는 대다수의 프로그램에서 불러올 수 있다. 데이터 프레임을 CSV 파일로 저장해보자

### 1. 데이터 프레임 만들기

먼저 CSV 파일로 저장할 데이터 프레임을 만든다.

In [24]:
df_midterm = pd.DataFrame({'english' : [90, 80, 60, 70],
                           'math'    : [50, 60, 100, 20],
                           'nclass'  : [1, 1, 2, 2]})
df_midterm

Unnamed: 0,english,math,nclass
0,90,50,1
1,80,60,1
2,60,100,2
3,70,20,2


### 2. CSV 파일로 저장하기

데이터 프레임 이름 뒤에 점을 찍고 `to_csv()`를 입력한 다음 괄호 안에 파일명을 입력한다. 저장한 파일은 워킹 디렉터리에 만들어진다.

In [25]:
df_midterm.to_csv("output_newdata.csv")

`output_newdata.csv`를 엑셀에서 열어보면 첫 번째 열에 인덱스 번호가 들어있다. 인덱스 번호를 제외하고 저장하려면 `to_csv()`에 `index=False`를 입력하면 된다.

In [26]:
df_midterm.to_csv("output_newdata_noIndex.csv", index=False)