# 데이터를 분석할 때는 직접 데이터를 입력하기 보다 외부에서 생성된 데이터를 불러와 분석하는 경우가 더 많다. 데이터를 관리할 때 장 많이 사용하는 엑셀 파일과 CSV 파일을 불러와 데이터 프레임을 만드는 방법과 데이터 프레임을 파일로 저장하는 방법을 알아보자.

# csv 파일 불러오기

pandas의 read_excel()을 이용해 엑셀 파일을 불러온다. read_excel()은 엑셀 파일을 데이터 프레임을 만드는 기능을 한다. 괄호 안에 불러올 엑셀 파일명을 입력하면 된다. 파일명을 입력할 때 확장자(.xlsx)까지 입력하고, 파일명 앞뒤에 따옴표(')를 붙여야 한다. 파일명을 입력할 때 항상 앞뒤에 땅모표를 넣어야 하니 주의해야 한다. 불러들인 데이터를 추력하면 엑셀에서 봤던 것과 같은 내용을 확인할 수 있다.

In [1]:
import pandas as pd

In [2]:
df_exam = pd.read_excel('excel_exam.xlsx') # 엑셀 파일을 불러와 df_exam에 할당
df_exam # 출력

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [3]:
df_exam = pd.read_excel('C:/Users/samue/excel_exam.xlsx')

분석하기

sum()으로 점수 합계를 구한 다음에 학생 수를 직접입력해서 나누기

In [4]:
sum(df_exam['english'])/ 20

84.9

In [5]:
sum(df_exam['science'])/20

59.45

In [6]:
#len()은 값의 개수를 구하는 기능을 한다.
#변수의 값 개수 구하기
x = [1,2,3,4,5]
x

[1, 2, 3, 4, 5]

In [7]:
len(x)

5

In [8]:
# 데이터 프레임의 행 개수 구하기
df = pd.DataFrame({'a':[1,2,3],
                   'b':[4,5,6]})
df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


len()을 활요한 평균 점수 구하기, 학생 수를 입력하는 대신 len(df_exam)을 입력하기

In [9]:
len(df_exam) # df_exam의 행 개수 구하기

20

In [10]:
sum(df_exam['english'])/len(df_exam) # english 합계를 행 개수로 나누기

84.9

In [11]:
sum(df_exam['science'])/len(df_exam) # science 합계를 행 개수로 나누기

59.45

# 엑셀 파일의 첫 번째 행이 변수명이 아니라면?

만약에, 엑셀 파일의 첫 번째 행에 변숨여이 없고바로 데이터가 입력되어 있으면, 첫번째 행의 데이터가 변수명으로 지정되면서 데이터가 유실되는 문제가 발생한다.

In [12]:
df_exam_novar = pd.read_excel('excel_exam_novar.xlsx')
df_exam_novar

Unnamed: 0,1,1.1,50,98,50.1
0,2,1,60,97,60
1,3,2,25,80,65
2,4,2,50,89,98
3,5,3,20,98,15
4,6,3,50,98,45
5,7,4,46,98,65
6,8,4,48,87,12


In [13]:
df_exam_novar = pd.read_excel('excel_exam_novar.xlsx', header = None)
df_exam_novar

Unnamed: 0,0,1,2,3,4
0,1,1,50,98,50
1,2,1,60,97,60
2,3,2,25,80,65
3,4,2,50,89,98
4,5,3,20,98,15
5,6,3,50,98,45
6,7,4,46,98,65
7,8,4,48,87,12


# 엑셀 파일에 시트가 여러 개 있다면?

특정 시트의 데이터만 불러오려면 sheet_name 파라미터에 시트 이름을 입력하거나 몇 번째 시트를 불러올지 숫자를 입력하면 된다. 예를 들면 세 번째 시트를 불러오려면 sheet_name = 2를 입력하면 된다. 파이썬에서는 숫자를 0부터 샌다는 점에 유의해야 한다.

In [16]:
# sheet2 시트의 데이터 불러오기
df_exam = pd.read_excel('excel_exam.xlsx', sheet_name = "Sheet2")
                        
# 3번째 시트의 데이터 불러오기
df_exam = pd.read_excel('excel_exam.xlsx', sheet_name = 2)

1. 워킹 디렉터리에 CSV 파일 삽입하기
exam.csv 파일을 다운로드 하기

pandas의 read_csv()를 이용하면 CSV 파일을 불러올 수 있다.

In [18]:
df_csv_exam = pd.read_csv('csv_exam.csv')
df_csv_exam

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


1. 데이터 프레임 만들기
먼저 CSV 파일로 저장할 데이터 프레임을 만든다.

In [19]:
df_midterm = pd.DataFrame({'english' : [90,80,60,70],
                           'math' : [50,60,100,20],
                           'nclass' : [1,1,2,2]})
df_midterm

Unnamed: 0,english,math,nclass
0,90,50,1
1,80,60,1
2,60,100,2
3,70,20,2


2. CSV 파일로 저장하기

데이터 프레임 이름 뒤에 점을 찍고 to_csv()를 입력한 다음 괄호 안에 파일명을 입력한다. 저장한 파일은 워킹 디렉터리에 만들어진다. 

In [21]:
df_midterm.to_csv('output_newdata.csv')

output_newdata.csv를 엑셀에서 열어보면 첫 번째 열에 인덱스 번호가 들어 있는데, 인덱스 번호를 제외하고 저장하려면 to_csv()에 index = False를 입력하면 된다.

In [22]:
df_midterm.to_csv('output_newdata.csv', index= False)