# DataFrame 생성
## 필요한 모듈 참조하기
> http://itpaper.co.kr/demo/python/sample.zip 에서 데이터셋 압축파일 다운로드

### ExcelFile 클래스가 의존하는 모듈 설치
> pip install openpyxl<br/>
> pip install xlrd

In [1]:
from pandas import DataFrame    # 데이터프레임 클래스
from pandas import read_csv     # csv파일을 읽어들이기 위한 함수
from pandas import ExcelFile    # Excel 파일을 읽어들이기 위한 클래스
from sample import grade_list   # 리스트 형태의 샘플 데이터
from sample import grade_dic    # 딕셔너리 형태의 샘플 데이터

In [51]:
grade_list # 2차원 리스트

[[98, None, 88, 64],
 [88, 90, 62, 72],
 [92, 70, None, None],
 [63, 60, 31, 70],
 [120, 50, None, 88]]

In [52]:
grade_dic # 리스트를 원소로 갖는 딕셔너리

{'국어': [98, 88, 92, 63, 120],
 '영어': [None, 90, 70, 60, 50],
 '수학': [88, 62, None, 31, None],
 '과학': [64, 72, None, 70, 88]}

-----------------------------
## #01. 데이터프레임 만들기
### 2차원 리스트를 통한 생성
행과 열을 갖는 형태로 생성됨

In [54]:
df = DataFrame(grade_list)
df

Unnamed: 0,0,1,2,3
0,98,,88.0,64.0
1,88,90.0,62.0,72.0
2,92,70.0,,
3,63,60.0,31.0,70.0
4,120,50.0,,88.0


In [55]:
# 컬럼(열)이름을 지정하여 새로 생성 -> 컬럼의 이름을 갖고 있는 리스트를 지정한다
c_names = ['국어','영어','수학','과학']
df = DataFrame(grade_list, columns = c_names)
df

Unnamed: 0,국어,영어,수학,과학
0,98,,88.0,64.0
1,88,90.0,62.0,72.0
2,92,70.0,,
3,63,60.0,31.0,70.0
4,120,50.0,,88.0


In [56]:
# 인덱스(행)이름을 지정하여 새로 생성 -> 인덱스의 이름을 갖고 있는 리스트를 지정한다
i_names = ['철수','영희','민철','수현','호영']
df = DataFrame(grade_list, index=i_names)
df

Unnamed: 0,0,1,2,3
철수,98,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


In [58]:
# 인덱스와 컬럼이름 모두 지정하기
df = DataFrame(grade_list, index=i_names, columns=c_names)
df

Unnamed: 0,국어,영어,수학,과학
철수,98,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


### 딕셔너리를 통한 데이터 프레임 생성
딕셔너리의 Key값이 데이터프레임의 컬럼이름이 된다. 리스트보다 딕셔너리가 간편함

열 -> Column,변수

행 -> index,row

In [60]:
df = DataFrame(grade_dic)
df

Unnamed: 0,국어,영어,수학,과학
0,98,,88.0,64.0
1,88,90.0,62.0,72.0
2,92,70.0,,
3,63,60.0,31.0,70.0
4,120,50.0,,88.0


In [61]:
# 인덱스 이름을 지정한 데이터프레임 만들기
df = DataFrame(grade_dic, index=['철수','영희','민철','수현','호영'])
df

Unnamed: 0,국어,영어,수학,과학
철수,98,,88.0,64.0
영희,88,90.0,62.0,72.0
민철,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


-----------------------------------
## #02. 외부 파일 읽어오기
### csv파일 읽기

In [68]:
df = read_csv('http://itpaper.co.kr/demo/python/grade.csv', encoding='euc-kr')
df

Unnamed: 0,이름,국어,영어,수학,과학
0,학생1,98.0,,88.0,64.0
1,학생2,88.0,90.0,62.0,72.0
2,학생3,92.0,70.0,,
3,학생4,63.0,60.0,31.0,70.0
4,학생5,100.0,50.0,,88.0
...,...,...,...,...,...
9995,학생9996,63.0,60.0,55.0,70.0
9996,학생9997,21.0,50.0,55.0,88.0
9997,학생9998,98.0,90.0,88.0,64.0
9998,학생9999,88.0,90.0,62.0,72.0


### 엑셀파일 읽기

In [69]:
# 엑셀파일을 객체 형태로 가져온다
xls = ExcelFile('http://itpaper.co.kr/demo/python/children_house.xlsx')

In [70]:
# 엑셀파일의 sheet 이름에 대한 리스트
xls.sheet_names

['데이터', '메타정보']

In [72]:
# 가져오고자 하는 sheet 이름을 지정하여 데이터프레임으로 변환
df = xls.parse(xls.sheet_names[0])
df

Unnamed: 0,지역,2014,2015,2016
0,전국(계),43742,42517,41084
1,서울,6787,6598,6368
2,부산,1957,1971,1937
3,대구,1588,1539,1483
4,인천,2308,2278,2231
5,광주,1260,1264,1238
6,대전,1698,1669,1584
7,울산,946,934,895
8,세종,160,216,250
9,경기,13259,12689,12120
