# 2-2 DataFrame
엑셀의 표 형태로 구성된 데이터 분석의 가장 기본적 자료구조 (열과 행으로 구성)
- 열 : column / 변수
- 행 : row / 인덱스

※ DataFrame에서 빈 값 : None => 조사 과정에서 측정되지 않은 상태 = 빈값 = 결측치

## 필수 패키지 참조하기

In [1]:
from pandas import DataFrame

## 2차원 리스트를 통한 DataFrame 생성하기

In [2]:
source = [
    [1, '남자', 98, 88, 64],
    [2, '여자', 88, 90, 62, 72],
    [1, '남자', 92, 70, None, None],
    [3, '여자', 63, 60, 31, 70],
    [4, '남자', 120, 50, None, 88]
]

df = DataFrame(source)
df

Unnamed: 0,0,1,2,3,4,5
0,1,남자,98,88,64.0,
1,2,여자,88,90,62.0,72.0
2,1,남자,92,70,,
3,3,여자,63,60,31.0,70.0
4,4,남자,120,50,,88.0


## 인덱스와 컬럼이름을 지정한 데이터 프레임 생성

In [3]:
df = DataFrame(source,
              index = ['점수', '영희', '민수', '수현', '호영'],
              columns = ['학년', '성별', '국어', '영어', '수학', '과학'])
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
점수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


## 리스트를 원소로 갖는 딕셔너리를 사용한 DataFrame

In [6]:
source = {
    '학년' : [1,2,1,3,4],
    '성별' : ['남자', '여자', '남자', '여자', '남자'],
    '국어' : [98, 88, 92, 63, 120],
    '영어' : [88, 90, 70, 60, 50],
    '수학' : [64, 62, None, 31, None],
    '과학' : [None, 72, None, 70, 88],
}
df = DataFrame(source, index=['점수', '영희', '민수', '수현', '호영'])
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
점수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


## 동일한 구조를 갖는 딕셔너리들을 원소로 갖는 리스트를 사용한 DataFrame

In [7]:
source = [
    {'학년':1, '성별':'남자', '국어':98, '영어':88, '수학':64, '과학':None},
    {'학년':2, '성별':'여자', '국어':88, '영어':90, '수학':62, '과학':72},
    {'학년':1, '성별':'남자', '국어':92, '영어':70, '수학':None, '과학':None},
    {'학년':3, '성별':'여자', '국어':63, '영어':60, '수학':31, '과학':70},
    {'학년':4, '성별':'남자', '국어':120, '영어':50, '수학':None, '과학':88}
]

df = DataFrame(source, index=['철수', '영희', '민수', '수현', '호영'])
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,88,64.0,
영희,2,여자,88,90,62.0,72.0
민수,1,남자,92,70,,
수현,3,여자,63,60,31.0,70.0
호영,4,남자,120,50,,88.0


## CSV 파일을 읽기위한 read_csv() 함수 import

In [8]:
from pandas import read_csv    #csv 파일을 읽어들이기 위한 함수

## CSV 파일을 데이터프레임으로 가져오기

In [9]:
df = read_csv('http://itpaper.co.kr/demo/py/grade.csv', encoding='euc-kr')
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## `이름` 컬럼을 인덱스로 지정하기

In [10]:
df2 = df.set_index('이름')
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


## Excel 파일을 DataFrame으로 가져오기
pandas 패키지의 `read_excel()` 함수를 사용하여 엑셀 파일을 데이터 프레임으로 가져올 수 있다.

`read_excel()` 함수는 내부적으로 openpyxl 패키지와 xlrd 패키지에 의존하기 때문에 두 패키지 모두 설치 필요 (pip install --upgrade)

jupyter에서 설치 가능하지만 각 1줄씩 수행해야 한다.

## read_excel() 함수 import

In [11]:
from pandas import read_excel

## Excel 파일을 데이터프레임으로 가져오기

In [12]:
df = read_excel('http://itpaper.co.kr/demo/py/grade.xlsx')
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## `이름` 컬럼을 인덱스로 지정하기

In [13]:
df2 = df.set_index('이름')
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
