In [1]:
import numpy as np
import pandas as pd

### DataFrame
- 2차원 행렬 데이터를 행렬 형태가 아닌 테이블 형태로 관리할 수 있도록 제공되는 요소
- 데이터프레임의 컬럼 하나는 하나의 Series로 구성됨
- 다수의 Series들을 모아 하나의 데이터프레임을 구성함
- 데이터프레임의 각 Series는 서로 독립적이며 독립변수라고 부르기로 함
- 데이터프레임은 데이터의 특성만큼의 Series로 구성됨

### 데이터프레임 생성
- 2차원 리스트
- 리스트를 가지고 있는 딕셔너리
- 딕셔너리를 가지고 있는 리스트
- 외부파일(csv, 엑셀등등)
- 웹 문서의 table tag
- 데이터베이스
- spss등 각종 통계 소프트웨어의 산출물
- 기타 등등

In [2]:
# 2차원 리스트
# 각 리스트에서 위치가 같은 값들을 모아 Series(컬럼)로 구성해 줌
# 값이 부족한 부분은 결측치로 채워짐
# 각 리스트 중에서 값의 개수가 가장 많은 것의 만큼 Series(컬럼)가 생성됨

list1 = [
    [1, '남자', 90, 80, 70],
    [2, '여자', 91, 81, 71],
    [3, '남자', 92, 82, 72],
    [4, '여자', 93, 83, 73],
    [5, '남자', 94, 84],
    [6, '여자', 95, 85, 75, 65],
]

df1 = pd.DataFrame(list1)

In [3]:
print(df1)

   0   1   2   3     4     5
0  1  남자  90  80  70.0   NaN
1  2  여자  91  81  71.0   NaN
2  3  남자  92  82  72.0   NaN
3  4  여자  93  83  73.0   NaN
4  5  남자  94  84   NaN   NaN
5  6  여자  95  85  75.0  65.0


In [4]:
df1

Unnamed: 0,0,1,2,3,4,5
0,1,남자,90,80,70.0,
1,2,여자,91,81,71.0,
2,3,남자,92,82,72.0,
3,4,여자,93,83,73.0,
4,5,남자,94,84,,
5,6,여자,95,85,75.0,65.0


In [5]:
# 생성된 데이터프레임에 컬럼 이름을 지정함
# 어떠한 방식으로 생성 되었는지는 관계가 없음
# 컬럼의 개수만큼 지정해야 함.
df1.columns = ['번호', '성별', '국어', '영어', '수학', '과학']
df1

Unnamed: 0,번호,성별,국어,영어,수학,과학
0,1,남자,90,80,70.0,
1,2,여자,91,81,71.0,
2,3,남자,92,82,72.0,
3,4,여자,93,83,73.0,
4,5,남자,94,84,,
5,6,여자,95,85,75.0,65.0


In [6]:
# index 지정
# 행의 수만큼 지정해야 함
df1.index = ['학생1', '학생2', '학생3', '학생4', '학생5', '학생6']
df1

Unnamed: 0,번호,성별,국어,영어,수학,과학
학생1,1,남자,90,80,70.0,
학생2,2,여자,91,81,71.0,
학생3,3,남자,92,82,72.0,
학생4,4,여자,93,83,73.0,
학생5,5,남자,94,84,,
학생6,6,여자,95,85,75.0,65.0


In [7]:
# 생성시 컬럼이나 index를 지정할 수 있음.
# 이후로 나오는 모든 생성 과정에서 똑같이 적용할 수 있음
index_list = ['번호', '성별', '국어', '영어', '수학', '과학']
column_list = ['학생1', '학생2', '학생3', '학생4', '학생5', '학생6']
df2 = pd.DataFrame(list1, index=index_list, columns=column_list)
df2

Unnamed: 0,학생1,학생2,학생3,학생4,학생5,학생6
번호,1,남자,90,80,70.0,
성별,2,여자,91,81,71.0,
국어,3,남자,92,82,72.0,
영어,4,여자,93,83,73.0,
수학,5,남자,94,84,,
과학,6,여자,95,85,75.0,65.0


In [8]:
# 리스트를 가지고 있는 딕셔너리
# 리스트 하나가 컬럼 하나로 구성되며, 리스트를 관리하는 딕셔너리의 이름이
# 컬럼 이름으로 적용됨
# 각 리스트의 크기는 모두 동일해야 하며, 다르면 오류가 발생함
data1 = {
    '번호': [1, 2, 3, 4],
    '성별': ['남자', '여자', '남자', '여자'],
    '국어': [90, 91, 92, 93],
    '영어': [80, 81, 82, 83],
    '수학': [70, 71, 72, 73],
    #'과학': [60, 61, 62, 63, 64],
}

df3 = pd.DataFrame(data1)
df3

Unnamed: 0,번호,성별,국어,영어,수학
0,1,남자,90,80,70
1,2,여자,91,81,71
2,3,남자,92,82,72
3,4,여자,93,83,73


In [9]:
# 딕셔너리를 가지고 있는 리스트
# 각 딕셔너리에 이름이 같은 것끼리 모아서 컬럼으로 구성함.
# 부족한 부분에 대해서는 NaN으로 채워짐
list3 = [
    {'번호':1, '이름':'홍길동', '국어':100},
    {'번호':2, '이름':'김길동', '국어':99},
    {'번호':3, '이름':'최길동', '국어':98},
    {'번호':4, '이름':'박길동', '국어':97},
    {'이름':'황길동', '국어':96, '번호':5},
    {'번호':6, '이름':'고길동', '국어':95, '영어':100},
]

df4 = pd.DataFrame(list3)
df4

Unnamed: 0,번호,이름,국어,영어
0,1,홍길동,100,
1,2,김길동,99,
2,3,최길동,98,
3,4,박길동,97,
4,5,황길동,96,
5,6,고길동,95,100.0


In [10]:
# csv 파일
# 콤마(,)로 데이터를 구분한 파일

# csv 파일을 읽어올 때 UnicodeDecodeError가 발생한 경우
# 파이썬에서 사용하는 모든 라이브러리는 문자 인코딩 체계를 기본적으로 UTF-8을 사용한다.
# UTF-8 양식으로 저장된 파일이 아닌 경우 오류가 발생한다.
# 이 때, 인코딩 양식을 정해주면 된다.
# https://docs.python.org/3/library/codecs.html#standard-encodings

# 위의 주소의 문서는 한국어의 경우 euc-kr로 되어 있지만, euc-kr로 넣어줘도 된다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [11]:
# 쉼표가 아닌 다른 문자열로 구분자를 사용한 파일인 경우
df2 = pd.read_csv('data/grade3.csv', encoding='euc-kr', delimiter='|')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [12]:
# 구분자를 탭(혹은 공백)으로 사용한 경우
# df3 = pd.read_csv('data/grade2.csv', encoding='euc-kr', delimiter='\t')

# delim_whitespace: True를 넣어주면 공백을 구분자로 사용함
df3 = pd.read_csv('data/grade2.csv', encoding='euc-kr', delim_whitespace=True)
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,88,64.0,
1,영희,2,여자,88,90,62.0,72.0
2,민수,1,남자,92,70,,
3,수현,3,여자,63,60,31.0,70.0
4,호영,4,남자,120,50,88.0,


In [13]:
# 파일로부터 데이터를 읽어올 때는 첫 줄의 데이터를 컬럼 이름으로 시용함.
# 만약 첫줄부터 데이터라고 한다면 header에 None을 넣어줌
df4 = pd.read_csv('data/grade.csv', encoding='euc-kr', header=None)
df4

Unnamed: 0,0,1,2,3,4,5,6
0,이름,학년,성별,국어,영어,수학,과학
1,철수,1,남자,98,,88,64
2,영희,2,여자,88,90,62,72
3,민수,1,남자,92,70,,
4,수현,3,여자,63,60,31,70
5,호영,4,남자,120,50,,88


In [14]:
# 사용하고자 하는 파일에서 컬럼 이름으로 사용할 행을 지정할 수 있음
# 생략시 0
# 지정한 행 위의 데이터는 모두 포함하지 않음
df5 = pd.read_csv('data/grade.csv', encoding='euc-kr', header=3)
df5

Unnamed: 0,민수,1,남자,92,70,Unnamed: 5,Unnamed: 6
0,수현,3,여자,63,60,31.0,70
1,호영,4,남자,120,50,,88


In [15]:
# 엑셀에서 데이터를 읽어와 데이터프레임을 생성함
# 첫번째 sheet를 사용함.
df1 = pd.read_excel('data/grade.xlsx')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [16]:
# sheet_name : 데이터프레임으로 생성할 sheet를 지정함.
# 숫자 하나 : sheet의 순서, 0부터 1씩 증가

df2 = pd.read_excel('data/grade.xlsx', sheet_name=0)
df3 = pd.read_excel('data/grade.xlsx', sheet_name=1)

display(df2)
display(df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [17]:
# 문자열 하나: sheet의 이름
df4 = pd.read_excel('data/grade.xlsx', sheet_name='grade')
df5 = pd.read_excel('data/grade.xlsx', sheet_name='grade2')

display(df4)
display(df5)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [18]:
# 리스트: 리스트를 통해 지정한 sheet를 모두 데이터프레임으로 만들어 줌
# sheet 하나당 하나의 데이터프레임이 생성되고, 생성된 데이터프레임들은 딕셔너리에 담겨져서 반환됨
# 숫자 : sheet의 순서
df6 = pd.read_excel('data/grade.xlsx', sheet_name=[0, 1])
df7 = pd.read_excel('data/grade.xlsx', sheet_name=['grade', 'grade2'])

display(df6)
display(df7)

{0:    이름  학년  성별   국어    영어    수학    과학
 0  철수   1  남자   98   NaN  88.0  64.0
 1  영희   2  여자   88  90.0  62.0  72.0
 2  민수   1  남자   92  70.0   NaN   NaN
 3  수현   3  여자   63  60.0  31.0  70.0
 4  호영   4  남자  120  50.0   NaN  88.0,
 1:     이름  학년  성별   국어    영어    수학    과학
 0  홍길동   1  남자   98   NaN  88.0  64.0
 1   영희   2  여자   88  90.0  62.0  72.0
 2   민수   1  남자   92  70.0   NaN   NaN
 3   수현   3  여자   63  60.0  31.0  70.0
 4   호영   4  남자  120  50.0   NaN  88.0}

{'grade':    이름  학년  성별   국어    영어    수학    과학
 0  철수   1  남자   98   NaN  88.0  64.0
 1  영희   2  여자   88  90.0  62.0  72.0
 2  민수   1  남자   92  70.0   NaN   NaN
 3  수현   3  여자   63  60.0  31.0  70.0
 4  호영   4  남자  120  50.0   NaN  88.0,
 'grade2':     이름  학년  성별   국어    영어    수학    과학
 0  홍길동   1  남자   98   NaN  88.0  64.0
 1   영희   2  여자   88  90.0  62.0  72.0
 2   민수   1  남자   92  70.0   NaN   NaN
 3   수현   3  여자   63  60.0  31.0  70.0
 4   호영   4  남자  120  50.0   NaN  88.0}

In [19]:
display(df6[0])

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [20]:
display(df6[1])

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [21]:
display(df7['grade'])

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [22]:
display(df7['grade2'])

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0
