#### 데이터 프레임

pandas에서 데이터(테이블 형태 - DB, 엑셀, csv 등)를 처리하는 가장 기본이 되는 자료구조

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D" width="500">

##### 데이터 프레임 생성
pd.DataFrame(...)

In [34]:
import pandas as pd
import numpy as np

In [35]:
datas = {
    '이름' : ['길동이', '길순이', '유고', '애슐리'],
    '국어' : [80, 100, 10, 90],
    '영어' : [50, 100, 99, 100],
    '수학' : [90, 100, 10, 50],
    '미술' : [100, 100, 99, 30]
}

df1 = pd.DataFrame(data=datas)
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,길동이,80,50,90,100
1,길순이,100,100,100,100
2,유고,10,99,10,99
3,애슐리,90,100,50,30


#### 특정 컬럼 사용

In [36]:
# 특정 컬럼만으로 데이터프레임을 생성
df2 = pd.DataFrame(datas, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,길동이,50
1,길순이,100
2,유고,99
3,애슐리,100


In [37]:
# 데이터가 없는 컬럼은 그 값들을 결측치(NaN)로 생성
df3 = pd.DataFrame(datas, columns=['이름', '음악'])
df3

Unnamed: 0,이름,음악
0,길동이,
1,길순이,
2,유고,
3,애슐리,


In [38]:
[x for x in range(1, len(datas))]

[1, 2, 3, 4]

In [39]:
df4 = pd.DataFrame(data=datas, index=[x for x in range(1, len(datas))])
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99
4,애슐리,90,100,50,30


#### 데이터 프레임 내의 데이터 조회

In [40]:
df4['이름']

1    길동이
2    길순이
3     유고
4    애슐리
Name: 이름, dtype: object

In [41]:
# 단일 컬럼 : Series
type(df4['이름'])

pandas.core.series.Series

In [42]:
df4[['이름', '국어']]

Unnamed: 0,이름,국어
1,길동이,80
2,길순이,100
3,유고,10
4,애슐리,90


In [43]:
# 다중 컬럼 : DataFrame
type(df4[['이름', '국어']])

pandas.core.frame.DataFrame

In [44]:
# 데이터를 가로로 조회
df4.loc[1] # 인덱스 1번 조회

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [45]:
# loc로 조회 : Series
type(df4.loc[1])

pandas.core.series.Series

In [46]:
# 다중 인덱스
df4.loc[[1, 3]] # 인덱스 1번, 3번 조회

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
3,유고,10,99,10,99


In [47]:
# 시스템 기본 인덱스값으로 인덱싱
df4.iloc[0]

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [48]:
# loc(), iloc() 차이
df5 = pd.DataFrame(data=datas, index=['A', 'B', 'C', 'D'])
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [49]:
df5.loc['A']

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: A, dtype: object

In [50]:
df5.iloc[0]

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: A, dtype: object

In [51]:
# 인덱스 슬라이싱 == 리스트 슬라이싱
df4[0:3]

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


#### 특정 데이터 상세 조회

In [52]:
df5.loc['A', ['미술']]

미술    100
Name: A, dtype: object

In [53]:
df4.iloc[1, [3]]

수학    100
Name: 2, dtype: object

In [54]:
type(df4.iloc[1, 3])

numpy.int64

In [55]:
# df4.iloc[1, 3] => numpy.int64
type(int(df4.iloc[1, 3]))

int

#### 조건식 조회

In [56]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [57]:
df5['미술'] > 99

A     True
B     True
C    False
D    False
Name: 미술, dtype: bool

In [58]:
df5[df5['미술'] > 99]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100


In [59]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [60]:
# and 조건 => &
df5[(df5['국어'] >= 80) & (df5['수학'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100


In [61]:
# or 조건 => |
df5[(df5['국어'] >= 80) | (df5['수학'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100
D,애슐리,90,100,50,30


In [64]:
# isin
df5[df5['영어'].isin([50, 99])]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
C,유고,10,99,10,99


In [65]:
df5[(df5['영어'].isin([50, 99])) & (df5['수학'] == 10)]

Unnamed: 0,이름,국어,영어,수학,미술
C,유고,10,99,10,99


#### 데이터 프레임 - 데이터 추가/변경/삭제

In [66]:
# 데이터 추가
df5['음악'] = [0, 100, 30, 10]
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
A,길동이,80,50,90,100,0
B,길순이,100,100,100,100,100
C,유고,10,99,10,99,30
D,애슐리,90,100,50,30,10


In [67]:
df5['음악 + 10'] = df5['음악'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,음악 + 10
A,길동이,80,50,90,100,0,10
B,길순이,100,100,100,100,100,110
C,유고,10,99,10,99,30,40
D,애슐리,90,100,50,30,10,20


In [68]:
# 데이터 변경
df5['음악'] = df5['음악'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,음악 + 10
A,길동이,80,50,90,100,10,10
B,길순이,100,100,100,100,110,110
C,유고,10,99,10,99,40,40
D,애슐리,90,100,50,30,20,20


In [69]:
df5.loc[df5['음악'] > 100, ['음악']] = 100
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,음악 + 10
A,길동이,80,50,90,100,10,10
B,길순이,100,100,100,100,100,110
C,유고,10,99,10,99,40,40
D,애슐리,90,100,50,30,20,20


In [71]:
# 특정 위치 값만 변경
df5.at['A', '음악'] = 20
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,음악 + 10
A,길동이,80,50,90,100,20,10
B,길순이,100,100,100,100,100,110
C,유고,10,99,10,99,40,40
D,애슐리,90,100,50,30,20,20


In [72]:
# 데이터 삭제
del df5['음악 + 10']
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
A,길동이,80,50,90,100,20
B,길순이,100,100,100,100,100
C,유고,10,99,10,99,40
D,애슐리,90,100,50,30,20


In [73]:
# drop => axis=0(row) / axis=1(column)
df5.drop(['미술'], axis=1)

Unnamed: 0,이름,국어,영어,수학,음악
A,길동이,80,50,90,20
B,길순이,100,100,100,100
C,유고,10,99,10,40
D,애슐리,90,100,50,20


In [75]:
df5.drop('A', axis=0)

Unnamed: 0,이름,국어,영어,수학,미술,음악
B,길순이,100,100,100,100,100
C,유고,10,99,10,99,40
D,애슐리,90,100,50,30,20


In [76]:
# 실제로 지움 == del
df5.drop('C', axis=0, inplace=True)

In [77]:
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
A,길동이,80,50,90,100,20
B,길순이,100,100,100,100,100
D,애슐리,90,100,50,30,20


##### 나머지 속성값

In [78]:
df5.index

Index(['A', 'B', 'D'], dtype='object')

In [79]:
df5.columns

Index(['이름', '국어', '영어', '수학', '미술', '음악'], dtype='object')

In [80]:
df5.values

array([['길동이', 80, 50, 90, 100, 20],
       ['길순이', 100, 100, 100, 100, 100],
       ['애슐리', 90, 100, 50, 30, 20]], dtype=object)

In [81]:
df5.shape

(3, 6)

In [82]:
df5.size

18

In [84]:
df5.dtypes

이름    object
국어     int64
영어     int64
수학     int64
미술     int64
음악     int64
dtype: object

In [85]:
# 행열 전환 transpose
df5.T

Unnamed: 0,A,B,D
이름,길동이,길순이,애슐리
국어,80,100,90
영어,50,100,100
수학,90,100,50
미술,100,100,30
음악,20,100,20
