#### 데이터프레임

판다스에서 데이터(테이블 형태 - DB, 엑셀, csv)를 처리하는 가장 기본이 되는 자료구조

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D" width="500">

##### 데이터프레임 생성
```python
pd.DataFrame(...)
```

In [1]:
# 판다스, 넘파이 import
import pandas as pd
import numpy as np

In [2]:
datas = {
    '이름': ['길동이', '길순이', '유고',  '애슐리'],
    '국어': [80, 100, 10, 90],
    '영어': [50, 100, 99, 100],
    '수학': [90, 100, 10, 50],
    '미술': [100, 100, 99, 30]
} # 기본데이터, 실제로는 excel, csv, db, openAPI에서 받아와서 처리

df1 = pd.DataFrame(datas)
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,길동이,80,50,90,100
1,길순이,100,100,100,100
2,유고,10,99,10,99
3,애슐리,90,100,50,30


##### 특정컬럼 사용

In [3]:
# 특정컬럼 만으로 데이터프레임을 생성
df2 = pd.DataFrame(datas, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,길동이,50
1,길순이,100
2,유고,99
3,애슐리,100


In [4]:
# 컬럼정보 없으면 NaN으로 생성
df3 = pd.DataFrame(datas, columns=['이름', '음악'])
df3

Unnamed: 0,이름,음악
0,길동이,
1,길순이,
2,유고,
3,애슐리,


In [5]:
# 인덱스번호 추가
df4 = pd.DataFrame(data=datas, index=[x for x in range(1, len(datas))])
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99
4,애슐리,90,100,50,30


##### 데이터프레임 내의 데이터 조회

In [6]:
df3['이름']

0    길동이
1    길순이
2     유고
3    애슐리
Name: 이름, dtype: object

In [7]:
df4['이름']

1    길동이
2    길순이
3     유고
4    애슐리
Name: 이름, dtype: object

In [8]:
df4['국어']

1     80
2    100
3     10
4     90
Name: 국어, dtype: int64

In [9]:
type(df4['이름'])

pandas.core.series.Series

In [10]:
df4[['이름', '국어']]

Unnamed: 0,이름,국어
1,길동이,80
2,길순이,100
3,유고,10
4,애슐리,90


In [11]:
type(df4[['이름', '국어']])

pandas.core.frame.DataFrame

In [12]:
# 레코드(row)형태 데이터 가지고온 것 (df4['국어']와 정반대)
df4.loc[1]

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [13]:
type(df4.loc[1])

pandas.core.series.Series

In [14]:
# 다중인덱스
df4.loc[[1, 2, 3]]

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


In [15]:
# 시스템 기본 인덱스값 으로 인덱싱
df4.iloc[0]

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [16]:
## loc(), iloc() 차이를 보려면
df5 = pd.DataFrame(data=datas, index=['A', 'B', 'C', 'D'])
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [17]:
df5.loc['A'] # 이렇게 우리가 추가한 인덱스로 찾아도 되고

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: A, dtype: object

In [18]:
df5.iloc[0] # 시스템에 기본 데이터프레임 인덱스로 찾아도 됨

이름    길동이
국어     80
영어     50
수학     90
미술    100
Name: A, dtype: object

In [19]:
df4.loc[[1,2,3]] # 내가 만든 인덱스로 loc

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


In [20]:
df4.iloc[[0,1,2]] # 시스템 인덱스 iloc

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


In [21]:
# 한글 전자/반자 시스템 이해
# 데이터프레임　슬라이싱
df4[0:3] # 인덱스 슬라이싱 == 리스트 슬라이싱

Unnamed: 0,이름,국어,영어,수학,미술
1,길동이,80,50,90,100
2,길순이,100,100,100,100
3,유고,10,99,10,99


##### 특정데이터 상세 조회

In [22]:
df5.loc['A', ['미술']]

미술    100
Name: A, dtype: object

In [23]:
# 최종 시리즈 확인
df4.iloc[1, [3]]

수학    100
Name: 2, dtype: object

In [24]:
# 최종 데이터만 확인
df4.iloc[1, 3]

100

In [25]:
# df4.iloc[1, 3] => numpy.int64 != int
type(int(df4.iloc[1, 3]))

int

##### 조건식 조회

In [26]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100
C,유고,10,99,10,99
D,애슐리,90,100,50,30


In [27]:
# 미술점수가 99점 초과한 학생
df5['미술'] > 99

A     True
B     True
C    False
D    False
Name: 미술, dtype: bool

In [28]:
# 미술점수가 99점 초과한 데이터프레임
df5[df5['미술'] > 99]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100


In [29]:
df5[df5['국어'] < 50]

Unnamed: 0,이름,국어,영어,수학,미술
C,유고,10,99,10,99


##### 조건식 계속

In [30]:
# and 조건
df5[(df5['국어'] >= 80) & (df5['수학'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
B,길순이,100,100,100,100


In [31]:
# or 조건
df5[(df5['영어'] <= 50) | (df5['국어'] <= 10)]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
C,유고,10,99,10,99


In [32]:
(df5['영어'] <= 50)

A     True
B    False
C    False
D    False
Name: 영어, dtype: bool

In [33]:
# isin
df5[df5['영어'].isin([50, 99])]

Unnamed: 0,이름,국어,영어,수학,미술
A,길동이,80,50,90,100
C,유고,10,99,10,99


In [34]:
df5[(df5['영어'].isin([50, 99])) & (df5['수학'] == 10)]

Unnamed: 0,이름,국어,영어,수학,미술
C,유고,10,99,10,99


##### 데이터프레임 데이터 추가/변경/삭제

In [35]:
# 데이터 추가
df5['음악'] = [0, 100, 30, 10]
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
A,길동이,80,50,90,100,0
B,길순이,100,100,100,100,100
C,유고,10,99,10,99,30
D,애슐리,90,100,50,30,10


In [36]:
# 값변경하여 추가
df5['음악 + 10'] = df5['음악'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,음악 + 10
A,길동이,80,50,90,100,0,10
B,길순이,100,100,100,100,100,110
C,유고,10,99,10,99,30,40
D,애슐리,90,100,50,30,10,20


In [37]:
# 기존점수 변경
df5['음악'] = df5['음악'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,음악 + 10
A,길동이,80,50,90,100,10,10
B,길순이,100,100,100,100,110,110
C,유고,10,99,10,99,40,40
D,애슐리,90,100,50,30,20,20


In [38]:
# 값변경
df5.loc[df5['음악'] > 100, ['음악']] = 100
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,음악 + 10
A,길동이,80,50,90,100,10,10
B,길순이,100,100,100,100,100,110
C,유고,10,99,10,99,40,40
D,애슐리,90,100,50,30,20,20


In [39]:
# 특정위치 값만 변경
df5.at['A', '음악'] = 20
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,음악 + 10
A,길동이,80,50,90,100,20,10
B,길순이,100,100,100,100,100,110
C,유고,10,99,10,99,40,40
D,애슐리,90,100,50,30,20,20


In [40]:
# 삭제 - 음악 + 10 
del df5['음악 + 10']
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
A,길동이,80,50,90,100,20
B,길순이,100,100,100,100,100
C,유고,10,99,10,99,40
D,애슐리,90,100,50,30,20


In [41]:
# drop, axis=0(values) axis=1(column)
df5.drop(['미술'], axis=1)

Unnamed: 0,이름,국어,영어,수학,음악
A,길동이,80,50,90,20
B,길순이,100,100,100,100
C,유고,10,99,10,40
D,애슐리,90,100,50,20


In [42]:
# 1row(values) 드랍
df5.drop('A', axis=0)

Unnamed: 0,이름,국어,영어,수학,미술,음악
B,길순이,100,100,100,100,100
C,유고,10,99,10,99,40
D,애슐리,90,100,50,30,20


In [43]:
# 실제로 지움 == del
df5.drop('C', axis=0, inplace=True)

In [44]:
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
A,길동이,80,50,90,100,20
B,길순이,100,100,100,100,100
D,애슐리,90,100,50,30,20


##### 나머지 속성값

In [45]:
df5.index

Index(['A', 'B', 'D'], dtype='object')

In [46]:
df5.columns

Index(['이름', '국어', '영어', '수학', '미술', '음악'], dtype='object')

In [47]:
df5.values

array([['길동이', 80, 50, 90, 100, 20],
       ['길순이', 100, 100, 100, 100, 100],
       ['애슐리', 90, 100, 50, 30, 20]], dtype=object)

In [48]:
df5.shape # 중요!!

(3, 6)

In [49]:
df5.size

18

In [50]:
df5.dtypes

이름    object
국어     int64
영어     int64
수학     int64
미술     int64
음악     int64
dtype: object

In [51]:
# 행열을 변경 transpose, Pivot(!) 알고 있으면 좋아요~!!
df5.T

Unnamed: 0,A,B,D
이름,길동이,길순이,애슐리
국어,80,100,90
영어,50,100,100
수학,90,100,50
미술,100,100,30
음악,20,100,20


In [54]:
df5.style.background_gradient()

Unnamed: 0,이름,국어,영어,수학,미술,음악
A,길동이,80,50,90,100,20
B,길순이,100,100,100,100,100
D,애슐리,90,100,50,30,20


In [55]:
df5.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, A to D
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   국어      3 non-null      int64 
 2   영어      3 non-null      int64 
 3   수학      3 non-null      int64 
 4   미술      3 non-null      int64 
 5   음악      3 non-null      int64 
dtypes: int64(5), object(1)
memory usage: 276.0+ bytes
