## Pandas DataFrame

판다스에서 데이터 (테이블 형태 - DB, 엑셀, CSV, JSON) 처리하는 가장 기본단위 자료구조

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D" width="500">

데이터프레임 생성
```python
pd.DataFrame(...)
```

In [1]:
import pandas as pd

In [2]:
# 데이터프레임 생성
data = {
    '이름':['홍길동', '홍길순', '성유고', '박예슐'],
    '국어':[80, 100, 10, 90],
    '영어':[50, 100, 99, 100],
    '수학':[90, 100, 10, 40],
    '미술':[100, 100, 99, 30]
}# 기본데이터는 실제로는 excel, db, csv, openAPI 등 다른 곳에서 받아와서 처리

df1 = pd.DataFrame(data=data)
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박예슐,90,100,40,30


#### 데이터프레임 핸들링

##### 특정컬럼 사용


In [3]:
data

{'이름': ['홍길동', '홍길순', '성유고', '박예슐'],
 '국어': [80, 100, 10, 90],
 '영어': [50, 100, 99, 100],
 '수학': [90, 100, 10, 40],
 '미술': [100, 100, 99, 30]}

In [6]:
df2 = pd.DataFrame(data=data, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,홍길동,50
1,홍길순,100
2,성유고,99
3,박예슐,100


In [8]:
df3 = pd.DataFrame(data=data, columns=['이름', '미술', '음악'])
df3

Unnamed: 0,이름,미술,음악
0,홍길동,100,
1,홍길순,100,
2,성유고,99,
3,박예슐,30,


In [9]:
# 인덱스번호를 변경해서 DF 생성
pd.DataFrame(data=data, index=[x for x in range(1, len(data))])

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박예슐,90,100,40,30


In [10]:
pd.DataFrame(data=data, index=['첫번째', '두번째', '세번째', '네번째'])

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박예슐,90,100,40,30


In [22]:
df4 = pd.DataFrame(data=data, index=['첫번째', '두번째', '세번째', '네번째'])
df4

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박예슐,90,100,40,30


In [23]:
df5 = pd.DataFrame(data=data, index=['첫번째', '두번째', '세번째', '네번째'])
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박예슐,90,100,40,30


#### DF 내의 데이터 조회

In [12]:
df1['국어']

0     80
1    100
2     10
3     90
Name: 국어, dtype: int64

In [13]:
type(df1['국어'])

pandas.core.series.Series

In [14]:
df1[['이름', '수학']]

Unnamed: 0,이름,수학
0,홍길동,90
1,홍길순,100
2,성유고,10
3,박예슐,40


In [15]:
type(df1[['이름', '수학']])

pandas.core.frame.DataFrame

In [16]:
df1.loc[0]

이름    홍길동
국어     80
영어     50
수학     90
미술    100
Name: 0, dtype: object

In [17]:
# DF의 인덱스 기준으로 
df1.loc[1]

이름    홍길순
국어    100
영어    100
수학    100
미술    100
Name: 1, dtype: object

In [18]:
# 지금 정해놓은 인덱스값 대로 조회
df2.loc[[0,2]]

Unnamed: 0,이름,영어
0,홍길동,50
2,성유고,99


In [20]:
# 원래의 인덱스값 대로 조회(아무리 인덱스를 변경해도 배열에서 첫번째)
df2.iloc[1]

이름    홍길순
영어    100
Name: 1, dtype: object

In [25]:
df5.loc['네번째']

이름    박예슐
국어     90
영어    100
수학     40
미술     30
Name: 네번째, dtype: object

In [27]:
df5.iloc[3]

이름    박예슐
국어     90
영어    100
수학     40
미술     30
Name: 네번째, dtype: object

In [28]:
# DF 슬라이싱(인덱스로)
df5[0:3]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99


#### 특정데이터 상세 조회

In [29]:
df5.loc['세번째', ['미술']]

미술    99
Name: 세번째, dtype: object

In [30]:
df4.iloc[2, [4]]

미술    99
Name: 세번째, dtype: object

In [31]:
df5.loc['세번째', '미술']

99

In [34]:
df5.iloc[2, 4]

99

In [32]:
type(df5.iloc[2, 4])

numpy.int64

#### 조건식 조회

In [35]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박예슐,90,100,40,30


In [36]:
# 한 칼럼에 조건을 걸어서 조회 --> 시리즈
df5['수학'] > 50

첫번째     True
두번째     True
세번째    False
네번째    False
Name: 수학, dtype: bool

In [41]:
# 조회 조건이 참인 df만 출력
df5[df5['수학'] > 50]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100


In [42]:
# And 조회조건
df5[(df5['수학'] > 50) & (df5['국어'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
두번째,홍길순,100,100,100,100


In [43]:
# OR 조회조건
df5[(df5['수학'] > 50) | (df5['국어'])]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박예슐,90,100,40,30


In [44]:
# ISIN 조건
df5['영어'].isin([50, 99])

첫번째     True
두번째    False
세번째     True
네번째    False
Name: 영어, dtype: bool

In [45]:
df5[df5['영어'].isin([50, 99])]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
세번째,성유고,10,99,10,99


#### DF 데이터 추가/변경/삭제

In [46]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박예슐,90,100,40,30


In [49]:
# 컬럼이름 추가, 리스트로 데이터를 할당
df5['음악'] = [70, 100, 30, 10]

In [50]:
# 새로운 인덱스를 추가하고 그곳에 새로운 값을 추가한다.
df5['국아 + 10'] = df5['국어'] +10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국아 + 10
첫번째,홍길동,80,50,90,100,70,90
두번째,홍길순,100,100,100,100,100,110
세번째,성유고,10,99,10,99,30,20
네번째,박예슐,90,100,40,30,10,100


In [51]:
# 실행할때마다 연산
df5['음악'] = df5['음악'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국아 + 10
첫번째,홍길동,80,50,90,100,80,90
두번째,홍길순,100,100,100,100,110,110
세번째,성유고,10,99,10,99,40,20
네번째,박예슐,90,100,40,30,20,100


In [53]:
# 조건식 + loc으로 컬럼값은 변경
df5.loc[df5['음악'] > 100, ['음악']] = 100
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국아 + 10
첫번째,홍길동,80,50,90,100,80,90
두번째,홍길순,100,100,100,100,100,110
세번째,성유고,10,99,10,99,40,20
네번째,박예슐,90,100,40,30,20,100


In [55]:
del df5['국아 + 10']
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
첫번째,홍길동,80,50,90,100,80
두번째,홍길순,100,100,100,100,100
세번째,성유고,10,99,10,99,40
네번째,박예슐,90,100,40,30,20


In [57]:
# 특정 위치 값 변경
df1.at[3, '미술'] = 40
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박예슐,90,100,40,40


#### 삭제 중 drop

In [60]:
# axis = 1 한 행을 기준으로 다 없앰
df7 = df1.drop(['미술'], axis=1)
df7

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,50,90
1,홍길순,100,100,100
2,성유고,10,99,10
3,박예슐,90,100,40


In [61]:
# axis=0 한 행을 다 없앰
df8 = df1.drop(3, axis=0)
df8

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99


In [63]:
df10 = df1

In [64]:
# inplace 속성
df10.drop(3, axis = 0, inplace=True)
df10

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99


In [65]:
df10.drop(['미술'], axis=1, inplace=True)

In [66]:
df10

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,50,90
1,홍길순,100,100,100
2,성유고,10,99,10


#### 기타 속성값

In [67]:
df1.index

RangeIndex(start=0, stop=3, step=1)

In [68]:
df1.columns

Index(['이름', '국어', '영어', '수학'], dtype='object')

In [69]:
df4.shape

(4, 5)

In [70]:
df4.dtypes

이름    object
국어     int64
영어     int64
수학     int64
미술     int64
dtype: object

In [71]:
df4

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박예슐,90,100,40,30


In [72]:
# 행과 열을 바꾸는 작업, DB에서 SQL로 이 작업을 하려면 무진장 어렵다.
df4.T

Unnamed: 0,첫번째,두번째,세번째,네번째
이름,홍길동,홍길순,성유고,박예슐
국어,80,100,10,90
영어,50,100,99,100
수학,90,100,10,40
미술,100,100,99,30


In [74]:
# 제일 많이 쓰는 것 중 하나
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   국어      3 non-null      int64 
 2   영어      3 non-null      int64 
 3   수학      3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 228.0+ bytes


In [75]:
#
df1.describe()

Unnamed: 0,국어,영어,수학
count,3.0,3.0,3.0
mean,63.333333,83.0,66.666667
std,47.258156,28.583212,49.328829
min,10.0,50.0,10.0
25%,45.0,74.5,50.0
50%,80.0,99.0,90.0
75%,90.0,99.5,95.0
max,100.0,100.0,100.0
