## Pandas Data Frame

판다스에서 데이터(테이블 형태 - DB, 엑셀, CSV, JSON) 처리하는 가장 기본단위 자료구조

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D" width="500">

데이터프레임 생성
```python
pd.DataFrame(...)
```

In [1]:
import pandas as pd

In [16]:
# 데이터프레임 생성
data = {
    '이름': ['홍길동', '홍길순', '성유고', '박애슐'],
    '국어': [80, 100, 10 ,90],
    '영어': [50, 100, 99, 100],
    '수학': [90, 100, 10, 40],
    '미술': [100, 100, 99, 30]
} # 기본데이터 실제로는 excel, db, csv, openAPI 등 다른곳에서 받아와서 처리

df1 = pd.DataFrame(data=data)
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박애슐,90,100,40,30


#### 데이터프레임 핸들링

##### 특정컬럼 사용

In [17]:
data

{'이름': ['홍길동', '홍길순', '성유고', '박애슐'],
 '국어': [80, 100, 10, 90],
 '영어': [50, 100, 99, 100],
 '수학': [90, 100, 10, 40],
 '미술': [100, 100, 99, 30]}

In [18]:
df2 = pd.DataFrame(data=data, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,홍길동,50
1,홍길순,100
2,성유고,99
3,박애슐,100


In [19]:
df3 = pd.DataFrame(data=data, columns=['이름', '미술', '음악'])
df3

Unnamed: 0,이름,미술,음악
0,홍길동,100,
1,홍길순,100,
2,성유고,99,
3,박애슐,30,


In [20]:
# 인덱스번호를 변경해서 DF 생성
df4 = pd.DataFrame(data=data, index=[x for x in range(1, len(data))])
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박애슐,90,100,40,30


In [36]:
df5 = pd.DataFrame(data=data, index=['첫번째', '두번째', '세번째', '네번째'])
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [21]:
df1['이름']

0    홍길동
1    홍길순
2    성유고
3    박애슐
Name: 이름, dtype: object

In [22]:
type(df1['국어'])

pandas.core.series.Series

In [24]:
df1[['이름', '수학']]

Unnamed: 0,이름,수학
0,홍길동,90
1,홍길순,100
2,성유고,10
3,박애슐,40


In [25]:
type(df1[['이름', '수학']])

pandas.core.frame.DataFrame

In [28]:
# DF의 인덱스 기준으로 데이터를 조회
df1.loc[1]

이름    홍길순
국어    100
영어    100
수학    100
미술    100
Name: 1, dtype: object

In [29]:
df1.loc[[0, 2]]

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
2,성유고,10,99,10,99


In [30]:
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박애슐,90,100,40,30


In [34]:
# 지금 정해놓은 인덱스값 대로 조회
df4.loc[1]

이름    홍길동
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [33]:
# 원래의 인덱스값 대로 조회(아무리 인덱스를 변경해도 배열에서 첫번째 인덱스가 0인것은 변함이 없음)
df4.iloc[1]

이름    홍길순
국어    100
영어    100
수학    100
미술    100
Name: 2, dtype: object

In [37]:
df5.loc['네번째']

이름    박애슐
국어     90
영어    100
수학     40
미술     30
Name: 네번째, dtype: object

In [38]:
df5.iloc[3]

이름    박애슐
국어     90
영어    100
수학     40
미술     30
Name: 네번째, dtype: object

In [40]:
# DF 슬라이싱(인덱스로)
df5[0:3]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99


##### 특정데이터 상세 조회

In [41]:
df5.loc['세번째', ['미술']]

미술    99
Name: 세번째, dtype: object

In [43]:
df4.iloc[2, [4]]

미술    99
Name: 3, dtype: object

In [45]:
df5.loc['세번째', '미술']

99

In [44]:
df5.iloc[2, 4]

99

In [46]:
type(df5.iloc[2,4])

numpy.int64

#### 조건식 조회

In [47]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [49]:
# 한컬럼에 조건걸어서 조회 --> 시리즈
df5['수학'] > 50

첫번째     True
두번째     True
세번째    False
네번째    False
Name: 수학, dtype: bool

In [52]:
# 조회조건이 참인 df만 출력
df5[df5['수학'] > 50]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100


In [60]:
# And 조회조건 ( & )
df5[(df5['수학'] > 90) & (df5['영어'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
두번째,홍길순,100,100,100,100


In [59]:
# OR 조회조건 ( | )
df5[(df5['수학'] > 90) | (df5['영어'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [61]:
# ISIN 조건
df5['영어'].isin([50, 99])

첫번째     True
두번째    False
세번째     True
네번째    False
Name: 영어, dtype: bool

In [62]:
df5[df5['영어'].isin([50, 99])]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
세번째,성유고,10,99,10,99


#### DF 데이터 추가/변경/삭제

In [63]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [68]:
# 컬럼이름 추가, 리스트로 데이터를 할당
# 똑같은 컬럼은 추가안됨
df5['음악'] = [70, 100, 30, 10]

In [65]:
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
첫번째,홍길동,80,50,90,100,70
두번째,홍길순,100,100,100,100,100
세번째,성유고,10,99,10,99,30
네번째,박애슐,90,100,40,30,10


In [70]:
# 연산후 컬럼 추가
df5['국어 + 10'] = df5['국어'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어 + 10
첫번째,홍길동,80,50,90,100,70,90
두번째,홍길순,100,100,100,100,100,110
세번째,성유고,10,99,10,99,30,20
네번째,박애슐,90,100,40,30,10,100


In [72]:
# 실행할때마다 연산
df5['음악'] = df5['음악'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어 + 10
첫번째,홍길동,80,50,90,100,90,90
두번째,홍길순,100,100,100,100,120,110
세번째,성유고,10,99,10,99,50,20
네번째,박애슐,90,100,40,30,30,100


In [74]:
# 조건식 + loc으로 컬럼값은 변경
df5.loc[df5['음악'] > 100, ['음악']] = 100
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어 + 10
첫번째,홍길동,80,50,90,100,90,90
두번째,홍길순,100,100,100,100,100,110
세번째,성유고,10,99,10,99,50,20
네번째,박애슐,90,100,40,30,30,100


In [75]:
del df5['국어 + 10']
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
첫번째,홍길동,80,50,90,100,90
두번째,홍길순,100,100,100,100,100
세번째,성유고,10,99,10,99,50
네번째,박애슐,90,100,40,30,30


In [78]:
# 특정위치 값 변경
df1.at[3, '미술'] = 40
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박애슐,90,100,40,40


#### 삭제 중 drop

In [84]:
# axis=0(index), 1(column)
df7 = df1.drop(['미술'], axis=1)
df7

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,50,90
1,홍길순,100,100,100
2,성유고,10,99,10
3,박애슐,90,100,40


In [87]:
# axis=0 행을 지움
df8 = df1.drop(3, axis=0)
df8

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99


In [88]:
df10 = df1

In [89]:
# inplace 속성
df10.drop(3, axis=0, inplace=True)
df10

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99


In [90]:
df10.drop(['미술'], axis=1, inplace=True)

In [91]:
df10

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,50,90
1,홍길순,100,100,100
2,성유고,10,99,10


#### 기타 속성값

In [92]:
df1.index

RangeIndex(start=0, stop=3, step=1)

In [93]:
df5.index

Index(['첫번째', '두번째', '세번째', '네번째'], dtype='object')

In [94]:
df1.columns

Index(['이름', '국어', '영어', '수학'], dtype='object')

In [95]:
df4.values

array([['홍길동', 80, 50, 90, 100],
       ['홍길순', 100, 100, 100, 100],
       ['성유고', 10, 99, 10, 99],
       ['박애슐', 90, 100, 40, 30]], dtype=object)

In [97]:
# 제일 중요한 것 중 한 속성
df4.shape

(4, 5)

In [99]:
df4.size

20

In [100]:
df4.dtypes

이름    object
국어     int64
영어     int64
수학     int64
미술     int64
dtype: object

In [101]:
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박애슐,90,100,40,30


In [104]:
# DB에서 SQL로 이 작업을 하려면 어렵다.
df4.T

Unnamed: 0,1,2,3,4
이름,홍길동,홍길순,성유고,박애슐
국어,80,100,10,90
영어,50,100,99,100
수학,90,100,10,40
미술,100,100,99,30


In [106]:
# 제일 많이 쓰는 것 중 하나
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   국어      3 non-null      int64 
 2   영어      3 non-null      int64 
 3   수학      3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 228.0+ bytes


In [108]:
# EDA(Exploratory Data Analysis) 탐색적 데이터 분석 중 가장 기본
df1.describe()

Unnamed: 0,국어,영어,수학
count,3.0,3.0,3.0
mean,63.333333,83.0,66.666667
std,47.258156,28.583212,49.328829
min,10.0,50.0,10.0
25%,45.0,74.5,50.0
50%,80.0,99.0,90.0
75%,90.0,99.5,95.0
max,100.0,100.0,100.0


In [111]:
df1.count

<bound method DataFrame.count of     이름   국어   영어   수학
0  홍길동   80   50   90
1  홍길순  100  100  100
2  성유고   10   99   10>