## Pandas DataFrame

판다스에서 데이터(테이블 형태 -> DB, Excel, CSV, JSON)를 처리하는  가장 기본단위 자료 구조

- series가 최소 단위 // 기본 단위는 dataframe

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D" width="500">

데이터 프레임 생성

pd.DataFrame(...)


In [2]:
import pandas as pd

In [4]:
# 데이터 프레임 생성 


data = {
    '이름' : ['홍길동', '홍길순', '성유고', '박애슐'],
    '국어' : [80, 100, 10, 90],
    '영어' : [70, 80, 60, 100],
    '수학' : [100, 80, 70, 90],
    '미술' : [30, 99, 100, 40]
}  

# 기본 데이터는 실제로 excel, db, csv, openAPI 등 다른 곳에서 받아서 처리 

df1 = pd.DataFrame(data=data)
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,70,100,30
1,홍길순,100,80,80,99
2,성유고,10,60,70,100
3,박애슐,90,100,90,40


## 데이터 프레임 핸들링

### 특정 컬럼 사용

In [5]:
data

{'이름': ['홍길동', '홍길순', '성유고', '박애슐'],
 '국어': [80, 100, 10, 90],
 '영어': [70, 80, 60, 100],
 '수학': [100, 80, 70, 90],
 '미술': [30, 99, 100, 40]}

In [8]:
df2=pd.DataFrame(data=data, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,홍길동,70
1,홍길순,80
2,성유고,60
3,박애슐,100


In [13]:
df3=pd.DataFrame(data=data, columns=['이름', '미술', '음악'])
df3

Unnamed: 0,이름,미술,음악
0,홍길동,30,
1,홍길순,99,
2,성유고,100,
3,박애슐,40,


In [16]:
# 인덱스 번호를 변경해서 DF 생성

df4=pd.DataFrame(data=data, index=[x for x in range(1, len(data))])
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,70,100,30
2,홍길순,100,80,80,99
3,성유고,10,60,70,100
4,박애슐,90,100,90,40


In [35]:
df5 = pd.DataFrame(data=data, index=['첫번째', '두번째', '세번째', '네번째'])

## DF 내의 데이터 조회

In [21]:
df1['이름']

0    홍길동
1    홍길순
2    성유고
3    박애슐
Name: 이름, dtype: object

In [20]:
type(df1['국어'])

pandas.core.series.Series

In [22]:
df1[['이름', '수학']]

Unnamed: 0,이름,수학
0,홍길동,100
1,홍길순,80
2,성유고,70
3,박애슐,90


In [26]:
# DF의 인덱스 기준으로 데이터를 조회 

df1.loc[1]

이름    홍길순
국어    100
영어     80
수학     80
미술     99
Name: 1, dtype: object

In [27]:
df1.loc[[0,2]]

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,70,100,30
2,성유고,10,60,70,100


In [28]:
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,70,100,30
2,홍길순,100,80,80,99
3,성유고,10,60,70,100
4,박애슐,90,100,90,40


In [29]:
# 지금 정해놓은 인덱스 값 대로 조회
df4.loc[1]

이름    홍길동
국어     80
영어     70
수학    100
미술     30
Name: 1, dtype: object

In [32]:
# 원래의 인덱스값 대로 조회 (아무리 인덱스를 변경해도 배열에서 첫번째 인덱스가 0 인것은 변함이 없음)
df4.iloc[0]

이름    홍길동
국어     80
영어     70
수학    100
미술     30
Name: 1, dtype: object

### 특정데이터 상세 조회 

In [36]:
df5.loc['세번째', ['미술']]

미술    100
Name: 세번째, dtype: object

In [39]:
df4.iloc[2, [4]]

미술    100
Name: 3, dtype: object

In [40]:
df5.iloc[2,4]

100

### 조건식 조회

In [41]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,70,100,30
두번째,홍길순,100,80,80,99
세번째,성유고,10,60,70,100
네번째,박애슐,90,100,90,40


In [47]:
# 조건을 걸어서 한 컬럼에서 조회를 하면 = 시리즈가 됨
df5['수학'] > 70

첫번째     True
두번째     True
세번째    False
네번째     True
Name: 수학, dtype: bool

In [48]:
df5[df5['수학'] > 70]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,70,100,30
두번째,홍길순,100,80,80,99
네번째,박애슐,90,100,90,40


In [53]:
# AND 조건 조회 
df5[(df5['수학'] > 70) & (df5['국어'] > 80)] 

Unnamed: 0,이름,국어,영어,수학,미술
두번째,홍길순,100,80,80,99
네번째,박애슐,90,100,90,40


In [54]:
# OR 조건 조회 
df5[(df5['수학'] > 70) | (df5['국어'] > 80)] 

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,70,100,30
두번째,홍길순,100,80,80,99
네번째,박애슐,90,100,90,40


In [58]:
# ISIN 조건 조회 
df5[df5['영어'].isin([70, 60])]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,70,100,30
세번째,성유고,10,60,70,100


### DF 데이터 추가 / 삭제

In [59]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,70,100,30
두번째,홍길순,100,80,80,99
세번째,성유고,10,60,70,100
네번째,박애슐,90,100,90,40


In [62]:
# 컬럼이름 추가, 리스트로 데이터를 할당
# 똑같은 컬럼은 추가 x

df5['음악']=[70, 80, 30, 10]
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
첫번째,홍길동,80,70,100,30,70
두번째,홍길순,100,80,80,99,80
세번째,성유고,10,60,70,100,30
네번째,박애슐,90,100,90,40,10


In [64]:
# 연산 후에 컬럼 추가 
df5['국어-10']=df5['국어']-10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어-10
첫번째,홍길동,80,70,100,30,70,70
두번째,홍길순,100,80,80,99,80,90
세번째,성유고,10,60,70,100,30,0
네번째,박애슐,90,100,90,40,10,80


In [68]:
# 실행할 때 마다 연산
df5['음악'] = df5['음악']-10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어-10
첫번째,홍길동,80,70,100,30,90,70
두번째,홍길순,100,80,80,99,100,90
세번째,성유고,10,60,70,100,50,0
네번째,박애슐,90,100,90,40,30,80


In [69]:
# 조건식 + loc으로 컬럼값 변경
df5.loc[df5['음악']>100, ['음악']]=100
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어-10
첫번째,홍길동,80,70,100,30,90,70
두번째,홍길순,100,80,80,99,100,90
세번째,성유고,10,60,70,100,50,0
네번째,박애슐,90,100,90,40,30,80


In [71]:
del df5['국어-10']
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
첫번째,홍길동,80,70,100,30,90
두번째,홍길순,100,80,80,99,100
세번째,성유고,10,60,70,100,50
네번째,박애슐,90,100,90,40,30


In [74]:
# 특정위치 값 변경
df1.at[3, '미술'] = 40
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,70,100,30
1,홍길순,100,80,80,99
2,성유고,10,60,70,100
3,박애슐,90,100,90,40


#### 삭제 drop down

In [79]:
# axis=(index), (column)
df1.drop(['미술'], axis=1)

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,70,100
1,홍길순,100,80,80
2,성유고,10,60,70
3,박애슐,90,100,90


In [80]:
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,70,100,30
1,홍길순,100,80,80,99
2,성유고,10,60,70,100
3,박애슐,90,100,90,40


In [81]:
df1.drop(3, axis=0)

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,70,100,30
1,홍길순,100,80,80,99
2,성유고,10,60,70,100


In [82]:
df10 = df1

In [89]:
# inplace 속성
df10.drop(3, axis=0, inplace=True)

# 이미 지우고 또 실행해서 오류 인거임

KeyError: '[3] not found in axis'

In [90]:
df10

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,70,100
1,홍길순,100,80,80
2,성유고,10,60,70


##### 기타 속성값

In [91]:
df4.values

array([['홍길동', 80, 70, 100, 30],
       ['홍길순', 100, 80, 80, 99],
       ['성유고', 10, 60, 70, 100],
       ['박애슐', 90, 100, 90, 40]], dtype=object)

In [92]:
df4.shape

(4, 5)

In [93]:
# DB에서 이 작업을 하려면 어렵다.
df4.T

Unnamed: 0,1,2,3,4
이름,홍길동,홍길순,성유고,박애슐
국어,80,100,10,90
영어,70,80,60,100
수학,100,80,70,90
미술,30,99,100,40


In [96]:
df1.info()

# 데이터 프레임 값을 불러오고 제일 먼저 해야하는 것 !!!!! 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   국어      3 non-null      int64 
 2   영어      3 non-null      int64 
 3   수학      3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 228.0+ bytes


In [98]:
# 데이터 프레임 기본 정보 확인

df1.describe()

Unnamed: 0,국어,영어,수학
count,3.0,3.0,3.0
mean,63.333333,70.0,83.333333
std,47.258156,10.0,15.275252
min,10.0,60.0,70.0
25%,45.0,65.0,75.0
50%,80.0,70.0,80.0
75%,90.0,75.0,90.0
max,100.0,80.0,100.0


In [99]:
df1['국어'].count

<bound method Series.count of 0     80
1    100
2     10
Name: 국어, dtype: int64>

In [100]:
df1.mean()

  df1.mean()


국어    63.333333
영어    70.000000
수학    83.333333
dtype: float64

##### 위에서 할 필요 없이 describe() 이거 하나로 min-max, mean, 25~75% 분포 확인 가능 