# Pandas - DataFrame

In [23]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings(action='ignore')

### 1. DataFrame 생성

In [2]:
kor =  [80, 90, 70, 30] # 리스트
eng = np.array([90, 70, 60, 40]) # 어레이
math = (90, 60, 80, 70) # 튜플

In [6]:
df = pd.DataFrame({
    '국어' : kor, '영어' : eng, '수학' : math
}, index = ['가', '나', '다', '라']  
)
df

Unnamed: 0,국어,영어,수학
가,80,90,90
나,90,70,60
다,70,60,80
라,30,40,70


In [8]:
np.random.seed(2021)
df2 = pd.DataFrame(np.random.randint(40, 101, 12).reshape(4, 3), 
                   columns= ["국어", "영어", "수학"], index = ['가', '나', '다', '라'])
df2

Unnamed: 0,국어,영어,수학
가,92,61,97
나,40,85,70
다,62,84,67
라,69,61,69


### 2. 인덱싱

In [13]:
df['국어']['가'], df.국어.가, df.국어['가'], df.국어[0], df['국어'][0]

(80, 80, 80, 80, 80)

In [12]:
df.국어 # 시리즈 출력

가    80
나    90
다    70
라    30
Name: 국어, dtype: int64

In [14]:
df.영어[1:3]

나    70
다    60
Name: 영어, dtype: int32

In [17]:
# (1) 모든 학생의 수학 점수를 시리즈로 나타낸다.
df.수학


가    90
나    60
다    80
라    70
Name: 수학, dtype: int64

In [18]:
# (2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
df[['국어', '영어']]

Unnamed: 0,국어,영어
가,80,90
나,90,70
다,70,60
라,30,40


In [19]:
# (3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
df['평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,평균
가,80,90,90,86.666667
나,90,70,60,73.333333
다,70,60,80,70.0
라,30,40,70,46.666667


In [24]:
# (4) 라의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
df.영어.라 = 80
df.평균 = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,평균
가,80,90,90,86.666667
나,90,70,60,73.333333
다,70,60,80,70.0
라,30,80,70,59.791667


In [32]:
# (5) 가의 점수를 데이터프레임으로 나타낸다.
df[0:1]

Unnamed: 0,국어,영어,수학,평균
가,80,90,90,86.666667


In [33]:
 df.iloc[:1, :-1]

Unnamed: 0,국어,영어,수학
가,80,90,90


In [35]:
# (6) 다의 점수를 시리즈로 나타낸다.
df.T['다']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 다, dtype: float64

In [36]:
df.T

Unnamed: 0,가,나,다,라
국어,80.0,90.0,70.0,30.0
영어,90.0,70.0,60.0,80.0
수학,90.0,60.0,80.0,70.0
평균,86.666667,73.333333,70.0,59.791667


In [41]:
df

Unnamed: 0,국어,영어,수학
가,80,90,90
나,90,70,60
다,70,60,80
라,30,80,70


In [None]:
# 평균 열 삭제
del df['평균']
df

In [43]:
# 영어, 수학 점수를 삭제
df2

Unnamed: 0,국어,영어,수학
가,92,61,97
나,40,85,70
다,62,84,67
라,69,61,69


In [44]:
df3 = df2[['국어']]
df3

Unnamed: 0,국어
가,92
나,40
다,62
라,69


In [45]:
df2.drop(columns=['영어', '수학'])

Unnamed: 0,국어
가,92
나,40
다,62
라,69


In [46]:
df2

Unnamed: 0,국어,영어,수학
가,92,61,97
나,40,85,70
다,62,84,67
라,69,61,69


In [47]:
# 자기 자신을 변화시키려면 inplace = True
df2.drop(columns=['영어', '수학'], inplace=True)
df2

Unnamed: 0,국어
가,92
나,40
다,62
라,69


In [48]:
# 행 삭제
df2.drop(['라'])

Unnamed: 0,국어
가,92
나,40
다,62


In [49]:
df2

Unnamed: 0,국어
가,92
나,40
다,62
라,69


In [None]:
# 행 삭제
df2.drop(['라'], inplace=True)
df2

In [54]:
# 가, 나의 영어, 수학점수
df.loc['가':'나', '영어':]

Unnamed: 0,영어,수학
가,90,90
나,70,60


In [53]:
# 나, 다의 국어, 수학 점수
df.iloc[1:3, ::2]

Unnamed: 0,국어,수학
나,90,60
다,70,80


In [55]:
# 나, 다의 영어, 수학점수
df.iloc[1:3, 1:]

Unnamed: 0,영어,수학
나,70,60
다,60,80
