In [24]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# 1. DataFrame 생성

In [2]:
kor = [80, 90, 70, 30]              # list
eng = np.array([90, 70, 60, 40])    # array
math = (90, 60, 80, 70)             # tuple

In [3]:
df = pd.DataFrame({                         
    '국어':kor, '영어':eng, '수학':math     # key 값 == column 명
}, index=['춘향', '몽룡', '향단', '방자'])  # index명 설정      
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [5]:
# 2차원 데이터 -> 2차원 배열 만들기
np.random.seed(2021)
df2 = pd.DataFrame(np.random.randint(40,101,12).reshape(4,3),
                   columns=['국어', '영어', '수학'], index=['춘향', '몽룡', '향단', '방자'])
df2                   

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


### 2. 인덱싱

In [13]:
# 컬럼 -> 인덱스 설정
df['국어']['춘향'], df.국어['춘향'], df.국어[0], df['국어'][0], df.국어.춘향

(80, 80, 80, 80, 80)

In [9]:
# column명만 선택하면 Series가 나온다.
df.국어

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [14]:
df.영어[1:3]

몽룡    70
향단    60
Name: 영어, dtype: int32

In [20]:
# 문제 1. 모든 학생의 수학 점수를 Series로 나타낸다. 
df.수학

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [21]:
# 문제 2. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다
    # df안에 column명을 list로 주면 DataFrame이 된다.
df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [22]:
# 문제 3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
df['평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [25]:
# 문제 4. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
df.영어['방자'] = 80
df.평균 = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,59.166667


In [28]:
# 문제 5. 춘향의 점수를 데이터 프레임으로 나타낸다.
df[0:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667


In [30]:
# 문제 5 - 풀이 2
df[['국어','영어','수학']][0:1]

Unnamed: 0,국어,영어,수학
춘향,80,90,90


In [31]:
# 문제 5 - 풀이 3
df.iloc[0:1, :-1]

Unnamed: 0,국어,영어,수학
춘향,80,90,90


In [34]:
# 문제 6. 향단의 점수를 시리즈로 나타낸다.
df.loc['향단']

Unnamed: 0,국어,영어,수학,평균
향단,70,60,80,70.0


In [37]:
# 문제 6 - 풀이 2
df.T

Unnamed: 0,춘향,몽룡,향단,방자
국어,80.0,90.0,70.0,30.0
영어,90.0,70.0,60.0,80.0
수학,90.0,60.0,80.0,70.0
평균,86.666667,73.333333,70.0,59.166667


In [39]:
# 문제 6 - 풀이 2 
df.T['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [42]:
# 평균 열 삭제
del df['평균']
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,80,70


In [44]:
# 영어, 수학 점수를 삭제
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


In [45]:
df3 = df2[['국어']]
df3

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


In [46]:
df2.drop(columns=['영어', '수학'])

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


In [47]:
# df2는 변경되지 않았다!
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


In [48]:
# 자기 자신을 변화시키려면 inplace=True 옵션을 주어야 한다 <= inplace는 default가 False이다
df2.drop(columns=['영어','수학'], inplace=True) 
df2

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


In [49]:
# 행 삭제
df2.drop(['방자'])

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62


In [50]:
df2

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


In [54]:
# 행 삭제, inplace=True
df2.drop(index=['방자'], inplace=True)
df2

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62


- loc, iloc 인덱서

In [57]:
# 춘향, 몽룡의 영어, 수학 점수
df.loc['춘향':'몽룡', '영어':]

Unnamed: 0,영어,수학
춘향,90,90
몽룡,70,60


In [56]:
# 몽룡, 향단의 국어, 수학 점수 확인
df.iloc[1:3, ::2]

Unnamed: 0,국어,수학
몽룡,90,60
향단,70,80


In [58]:
# 향단, 방자의 국어, 영어 점수
df.iloc[2:, 0:2]

Unnamed: 0,국어,영어
향단,70,60
방자,30,80


In [59]:
# 몽룡, 향단의 영어, 수학 점수
df.iloc[1:3, 1:]

Unnamed: 0,영어,수학
몽룡,70,60
향단,60,80
