# Pandas - DataFrame

In [75]:
import numpy as np
import pandas as pd


## 1. DataFrame 생성

In [76]:
kor = [80,90,70,30]                  # 리스트
eng = np.array([90,70,60,40])        # 어레이
math = (90,60,80,70)                 # 튜플

In [77]:
df = pd.DataFrame({
    '국어':kor, '영어':eng, '수학':math
}, index=['춘향','몽룡','향단','방자'])
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [78]:
# 
np.random.seed(2021)
df2 = pd.DataFrame(np.random.randint(40,101,12).reshape(4,3),
                   columns=['국어','영어','수학'], index=['춘향','몽룡','향단','방자'])
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


## 2. 인덱싱

In [79]:
df['국어']['춘향'], df.국어['춘향'], df.국어[0], df['국어'][0], df.국어.춘향

(80, 80, 80, 80, 80)

In [80]:
df.국어

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [81]:
df.영어[1:3]

몽룡    70
향단    60
Name: 영어, dtype: int32

- 연습문제 4.1.3

In [82]:
# 1) 모든 학생의 수학 점수를 시리즈로 나타낸다.
df.수학

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [83]:
# 2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
# 하나의 데이터만 쓰면 시리즈가 되지만
# 리스트로 묶으면 하나를 줘도 데이터 프레임이 된다.
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [84]:
# 3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
df['평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [85]:
# 4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
df.영어.방자 =  80
df.평균 = df.mean(axis=1)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,56.666667


In [86]:
# 5) 춘향의 점수를 데이터 프레임으로 나타낸다.
# 슬라이싱으로 적어야한다. 
# df[0] 형태로 적으면 열로 인식해 오류나기도.
df[0:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667


In [87]:
df[['국어','영어','수학']][:1]

Unnamed: 0,국어,영어,수학
춘향,80,90,90


In [88]:
# df.iloc[숫자 행인덱스, 숫자 열인덱스]
# row와 column이름을 그대로 쓰는게 아니라 각 row와 column의 인덱스 값으로 인덱싱 
# 인덱스 값, 리스트, 리스트 슬라이싱 모두 가능
df.iloc[0:1, :-1]

Unnamed: 0,국어,영어,수학
춘향,80,90,90


In [89]:
# 6) 향단의 점수를 시리즈로 나타낸다.
# df.loc[ "row" , "column" ]
# 인덱싱할 로우, 컬럼의 이름, 리스트, 리스트 슬라이싱 모두 가능 
df.loc['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [90]:
# 데이터 프레임 row와 column 바꾸기
df.T

Unnamed: 0,춘향,몽룡,향단,방자
국어,80.0,90.0,70.0,30.0
영어,90.0,70.0,60.0,80.0
수학,90.0,60.0,80.0,70.0
평균,86.666667,73.333333,70.0,56.666667


In [91]:
df.T['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [92]:
# 평균 열 삭제 - del
del df['평균']
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,80,70


In [93]:
# 영어, 수학 점수를 삭제
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


In [94]:
df3 = df2[['국어']]
df3

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


In [95]:
df2.drop(columns=['영어','수학'])

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


In [96]:
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


In [101]:
# 자기 자신을 변화시키려면 inplace=True 옵션을 줘야 함.
df2.drop(columns=['영어','수학']), inplace=True)
df2

SyntaxError: cannot assign to function call (Temp/ipykernel_3712/2435127242.py, line 2)

In [98]:
# 행 삭제
df2.drop(['방자'])

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67


In [99]:
# 변화 없음
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


In [100]:
df2.drop(index=['방자'], inplace=True)
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67


- loc, iloc 인덱서

In [102]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,80,70


In [104]:
# 춘향, 몽룡의 영어, 수학 점수
# 인덱스 이름으로 쓸 때는 그 이름까지만 출력됨
df.loc['춘향':'몽룡', '영어':]

Unnamed: 0,영어,수학
춘향,90,90
몽룡,70,60


In [105]:
# 몽룡, 향단의 영어, 수학 점수
df.iloc[1:3, 1:]

Unnamed: 0,영어,수학
몽룡,70,60
향단,60,80


In [103]:
# 몽룡, 향단의 국어, 수학 점수
# 숫자로 인덱싱하면 -1까지 나옴
df.iloc[1:3, ::2]

Unnamed: 0,국어,수학
몽룡,90,60
향단,70,80
