# Pandas - DataFrame

In [2]:
import numpy as np
import pandas as pd

### 1. DataFrame 생성

In [3]:
kor = [80,90,70,30]             # 리스트
eng = np.array([90,70,60,40])   # 어레이
math = (90,60,80,70)            # 튜플

In [4]:
df = pd.DataFrame({
    '국어': kor, '영어': eng, '수학': math
}, index = ['춘향','몽룡','향단','방자'])
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [5]:
np.random.seed(2021)
df2 = pd.DataFrame(np.random.randint(40,101,12).reshape(4,3),
                    columns=['국어','영어','수학'], index = ['춘향','몽룡','향단','방자'])
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


### 2. 인덱싱

In [6]:
df['국어']['춘향'], df.국어['춘향'], df.국어[0], df['국어'][0], df.국어.춘향

(80, 80, 80, 80, 80)

#### Q. 데이터사이언스스쿨 판다스 데이터분석 연습문제 4.1.3

In [7]:
# 1) 모든 학생의 수학 점수를 시리즈로 나타낸다.
df.수학

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [8]:
# (2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [9]:
# 6) 향단의 점수를 시리즈로 나타낸다.
df.loc['향단']

국어    70
영어    60
수학    80
Name: 향단, dtype: int64

In [10]:
# 3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
df['평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [11]:
# 4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
df.영어.방자 = 80
df.평균 = df.mean(axis=1)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,56.666667


In [12]:
# 5) 춘향의 점수를 데이터프레임으로 나타낸다.
df[0:1]

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.666667


In [13]:
df[['국어','영어','수학']][:1]

Unnamed: 0,국어,영어,수학
춘향,80,90,90


In [14]:
df.iloc[:1,:-1]

Unnamed: 0,국어,영어,수학
춘향,80,90,90


In [15]:
# 6) 향단의 점수를 시리즈로 나타낸다.
df.loc['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [16]:
df.T['향단']

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [17]:
# 평균 열 삭제
del df['평균']
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,80,70


In [18]:
# 영어, 수학 점수를 삭제
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


In [19]:
df3 = df2[['국어']]
df3

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


In [20]:
df2.drop(columns=['영어','수학'])

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


In [21]:
df2

Unnamed: 0,국어,영어,수학
춘향,92,61,97
몽룡,40,85,70
향단,62,84,67
방자,69,61,69


In [22]:
# 자기 자신을 변화시키려면 inplace=True 옵션을 주어야 함
df2.drop(columns=['영어','수학'], inplace=True)
df2

Unnamed: 0,국어
춘향,92
몽룡,40
향단,62
방자,69


- loc, iloc 인덱서

In [23]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,80,70


In [24]:
# 춘향, 몽룡의 영어, 수학 점수
df.loc['춘향':'몽룡','영어':]

Unnamed: 0,영어,수학
춘향,90,90
몽룡,70,60


In [25]:
# 몽룡, 향단의 영어, 수학 점수
df.iloc[1:3,1:]

Unnamed: 0,영어,수학
몽룡,70,60
향단,60,80


In [26]:
# 몽룡, 향단의 국어, 수학 점수
df.iloc[1:3, ::2]

Unnamed: 0,국어,수학
몽룡,90,60
향단,70,80
