# Pandas - DataFrame

In [2]:
import numpy as np
import pandas as pd

### 1. 데이터 프레임 생성

In [3]:
# data 딕셔너리의 키가 데이터프레임의 열 인덱스가 됨
data = {
    '국어' : [80, 90, 70, 30],
    '영어' : [90, 70, 60, 40],
    '수학' : [90, 60, 80, 70]
}
df = pd.DataFrame(data)
df

Unnamed: 0,국어,영어,수학
0,80,90,90
1,90,70,60
2,70,60,80
3,30,40,70


In [4]:
df.index = ['춘향','몽룡','향단','방자']
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [5]:
np.random.seed(2022)
df2 = pd.DataFrame(np.random.randint(40,101,12).reshape(4,3),
                   columns=['국어','영어','수학'],
                   index=['춘향','몽룡','향단','방자'])
df2

Unnamed: 0,국어,영어,수학
춘향,68,85,88
몽룡,89,89,88
향단,95,64,58
방자,64,56,93


- 반복문을 써서 만드는 경우

In [6]:
kor, eng, mat = [], [], []
for i in range(4):
    kor.append(np.random.randint(40,101))
    eng.append(np.random.randint(40,101))
    mat.append(np.random.randint(40,101))
kor

[81, 51, 80, 59]

In [7]:
pd.DataFrame({'국어':kor, '영어':eng, '수학':mat})

Unnamed: 0,국어,영어,수학
0,81,73,67
1,51,59,70
2,80,51,88
3,59,78,48


In [8]:
line = []
for i in range(4):
    d = {'국어':np.random.randint(40,101),
         '영어':np.random.randint(40,101),
         '수학':np.random.randint(40,101)}
    line.append(d)
line

[{'국어': 54, '수학': 56, '영어': 69},
 {'국어': 98, '수학': 51, '영어': 66},
 {'국어': 70, '수학': 42, '영어': 73},
 {'국어': 56, '수학': 55, '영어': 93}]

In [9]:
pd.DataFrame(line)

Unnamed: 0,국어,영어,수학
0,54,69,56
1,98,66,51
2,70,73,42
3,56,93,55


### 2. 데이터프레임 인덱싱

In [10]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [11]:
df['국어']      # 시리즈

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [12]:
df.국어

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [13]:
# 인덱싱 순서 - 열 인덱스, 행 인덱스 순
# 시리즈를 먼저 선택하고, 인덱스를 선택
df['영어']['몽룡']

70

In [14]:
df['영어']['몽룡'], df['영어'][1], df.영어[1], df.영어.몽룡

(70, 70, 70, 70)

- 슬라이스

In [15]:
df['국어'][:2]

춘향    80
몽룡    90
Name: 국어, dtype: int64

In [16]:
# 슬라이싱을 할 때 인덱스 값으로 문자열을 주면 숫자와는 다르게 동작함
df['국어'][:'몽룡']

춘향    80
몽룡    90
Name: 국어, dtype: int64

- 결과를 데이터프레임으로(Selection)



In [17]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [18]:
df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [19]:
df['국어']

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [20]:
df[['국어']]

Unnamed: 0,국어
춘향,80
몽룡,90
향단,70
방자,30


In [21]:
df[['국어']][:2]

Unnamed: 0,국어
춘향,80
몽룡,90


- loc 인덱서: [행인덱스, 열인덱스]

In [22]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [23]:
df.loc['몽룡', '영어'], df.loc['몽룡']['영어'], df.loc['몽룡'][1], df.loc['몽룡'].영어

(70, 70, 70, 70)

- iloc 인덱서: [행숫자 인덱스, 열숫자 인덱스]

In [24]:
df.iloc[1,1], df.iloc[1][1], df.iloc[1]['영어'], df.iloc[1].영어

(70, 70, 70, 70)

In [25]:
df.iloc[:2, 1:]

Unnamed: 0,영어,수학
춘향,90,90
몽룡,70,60


In [26]:
# 수학 방자 점수 인덱싱
df['수학']['방자'], df['수학'][3], df.수학[3], df.수학.방자

(70, 70, 70, 70)

In [27]:
df.loc['방자', '수학'], df.loc['방자']['수학'], df.loc['방자'][2], df.loc['방자'].수학

(70, 70, 70, 70)

In [28]:
df.iloc[3,2], df.iloc[3][2], df.iloc[3]['수학'], df.iloc[3].수학

(70, 70, 70, 70)

- 값 변경

In [29]:
df['국어']['방자'] = 80
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,80,40,70


In [30]:
df.영어.방자 = 85
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,80,85,70


- 열 추가

In [31]:
df['과학'] = [40.3, 80.4, 75.3, 68.5]
df

Unnamed: 0,국어,영어,수학,과학
춘향,80,90,90,40.3
몽룡,90,70,60,80.4
향단,70,60,80,75.3
방자,80,85,70,68.5


In [32]:
df.평균 = [10,20,30,40]

  """Entry point for launching an IPython kernel.


In [33]:
df

Unnamed: 0,국어,영어,수학,과학
춘향,80,90,90,40.3
몽룡,90,70,60,80.4
향단,70,60,80,75.3
방자,80,85,70,68.5


In [34]:
df['평균'] = df.mean(axis=1)
df

Unnamed: 0,국어,영어,수학,과학,평균
춘향,80,90,90,40.3,75.075
몽룡,90,70,60,80.4,75.1
향단,70,60,80,75.3,71.325
방자,80,85,70,68.5,75.875


- 열 삭제

In [37]:
del df['평균']
df

Unnamed: 0,국어,영어,수학,과학
춘향,80,90,90,40.3
몽룡,90,70,60,80.4
향단,70,60,80,75.3
방자,80,85,70,68.5


In [38]:
df.drop(columns=['수학','과학'])

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,80,85


In [40]:
df.drop(columns=['과학'], inplace=True)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,80,85,70


- 행 삭제

In [41]:
df.drop(['방자'])

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80


In [42]:
df.drop(['향단'], inplace=True)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
방자,80,85,70
