# Pandas 2. DataFrame(2)

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({"국어" : [85, 92, 88, 80],
                   "수학" : [100, 92, 84, 90],
                   "영어" : [90, 90, 90, 82]}, index = ["A","B","C","D"])
df

Unnamed: 0,국어,수학,영어
A,85,100,90
B,92,92,90
C,88,84,90
D,80,90,82


## 1. DataFrame 행에 접근

### 1.1. loc / iloc 함수
- df.loc[ ] 함수 : 인덱스의 이름을 받아서 행에 접근함
- df.iloc[ ] 함수 : 인덱스의 순서를 받아서 행에 접근함

In [3]:
df.loc["A"]

국어     85
수학    100
영어     90
Name: A, dtype: int64

In [4]:
df.iloc[1]

국어    92
수학    92
영어    90
Name: B, dtype: int64

### 1.2. 값 변경하기
- df.loc[] / df.iloc[]를 사용해서 행에 접근하고 값을 바꿔줌

In [5]:
df.loc['A'] = [85,100,92]
df

Unnamed: 0,국어,수학,영어
A,85,100,92
B,92,92,90
C,88,84,90
D,80,90,82


### 1.3. drop( ) 함수
- df.drop([인덱스이름]) : 해당 인덱스의 행을 삭제함

In [6]:
df = df.drop(["D"]).copy()
df

Unnamed: 0,국어,수학,영어
A,85,100,92
B,92,92,90
C,88,84,90


### 1.4. 조건에 맞는 행 가져오기
- df[df[column] ~~ 조건]

In [7]:
df[df['국어']==92]

Unnamed: 0,국어,수학,영어
B,92,92,90


In [8]:
df[df['영어']==90]

Unnamed: 0,국어,수학,영어
B,92,92,90
C,88,84,90


### 1.5. 포함관계 파악하기
- isin([리스트]) 함수
- ex) df['국어'].isin([92]) : 92가 df['국어'] 에 있는지 확인
- return Boolean

In [9]:
df['국어'].isin([92])

A    False
B     True
C    False
Name: 국어, dtype: bool

### 1.6. 행 가져오기
- df.sample(frac = ) 함수 : frac 비율만큼 랜덤하게 행을 가져옴
- df.sample(n = ) 함수 : n 개수만큼 랜덤하게 행을 가져옴
- df.nlargest(개수, column) : column 기준 큰 순서대로 n개의 행을 가져옴
- df.smallest(개수, column) : column 기준 작은 순서대로 n개의 행을 가져옴

In [10]:
df.sample(frac = 0.5)

Unnamed: 0,국어,수학,영어
A,85,100,92
C,88,84,90


In [11]:
df.sample(frac = 0.5)

Unnamed: 0,국어,수학,영어
B,92,92,90
C,88,84,90


In [12]:
df.sample(n = 2)

Unnamed: 0,국어,수학,영어
B,92,92,90
C,88,84,90


In [13]:
df.sample(n = 2)

Unnamed: 0,국어,수학,영어
C,88,84,90
A,85,100,92


In [14]:
df.nlargest(2, '국어')

Unnamed: 0,국어,수학,영어
B,92,92,90
C,88,84,90


In [15]:
df.nsmallest(2, '수학')

Unnamed: 0,국어,수학,영어
C,88,84,90
B,92,92,90


## 2. DataFrame 열에 접근

### 2.1. 열의 요소에 접근하기
 - df[열이름] : return Series - 단일 열에 접근하는 경우
 - df[[열1,열2]] : return DataFrame- 여러 열에 접근하는 경우

In [16]:
df['국어']

A    85
B    92
C    88
Name: 국어, dtype: int64

In [17]:
df[['국어','수학']]

Unnamed: 0,국어,수학
A,85,100
B,92,92
C,88,84


### 2.2. 새로운 열 만들기
- df[새로운 열] = [값]

In [18]:
df['과학'] = [90, 92, 95]
df

Unnamed: 0,국어,수학,영어,과학
A,85,100,92,90
B,92,92,90,92
C,88,84,90,95


### 2.3. 열 삭제하기
- del df[열이름]

In [19]:
del df['영어']
df

Unnamed: 0,국어,수학,과학
A,85,100,90
B,92,92,92
C,88,84,95


### 2.4. .copy( ) 함수
- 원본 데이터의 보존을 위해서 사용하는 함수

In [20]:
df2 = df[['수학', '과학']].copy()
df2['과학'] = [10, 20, 30]
df2

Unnamed: 0,수학,과학
A,100,10
B,92,20
C,84,30


In [21]:
df

Unnamed: 0,국어,수학,과학
A,85,100,90
B,92,92,92
C,88,84,95


### 2.5. 정규표현식으로 접근하기
- df.filter(regex = 정규표현식)
- regex = ⚪ : ⚪를 포함하는 문자열
- regex = ^⚪ : ⚪로 시작하는 문자열
- regex = ⚪$ : ⚪로 끝나는 문자열

In [22]:
df.filter(regex = "학")

Unnamed: 0,수학,과학
A,100,90
B,92,92
C,84,95


In [23]:
df.filter(regex = "^수")

Unnamed: 0,수학
A,100
B,92
C,84


In [24]:
df.filter(regex = "어$")

Unnamed: 0,국어
A,85
B,92
C,88
