In [1]:
import pandas as pd
df = pd.read_csv('data/scores.csv')
df.head(3)

Unnamed: 0,name,kor,eng,math
0,1,5,5,10
1,2,0,0,10
2,3,10,10,10


# 컬럼명으로 데이터 추출하기
## 시리즈 형태로 추출하기

In [4]:
# 'name'컬럼 추출하기 - series 형태로
s_name = df['name']
s_name.head(3)

0    1
1    2
2    3
Name: name, dtype: int64

In [5]:
# type
type(s_name)

pandas.core.series.Series

In [7]:
# index
s_name.index

RangeIndex(start=0, stop=1048575, step=1)

In [8]:
# values
s_name.values

array([     1,      2,      3, ..., 120802, 120803, 120804], dtype=int64)

In [9]:
# shape - 크기
s_name.shape

(1048575,)

In [11]:
# 'eng'컬럼 추출
df.eng

0           5
1           0
2          10
3           6
4          10
           ..
1048570    10
1048571    10
1048572     1
1048573    10
1048574     0
Name: eng, Length: 1048575, dtype: int64

In [13]:
# 'math'컬럼 추출하기
df['math'].head(3)

0    10
1    10
2    10
Name: math, dtype: int64

## 데이터 프레임 형태로 추출

In [15]:
#'name','kor' 컬럼 데이터 추출하기
df_name_kor = df[['name','kor']]
df_name_kor

Unnamed: 0,name,kor
0,1,5
1,2,0
2,3,10
3,4,6
4,5,10
...,...,...
1048570,120800,10
1048571,120801,10
1048572,120802,1
1048573,120803,10


In [20]:
# 'math' 컬럼을 데이터프레임 형태로 추출
df_math = df[['math']].head(3)
df_math

Unnamed: 0,math
0,10
1,10
2,10


In [21]:
# type
type(df_math)

pandas.core.frame.DataFrame

##  조건에 따라 데이터 추출하기
### 조건의 결과에 따른 불린인덱스 투툴

In [23]:
# kor 점수가 10점인 데이터 불린 인덱스
df['kor'] == 10

0          False
1          False
2           True
3          False
4           True
           ...  
1048570     True
1048571     True
1048572    False
1048573     True
1048574    False
Name: kor, Length: 1048575, dtype: bool

### 불린인덱스로 데이터 추출하기

In [26]:
df[df['kor'] == 10]

Unnamed: 0,name,kor,eng,math
2,3,10,10,10
4,5,10,10,10
9,10,10,10,10
11,11,10,10,10
12,12,10,10,10
...,...,...,...,...
1048567,120797,10,10,0
1048569,120799,10,10,0
1048570,120800,10,10,0
1048571,120801,10,10,0


### 여러조건
* 논리연산자('&','|','~','^')를 사용할 때는 각 조건을 ()로 감싼다.

In [29]:
# 한 과목이라도 10을 받은 학생 추출
df[(df.kor == 100) | (df.eng == 10) | (df.math == 10)]

Unnamed: 0,name,kor,eng,math
0,1,5,5,10
1,2,0,0,10
2,3,10,10,10
3,4,6,6,10
4,5,10,10,10
...,...,...,...,...
1048567,120797,10,10,0
1048569,120799,10,10,0
1048570,120800,10,10,0
1048571,120801,10,10,0


In [34]:
# kor의 값의 60~90 인 학생의 name, kor 추출
df[(df['kor'] >= 6)&(df['kor'] <= 9)][['name','kor']]

Unnamed: 0,name,kor
3,4,6
13,13,9
14,14,9
17,17,9
18,18,9
...,...,...
1048552,120782,9
1048555,120785,8
1048558,120788,9
1048563,120793,9


### 특정 값을 가진 데이터만 추출
* 컬럼.isin(값리스트)

In [37]:
# 이름이 5인 데이터 추출
df[df['name'].isin([5])]

Unnamed: 0,name,kor,eng,math
4,5,10,10,10
434,5,10,10,10
497,5,10,10,10
1068,5,10,10,10
1883,5,10,10,10
2250,5,10,10,10
69840,5,10,10,10
71838,5,10,10,10
78147,5,10,10,10
176312,5,10,10,10


In [39]:
# 이름이 5, 9인 데이터추출
df[df['name'].isin([5,9])]

Unnamed: 0,name,kor,eng,math
4,5,10,10,10
8,9,1,1,10
280,9,1,1,10
434,5,10,10,10
497,5,10,10,10
1068,5,10,10,10
1238,9,1,1,10
1883,5,10,10,10
2250,5,10,10,10
3083,9,2,2,10


In [41]:
# kor이 5,10인 데이터 추출
df[df['kor'].isin([1,5])]

Unnamed: 0,name,kor,eng,math
0,1,5,5,10
6,7,1,1,10
8,9,1,1,10
10,7,1,1,10
30,21,1,1,10
...,...,...,...,...
1048354,120584,1,1,0
1048400,120630,1,1,0
1048444,120674,5,5,0
1048456,120686,5,5,0


### null 여부에 따른 데이터 추출
* isnull() 컬럼의 값이 null인 데이터
* isnotnull() 컬럼의 값이 null이 아닌 데이터

In [42]:
# kor이 null인 데이터 추출
df[df['kor'].isnull()]

Unnamed: 0,name,kor,eng,math


In [43]:
# kor이 null이 아닌 데이터 추출
df[df['kor'].notnull()]

Unnamed: 0,name,kor,eng,math
0,1,5,5,10
1,2,0,0,10
2,3,10,10,10
3,4,6,6,10
4,5,10,10,10
...,...,...,...,...
1048570,120800,10,10,0
1048571,120801,10,10,0
1048572,120802,1,1,0
1048573,120803,10,10,0
