In [1]:
import pandas as pd
exam = pd.read_csv('Data/exam.csv')
exam.head()

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [2]:
# 조건에 맞는 데이터 추출 - p.134
exam.query('nclass == 1') # exam에서 nclass가 1인 경우만 추출

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [3]:
exam.query('math >= 80') # 수학 점수가 80점 이상인 경우

Unnamed: 0,id,nclass,math,english,science
6,7,2,80,90,45
7,8,2,90,78,25
17,18,5,80,78,90
18,19,5,89,68,87


In [4]:
# and기호( & ), or기호( | ) - p.138
exam.query('nclass == 1 & math >= 50') # nclass가 1인 경우 and 수학 점수가 50점 이상인 경우

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60


In [5]:
# in과 []를 이용하여 조건 목록 입력
exam.query('nclass in [1, 3, 5]') # nclass가 1 또는 3 또는 5인 경우

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
16,17,5,65,68,98
17,18,5,80,78,90


In [6]:
# 추출한 행으로 데이터 만들기 - p.140
nclass1 = exam.query('nclass == 1') # df.query()의 리턴타입은 DataFrame
nclass1

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [7]:
# 문자 변수를 이용해 조건에 맞는 행 추출 - p.141
df = pd.DataFrame({'sex' : ['F', 'M', 'F', 'M'],
                   'country' : ['KOR', 'CHN', 'JPN', 'USA']})
df

Unnamed: 0,sex,country
0,F,KOR
1,M,CHN
2,F,JPN
3,M,USA


In [8]:
# 전체 조건을 감싸는 따옴표, 추출할 문자를 감싸는 따옴표는 서로 달라야 한다
df.query('sex == "F" & country == "KOR"')

Unnamed: 0,sex,country
0,F,KOR


In [9]:
# [참고] 외부 변수를 이용해 추출하기 - p.142
var = 3
exam.query('nclass == @var') # 데이터 프레임 외부의 변수를 이용하려면 변수명 앞에 @를 붙여 사용

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32


In [10]:
# 변수 추출하기 - p.145
exam['math'] # Series 타입으로 추출됨. type()으로 자료형 확인가능

0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78
Name: math, dtype: int64

In [11]:
exam[['math']] # 데이터 프레임 자료 구조를 유지하려면 []로 한 번 더 감싸면 된다

Unnamed: 0,math
0,50
1,60
2,45
3,30
4,25
5,50
6,80
7,90
8,20
9,50


In [12]:
# 여러 변수 추출하기 - p.146
exam[['nclass', 'math', 'english']]

Unnamed: 0,nclass,math,english
0,1,50,98
1,1,60,97
2,1,45,86
3,1,30,98
4,2,25,80
5,2,50,89
6,2,80,90
7,2,90,78
8,3,20,98
9,3,50,98


In [13]:
# 변수 제거하기 - p.147
exam.drop(columns = 'math') # math 변수 제거

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
1,2,1,97,60
2,3,1,86,78
3,4,1,98,58
4,5,2,80,65
5,6,2,89,98
6,7,2,90,45
7,8,2,78,25
8,9,3,98,15
9,10,3,98,45


In [14]:
exam.drop(columns = ['math', 'english']) # 여러 변수를 제거하려면 []에 변수명 나열

Unnamed: 0,id,nclass,science
0,1,1,50
1,2,1,60
2,3,1,78
3,4,1,58
4,5,2,65
5,6,2,98
6,7,2,45
7,8,2,25
8,9,3,15
9,10,3,45


In [15]:
# pandas함수 조합하기 - p.148
exam.query('nclass == 1')['english'] # query()와 [] 조합

0    98
1    97
2    86
3    98
Name: english, dtype: int64

In [16]:
exam.query('math >= 50')[['id', 'math']].head()

Unnamed: 0,id,math
0,1,50
1,2,60
5,6,50
6,7,80
7,8,90


In [17]:
# 코드 줄 바꿈 - p.150
# 명령어 뒤에 백슬레시(\)를 입력하고 줄바꿈. (\)뒤에는 주석이나 띄어쓰기 시 오류
exam.query('math >= 50') \
        [['id', 'math']] \
        .head()

Unnamed: 0,id,math
0,1,50
1,2,60
5,6,50
6,7,80
7,8,90


In [18]:
# 오름차순 정렬 - p.151
exam.sort_values('math') # math를 기준으로 오름차순 정렬

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
4,5,2,25,80,65
3,4,1,30,98,58
2,3,1,45,86,78
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
0,1,1,50,98,50
9,10,3,50,98,45
5,6,2,50,89,98


In [19]:
# 내림차순 정렬 - p.152
exam.sort_values('math', ascending = False) # ascending = False를 매개변수로 입력

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
18,19,5,89,68,87
17,18,5,80,78,90
6,7,2,80,90,45
19,20,5,78,83,58
14,15,4,75,56,78
16,17,5,65,68,98
10,11,3,65,65,65
1,2,1,60,97,60
15,16,4,58,98,65


In [20]:
# 여러 정렬 기준 사용하기 - p.152
# []를 이용하여 변수명 나열
exam.sort_values(['nclass', 'math']) # 먼저 반을 기준으로 정렬 후, 각 반에서 수학점수를 기준으로 정렬

Unnamed: 0,id,nclass,math,english,science
3,4,1,30,98,58
2,3,1,45,86,78
0,1,1,50,98,50
1,2,1,60,97,60
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
11,12,3,45,85,32


In [21]:
# 변수별로 정렬 순서를 다르게 지정 - p.153
exam.sort_values(['nclass', 'math'], ascending = [True, False]) # 먼저 반을 기준으로 오름차순 정렬 후,
                                                                # 각 반에서 수학점수를 기준으로 내림차순 정렬

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
0,1,1,50,98,50
2,3,1,45,86,78
3,4,1,30,98,58
7,8,2,90,78,25
6,7,2,80,90,45
5,6,2,50,89,98
4,5,2,25,80,65
10,11,3,65,65,65
9,10,3,50,98,45


In [22]:
# 파생변수 추가하기 - p.154

# df.assign(새 변수명 = 변수를 만드는 공식)
# 주의 - 새 변수명에는 따옴표를 붙이지 않음
exam.assign(total = exam['math'] + exam['english'] + exam['science'])

Unnamed: 0,id,nclass,math,english,science,total
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [23]:
# 파생변수 여러 개 추가하기
exam.assign(total = exam['math'] + exam['english'] + exam['science'],
            mean = exam['math'] + exam['english'] + exam['science'] / 3) # 콤마(,)로 구분

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,164.666667
1,2,1,60,97,60,217,177.0
2,3,1,45,86,78,209,157.0
3,4,1,30,98,58,186,147.333333
4,5,2,25,80,65,170,126.666667
5,6,2,50,89,98,237,171.666667
6,7,2,80,90,45,215,185.0
7,8,2,90,78,25,193,176.333333
8,9,3,20,98,15,133,123.0
9,10,3,50,98,45,193,163.0


In [24]:
# df.assign()에 np.where() 적용하기 - p.156
import numpy as np
exam.assign(test = np.where(exam['science'] >= 60, 'pass', 'fail'))

Unnamed: 0,id,nclass,math,english,science,test
0,1,1,50,98,50,fail
1,2,1,60,97,60,pass
2,3,1,45,86,78,pass
3,4,1,30,98,58,fail
4,5,2,25,80,65,pass
5,6,2,50,89,98,pass
6,7,2,80,90,45,fail
7,8,2,90,78,25,fail
8,9,3,20,98,15,fail
9,10,3,50,98,45,fail


In [25]:
# 람다(lambda)를 이용해 데이터 프레임명 줄여 쓰기 - p.157

# " lambda x: "는 데이터 프레임명 자리에 x를 입력하겠다는 의미
exam.assign(total = lambda x: x['math'] + x['english'] + x['science'])

Unnamed: 0,id,nclass,math,english,science,total
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [26]:
# 중요 - 앞에서 만든 파생변수를 이용하여 파생변수를 만들 때에는 반드시 lambda를 이용해야 한다

exam.assign(total = exam['math'] + exam['english'] + exam['science'],
            mean = lambda x: x['total'] / 3) # " mean = exam['total'] / 3 "으로 입력 시 에러 발생

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [27]:
# 요약 통계량 구하기 - p.159

# df.agg(할당할 변수명 = ('사용할 변수', '사용할 함수'))
# 할당할 변수명은 따옴표로 감싸지 않는다
# 변수명과 함수명은 따옴표로 감싸고, 함수명 뒤에 ()를 쓰지 않는다
exam.agg(mean_math = ('math', 'mean')) # math의 평균 구하기

Unnamed: 0,math
mean_math,57.45


In [28]:
# 집단별 요약 통계량 구하기 - p.160

# df.groupby('변수명') : 변수의 범주별로 데이터를 분리
exam.groupby('nclass').agg(mean_math = ('math', 'mean')) # nclass별로 분리하여 math의 평균 구하기

Unnamed: 0_level_0,mean_math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [29]:
# 위의 코드에서는 집단을 나타낸 변수명 "nclass"가 index로 사용된다
# as_index = False를 매개변수로 입력하면 변수를 인덱스로 사용하지 않는다
exam.groupby('nclass', as_index = False).agg(mean_math = ('math', 'mean'))

Unnamed: 0,nclass,mean_math
0,1,46.25
1,2,61.25
2,3,45.0
3,4,56.75
4,5,78.0


In [30]:
# 여러 요약 통계량 한 번에 구하기 - p.161

# agg()에 자주 사용되는 요약 통계량 함수 - p.162
# mean() : 평균
# std() : 표준편차
# sum() : 합계
# median(): 중앙값
# min() / max() : 최소값 / 최대값
# count() : 빈도(NaN을 제외한 데이터의 개수)

exam.groupby('nclass').agg(mean_math = ('math', 'mean'),
                           sum_math = ('math', 'sum'),
                           median_math = ('math', 'median'),
                           n = ('nclass', 'count'))

Unnamed: 0_level_0,mean_math,sum_math,median_math,n
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4


In [31]:
# [참고] df.groupby()에 agg()대신 mean() 등의 요약 통계량 함수를 적용하면-
# 데이터 프레임에 들어 있는 모든 변수의 요약 통계량을 한 번에 구할 수 있다

exam.groupby('nclass').mean()

Unnamed: 0_level_0,id,math,english,science
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2.5,46.25,94.75,61.5
2,6.5,61.25,84.25,58.25
3,10.5,45.0,86.5,39.25
4,14.5,56.75,84.75,55.0
5,18.5,78.0,74.25,83.25


In [32]:
# 집단별로 다시 집단 나누기 - p.163

mpg = pd.read_csv("Data/mpg.csv")
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [33]:
# df.groupby()에 여러 변수를 지정하면 집단을 나눈 후 다시 하위 집단으로 나눌 수 있다

mpg.groupby(['manufacturer', 'drv']).agg(mean_cty = ('cty', 'mean'))

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_cty
manufacturer,drv,Unnamed: 2_level_1
audi,4,16.818182
audi,f,18.857143
chevrolet,4,12.5
chevrolet,f,18.8
chevrolet,r,14.1
dodge,4,12.0
dodge,f,15.818182
ford,4,13.307692
ford,r,14.75
honda,f,24.444444


In [34]:
# toyota의 drv별 빈도
mpg.query('manufacturer == "toyota"').groupby('drv').agg(n = ('drv', 'count'))

Unnamed: 0_level_0,n
drv,Unnamed: 1_level_1
4,15
f,19


In [35]:
# [참고] df.value_counts()를 이용하면 집단별 빈도를 더욱 간단히 구할 수 있다
mpg.query('manufacturer == "toyota"')['drv'].value_counts()

f    19
4    15
Name: drv, dtype: int64

In [36]:
# pandas 함수 조합하기 - p.165
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [37]:
# 제조사별로 'suv'자동차의 도시 및 고속도로 합산 연비평균을 구해 내림차순으로 정렬 후 1~5위 출력
mpg.query('category == "suv"').assign(total = lambda x: (x['cty'] + x['hwy']) / 2)\
    .groupby('manufacturer').agg(mean_total = ('total', 'mean'))\
    .sort_values('mean_total', ascending = False).head()

Unnamed: 0_level_0,mean_total
manufacturer,Unnamed: 1_level_1
subaru,21.916667
toyota,16.3125
nissan,15.875
mercury,15.625
jeep,15.5625


In [38]:
# 데이터 가로로 합치기 (열 추가 하기) - p.168
test1 = pd.DataFrame({'id' : [1, 2, 3, 4, 5],
                      'midterm' : [60, 80, 70, 90, 85]})
test2 = pd.DataFrame({'id' : [1, 2, 3, 4, 5],
                      'final' : [70, 83, 65, 95, 80]})
test1

Unnamed: 0,id,midterm
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


In [39]:
test2

Unnamed: 0,id,final
0,1,70
1,2,83
2,3,65
3,4,95
4,5,80


In [40]:
# 새 데이터프레임 = pd.merge(데이터프레임1, 데이터프레임2, how = 'left', on = '기준 변수명')
total = pd.merge(test1, test2, how = 'left', on = 'id')
total

Unnamed: 0,id,midterm,final
0,1,60,70
1,2,80,83
2,3,70,65
3,4,90,95
4,5,85,80


In [41]:
# 다른 데이터를 활용해 변수 추가하기 - p.169
name = pd.DataFrame({'nclass' : [1, 2, 3, 4, 5],
                     'teacher' : ['Kim', 'Lee', 'Park', 'Choi', 'Jung']})
name

Unnamed: 0,nclass,teacher
0,1,Kim
1,2,Lee
2,3,Park
3,4,Choi
4,5,Jung


In [42]:
exam.head()

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [43]:
# nclass 변수를 기준으로 name 데이터프레임의 teacher변수를 exam에 추가
exam_new = pd.merge(exam, name, how = 'left', on = 'nclass')
exam_new

Unnamed: 0,id,nclass,math,english,science,teacher
0,1,1,50,98,50,Kim
1,2,1,60,97,60,Kim
2,3,1,45,86,78,Kim
3,4,1,30,98,58,Kim
4,5,2,25,80,65,Lee
5,6,2,50,89,98,Lee
6,7,2,80,90,45,Lee
7,8,2,90,78,25,Lee
8,9,3,20,98,15,Park
9,10,3,50,98,45,Park


In [44]:
# 데이터 세로로 합치기 (행 추가 하기) - p.170

group1 = pd.DataFrame({'id' : [1, 2, 3, 4, 5],
                       'test' : [60, 80, 70, 90, 85]})
group2 = pd.DataFrame({'id' : [6, 7, 8, 9, 10],
                       'test' : [70, 83, 65, 95, 80]})
group1

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


In [45]:
group2

Unnamed: 0,id,test
0,6,70
1,7,83
2,8,65
3,9,95
4,10,80


In [46]:
# 새 데이터프레임 = pd.concat([결합할 데이터프레임 나열])
# 두 데이터의 변수명이 같아야 가능
group_all = pd.concat([group1, group2])
group_all

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85
0,6,70
1,7,83
2,8,65
3,9,95
4,10,80


In [47]:
# 인덱스를 새로 부여하려면 ignore_index = True를 매개변수로 입력
group_all = pd.concat([group1, group2], ignore_index = True)
group_all

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85
5,6,70
6,7,83
7,8,65
8,9,95
9,10,80
