# 06 자유자재로 데이터 가공하기

## 파이썬 운영환경을 사전에 기본 점검하기

In [1]:
%%html
<!--마크다운 표 정렬 설정-->
<style> table {float:left} </style>

### import os 명령을 통하여 os안에 있는 기본명령을 사용할 수가 있다.  
- 기본 os 명령을 사용하려면 <font color='blue'>**import os**</font>명령을 사용한다.  
- *os.* 상태에서 **<탭>키**를 쳐서 부속된 속성(attribute)을 확인할 수가 있다.   
- **작업디렉토리변경(chdir), 작업디렉토리생성(mkdir)** 등 기본적인 작업이 가능하다.    
- 파이썬은 디렉토리(폴더) 주소를 판별할 때에 \은 \\로 나타내야 하고 /는 그냥 한개만 사용하면 된다.  
  - 따라서 리눅스와 파일을 주고받아야 할 경우 경로를 /로 표시해 두는 것이 좋다.  

In [4]:
import os   # OS 명령을 기본 사용하기 위한 라이브러리  

os.getcwd()   # 내가 현재 어느 폴더에 위치해 있는 지를 표시  

'C:\\Users\\A\\python_Data'

In [5]:
os.chdir('../python_Data/data')   # 상대경로 이동 

os.getcwd()           # 내가 현재 어느 폴더에 위치해 있는 지를 표시  

'C:\\Users\\A\\python_Data\\data'

### 파이썬 기본 경고메세지 처리(무시 OR 기본값) 하기

In [3]:
import warnings     # 파이썬 기본적인 경고메세지 처리하기     

warnings.filterwarnings(action='ignore')      # 기본적인 경고메세지 무시하기 
# warnings.filterwarnings(action='default')    # 기본적인 경고메세지 기본값으로 표시하기   

### 이 책에서 사용하는 소프트웨어 버전 

In [4]:
import sys
print("Python 버전:", sys.version)

import pandas as pd
print("pandas 버전:", pd.__version__)

import matplotlib
print("matplotlib 버전:", matplotlib.__version__)

import numpy as np
print("NumPy 버전:", np.__version__) 

import seaborn as sns  
print("Seaborn 버전:", sns.__version__) 

import sklearn as skl 
print("scikit-learn 버전:", skl.__version__)

Python 버전: 3.11.5 | packaged by Anaconda, Inc. | (main, Sep 11 2023, 13:26:23) [MSC v.1916 64 bit (AMD64)]
pandas 버전: 2.1.1
matplotlib 버전: 3.7.2
NumPy 버전: 1.24.3
Seaborn 버전: 0.12.2
scikit-learn 버전: 1.3.0


## 06-1 데이터 전처리 - 원하는 형태로 데이터 가공하기

| 함수          | 기능              |
|---------------|-------------------|
| query()       | 행 추출           |
| df[]          | 열(변수) 추출     |
| sort_values() | 정렬              |
| groupby()     | 집단별로 나누기   |
| agg()         | 통계치 구하기     |
| merge()       | 데이터 합치기(열) |
| concat()      | 데이터 합치기(행) |

## 06-2 조건에 맞는 데이터만 추출하기

### 조건에 맞는 데이터만 추출하기

In [43]:
import pandas as pd

exam = pd.read_csv('../data/exam.csv')
exam.head(10)


Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [40]:
# exam에서 nclass가 1인 경우만 추출
exam.query('nclass == 1')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [7]:
# 2반인 경우만 추출
exam.query('nclass == 2')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25


In [8]:
# 1반이 아닌 경우
exam.query('nclass != 1')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12


In [9]:
# 3반이 아닌 경우
exam.query('nclass != 3')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
12,13,4,46,98,65
13,14,4,48,87,12


### 초과, 미만, 이상, 이하 조건 걸기

In [10]:
# 수학 점수가 50점을 초과한 경우
exam.query('math > 50')

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [11]:
# 수학 점수가 50점 미만인 경우
exam.query('math < 50')

Unnamed: 0,id,nclass,math,english,science
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
8,9,3,20,98,15
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12


In [12]:
# 영어 점수가 50점 이상인 경우
exam.query('english >= 50')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [13]:
# 영어 점수가 80점 이하인 경우
exam.query('english <= 80')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87


### 여러 조건을 충족하는 행 추출하기

In [14]:
# 1반이면서 수학 점수가 50 점 이상인 경우
exam.query('nclass == 1 & math >= 50')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60


In [15]:
# 2반이면서 영어 점수가 80 점 이상인 경우
exam.query('nclass == 2 & english >= 80')

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45


### 여러 조건 중 하나 이상 충족하는 행 추출하기

In [16]:
# 수학 점수가 90점 이상이거나 영어 점수가 90점 이상인 경우
exam.query('math >= 90 | english >= 90')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
3,4,1,30,98,58
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
12,13,4,46,98,65
15,16,4,58,98,65


In [17]:
# 영어 점수가 90점 미만이거나 과학 점수가 50점 미만인 경우
exam.query('english < 90 | science < 50')

Unnamed: 0,id,nclass,math,english,science
2,3,1,45,86,78
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
13,14,4,48,87,12


### 목록에 해당하는 행 추출하기

In [18]:
# 1, 3, 5반에 해당하면 추출
exam.query('nclass == 1 | nclass == 3 | nclass == 5')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
16,17,5,65,68,98
17,18,5,80,78,90


In [19]:
# 1, 3, 5반에 해당하면 추출
exam.query('nclass in [1, 3, 5]')

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
16,17,5,65,68,98
17,18,5,80,78,90


### 추출한 행으로 데이터 만들기

In [22]:
# nclass가 1인 행 추출해 nclass1에 할당
nclass1 = exam.query('nclass == 1')
nclass1

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [23]:
# nclass가 2인 행 추출해 nclass2에 할당
nclass2 = exam.query('nclass == 2')
nclass2

Unnamed: 0,id,nclass,math,english,science
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25


In [26]:
nclass1['math'].sum() # 1반 수학 점수 합계 구하기

185

In [24]:
nclass1['math'].mean()  # 1반 수학 점수 평균 구하기

46.25

In [28]:
nclass2['math'].sum() # 2반 수학 점수 합계 구하기

245

In [25]:
nclass2['math'].mean()  # 2반 수학 점수 평균 구하기

61.25

### 문자 변수를 이용해 조건에 맞는 행 추출하기

In [29]:
df = pd.DataFrame({'sex'     : ['F', 'M', 'F', 'M'],
                   'country' : ['Korea', 'China', 'Japan', 'USA']})
df

Unnamed: 0,sex,country
0,F,Korea
1,M,China
2,F,Japan
3,M,USA


In [30]:
# 전체 조건에 작은따옴표, 추출할 문자에 큰따옴표 사용
df.query('sex == "F" & country == "Korea"')

Unnamed: 0,sex,country
0,F,Korea


In [31]:
# 전체 조건에 큰따옴표, 추출할 문자에 작은따옴표 사용
df.query("sex == 'M' & country == 'China'")

Unnamed: 0,sex,country
1,M,China


In [32]:
# 전체 조건과 추출할 문자에 모두 작은따옴표 사용
df.query("sex == 'F' & country == 'Korea'")

Unnamed: 0,sex,country
0,F,Korea


---

### (알아 두면 좋아요) 외부 변수를 이용해 추출하기

In [33]:
var = 3
exam.query('nclass == @var')

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32


In [34]:
var = 4
exam.query('nclass == @var')

Unnamed: 0,id,nclass,math,english,science
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65


### (알아 두면 좋아요) 파이썬에서 사용하는 기호


| 논리 연산자 | 기능        |
|:-----------:|-------------|
| <           | 작다        |
| <=          | 작거나 같다 |
| >           | 크다        |
| >=          | 크거나 같다 |
| ==          | 같다        |
| !=          | 같지 않다   |
| \|          | 또는        |
| &           | 그리고      |
| in          | 매칭 확인   |

| 산술 연산자 | 기능            |
|:-----------:|-----------------|
| +           | 더하기          |
| -           | 빼기            |
| *           | 곱하기          |
| **          | 제곱            |
| /           | 나누기          |
| //          | 나눗셈의 몫     |
| %           | 나눗셈의 나머지 |

## (알아 두면 좋아요) 데이터 프레임 출력 제한 설정하기
### 데이터 많은 경우에 실습해 봅니다.

In [48]:
pd.set_option('display.max_rows', None)     # 모든 행 출력하도록 설정
pd.set_option('display.max_columns', None)     # 모든 행 출력하도록 설정

In [49]:
pd.reset_option('display.max_rows')     # 행 출력 제한 되돌리기
pd.reset_option('display.max_columns')  # 열 출력 제한 되돌리기
pd.reset_option('all') # 모든 설정 되돌리기

------------------------------------------------------------------------

## 06-3 필요한 변수만 추출하기

### 변수 추출하기

In [51]:
exam['math']  # math 추출

0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78
Name: math, dtype: int64

In [53]:
examMath = exam['math']  # math 추출하여 파생변수에 저장후, 데이터 이용가능 
examMath

0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78
Name: math, dtype: int64

In [54]:
exam['english']  # english 추출

0     98
1     97
2     86
3     98
4     80
5     89
6     90
7     78
8     98
9     98
10    65
11    85
12    98
13    87
14    56
15    98
16    68
17    78
18    68
19    83
Name: english, dtype: int64

In [55]:
examEnglish = exam['english']  # english 추출
examEnglish

0     98
1     97
2     86
3     98
4     80
5     89
6     90
7     78
8     98
9     98
10    65
11    85
12    98
13    87
14    56
15    98
16    68
17    78
18    68
19    83
Name: english, dtype: int64

#### 여러 변수 추출하기



In [56]:
exam[['nclass', 'math', 'english']]  # nclass, math, english 추출

Unnamed: 0,nclass,math,english
0,1,50,98
1,1,60,97
2,1,45,86
3,1,30,98
4,2,25,80
5,2,50,89
6,2,80,90
7,2,90,78
8,3,20,98
9,3,50,98


In [57]:
examNclass = exam[['nclass', 'math', 'english']]  # nclass, math, english 추출
examNclass

Unnamed: 0,nclass,math,english
0,1,50,98
1,1,60,97
2,1,45,86
3,1,30,98
4,2,25,80
5,2,50,89
6,2,80,90
7,2,90,78
8,3,20,98
9,3,50,98


#### (알아 두면 좋아요) 변수가 1개 일 때 데이터 프레임 유지하기

- 시리즈는 데이터의 값을 여러개 나열한 경우인데, 데이터 프레임의 하위 구성요소로 사용 됩니다.

In [58]:
# 시리즈로 추출
exam['math'] 

0     50
1     60
2     45
3     30
4     25
5     50
6     80
7     90
8     20
9     50
10    65
11    45
12    46
13    48
14    75
15    58
16    65
17    80
18    89
19    78
Name: math, dtype: int64

In [60]:
# 데이터 프레임으로 추출: 데이터 프레임 형식으로 유지되는 상태임.
exam[['math']] 

Unnamed: 0,math
0,50
1,60
2,45
3,30
4,25
5,50
6,80
7,90
8,20
9,50


------------------------------------------------------------------------

### 변수 제거하기



In [61]:
exam.drop(columns = 'math')  # math 제거

Unnamed: 0,id,nclass,english,science
0,1,1,98,50
1,2,1,97,60
2,3,1,86,78
3,4,1,98,58
4,5,2,80,65
5,6,2,89,98
6,7,2,90,45
7,8,2,78,25
8,9,3,98,15
9,10,3,98,45


In [62]:
exam.drop(columns = ['math', 'english'])  # math, english 제거

Unnamed: 0,id,nclass,science
0,1,1,50
1,2,1,60
2,3,1,78
3,4,1,58
4,5,2,65
5,6,2,98
6,7,2,45
7,8,2,25
8,9,3,15
9,10,3,45


In [63]:
examdrop = exam.drop(columns = ['math', 'english'])  # math, english 제거
examdrop

Unnamed: 0,id,nclass,science
0,1,1,50
1,2,1,60
2,3,1,78
3,4,1,58
4,5,2,65
5,6,2,98
6,7,2,45
7,8,2,25
8,9,3,15
9,10,3,45


### pandas 함수 조합하기

#### `query()`와 `[]` 조합하기

In [64]:
# nclass가 1인 행만 추출한 다음 english 추출
exam.query('nclass == 1')['english']

0    98
1    97
2    86
3    98
Name: english, dtype: int64

In [66]:
examEnglish = exam.query('nclass == 1')['english']
examEnglish

0    98
1    97
2    86
3    98
Name: english, dtype: int64

In [71]:
# nclass가 1인 행만 추출한 다음 science 추출
exam.query('nclass == 1')['science']

0    50
1    60
2    78
3    58
Name: science, dtype: int64

In [77]:
# math가 50 이상인 행만 추출한 다음 id, math 추출
x = exam.query('math >= 50')[['id', 'math']]
print(x)
x.count()

    id  math
0    1    50
1    2    60
5    6    50
6    7    80
7    8    90
9   10    50
10  11    65
14  15    75
15  16    58
16  17    65
17  18    80
18  19    89
19  20    78


id      13
math    13
dtype: int64

#### 일부만 출력하기

In [78]:
# math가 50 이상인 행만 추출한 다음 id, math 앞부분 5행까지 추출
exam.query('math >= 50')[['id', 'math']].head()

Unnamed: 0,id,math
0,1,50
1,2,60
5,6,50
6,7,80
7,8,90


In [79]:
# math가 50 이상인 행만 추출한 다음 id, math 앞부분 10행까지 추출
exam.query('math >= 50')[['id', 'math']].head(10)

Unnamed: 0,id,math
0,1,50
1,2,60
5,6,50
6,7,80
7,8,90
9,10,50
10,11,65
14,15,75
15,16,58
16,17,65


### 가독성 있게 코드 줄 바꾸기

In [80]:
# math가 50 이상인 행만 추출
# id, math 추출
# 앞부분 10행 추출
exam.query('math >= 50') \
    [['id', 'math']] \
    .head(10)

Unnamed: 0,id,math
0,1,50
1,2,60
5,6,50
6,7,80
7,8,90
9,10,50
10,11,65
14,15,75
15,16,58
16,17,65


---

## 06-4 순서대로 정렬하기

### 오름차순으로 정렬하기

In [43]:
exam.sort_values('math')  # math 오름차순 정렬

Unnamed: 0,id,nclass,math,english,science
8,9,3,20,98,15
4,5,2,25,80,65
3,4,1,30,98,58
2,3,1,45,86,78
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
0,1,1,50,98,50
9,10,3,50,98,45
5,6,2,50,89,98


### 내림차순으로 정렬하기



In [81]:
exam.sort_values('math', ascending = False)  # math 내림차순 정렬

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
18,19,5,89,68,87
17,18,5,80,78,90
6,7,2,80,90,45
19,20,5,78,83,58
14,15,4,75,56,78
16,17,5,65,68,98
10,11,3,65,65,65
1,2,1,60,97,60
15,16,4,58,98,65


### 여러 정렬 기준 적용하기

In [82]:
# nclass, math 오름차순 정렬
exam.sort_values(['nclass', 'math'])

Unnamed: 0,id,nclass,math,english,science
3,4,1,30,98,58
2,3,1,45,86,78
0,1,1,50,98,50
1,2,1,60,97,60
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
11,12,3,45,85,32


In [83]:
# nclass 오름차순, math 내림차순 정렬
exam.sort_values(['nclass', 'math'], ascending = [True, False])

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
0,1,1,50,98,50
2,3,1,45,86,78
3,4,1,30,98,58
7,8,2,90,78,25
6,7,2,80,90,45
5,6,2,50,89,98
4,5,2,25,80,65
10,11,3,65,65,65
9,10,3,50,98,45


In [85]:
# id, nclass 오름차순 정렬
exam.sort_values(['id', 'nclass'])

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [89]:
# id 오름차순, nclass 내림차순 정렬 => 이결과는 신뢰도가 떨어지므로 사용하지 않습니다.
exam.sort_values(['id', 'nclass'], ascending = [True, False])

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


------------------------------------------------------------------------

## 06-5 파생변수 추가하기

### 파생변수 추가하기

In [90]:
# total 변수 추가
exam.assign(total = exam['math'] + exam['english'] + exam['science'])

Unnamed: 0,id,nclass,math,english,science,total
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


#### 여러 파생변수 한 번에 추가하기

In [91]:
exam.assign(total = exam['math'] + exam['english'] + exam['science'],       # total 추가
            mean = (exam['math'] + exam['english'] + exam['science']) / 3)  # mean 추가

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


### `df.assign()`에 `np.where()` 적용하기

In [92]:
import numpy as np
exam.assign(test = np.where(exam['science'] >= 60, 'pass', 'fall'))

Unnamed: 0,id,nclass,math,english,science,test
0,1,1,50,98,50,fall
1,2,1,60,97,60,pass
2,3,1,45,86,78,pass
3,4,1,30,98,58,fall
4,5,2,25,80,65,pass
5,6,2,50,89,98,pass
6,7,2,80,90,45,fall
7,8,2,90,78,25,fall
8,9,3,20,98,15,fall
9,10,3,50,98,45,fall


### 추가한 변수를 `pandas` 함수에 바로 활용하기


In [93]:
# total 변수 추가
# total 기준 정렬
exam.assign(total = exam['math'] + exam['english'] + exam['science']) \
    .sort_values('total')

Unnamed: 0,id,nclass,math,english,science,total
8,9,3,20,98,15,133
13,14,4,48,87,12,147
11,12,3,45,85,32,162
4,5,2,25,80,65,170
3,4,1,30,98,58,186
9,10,3,50,98,45,193
7,8,2,90,78,25,193
10,11,3,65,65,65,195
0,1,1,50,98,50,198
2,3,1,45,86,78,209


### `lambda` 이용해 데이터 프레임명 줄여 쓰기



In [94]:
# 긴 데이터 프레임명 지정
long_name = pd.read_csv('../data/exam.csv')

# long_name 직접 입력
long_name.assign(new = long_name['math'] + long_name['english'] + long_name['science'])

Unnamed: 0,id,nclass,math,english,science,new
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


In [95]:
# long_name 대신 x 입력
long_name.assign(new = lambda x: x['math'] + x['english'] + x['science'])

Unnamed: 0,id,nclass,math,english,science,new
0,1,1,50,98,50,198
1,2,1,60,97,60,217
2,3,1,45,86,78,209
3,4,1,30,98,58,186
4,5,2,25,80,65,170
5,6,2,50,89,98,237
6,7,2,80,90,45,215
7,8,2,90,78,25,193
8,9,3,20,98,15,133
9,10,3,50,98,45,193


#### 앞에서 만든 변수를 활용해 다시 변수 만들기

In [96]:
exam.assign(total = exam['math'] + exam['english'] + exam['science'],
            mean  = lambda x: x['total'] / 3)    

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [97]:
exam.assign(total = lambda x: x['math'] + x['english'] + x['science'], 
            mean  = lambda x: x['total'] / 3)

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


In [99]:
#exam.assign(total = exam['math'] + exam['english'] + exam['science'],
#            mean  = exam['total'] / 3)     

exam.assign(total = lambda x: x['math'] + x['english'] + x['science'], 
            mean  = lambda x: x['total'] / 3)

Unnamed: 0,id,nclass,math,english,science,total,mean
0,1,1,50,98,50,198,66.0
1,2,1,60,97,60,217,72.333333
2,3,1,45,86,78,209,69.666667
3,4,1,30,98,58,186,62.0
4,5,2,25,80,65,170,56.666667
5,6,2,50,89,98,237,79.0
6,7,2,80,90,45,215,71.666667
7,8,2,90,78,25,193,64.333333
8,9,3,20,98,15,133,44.333333
9,10,3,50,98,45,193,64.333333


---

## 06-6 집단별로 요약하기

### 집단별로 요약하기
- 집단별 평균이나 빈도처럼 각 집단을 요약한 값을 구하고자 할때, df.group()와 df.agg()를 사용합니다.
- 이함수들을 사용하며, 요약표를 만들어 집단간에 어떤 차이가 있는지를 파악이 가능합니다.

#### 전체 요약 통계량 구하기


In [101]:
# math 평균 구하기
exam.agg(mean_math = ('math', 'mean'))

Unnamed: 0,math
mean_math,57.45


In [102]:
# science 평균 구하기
exam.agg(mean_science = ('science', 'mean'))

Unnamed: 0,science
mean_science,59.45


#### 집단별 요약 통계량 구하기


In [103]:
# nclass별로 분리하기
# math 평균 구하기
exam.groupby('nclass') \
    .agg(mean_math = ('math', 'mean'))

Unnamed: 0_level_0,mean_math
nclass,Unnamed: 1_level_1
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [104]:
exam.groupby('nclass').agg(mean_english = ('english', 'mean'))

Unnamed: 0_level_0,mean_english
nclass,Unnamed: 1_level_1
1,94.75
2,84.25
3,86.5
4,84.75
5,74.25


#### (알아 두면 좋아요) 변수를 인덱스로 바꾸지 않기
- index란 데이터 프레임의 어디에 값이 있는지 위치를 나타낸 값을 말합니다,.

In [106]:
exam.groupby('nclass', as_index = False) \
    .agg(mean_math = ('math', 'mean'))

Unnamed: 0,nclass,mean_math
0,1,46.25
1,2,61.25
2,3,45.0
3,4,56.75
4,5,78.0


------------------------------------------------------------------------

#### 여러 요약 통계량 한 번에 구하기



In [108]:
# nclass별로 분리
# 수학 점수 평균
# 수학 점수 합계
# 수학 점수 중앙값
# 빈도(학생 수)
exam.groupby('nclass') \
    .agg(mean_math   = ('math', 'mean'),     
         sum_math    = ('math', 'sum'),
         median_math = ('math', 'median'),   
         max_math = ('math', 'max'),
         n           = ('nclass', 'count'))

Unnamed: 0_level_0,mean_math,sum_math,median_math,max_math,n
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,46.25,185,47.5,60,4
2,61.25,245,65.0,90,4
3,45.0,180,47.5,65,4
4,56.75,227,53.0,75,4
5,78.0,312,79.0,89,4


---

### (알아 두면 좋아요) 모든 변수의 요약 통계량 한 번에 구하기

In [109]:
exam.groupby('nclass').mean()

Unnamed: 0_level_0,id,math,english,science
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2.5,46.25,94.75,61.5
2,6.5,61.25,84.25,58.25
3,10.5,45.0,86.5,39.25
4,14.5,56.75,84.75,55.0
5,18.5,78.0,74.25,83.25


In [111]:
#id 제거하기 
exam.groupby('nclass').mean()
exam.drop(columns = 'id')

Unnamed: 0,nclass,math,english,science
0,1,50,98,50
1,1,60,97,60
2,1,45,86,78
3,1,30,98,58
4,2,25,80,65
5,2,50,89,98
6,2,80,90,45
7,2,90,78,25
8,3,20,98,15
9,3,50,98,45


------------------------------------------------------------------------

### 집단별로 다시 집단 나누기

In [11]:
import pandas as pd

mpg = pd.read_csv('../data/mpg.csv')
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [12]:
# 제조회사별로 집단을 나눈 다음에 다시 구동 방식별로 나눠서 도시 연비 평균을 구하고자 합니다.
# 제조 회사 및 구동 방식별 분리
# cty 평균 구하기
mpg.groupby(['manufacturer', 'drv']) \
   .agg(mean_cty = ('cty', 'mean'))

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_cty
manufacturer,drv,Unnamed: 2_level_1
audi,4,16.818182
audi,f,18.857143
chevrolet,4,12.5
chevrolet,f,18.8
chevrolet,r,14.1
dodge,4,12.0
dodge,f,15.818182
ford,4,13.307692
ford,r,14.75
honda,f,24.444444


In [13]:
## audi의 drv별 빈도

# audi 추출
# drv별 분리
# 빈도 구하기 => 2종 생산
mpg.query('manufacturer == "audi"') \
   .groupby(['drv']) \
   .agg(n = ('drv', 'count'))

Unnamed: 0_level_0,n
drv,Unnamed: 1_level_1
4,11
f,7


In [14]:
## chevrolet의 drv별 빈도

# chevrolet 추출
# drv별 분리
# 빈도 구하기 => 3종 생산
mpg.query('manufacturer == "chevrolet"') \
   .groupby(['drv']) \
   .agg(n = ('drv', 'count'))

Unnamed: 0_level_0,n
drv,Unnamed: 1_level_1
4,4
f,5
r,10


#### (알아 두면 좋아요) `value_counts()`로 집단별 빈도 간단하게 구하기
- 4륜, 전륜, 후륜 구동 방식설명<br>
https://blog.getcha.kr/%EC%A0%84%EB%A5%9C-%ED%9B%84%EB%A5%9C-%EC%82%AC%EB%A5%9C4%EB%A5%9C%EC%9D%B4%EB%9E%80-%EC%9E%90%EB%8F%99%EC%B0%A8-%EA%B5%AC%EB%8F%99-%EB%B0%A9%EC%8B%9D%EB%B3%84-%EC%9E%A5%EB%8B%A8%EC%A0%90/

In [15]:
mpg.groupby('drv') \
   .agg(n = ('drv', 'count'))

Unnamed: 0_level_0,n
drv,Unnamed: 1_level_1
4,103
f,106
r,25


In [16]:
mpg['drv'].value_counts()

drv
f    106
4    103
r     25
Name: count, dtype: int64

In [18]:
#출력 결과가 데이터 프레임이 아닌 시리즈 자료구조이므로 query() 적용이 안됩니다.
mpg['drv'].value_counts().get('n > 100')                     # sql('n > 100')

In [26]:
# 그래서, query()를 적용하려면 데이터프레임으로 변환하여 사용해야 합니다.
# drv 빈도 구하기
# 데이터 프레임으로 바꾸기, 변수명 n으로 바꾸기
# axis 이름에 drv 지정
# n이 100을 초과한 경우 추출
mpg['drv'].value_counts() \
          .to_frame('n') \
          .rename_axis('drv') \
          .query('n > 100')

Unnamed: 0_level_0,n
drv,Unnamed: 1_level_1
f,106
4,103


------------------------------------------------------------------------

### `pandas` 함수 조합하기

In [27]:
# 제조회사별로 'suv' 자동차의 도시 연비 및 고속도로 연비 평균을 구하고, 내림차순으로 정렬하고,  1~5위까지를 출력하세요.
# suv 추출
# 합산 연비 변수 만들기 => total
# 제조 회사별로 분리
# 합산 연비 평균 구하기 => mean_tot
# 내림차순 정렬
# 1~5위까지 출력
mpg.query('category == "suv"') \
   .assign(total = (mpg['hwy'] + mpg['cty']) / 2) \
   .groupby('manufacturer') \
   .agg(mean_tot = ('total', 'mean')) \
   .sort_values('mean_tot', ascending = False) \
   .head()

Unnamed: 0_level_0,mean_tot
manufacturer,Unnamed: 1_level_1
subaru,21.916667
toyota,16.3125
nissan,15.875
mercury,15.625
jeep,15.5625


### 문제

In [30]:
#mpg 데이터를 이용해서 분석 문제를 해결해 보세요 .

#Q1. mpg 데이터의 class 는 "suv" , "compact" 등 자동차를 특징에 따라 일곱 종류로 분류한 변수입니다. 
#어떤 차종의 연비가 높은지 비교해보려고 합니다. 
#class 별 cty 평균을 구해보세요.


#Q2. 앞 문제의 출력 결과는 class 값 알파벳 순으로 정렬되어 있습니다. 
#어떤 차종의 도시 연비가 높은지 쉽게 알아볼 수 있도록 cty 평균이 높은 순으로 정렬해 출력하세요.


#Q3. 어떤 회사 자동차의 hwy ( 고속도로 연비 ) 가 가장 높은지 알아보려고 합니다. 
# hwy 평균이 가장 높은 회사 세 곳을 출력하세요.


#Q4. 어떤 회사에서 "compact" ( 경차 ) 차종을 가장 많이 생산하는지 알아보려고 합니다. 
#각 회사별 "compact" 차종 수를 내림차순으로 정렬해 출력하세요.
#[hint] filter() 를 이용해 "compact" 차종만 남긴 후 회사별 자동차 수를 구하면 됩니다. 
#자동차 수는 데이터가 몇 행으로 구성되는지 빈도를 구하면 알 수 있습니다. 
#빈도는 n() 을 이용해 구할 수 있습니다.

### Q1. mpg 데이터의 class 는 "suv" , "compact" 등 자동차를 특징에 따라 일곱 종류로 분류한 변수입니다. 
### 어떤 차종의 연비가 높은지 비교해보려고 합니다. 
### class 별 cty 평균을 구해보세요.

In [33]:
import pandas as pd

mpg = pd.read_csv('../data/mpg.csv')
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [46]:
# category별 분리
# cty 평균 구하기
mpg.groupby(['category']) \
   .agg(mean_cty = ('cty', 'mean'))    

Unnamed: 0_level_0,mean_cty
category,Unnamed: 1_level_1
2seater,15.4
compact,20.12766
midsize,18.756098
minivan,15.818182
pickup,13.0
subcompact,20.371429
suv,13.5


### Q2. 앞 문제의 출력 결과는 class 값 알파벳 순으로 정렬되어 있습니다. 
### 어떤 차종의 도시 연비가 높은지 쉽게 알아볼 수 있도록 cty 평균이 높은 순으로 정렬해 출력하세요.

In [48]:
# category별 분리
# cty 평균 구하기
mpg.groupby(['category']) \
   .agg(mean_cty = ('cty', 'mean')) \
   .sort_values('mean_cty', ascending = False)

Unnamed: 0_level_0,mean_cty
category,Unnamed: 1_level_1
subcompact,20.371429
compact,20.12766
midsize,18.756098
minivan,15.818182
2seater,15.4
suv,13.5
pickup,13.0


### Q3. 어떤 회사 자동차의 hwy ( 고속도로 연비 ) 가 가장 높은지 알아보려고 합니다. 
### hwy 평균이 가장 높은 회사 세 곳을 출력하세요.

In [49]:
# manufacturer 분리
# cty 평균 구하기
mpg.groupby(['manufacturer']) \
   .agg(mean_hwy = ('hwy', 'mean')) \
   .sort_values('mean_hwy', ascending = False) \
   .head(3)

Unnamed: 0_level_0,mean_hwy
manufacturer,Unnamed: 1_level_1
honda,32.555556
volkswagen,29.222222
hyundai,26.857143


### Q4. 어떤 회사에서 "compact" ( 경차 ) 차종을 가장 많이 생산하는지 알아보려고 합니다. 
### 각 회사별 "compact" 차종 수를 내림차순으로 정렬해 출력하세요.
### 자동차 수는 데이터가 몇 행으로 구성되는지 빈도를 구하면 알 수 있습니다. 
### 빈도는 n() 을 이용해 구할 수 있습니다.

In [44]:
# manufacturer 분리
# compact 추출하기 
mpg.query('category == "compact"') \
   .value_counts('manufacturer')

manufacturer
audi          15
volkswagen    14
toyota        12
subaru         4
nissan         2
Name: count, dtype: int64

## 06-7 데이터 합치기
 - 하나의 데이터를 가지고 데이터 분석이 가능하지만, 때로는 여러개의 데이터를 가지고 분석합니다.
 - 아래처럼 중간고사 점수와 기말고사 점수를 합쳐서 분석 하기도 합니다.
 - 중간고사보다 점수가 더 올랐는지, 내렸는지를 판단할 수 있습니다.
 - 가로 합치기와 세로 합치기가 존재합니다.

### 가로로 합치기

In [50]:
# 중간고사 데이터 만들기
test1 = pd.DataFrame({'id'      : [1, 2, 3, 4, 5],
                      'midterm' : [60, 80, 70, 90, 85]})

# 기말고사 데이터 만들기
test2 = pd.DataFrame({'id'    : [1, 2, 3, 4, 5],
                      'final' : [70, 83, 65, 95, 80]})

In [51]:
test1  # test1 출력

Unnamed: 0,id,midterm
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


In [52]:
test2  # test2 출력

Unnamed: 0,id,final
0,1,70
1,2,83
2,3,65
3,4,95
4,5,80


In [53]:
# id 기준으로 합쳐서 total에 할당
total = pd.merge(test1, test2, how = 'left', on = 'id')
total

Unnamed: 0,id,midterm,final
0,1,60,70
1,2,80,83
2,3,70,65
3,4,90,95
4,5,85,80


#### 다른 데이터를 활용해 변수 추가하기

In [54]:
name = pd.DataFrame({'nclass'  : [1, 2, 3, 4, 5],
                     'teacher' : ['kim', 'lee', 'park', 'choi', 'jung']})
name

Unnamed: 0,nclass,teacher
0,1,kim
1,2,lee
2,3,park
3,4,choi
4,5,jung


In [56]:
import pandas as pd

exam = pd.read_csv('../data/exam.csv')
exam.head(10)

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [57]:
# nclass 기준으로 합쳐서 exam_new에 할당
exam_new = pd.merge(exam, name, how = 'left', on = 'nclass')
exam_new

Unnamed: 0,id,nclass,math,english,science,teacher
0,1,1,50,98,50,kim
1,2,1,60,97,60,kim
2,3,1,45,86,78,kim
3,4,1,30,98,58,kim
4,5,2,25,80,65,lee
5,6,2,50,89,98,lee
6,7,2,80,90,45,lee
7,8,2,90,78,25,lee
8,9,3,20,98,15,park
9,10,3,50,98,45,park


In [58]:
# nclass 기준으로 합쳐서 exam_new2에 할당 => nclass가 존재하지 않으므로 오류발생.
exam_new2 = pd.merge(total, name, how = 'left', on = 'nclass')
exam_new2

KeyError: 'nclass'

### 세로로 합치기

In [63]:
# 학생 1~5번 시험 데이터 만들기
group_a = pd.DataFrame({'id'   : [1, 2, 3, 4, 5],
                        'test' : [60, 80, 70, 90, 85]})

# 학생 6~10번 시험 데이터 만들기
group_b = pd.DataFrame({'id'   : [6, 7, 8, 9, 10],
                        'test' : [70, 83, 65, 95, 80]})

# 학생 11~15번 시험 데이터 만들기
group_c = pd.DataFrame({'id'   : [11, 12, 13, 14, 15],
                        'test' : [80, 93, 75, 65, 70]})

In [60]:
group_a  # group_a 출력

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85


In [61]:
group_b  # group_b 출력

Unnamed: 0,id,test
0,6,70
1,7,83
2,8,65
3,9,95
4,10,80


In [64]:
group_c  # group_c 출력

Unnamed: 0,id,test
0,11,80
1,12,93
2,13,75
3,14,65
4,15,70


In [65]:
# 데이터 합쳐서 group_all에 할당
group_all = pd.concat([group_a, group_b, group_c])
group_all

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85
0,6,70
1,7,83
2,8,65
3,9,95
4,10,80


### 문제

In [67]:
#mpg 데이터를 이용해서 분석 문제를 해결해 보세요 .
#mpg 데이터의 fl 변수는 자동차에 사용하는 연료(fuel)를 의미합니다. 
#아래는 자동차 연료별 가격을 나타낸 표입니다.
#우선 이 정보를 이용해서 연료와 가격으로 구성된 데이터 프레임을 만들어 보세요.

#Q1. mpg 데이터에는 연료 종류를 나타낸 fl 변수는 있지만 연료 가격을 나타낸 변수는 없습니다. 
#위에서 만든 fuel 데이터를 이용해서 mpg 데이터에 price_fl(연료가격)변수를 추가하세요.
#두 데이터에 공통으로 들어있는 변수를 기준으로 삼아야 합니다.

#Q2.연료 가격 변수가 잘 추가됐는지 확인하기 위해서 
# model, fl, price_fl 변수를 추출해 앞부분 5행을 출력해 보세요.


| f1    | 연료종류    | 가격(갤런당 USD) |
|-------|-------------|-----------------|
| c     | CNG         |   2.35          |
| d     | diesel      |   2.38          |
| e     | ethanol E85 |   2.11          |
| p     | premium     |   2.76          |
| r     | regular     |   2.22          |

In [69]:
# fl : 자동차에 사용하는 연료(fuel)
# price_fl: 연료가격 
fl = pd.DataFrame({'fl'      : ['c', 'd', 'e', 'p', 'r'],
                  'price_fl' : [2.35, 2.38, 2.11, 2.76, 2.22]})
fl

Unnamed: 0,fl,price_fl
0,c,2.35
1,d,2.38
2,e,2.11
3,p,2.76
4,r,2.22


In [70]:
import pandas as pd

mpg = pd.read_csv('../data/mpg.csv')
mpg.head(10)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
5,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact
6,audi,a4,3.1,2008,6,auto(av),f,18,27,p,compact
7,audi,a4 quattro,1.8,1999,4,manual(m5),4,18,26,p,compact
8,audi,a4 quattro,1.8,1999,4,auto(l5),4,16,25,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


In [71]:
mpg = pd.merge(mpg, fl, how='left', on='fl')
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category,price_fl
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,2.76
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,2.76
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,2.76
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,2.76
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,2.76
...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,2.76
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,2.76
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,2.76
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,2.76


### Q2.연료 가격 변수가 잘 추가됐는지 확인하기 위해서 
### model, fl, price_fl 변수를 추출해 앞부분 5행을 출력해 보세요.

In [72]:
mpg[['model', 'fl', 'price_fl']].head()

Unnamed: 0,model,fl,price_fl
0,a4,p,2.76
1,a4,p,2.76
2,a4,p,2.76
3,a4,p,2.76
4,a4,p,2.76


---

### 정리하기

In [80]:
## 1. 조건에 맞는 데이터만 추출하기
exam.query('english <= 80')

# 여러 조건 동시 충족
exam.query('nclass == 1 & math >= 50')

# 여러 조건 중 하나 이상 충족
exam.query('math >= 90 | english >= 90')
exam.query('nclass in [1, 3, 5]')


## 2. 필요한 변수만 추출하기
exam['math']                                 # 한 변수 추출
exam[['nclass', 'math', 'english']]          # 여러 변수 추출
exam.drop(columns = 'math')                  # 변수 제거
exam.drop(columns = ['math', 'english'])     # 여러 변수 제거


## 3. pandas 명령어 조합하기
exam.query('math >= 50')[['id', 'math']].head()


## 4. 순서대로 정렬하기
exam.sort_values('math')                     # 오름차순 정렬
exam.sort_values('math', ascending = False)  # 내림차순 정렬

# 여러 변수 기준 정렬
exam.sort_values(['nclass', 'math'], ascending = [True, False])


## 5. 파생변수 추가하기
exam.assign(total = exam['math'] + exam['english'] + exam['science'])

# 여러 파생변수 한 번에 추가하기
exam.assign(total = exam['math'] + exam['english'] + exam['science'],
            mean = (exam['math'] + exam['english'] + exam['science']) / 3)

# assign()에 np.where() 적용하기
exam.assign(test = np.where(exam['science'] >= 60, 'pass', 'fall'))

# 추가한 변수를 pandas 코드에 바로 활용하기
exam.assign(total = exam['math'] + exam['english'] + exam['science']) \
    .sort_values('total') \
    .head()


## 6. 집단별로 요약하기
exam.groupby('nclass') \
    .agg(mean_math = ('math', 'mean'))

# 각 집단별로 다시 집단 나누기
mpg.groupby(['manufacturer', 'drv']) \
   .agg(mean_cty = ('cty', 'mean'))


## 7. 데이터 합치기
pd.merge(test1, test2, how = 'left', on = 'id')  # 가로로 합치기
pd.concat([group_a, group_b])                    # 세로로 합치기

Unnamed: 0,id,test
0,1,60
1,2,80
2,3,70
3,4,90
4,5,85
0,6,70
1,7,83
2,8,65
3,9,95
4,10,80


###############
도전분석 !
###############

###미국 동북중부 437개 지역의 인구통계 정보를  담고 있는 midwest데이터를 사용해 데이터 분석 문제를 해결해 보세요.
### midwest.csv 데이터를 사용합니다.

### 문제1.popadults는 해당 지역의 성인 인구, poptotal은 전체 인구를 나타냅니다. <br>
### midwest 데이터에 '전체 인구 대비 미성년 인구 백분율'변수를 추가하세요.

### 문제2.미성년 인구 백분율이 가장 높은 상위 5 개 county(지역)의 미성년 인구 백분율을 출력하세요.

### 문제3.분류표의 기준에 따라 미성년 비율 등급 변수를 추가하고, 각 등급에 몇 개의 지역이 있는지 알아보세요.
| 분류    |     기준    |
|---------|-------------|
| large   | 40%이상     |
| middle  | 30~40%이상  |
| small   | 30%이상     |
### 문제4.popasian은 해당 지역의 아시아인 인구를 나타냅니다. 
### '전체 인구 대비 아시아인 인구 백분율 '변수를 추가하고, 하위 10 개 지역의 state (주), county(지역명), 아시아인 인구 백분율을 출력하세요.

  

In [91]:
#1.
import pandas as pd

mid = pd.read_csv('../data/midwest.csv')
mid.head(10)

Unnamed: 0,PID,county,state,area,poptotal,popdensity,popwhite,popblack,popamerindian,popasian,...,percollege,percprof,poppovertyknown,percpovertyknown,percbelowpoverty,percchildbelowpovert,percadultpoverty,percelderlypoverty,inmetro,category
0,561,ADAMS,IL,0.052,66090,1270.96154,63917,1702,98,249,...,19.631392,4.355859,63628,96.274777,13.151443,18.011717,11.009776,12.443812,0,AAR
1,562,ALEXANDER,IL,0.014,10626,759.0,7054,3496,19,48,...,11.243308,2.870315,10529,99.087145,32.244278,45.826514,27.385647,25.228976,0,LHR
2,563,BOND,IL,0.022,14991,681.409091,14477,429,35,16,...,17.033819,4.488572,14235,94.956974,12.068844,14.036061,10.85209,12.69741,0,AAR
3,564,BOONE,IL,0.017,30806,1812.11765,29344,127,46,150,...,17.278954,4.1978,30337,98.477569,7.209019,11.179536,5.536013,6.217047,1,ALU
4,565,BROWN,IL,0.018,5836,324.222222,5264,547,14,5,...,14.475999,3.36768,4815,82.50514,13.520249,13.022889,11.143211,19.2,0,AAR
5,566,BUREAU,IL,0.05,35688,713.76,35157,50,65,195,...,18.904624,3.275891,35107,98.372002,10.399635,14.158819,8.179287,11.008586,0,AAR
6,567,CALHOUN,IL,0.017,5322,313.058824,5298,1,8,15,...,11.917388,3.209601,5241,98.478016,15.149781,13.787761,12.932331,21.085271,0,LAR
7,568,CARROLL,IL,0.027,16805,622.407407,16519,111,30,61,...,16.197121,3.055727,16455,97.917287,11.710726,17.225462,10.027037,9.525052,0,AAR
8,569,CASS,IL,0.024,13437,559.875,13384,16,8,23,...,14.107649,3.206799,13081,97.350599,13.875086,17.994784,11.914343,13.66018,0,AAR
9,570,CHAMPAIGN,IL,0.058,173025,2983.18966,146506,16559,331,8033,...,41.295808,17.757448,154934,89.544286,15.572437,14.132234,17.562728,8.105017,1,HAU


In [92]:
#2.전체 인구 대비 미성년 인구 백분율 추가
# popadults는 해당 지역의 성인 인구, poptotal은 전체 인구

mid['ratio'] = (mid['poptotal'] - mid['popadults']) \
                / mid['poptotal'] * 100
mid['ratio'] 

0      34.486307
1      36.721250
2      35.501301
3      37.440758
4      31.819740
         ...    
432    35.731093
433    34.693302
434    31.307712
435    36.602052
436    36.422797
Name: ratio, Length: 437, dtype: float64

In [93]:
#2.미성년 인구 백분율
mid.sort_values('ratio', ascending=False).head()[['county', 'ratio']]


Unnamed: 0,county,ratio
230,ISABELLA,51.501172
404,MENOMINEE,50.59126
281,ATHENS,49.320727
247,MECOSTA,49.059183
154,MONROE,47.358182


In [95]:
#3.미성년 비율 등급 변수
# mid에 grade 변수 추가
import numpy as np

mid['grade'] = np.where(mid['ratio'] >= 40, 'large',
               np.where(mid['ratio'] >= 30, 'middle', 'small'))
mid['grade']

0      middle
1      middle
2      middle
3      middle
4      middle
        ...  
432    middle
433    middle
434    middle
435    middle
436    middle
Name: grade, Length: 437, dtype: object

In [96]:
mid.groupby('grade').agg(n=('grade','count'))

Unnamed: 0_level_0,n
grade,Unnamed: 1_level_1
large,32
middle,396
small,9


In [97]:
#4. 전체 인구 대비 아시아인 인구 백분율

# 백분율 변수 추가
# 내림차순 정렬
# 상위 10행 출력
# 변수 추출
mid.assign(ratio_asian = mid['popasian'] / mid['poptotal'] * 100) \
       .sort_values('ratio_asian') \
       .head(10)[['state', 'county', 'ratio_asian']]


Unnamed: 0,state,county,ratio_asian
404,WI,MENOMINEE,0.0
105,IN,BENTON,0.010592
109,IN,CARROLL,0.01595
358,OH,VINTON,0.027032
390,WI,IRON,0.032504
85,IL,SCOTT,0.053154
112,IN,CLAY,0.060716
261,MI,OSCODA,0.063759
340,OH,PERRY,0.066546
73,IL,PIATT,0.070749
