# 데이터 결합 및 부분 선택

### 주요 내용

1. 데이터 결합
2. index, columns을 활용한 부분 선택 
3. 조건을 활용한 관측치 선택

<br>

### 목표 
1. 복수의 데이터를 적절한 방법으로 결합할 수 있다.
2. 변수 이름 등을 활용하여 부분 데이터를 선택한다.
3. 주제에 맞게 조건을 활용하여 부분 관측치를 선택한다. 


<br>
<hr>
<br>


## 1. 데이터 결합

### 1.1. `concat( )`을 활용한 동일 구조 데이터 행 결합

구조는 똑같고 기간이나 상품만 다른 여러 데이터가 있으면 pandas의 `concat()`으로 결합해서 활용  
함수 안에서 `axis=0`옵션을 활용해서 행 결합(아래로 이어 붙이기)을 할 수 있고, `axis=1`로 열 결합도 가능  
`axis=0`이 기본값며 생략 가능

In [1]:
import pandas as pd
# 행 결합
    ## 출처 : 국토교통부 실거래가(http://rtdown.molit.go.kr/)
df_apt1 = pd.read_csv('./data/아파트(매매)__실거래가_20210902153616.csv', skiprows=15, encoding='CP949')
df_apt1

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.9200,202108,21,199500,6,2020,개포로 264,
1,서울특별시 강남구 개포동,185,185,0,개포주공 7단지,83.7000,202108,20,280000,2,1983,개포로 516,
2,서울특별시 강남구 개포동,138,138,0,디에이치아너힐즈,59.8732,202108,17,233000,4,2019,삼성로 11,
3,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.9670,202108,14,227000,10,2019,선릉로 8,
4,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.8600,202108,1,169000,10,1992,개포로109길 9,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
231,서울특별시 강남구 청담동,14,14,0,"청담2차 이-편한세상(201동,202동,203동)",84.9700,202108,14,200000,7,2006,도산대로70길 25,
232,서울특별시 강남구 청담동,15-21,15,21,청담2차 이-편한세상(205동),119.5500,202108,9,215000,3,2006,도산대로78길 51,
233,서울특별시 강남구 청담동,34-13,34,13,청담스위트,13.4250,202108,17,22000,4,2015,학동로73길 13,
234,서울특별시 강남구 청담동,134-38,134,38,청담자이,89.3560,202108,4,400000,16,2011,영동대로138길 12,


In [2]:
df_apt2 = pd.read_csv('./data/아파트(매매)__실거래가_20210902153636.csv', skiprows=15, encoding='CP949')
df_apt2

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 서초구 내곡동,BL-1,1,0,서초더샵포레,114.7100,202108,14,185000,8,2014,헌릉로8길 58,
1,서울특별시 서초구 반포동,18-1,18,1,래미안퍼스티지,169.3100,202108,7,527000,26,2009,반포대로 275,
2,서울특별시 서초구 반포동,757,757,0,반포 주공1단지,106.2500,202108,9,455000,2,1973,신반포로 9,
3,서울특별시 서초구 반포동,1341,1341,0,반포래미안아이파크,99.9200,202108,5,350000,3,2018,서초중앙로 220,
4,서울특별시 서초구 반포동,1342,1342,0,반포써밋,84.9716,202108,7,300000,20,2018,고무래로 89,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
69,서울특별시 서초구 잠원동,160,160,0,신반포자이,59.8600,202108,5,255000,6,2018,잠원로 60,
70,서울특별시 서초구 잠원동,63-2,63,2,신반포청구,84.8600,202108,6,239000,8,1998,신반포로33길 66,
71,서울특별시 서초구 잠원동,159,159,0,아크로리버뷰신반포,78.5000,202108,4,290000,3,2018,잠원로 117,
72,서울특별시 서초구 잠원동,159,159,0,아크로리버뷰신반포,78.5000,202108,4,290000,3,2018,잠원로 117,20210826.0


In [3]:
df_apt3 = pd.read_csv('./data/아파트(매매)__실거래가_20210902153655.csv', skiprows=15, encoding='CP949')
df_apt3

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 송파구 가락동,95-1,95,1,가락금호아파트,59.91,202108,8,123000,1,1997,송파대로32길 15,
1,서울특별시 송파구 가락동,21-6,21,6,가락쌍용(2차),59.88,202108,2,121000,2,1999,송이로15길 31,
2,서울특별시 송파구 가락동,21-6,21,6,가락쌍용(2차),84.42,202108,12,135000,1,1999,송이로15길 31,
3,서울특별시 송파구 가락동,70-19,70,19,대림,84.11,202108,9,140000,2,1988,송이로 88,
4,서울특별시 송파구 가락동,70-19,70,19,대림,120.96,202108,11,170000,5,1988,송이로 88,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,서울특별시 송파구 풍납동,220-2,220,2,신동아파밀리에,59.36,202108,1,85900,8,1993,풍성로6길 15,
72,서울특별시 송파구 풍납동,510,510,0,신성노바빌아파트,59.78,202108,16,98500,15,2000,한가람로 468,
73,서울특별시 송파구 풍납동,401-1,401,1,쌍용,84.85,202108,11,143000,15,1994,올림픽로47길 12,
74,서울특별시 송파구 풍납동,508,508,0,한강극동,84.76,202108,25,111000,11,1995,토성로 38-6,


In [4]:
df_apt = pd.concat([df_apt1, df_apt2, df_apt3], axis=0) # 인덱스 번호도 그대로 이어져서 붙여짐(중복)
df_apt

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.9200,202108,21,199500,6,2020,개포로 264,
1,서울특별시 강남구 개포동,185,185,0,개포주공 7단지,83.7000,202108,20,280000,2,1983,개포로 516,
2,서울특별시 강남구 개포동,138,138,0,디에이치아너힐즈,59.8732,202108,17,233000,4,2019,삼성로 11,
3,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.9670,202108,14,227000,10,2019,선릉로 8,
4,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.8600,202108,1,169000,10,1992,개포로109길 9,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,서울특별시 송파구 풍납동,220-2,220,2,신동아파밀리에,59.3600,202108,1,85900,8,1993,풍성로6길 15,
72,서울특별시 송파구 풍납동,510,510,0,신성노바빌아파트,59.7800,202108,16,98500,15,2000,한가람로 468,
73,서울특별시 송파구 풍납동,401-1,401,1,쌍용,84.8500,202108,11,143000,15,1994,올림픽로47길 12,
74,서울특별시 송파구 풍납동,508,508,0,한강극동,84.7600,202108,25,111000,11,1995,토성로 38-6,


<br>

> **DataFrame**에서 행 번호에 해당하는 **index**는 중요한 역할을 합니다.  
예를 들어 아래처럼 index를 확인할 수 있고, 특정 index를 지정해서 관측치를 선택하는 것도 가능합니다. 

In [5]:
df_apt.index

Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9,
       ...
       66, 67, 68, 69, 70, 71, 72, 73, 74, 75],
      dtype='int64', length=386)

In [6]:
# index 0 관측치 선택
df_apt.loc[0] # df1, df2, df3의 0번째 총 3개

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.92,202108,21,199500,6,2020,개포로 264,
0,서울특별시 서초구 내곡동,BL-1,1,0,서초더샵포레,114.71,202108,14,185000,8,2014,헌릉로8길 58,
0,서울특별시 송파구 가락동,95-1,95,1,가락금호아파트,59.91,202108,8,123000,1,1997,송파대로32길 15,


>결합 이전 기존 Index 활용으로 **0** 인덱스 관측치의 중복 발생  
행 결합이나 정렬 이후 인덱스를 재지정하거나 초기화 필요

In [7]:
# reset_index()을 활용한 index 초기화
    ## drop=True: 기존 인덱스를 변수로 추가할 지 버릴지 선택
df_apt.reset_index(inplace=True) # 반환값이 없음

# index의 오른쪽 숫자는 기존의 인덱스들

# 데이터의 변경사항이 존재할 경우,
# inplace = False : 원본 데이터의 변경사항을 허용하는 속성

In [8]:
# index 0 관측치 재선택
# 원본데이터 손실 방지를 위해 복사한 데이터 활용
df_apt.loc[0]
# series이므로 아래와 같이 출력됨

index                   0
시군구         서울특별시 강남구 개포동
번지                   1282
본번                   1282
부번                      0
단지명             개포래미안포레스트
전용면적(㎡)             59.92
계약년월               202108
계약일                    21
거래금액(만원)          199,500
층                       6
건축년도                 2020
도로명               개포로 264
해제사유발생일               NaN
Name: 0, dtype: object

* `inplace=True` : 원본 데이터의 변경사항 허용
* `axis=1 : 행 방향, 'axis=0 : 열 방향'

#### [실습]  데이터 결합 및 인덱스 초기화

출처 : [서울시 지하철 호선별 역별 승하차 인원수](http://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do)

1. `data`폴더의 `CARD_SUBWAY_MONTH_`로 시작하는 3개 데이터 확인하기  
    

2. `1.`의 데이터를 각각 불러와서 저장하고, `pd.concat()`으로 행 결합하기(`encoding='CP949'` 활용)


3. index 초기화 하기



In [9]:
import glob as g
path_list = g.glob('./data/CARD_SUBWAY_MONTH_*.csv')
path_list

['./data\\CARD_SUBWAY_MONTH_201907.csv',
 './data\\CARD_SUBWAY_MONTH_202007.csv',
 './data\\CARD_SUBWAY_MONTH_202107.csv']

In [10]:
# Library 임포트
import pandas as pd
from glob import glob

path_list = glob('./data/CARD_SUBWAY_MONTH_*.csv')

df_list = []

# data폴더의 CARD_SUBWAY_MONTH
for path in path_list:
    temp = pd.read_csv(path, encoding='CP949')
    df_list.append(temp)

df_card = pd.concat(df_list, axis=0)

df_card.reset_index(inplace=True, drop=True) # 새로운 인덱스로 대체(inplace=True)후 기존 인덱스 값들 모두 제거(drop=True)
df_card

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20190701,1호선,종로3가,34944.0,32751.0,20190704
1,20190701,1호선,종로5가,28640.0,28862.0,20190704
2,20190701,1호선,동대문,14793.0,16182.0,20190704
3,20190701,1호선,신설동,17911.0,17483.0,20190704
4,20190701,1호선,제기동,21946.0,22345.0,20190704
...,...,...,...,...,...,...
55261,20210731,경원선,청량리(서울시립대입구),11320.0,13138.0,20210803
55262,20210731,경원선,외대앞,4261.0,4279.0,20210803
55263,20210731,경원선,신이문,4666.0,4313.0,20210803
55264,20210731,2호선,용두(동대문구청),1292.0,1364.0,20210803


In [11]:
# Library 임포트
import pandas as pd

path_list = g.glob('./data/CARD_SUBWAY_MONTH_*.csv') # 'CARD_SUBWAY_MONTH_'로 시작하는 csv파일 모두 불러와서 path_list에 리스트 형태로 저장

targets = []
for x in path_list:
    df_temp = pd.read_csv(x, encoding='CP949')
    targets.append(df_temp)
    
df_subway = pd.concat(targets, axis=0)

# index 초기화 하기
df_subway.reset_index(drop=True, inplace=True)
df_subway

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20190701,1호선,종로3가,34944.0,32751.0,20190704
1,20190701,1호선,종로5가,28640.0,28862.0,20190704
2,20190701,1호선,동대문,14793.0,16182.0,20190704
3,20190701,1호선,신설동,17911.0,17483.0,20190704
4,20190701,1호선,제기동,21946.0,22345.0,20190704
...,...,...,...,...,...,...
55261,20210731,경원선,청량리(서울시립대입구),11320.0,13138.0,20210803
55262,20210731,경원선,외대앞,4261.0,4279.0,20210803
55263,20210731,경원선,신이문,4666.0,4313.0,20210803
55264,20210731,2호선,용두(동대문구청),1292.0,1364.0,20210803


#### [참고] glob과 for 반복문을 활용한 복수 데이터 처리

**glob** 라이브러리의 *glob()* 을 활용하면 복수의 데이터 경로를 손쉽게 처리 가능

In [12]:
# 대상 파일 목록 생성
from glob import glob
file_list  = glob('data/apt/*.csv')
file_list

['data/apt\\아파트(매매)__실거래가_20220930082940.csv',
 'data/apt\\아파트(매매)__실거래가_20220930083006.csv',
 'data/apt\\아파트(매매)__실거래가_20220930083033.csv',
 'data/apt\\아파트(매매)__실거래가_20220930083102.csv',
 'data/apt\\아파트(매매)__실거래가_20220930083124.csv',
 'data/apt\\아파트(매매)__실거래가_20220930083151.csv',
 'data/apt\\아파트(매매)__실거래가_20220930083220.csv',
 'data/apt\\아파트(매매)__실거래가_20220930083248.csv']

In [13]:
# for를 활용한 반복
target = list()
for path_ in file_list:
    target.append(pd.read_csv(path_, skiprows=15, encoding='CP949'))
target

[               시군구      번지   본번  부번               단지명   전용면적(㎡)    계약년월  계약일  \
 0    서울특별시 강남구 개포동      12   12   0           삼익대청아파트   39.5300  202208    8   
 1    서울특별시 강남구 개포동      12   12   0        성원대치2단지아파트   49.8600  202208   10   
 2    서울특별시 강남구 개포동      12   12   0        성원대치2단지아파트   49.8600  202208   31   
 3    서울특별시 강남구 논현동    58-2   58   2            마일스디오빌   36.2900  202208    6   
 4    서울특별시 강남구 논현동    58-2   58   2            마일스디오빌   36.2900  202208    8   
 5    서울특별시 강남구 논현동    58-2   58   2            마일스디오빌   36.2900  202208   12   
 6    서울특별시 강남구 논현동    58-2   58   2            마일스디오빌   36.2900  202208   12   
 7    서울특별시 강남구 논현동    58-2   58   2            마일스디오빌   36.2900  202208   27   
 8    서울특별시 강남구 논현동    58-2   58   2            마일스디오빌   36.2900  202208   27   
 9    서울특별시 강남구 논현동   221-7  221   7        한양수자인어반게이트   16.2000  202208    4   
 10   서울특별시 강남구 대치동     503  503   0             개포우성1   84.8100  202208   30   
 11   서울특별시 강남구 대치동     888 

In [14]:
# 최종 작업
df_subway = pd.concat(target, axis=0).reset_index(drop=True)
df_subway

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일,거래유형,중개사소재지
0,서울특별시 강남구 개포동,12,12,0,삼익대청아파트,39.53,202208,8,119000,12,1992,개포로109길 21,,중개거래,서울 강남구
1,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.86,202208,10,133000,1,1992,개포로109길 9,,중개거래,서울 강남구
2,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.86,202208,31,136000,14,1992,개포로109길 9,,중개거래,"서울 강남구, 서울 서초구"
3,서울특별시 강남구 논현동,58-2,58,2,마일스디오빌,36.29,202208,6,38500,11,2004,학동로 165,,중개거래,"서울 강남구, 서울 서초구"
4,서울특별시 강남구 논현동,58-2,58,2,마일스디오빌,36.29,202208,8,38000,14,2004,학동로 165,,중개거래,서울 강남구
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
614,서울특별시 강남구 자곡동,619,619,0,엘에이치강남힐스테이트,51.99,202201,8,103000,7,2015,자곡로3길 21,20220502.0,중개거래,서울 강남구
615,서울특별시 강남구 자곡동,619,619,0,엘에이치강남힐스테이트,51.96,202201,17,118000,11,2015,자곡로3길 21,,중개거래,서울 강남구
616,서울특별시 강남구 청담동,76-12,76,12,라테라스청담,18.62,202201,17,34000,8,2018,학동로81길 9,,중개거래,서울 강남구
617,서울특별시 강남구 청담동,10,10,0,삼환아파트101동,84.91,202201,17,170000,2,1999,학동로77길 49,,중개거래,서울 강남구


<br>

### 1.2. merge()를 활용한 KEY 변수 기준 결합 

SQL의 JOIN, Excel의 VLOOKUP()과 같이 KEY 변수를 활용한 데이터 결합은 `merge()` 를 활용

In [15]:
# 예제 데이터 불러오기
df_left  = pd.read_csv('./data/data_left.csv')
df_right = pd.read_csv('./data/data_right.csv')

In [16]:
df_left

Unnamed: 0,product_id,category,sales
0,P001,A,100
1,P002,B,300
2,P003,,100
3,P005,A,200


In [17]:
df_right

Unnamed: 0,category,name,manager_id
0,A,Food,E009
1,B,Beverage,E009
2,C,Industrial,E010


<br>

> key를 활용한 데이터 결합에서는 일치하는 key가 있는, 짝이 있는 관측치만 출력하는 것이 기본값으로 설정되어 있습니다. SQL에서는 이것을 **inner join**이라고 부릅니다.  

`merge()` 에서 `how=` 옵션을 활용해서 다음과 같은 데이터 결합 방법 지정 

+ `inner`: inner join, key 기준 일치하는 관측치만 포함
+ `left`:  left join. inner join의 결과물과 왼쪽 데이터의 짝 없는 관측치 포함
+ `right`: right join. inner join의 결과물과 오른쪽 데이터의 짝 없는 관측치 포함
+ `outer`: full outer join. inner join과 양쪽 데이터의 짝이 없는 모든 관측치 포함

In [18]:
# merge()를 활용한 결합
pd.merge(df_left, df_right, how='inner', on='category') # 교집합

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100,Food,E009
1,P005,A,200,Food,E009
2,P002,B,300,Beverage,E009


In [19]:
# left join
pd.merge(df_left, df_right, how='left', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100,Food,E009
1,P002,B,300,Beverage,E009
2,P003,,100,,
3,P005,A,200,Food,E009


In [20]:
# right join
pd.merge(df_left, df_right, how='right', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100.0,Food,E009
1,P005,A,200.0,Food,E009
2,P002,B,300.0,Beverage,E009
3,,C,,Industrial,E010


In [21]:
# full outer join
pd.merge(df_left, df_right, how='outer', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100.0,Food,E009
1,P005,A,200.0,Food,E009
2,P002,B,300.0,Beverage,E009
3,P003,,100.0,,
4,,C,,Industrial,E010


#### [실습]  데이터 결합 

1. `data`폴더의 `production.csv`를 불러와서 **df_pd** 로 저장하기

2. `data`폴더의 `weather.csv`를 불러와서 **df_wt** 로 저장하기

3. 두 데이터를 `date`를 기준으로 결합하기



In [22]:
df_pd = pd.read_csv('./data/production.csv')
df_wt = pd.read_csv('./data/weather.csv')

display(df_pd.head(20)); display(df_wt.head(20))

Unnamed: 0,date,factory,line,capacity,production,defective
0,2021-01-04,A,1,1000.0,979,3
1,2021-01-04,A,2,1000.0,948,3
2,2021-01-04,A,3,1000.0,962,4
3,2021-01-04,B,4,1500.0,1473,3
4,2021-01-04,B,5,1500.0,1462,5
5,2021-01-04,C,6,2000.0,1982,4
6,2021-01-04,C,7,2000.0,2046,7
7,2021-01-04,C,8,2000.0,1993,6
8,2021-01-04,C,9,2000.0,2031,6
9,2021-01-05,A,1,1000.0,986,2


Unnamed: 0,date,temp_high,temp_low,hum,rain
0,2021-01-01,1.6,-9.8,64.0,
1,2021-01-02,-1.4,-8.4,38.5,
2,2021-01-03,-2.0,-9.1,45.0,
3,2021-01-04,0.3,-8.4,51.4,0.0
4,2021-01-05,-2.1,-9.9,52.8,0.0
5,2021-01-06,-1.9,-12.0,54.6,2.3
6,2021-01-07,-8.4,-16.5,49.9,
7,2021-01-08,-10.7,-18.6,44.0,
8,2021-01-09,-7.5,-16.6,46.3,
9,2021-01-10,-2.7,-12.8,54.4,


In [23]:
pd.merge(df_pd, df_wt, how='left', on='date').head(20)

Unnamed: 0,date,factory,line,capacity,production,defective,temp_high,temp_low,hum,rain
0,2021-01-04,A,1,1000.0,979,3,0.3,-8.4,51.4,0.0
1,2021-01-04,A,2,1000.0,948,3,0.3,-8.4,51.4,0.0
2,2021-01-04,A,3,1000.0,962,4,0.3,-8.4,51.4,0.0
3,2021-01-04,B,4,1500.0,1473,3,0.3,-8.4,51.4,0.0
4,2021-01-04,B,5,1500.0,1462,5,0.3,-8.4,51.4,0.0
5,2021-01-04,C,6,2000.0,1982,4,0.3,-8.4,51.4,0.0
6,2021-01-04,C,7,2000.0,2046,7,0.3,-8.4,51.4,0.0
7,2021-01-04,C,8,2000.0,1993,6,0.3,-8.4,51.4,0.0
8,2021-01-04,C,9,2000.0,2031,6,0.3,-8.4,51.4,0.0
9,2021-01-05,A,1,1000.0,986,2,-2.1,-9.9,52.8,0.0


* 생산량 기준, 날씨 기준으로 데이터를 분석

<br>
<hr>
<br>


## 2. 데이터 부분 선택

일반적인 비즈니스 데이터 분석에서 주제와 기간, 사이트, 제품, 공정 등 본인의 업무와 관련이 있는 일부 데이터만 선택하고 활용  
SQL을 활용한 데이터 추출 과정과 별개로 Python에서 각 분석 과정에서 맞게 부분 데이터를 다시 선택하고 사용

<br> 

In [35]:
# 예제 데이터 불러오기
import pandas as pd
df_ins = pd.read_csv('data/insurance.csv')
df_ins

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


<br>

### 2.1. 데이터프레임의 변수(열) 선택 방법

- DataFrame 뒤에 마침표`.`를 찍고 `Tab` 키를 눌러 메서드들과 함께 변수(열)이름을 선택가능
- `[]` 연산자를 활용한 변수(열)의 선택 가능


In [25]:
# .을 활용한 하나의 변수(열) 선택 (공백이 포함된 변수명일 경우 사용 불가)
df_ins.region # 변수의 이름에 공백이 들어가면 사용이 불가능 ex) df_ins.age of

# (★권장)선택 문법을 통한 열 선택 (공백이 포함된 변수명일 경우에도 사용 가능)
df_ins['region']

0       southwest
1       southeast
2       southeast
3       northwest
4       northwest
          ...    
1333    northwest
1334    northeast
1335    southeast
1336    southwest
1337    northwest
Name: region, Length: 1338, dtype: object

<br>


### 2.2. 대괄호를 활용한 데이터 부분 선택

DataFrame에 대괄호를 붙이고 슬라이스`:`로 관측치 번호를 지정하거나 따옴표`''`로 변수 이름을 넣어 데이터 부분을 선택 가능  
변수 이름을 리스트 형식으로 묶어 넣어 여러개 변수를 한번에 선택 가능

In [26]:
# 한 변수 선택 
type(df_ins['age'])

pandas.core.series.Series

In [27]:
# 리스트를 활용한 복수 변수 선택
x =['age','smoker','charges']
df_ins[x]

Unnamed: 0,age,smoker,charges
0,19,yes,16884.92400
1,18,no,1725.55230
2,28,no,4449.46200
3,33,no,21984.47061
4,32,no,3866.85520
...,...,...,...
1333,50,no,10600.54830
1334,18,no,2205.98080
1335,18,no,1629.83350
1336,21,no,2007.94500


> 표시되는 인덱스는 값일 뿐, 순서를 나타내는 것은 아님

In [28]:
# 관측치 선택(슬라이싱)
df_ins[0:3]

# 관측지 선택(pd.head())
# df_ins.head(3)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462


In [29]:
df_ins[['age', 'smoker', 'charges']]

Unnamed: 0,age,smoker,charges
0,19,yes,16884.92400
1,18,no,1725.55230
2,28,no,4449.46200
3,33,no,21984.47061
4,32,no,3866.85520
...,...,...,...
1333,50,no,10600.54830
1334,18,no,2205.98080
1335,18,no,1629.83350
1336,21,no,2007.94500


In [30]:
# 연속된 대괄호 활용가능

x = df_ins[['age','smoker','charges']][0:5] # df[0:5]
x.shape[0]

5

<br>

#### [실습]  

1. 아래의 명령어를 실행해서 df_subway 데이터 생성하기 

2. .columns 변수(속성)를 활용해서 변수이름 확인하기

3. 슬라이스를 활용하여 11~15번째 관측치(행) 선택하기

4. '사용일자', '역명', '하차총승객수' 세 변수(열) 선택하기



    

In [31]:
df_card.columns

Index(['사용일자', '노선명', '역명', '승차총승객수', '하차총승객수', '등록일자'], dtype='object')

In [32]:
df_card[10:15]

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
10,20190701,2호선,을지로4가,14801.0,14830.0,20190704
11,20190701,2호선,동대문역사문화공원,18590.0,21628.0,20190704
12,20190701,2호선,신당,16228.0,16636.0,20190704
13,20190701,2호선,상왕십리,16372.0,15797.0,20190704
14,20190701,2호선,왕십리(성동구청),20431.0,16884.0,20190704


In [33]:
df_card[['사용일자', '역명', '하차총승객수']][10:15]

Unnamed: 0,사용일자,역명,하차총승객수
10,20190701,을지로4가,14830.0
11,20190701,동대문역사문화공원,21628.0
12,20190701,신당,16636.0
13,20190701,상왕십리,15797.0
14,20190701,왕십리(성동구청),16884.0


In [34]:
# 1. 아래의 명령어를 실행해서 df_subway 데이터 생성하기
df_subway

# 2. .columns 변수(속성)를 활용해서 변수이름 확인하기
df_subway.columns

# 3. 슬라이스를 활용하여 11~15번째 관측치(행) 선택하기
df_subway[10:15]

# 4. '사용일자', '역명', '하차총승객수' 세 변수(열) 선택하기
df_subway[['사용일자', '역명', '하차총승객수']]

df_subway[10:15][['사용일자', '역명', '하차총승객수']]

KeyError: "None of [Index(['사용일자', '역명', '하차총승객수'], dtype='object')] are in the [columns]"

<br>

## 2.3. loc과 iloc을 활용한 관측치/변수 선택

`loc`은 행 이름(index)과 열 이름(column)으로 데이터에서 일부를 선택하고, `iloc`은 정수(integer) 형식의 행 번호, 열 번호를 활용  
두 방법 모두 리스트[ ]나 슬라이스:를 활용한 방법을 지원

* `indexer` : 선택해주는 것 (행과 열을 동시에 선택)
  1. `loc` : label이나 인덱스로 선택
  2. `iloc` : 정수형식의 행, 열 번호 활용

In [36]:
# 실습을 위해 원본 데이터를 복제(copy)하고 부분선택
df_ins2 = df_ins.copy()[0:10]
df_ins2

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552
5,31,female,25.74,0,no,southeast,3756.6216
6,46,female,33.44,1,no,southeast,8240.5896
7,37,female,27.74,3,no,northwest,7281.5056
8,37,male,29.83,2,no,northeast,6406.4107
9,60,female,25.84,0,no,northwest,28923.13692


In [38]:
# 실습을 위해 인덱스를 별도로 지정
# df_ins2['idx'] = list(range(101, 111))
df_ins2['idx'] = ['A','B','C','D','E','F','G','H','I','J']
df_ins2.set_index('idx', inplace=True)

df_ins2

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A,19,female,27.9,0,yes,southwest,16884.924
B,18,male,33.77,1,no,southeast,1725.5523
C,28,male,33.0,3,no,southeast,4449.462
D,33,male,22.705,0,no,northwest,21984.47061
E,32,male,28.88,0,no,northwest,3866.8552
F,31,female,25.74,0,no,southeast,3756.6216
G,46,female,33.44,1,no,southeast,8240.5896
H,37,female,27.74,3,no,northwest,7281.5056
I,37,male,29.83,2,no,northeast,6406.4107
J,60,female,25.84,0,no,northwest,28923.13692


<br> 

### 2.3.1. loc을 활용한 부분 선택

loc은 실제로 눈에 보이는 index와 column을 활용

In [39]:
df_ins2.loc['A'] # series형태

age                19
sex            female
bmi              27.9
children            0
smoker            yes
region      southwest
charges     16884.924
Name: A, dtype: object

In [40]:
x = ['A', 'C']
df_ins2.loc[x]

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A,19,female,27.9,0,yes,southwest,16884.924
C,28,male,33.0,3,no,southeast,4449.462


In [41]:
df_ins2.loc['A':'D']
# loc에는 인덱스에 순서적인 위치개념이 없음, start와 end값을 포함한 그 사이의 모든 값

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A,19,female,27.9,0,yes,southwest,16884.924
B,18,male,33.77,1,no,southeast,1725.5523
C,28,male,33.0,3,no,southeast,4449.462
D,33,male,22.705,0,no,northwest,21984.47061


In [42]:
df_ins2.loc['A':'D', 'smoker'] # 행이 복수여도 열을 하나 : series

idx
A    yes
B     no
C     no
D     no
Name: smoker, dtype: object

In [43]:
# 변수이름 리스트 활용가능
df_ins2.loc['A':'D', ['smoker','region']] # DataFrame

Unnamed: 0_level_0,smoker,region
idx,Unnamed: 1_level_1,Unnamed: 2_level_1
A,yes,southwest
B,no,southeast
C,no,southeast
D,no,northwest


In [44]:
# 변수이름 슬라이스:를 활용 가능 
df_ins2.loc['A':'D', 'smoker':'charges']

Unnamed: 0_level_0,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,yes,southwest,16884.924
B,no,southeast,1725.5523
C,no,southeast,4449.462
D,no,northwest,21984.47061


In [45]:
# 모든 관측치 선택할 때는 :
df_ins2.loc[:, 'smoker':'charges']

Unnamed: 0_level_0,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,yes,southwest,16884.924
B,no,southeast,1725.5523
C,no,southeast,4449.462
D,no,northwest,21984.47061
E,no,northwest,3866.8552
F,no,southeast,3756.6216
G,no,southeast,8240.5896
H,no,northwest,7281.5056
I,no,northeast,6406.4107
J,no,northwest,28923.13692


<br> 

### 2.2.2. iloc을 활용한 부분 선택

`iloc`은 이름과 상관없이 정수로 표현한 위치, 번호를 활용하며 리스트나 슬라이스 활용 방법은 `loc`와 동일

In [None]:
### display(df_ins2)
df_ins2.iloc[0:4, 0:2]

#### [실습] 

1. df_pr에서 index 기준 '3'의 'Weight' 확인하기
2. df_pr에서 index 기준 '11~15'의 'Age'부터 'Exercise'까지 선택하기
3. df_pr에서 첫번째 ~ 다섯번째 관측치와 다섯번째 ~ 열번째 변수 선택하기

In [None]:
# data 폴더 내 PulseRates.csv 파일을 df_pr에 저장한 후 아래의 결과를 확인하시오
df_pr = pd.read_csv('./data/PulseRates.csv')

# 1. df_pr에서 index 기준 '3'의 'Weight' 확인하기
df_pr.loc[3]['Weight']; df_pr.loc[3, 'Weight']

# 2. df_pr에서 index 기준 '11~15'의 'Age'부터 'Exercise'까지 선택하기
df_pr.loc[11:15, 'Age':'Exercise']

# 3. df_pr에서 첫번째 ~ 다섯번째 관측치와 다섯번째 ~ 열번째 변수 선택하기
df_pr.iloc[0:5, 4:10]

In [None]:
df_pr = pd.read_csv('./data/PulseRates.csv')
# display(df_pr)
df_pr.loc[3]['Weight']
df_pr.loc[11:15, 'Age':'Exercise']
# df_pr.iloc[0:5, 4:10]

### 2.4. 함수를 활용한 여러 변수 선택 



In [46]:
import pandas as pd

df_pr = pd.read_csv('./data/PulseRates.csv')
df_pr

Unnamed: 0,Height,Weight,Age,Gender,Smokes,Alcohol,Exercise,Ran,Pulse1,Pulse2,Year
0,173,57.0,18,2,2,1,2,2,86.0,88.0,93
1,179,58.0,19,2,2,1,2,1,82.0,150.0,93
2,167,62.0,18,2,2,1,1,1,96.0,176.0,93
3,195,84.0,18,1,2,1,1,2,71.0,73.0,93
4,173,64.0,18,2,2,1,3,2,90.0,88.0,93
...,...,...,...,...,...,...,...,...,...,...,...
105,93,27.0,19,2,2,2,3,2,119.0,120.0,98
106,161,43.0,19,2,2,2,3,2,90.0,89.0,98
107,182,60.0,22,1,2,1,3,2,86.0,84.0,98
108,170,65.0,18,1,2,1,1,2,69.0,64.0,98


In [65]:
# filter( ) 메서드에서 변수 이름 패턴을 활용한 선택 
    ## regex :  정규표현식(regular expression)
    ## '^s' : 's'로 시작하는 이름/텍스트
    ## 's$' : 's'로 끝나는 이름/텍스트
    
# df_pr.filter(regex='se$') # 'se'가 포함된 열 선택
df_pr.loc[:,['Exercise']] # 리스트로 값을 넘기면 결과는 데이터프레임,
df_pr.loc[:,'Exercise'] # 리스트가 아닌 단일 값을 넘기면 결과는 시리즈

0      2
1      2
2      1
3      1
4      3
      ..
105    3
106    3
107    3
108    1
109    2
Name: Exercise, Length: 110, dtype: int64

In [66]:
# 변수형식 확인하기
    ## int/float : 숫자
    ## object : 문자열
df_ins = pd.read_csv('./data/insurance.csv')
df_ins.dtypes

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

In [69]:
# 수치형 변수만 선택
df_ins.select_dtypes(include='number')

Unnamed: 0,age,bmi,children,charges
0,19,27.900,0,16884.92400
1,18,33.770,1,1725.55230
2,28,33.000,3,4449.46200
3,33,22.705,0,21984.47061
4,32,28.880,0,3866.85520
...,...,...,...,...
1333,50,30.970,3,10600.54830
1334,18,31.920,0,2205.98080
1335,18,36.850,0,1629.83350
1336,21,25.800,0,2007.94500


In [70]:
# 문자열 변수만 선택
df_ins.select_dtypes(include='object')

Unnamed: 0,sex,smoker,region
0,female,yes,southwest
1,male,no,southeast
2,male,no,southeast
3,male,no,northwest
4,male,no,northwest
...,...,...,...
1333,male,no,northwest
1334,female,no,northeast
1335,female,no,southeast
1336,female,no,southwest


<br>

#### [실습] Student performance 데이터 활용

1. df_sp에서 수치형 변수만 선택
2. df_sp에서 수치형이 아닌 변수만 선택
3. df_sp에서 이름에 'score'가 들어간 변수만 선택



In [81]:
# data 폴더 내 StudentsPerformance.csv 파일
import pandas as pd
df_sp = pd.read_csv('./data/StudentsPerformance.csv')
df_sp
# 1
df_sp.select_dtypes(include='number')

# 2
df_sp.select_dtypes(exclude='number') # 둘이 다를 때 참, 같을 때 거짓

# 3
df_sp.filter(regex='score')

Unnamed: 0,math score,reading score,writing score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75
...,...,...,...
995,88,99,95
996,62,55,55
997,59,71,65
998,68,78,77


In [None]:
 # 1. df_sp에서 수치형 변수만 선택
df_sp.select_dtypes(include='number')

# 2. df_sp에서 수치형이 아닌 변수만 선택
df_sp.dtypes
df_sp.select_dtypes(exclude='number')

# 3. df_sp에서 이름에 'score'가 들어간 변수만 선택
df_sp.filter(regex="score")

df_sp

<br>

### 3.5. 조건을 활용한 관측치 선택

SQL에서 WHERE 절이나 Excel의 Filter와 같이 데이터에서 부분을 선택할 때 조건을 활용하는 경우 많음  
[ ]나 .loc[ ] 안에 조건식을 넣어서 조건과 일치하는 관측치만 선택 가능

In [82]:
df_ins

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


In [89]:
# 1 단계 : 조건 설정(결과는 True/False)
    # bool 타입 Series
df_ins['age'] < 30

0        True
1        True
2        True
3       False
4       False
        ...  
1333    False
1334     True
1335     True
1336     True
1337    False
Name: age, Length: 1338, dtype: bool

In [90]:
# 2 단계 : []와 조건을 활용한 관측치 선택
cond = df_ins['age'] < 30
df_ins.loc[cond]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
10,25,male,26.220,0,no,northeast,2721.32080
12,23,male,34.400,0,no,southwest,1826.84300
...,...,...,...,...,...,...,...
1328,23,female,24.225,2,no,northeast,22395.74424
1331,23,female,33.400,0,no,southwest,10795.93733
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350


#### `Series`에서 논리 연산
* `&` : and
* `|` : or

In [91]:
# &와 |를 활용한 조건 결합
cond1 = df_ins['age'] < 30 # bool Series
cond2 = df_ins['sex'] == 'female' # bool Series
cond = cond1 & cond2 # 같은 인덱스끼리 연산
df_ins[cond]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
31,18,female,26.315,0,no,northeast,2198.18985
32,19,female,28.600,5,no,southwest,4687.79700
40,24,female,26.600,0,no,northeast,3046.06200
46,18,female,38.665,2,no,northeast,3393.35635
...,...,...,...,...,...,...,...
1328,23,female,24.225,2,no,northeast,22395.74424
1331,23,female,33.400,0,no,southwest,10795.93733
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350


In [94]:
df_ins[(df_ins['age'] < 30) | (df_ins['sex'] == 'female')] # 명시적으로 괄호 사용
# (age 30 미만 이거나), (성별이 여자인 값) 선택

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.90,0,yes,southwest,16884.9240
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.00,3,no,southeast,4449.4620
5,31,female,25.74,0,no,southeast,3756.6216
6,46,female,33.44,1,no,southeast,8240.5896
...,...,...,...,...,...,...,...
1332,52,female,44.70,3,no,southwest,11411.6850
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.80,0,no,southwest,2007.9450


<br> 

> 특히 비즈니스 데이터는 범주화, 그룹화된 변수들이 많고, 수많은 담당자들이 그 중 일부 범주, 그룹, 수준을 나눠서 운영하는 경우가 많습니다.  
*isin()* 을 활용해서 내가 관심있는 범주인지 아닌지 포함여부에 대한 연산이 가능합니다.

In [95]:
# 변수 region의 수준 목록 확인 및 관심 수준 선택
df_ins['region']

0       southwest
1       southeast
2       southeast
3       northwest
4       northwest
          ...    
1333    northwest
1334    northeast
1335    southeast
1336    southwest
1337    northwest
Name: region, Length: 1338, dtype: object

In [100]:
# isin()을 활용한 특정 수준 관측치 선택 (둘 다 동일)
cond1 = df_ins['region'].isin(['southeast','northwest'])
(df_ins['region'] == 'southeast') | (df_ins['region'] == 'northwest')

0       False
1        True
2        True
3        True
4        True
        ...  
1333     True
1334    False
1335     True
1336    False
1337     True
Name: region, Length: 1338, dtype: bool

In [101]:
df_ins.loc[cond1]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
5,31,female,25.740,0,no,southeast,3756.62160
...,...,...,...,...,...,...,...
1327,51,male,30.030,1,no,southeast,9377.90470
1330,57,female,25.740,2,no,southeast,12629.16560
1333,50,male,30.970,3,no,northwest,10600.54830
1335,18,female,36.850,0,no,southeast,1629.83350


<br>

#### [실습]

1. df_sp에서 math score가 90 이상인 관측치(행) 선택
2. df_sp에서 race/ethnicity가 'group D', 'group E'인 관측치(행) 선택(isin() 활용)
3. 1.과 2.를 동시에 만족하는 관측치(행) 선택 

In [119]:
df_sp

# 1
idx1 = df_sp['math score'] >= 90
df_sp[idx1]

# 2
idx2 = df_sp['race/ethnicity'].isin(['group D', 'group E'])
df_sp[idx2]

# 3
df_sp.loc[idx1 & idx2]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
34,male,group E,some college,standard,none,97,87,82
114,female,group E,bachelor's degree,standard,completed,99,100,100
149,male,group E,associate's degree,free/reduced,completed,100,100,93
171,male,group E,some high school,standard,none,94,88,78
179,female,group D,some high school,standard,completed,97,100,100
233,male,group E,some high school,standard,none,92,87,78
263,female,group E,high school,standard,none,99,93,90
286,male,group E,associate's degree,standard,completed,97,82,88
299,male,group D,associate's degree,free/reduced,none,90,87,75
306,male,group E,some college,standard,completed,99,87,81


In [131]:
df_sp.query('`math score` >= 90')

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
2,female,group B,master's degree,standard,none,90,95,93
34,male,group E,some college,standard,none,97,87,82
104,male,group C,some college,standard,completed,98,86,90
114,female,group E,bachelor's degree,standard,completed,99,100,100
121,male,group B,associate's degree,standard,completed,91,89,92
149,male,group E,associate's degree,free/reduced,completed,100,100,93
165,female,group C,bachelor's degree,standard,completed,96,100,100
171,male,group E,some high school,standard,none,94,88,78
179,female,group D,some high school,standard,completed,97,100,100
233,male,group E,some high school,standard,none,92,87,78


#### [참고] Series의 str 메서드 활용
문자열 Series(한 변수)에서 str 함수를 활용하면 특정 단어를 포함하거나 특정 패턴과 일치하는 관측치를 선택 가능

In [120]:
df_sp

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


In [122]:
df_sp['parental level of education'].str.startswith('b') # str직렬함수, b라는 문자열로 시작하면 True, 아니면 False

0       True
1      False
2      False
3      False
4      False
       ...  
995    False
996    False
997    False
998    False
999    False
Name: parental level of education, Length: 1000, dtype: bool

In [None]:
df_sp['parental level of education'].str.endswith('college') # college로 끝나면 True

In [None]:
df_sp['parental level of education'].str.contains('degree') # degree를 포함하면 True

<br>

#### [참고] Series의 between 메서드 활용
수치형 Series(한 변수)에서 *between()* 으로 특정 범위 내 관측치 선택 가능

In [130]:
df_sp['math score'].between(80, 89.9) # 80이상 89.9이하

0      False
1      False
2      False
3      False
4      False
       ...  
995     True
996    False
997    False
998    False
999    False
Name: math score, Length: 1000, dtype: bool

In [None]:
# 양쪽 끝 경계 포함 여부 지정 가능
    # 'both', 'left', 'right', 'neither'
df_sp['math score'].between(80, 90, inclusive='left') # 80이상, 90이하, 왼쪽 포함

<br>

#### [참고] ~를 활용한 부정(True/False 반전)
bool Series(True/False) 앞에 **~** 를 붙여서 True와 False를 뒤집기 가능

In [123]:
cond1 = df_sp['math score'].between(80, 90, inclusive='left')
cond1

0      False
1      False
2      False
3      False
4      False
       ...  
995     True
996    False
997    False
998    False
999    False
Name: math score, Length: 1000, dtype: bool

In [124]:
~cond1

0       True
1       True
2       True
3       True
4       True
       ...  
995    False
996     True
997     True
998     True
999     True
Name: math score, Length: 1000, dtype: bool

In [125]:
df_sp[~cond1]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
994,male,group A,high school,standard,none,63,63,62
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


<br>

### 2.6. 함수를 활용한 부분 관측치 선택


In [132]:
# head( )와 tail()
import pandas as pd
df_ins = pd.read_csv('./data/insurance.csv')
df_ins.head()
df_ins.tail()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1333,50,male,30.97,3,no,northwest,10600.5483
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [133]:
df_ins.shape[0]

1338

In [140]:
# sample( )의 활용 / 무작위로 n개 추출
df_ins.sample(frac=0.005) # frac : 비율로 추출
# df_ins.sample(n=10)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
170,63,male,41.47,0,no,southeast,13405.3903
1265,64,male,23.76,0,yes,southeast,26926.5144
573,62,female,36.86,1,no,northeast,31620.00106
863,36,female,19.855,0,no,northeast,5458.04645
261,20,female,26.84,1,yes,southeast,17085.2676
804,23,male,26.51,0,no,southeast,1815.8759
329,52,male,36.7,0,no,southwest,9144.565


In [142]:
# nlargest( ), nsmallest( )로 상위/하위 관측치 선택
df_ins.nlargest(10, 'charges')

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
543,54,female,47.41,0,yes,southeast,63770.42801
1300,45,male,30.36,0,yes,southeast,62592.87309
1230,52,male,34.485,3,yes,northwest,60021.39897
577,31,female,38.095,1,yes,northeast,58571.07448
819,33,female,35.53,0,yes,northwest,55135.40209
1146,60,male,32.8,0,yes,southwest,52590.82939
34,28,male,36.4,1,yes,southwest,51194.55914
1241,64,male,36.96,2,yes,southeast,49577.6624
1062,59,male,41.14,1,yes,southeast,48970.2476
488,44,female,38.06,0,yes,southeast,48885.13561


In [143]:
df_ins.nsmallest(10, 'charges')

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
940,18,male,23.21,0,no,southeast,1121.8739
808,18,male,30.14,0,no,southeast,1131.5066
1244,18,male,33.33,0,no,southeast,1135.9407
663,18,male,33.66,0,no,southeast,1136.3994
22,18,male,34.1,0,no,southeast,1137.011
194,18,male,34.43,0,no,southeast,1137.4697
866,18,male,37.29,0,no,southeast,1141.4451
781,18,male,41.14,0,no,southeast,1146.7966
442,18,male,43.01,0,no,southeast,1149.3959
1317,18,male,53.13,0,no,southeast,1163.4627


<br>

#### [실습]

1. df_sp에서 math score 상위 20 명 선택
2. df_sp에서 writing score 하위 10명 선택


In [149]:
df_sp.nlargest(20, 'math score')

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
149,male,group E,associate's degree,free/reduced,completed,100,100,93
451,female,group E,some college,standard,none,100,92,97
458,female,group E,bachelor's degree,standard,none,100,100,100
623,male,group A,some college,standard,completed,100,96,86
625,male,group D,some college,standard,completed,100,97,99
916,male,group E,bachelor's degree,standard,completed,100,100,100
962,female,group E,associate's degree,standard,none,100,100,100
114,female,group E,bachelor's degree,standard,completed,99,100,100
263,female,group E,high school,standard,none,99,93,90
306,male,group E,some college,standard,completed,99,87,81


In [145]:
df_sp.nsmallest(10, 'writing score')

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
59,female,group C,some high school,free/reduced,none,0,17,10
596,male,group B,high school,free/reduced,none,30,24,15
327,male,group A,some college,free/reduced,none,28,23,19
76,male,group E,some high school,standard,none,30,26,22
980,female,group B,high school,free/reduced,none,8,24,23
211,male,group C,some college,free/reduced,none,35,28,27
338,female,group B,some high school,free/reduced,none,24,38,27
896,male,group B,high school,free/reduced,none,36,29,27
17,female,group B,some high school,free/reduced,none,18,32,28
601,female,group C,high school,standard,none,29,29,30


In [146]:
df_ins

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


<br>

### 2.7. 중복값 제거

`drop_duplicates()`를 활용해서 중복값을 제거한 목록 생성 가능

In [151]:
# df_ins[['sex', 'region']].drop_duplicates()
df_ins.drop_duplicates(subset=['sex', 'region'])

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


### 2.8. 관측치 정렬

`sort_values()`를 활용해서 관측치를 정렬

In [None]:
df_ins

In [153]:
# age 순 데이터 정렬
df_ins.sort_values('age')

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1248,18,female,39.820,0,no,southeast,1633.96180
482,18,female,31.350,0,no,southeast,1622.18850
492,18,female,25.080,0,no,northeast,2196.47320
525,18,female,33.880,0,no,southeast,11482.63485
529,18,male,25.460,0,no,northeast,1708.00140
...,...,...,...,...,...,...,...
398,64,male,25.600,2,no,southwest,14988.43200
335,64,male,34.500,0,no,southwest,13822.80300
378,64,female,30.115,3,no,northwest,16455.70785
1265,64,male,23.760,0,yes,southeast,26926.51440


In [154]:
# 원본 데이터는 영향 없음
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [155]:
# 원본 데이터의 정렬
df_ins = df_ins.sort_values('age')
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1248,18,female,39.82,0,no,southeast,1633.9618
482,18,female,31.35,0,no,southeast,1622.1885
492,18,female,25.08,0,no,northeast,2196.4732
525,18,female,33.88,0,no,southeast,11482.63485
529,18,male,25.46,0,no,northeast,1708.0014


In [156]:
# 내림차순 지정
df_ins = df_ins.sort_values('age', ascending=False)
df_ins

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
635,64,male,38.190,0,no,northeast,14410.932100
1051,64,male,26.410,0,no,northeast,14394.557900
603,64,female,39.050,3,no,southeast,16085.127500
752,64,male,37.905,0,no,northwest,14210.535950
768,64,female,39.700,0,no,southwest,14319.031000
...,...,...,...,...,...,...,...
781,18,male,41.140,0,no,southeast,1146.796600
270,18,male,29.370,1,no,southeast,1719.436300
427,18,female,29.165,0,no,northeast,7323.734819
399,18,female,38.170,0,no,southeast,1631.668300


In [157]:
# 복수 기준의 설정 
df_ins.sort_values(['age', 'charges'], ascending=[True, False])

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
803,18,female,42.240,0,yes,southeast,38792.68560
759,18,male,38.170,0,yes,southeast,36307.79830
161,18,female,36.850,0,yes,southeast,36149.48350
623,18,male,33.535,0,yes,northeast,34617.84065
57,18,male,31.680,2,yes,southeast,34303.16720
...,...,...,...,...,...,...,...
768,64,female,39.700,0,no,southwest,14319.03100
801,64,female,35.970,0,no,southeast,14313.84630
752,64,male,37.905,0,no,northwest,14210.53595
534,64,male,40.480,0,no,southeast,13831.11520


In [None]:
# index를 활용한 정렬
df_ins = df_ins.sort_index()
df_ins

<br>

#### [실습] 데이터 df_sp 활용

1. 'gender', 'lunch' 조합의 중복값 제거 목록 생성   
2. 전체 관측치를 'math score', 'reading score'의 내림차순으로 정렬

In [162]:
df_sp

df_sp.drop_duplicates(subset=['gender', 'lunch'])

df_sp.sort_values(['math score', 'reading score'], ascending=[False, False])

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
149,male,group E,associate's degree,free/reduced,completed,100,100,93
458,female,group E,bachelor's degree,standard,none,100,100,100
916,male,group E,bachelor's degree,standard,completed,100,100,100
962,female,group E,associate's degree,standard,none,100,100,100
625,male,group D,some college,standard,completed,100,97,99
...,...,...,...,...,...,...,...,...
145,female,group C,some college,free/reduced,none,22,39,33
787,female,group B,some college,standard,none,19,38,32
17,female,group B,some high school,free/reduced,none,18,32,28
980,female,group B,high school,free/reduced,none,8,24,23


#### End of script