# 데이터 결합 및 부분 선택

### 주요 내용

1. 데이터 결합
2. index, columns을 활용한 부분 선택 
3. 조건을 활용한 관측치 선택

<br>

### 목표 
1. 복수의 데이터를 적절한 방법으로 결합할 수 있다.
2. 변수 이름 등을 활용하여 부분 데이터를 선택한다.
3. 주제에 맞게 조건을 활용하여 부분 관측치를 선택한다. 


<br>
<hr>
<br>


## 1. 데이터 결합

### 1.1. concat( )을 활용한 동일 구조 데이터 행 결합

구조는 똑같고 기간이나 상품만 다른 여러 데이터가 있으면 pandas의 *concat()* 으로 결합해서 활용  
함수 안에서 `axis=0`옵션을 활용해서 행 결합(아래로 이어 붙이기)을 할 수 있고, `axis=1`로 열 결합도 가능  
`axis=0`이 기본값며 생략 가능

In [2]:
import pandas as pd
# 행 결합
    ## 출처 : 국토교통부 실거래가(http://rtdown.molit.go.kr/)
df_apt1 = pd.read_csv('./data/아파트(매매)__실거래가_20210902153616.csv', skiprows=15, encoding='CP949')
df_apt1

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.9200,202108,21,199500,6,2020,개포로 264,
1,서울특별시 강남구 개포동,185,185,0,개포주공 7단지,83.7000,202108,20,280000,2,1983,개포로 516,
2,서울특별시 강남구 개포동,138,138,0,디에이치아너힐즈,59.8732,202108,17,233000,4,2019,삼성로 11,
3,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.9670,202108,14,227000,10,2019,선릉로 8,
4,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.8600,202108,1,169000,10,1992,개포로109길 9,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
231,서울특별시 강남구 청담동,14,14,0,"청담2차 이-편한세상(201동,202동,203동)",84.9700,202108,14,200000,7,2006,도산대로70길 25,
232,서울특별시 강남구 청담동,15-21,15,21,청담2차 이-편한세상(205동),119.5500,202108,9,215000,3,2006,도산대로78길 51,
233,서울특별시 강남구 청담동,34-13,34,13,청담스위트,13.4250,202108,17,22000,4,2015,학동로73길 13,
234,서울특별시 강남구 청담동,134-38,134,38,청담자이,89.3560,202108,4,400000,16,2011,영동대로138길 12,


In [3]:
df_apt2 = pd.read_csv('./data/아파트(매매)__실거래가_20210902153636.csv', skiprows=15, encoding='CP949')
df_apt2

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 서초구 내곡동,BL-1,1,0,서초더샵포레,114.7100,202108,14,185000,8,2014,헌릉로8길 58,
1,서울특별시 서초구 반포동,18-1,18,1,래미안퍼스티지,169.3100,202108,7,527000,26,2009,반포대로 275,
2,서울특별시 서초구 반포동,757,757,0,반포 주공1단지,106.2500,202108,9,455000,2,1973,신반포로 9,
3,서울특별시 서초구 반포동,1341,1341,0,반포래미안아이파크,99.9200,202108,5,350000,3,2018,서초중앙로 220,
4,서울특별시 서초구 반포동,1342,1342,0,반포써밋,84.9716,202108,7,300000,20,2018,고무래로 89,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
69,서울특별시 서초구 잠원동,160,160,0,신반포자이,59.8600,202108,5,255000,6,2018,잠원로 60,
70,서울특별시 서초구 잠원동,63-2,63,2,신반포청구,84.8600,202108,6,239000,8,1998,신반포로33길 66,
71,서울특별시 서초구 잠원동,159,159,0,아크로리버뷰신반포,78.5000,202108,4,290000,3,2018,잠원로 117,
72,서울특별시 서초구 잠원동,159,159,0,아크로리버뷰신반포,78.5000,202108,4,290000,3,2018,잠원로 117,20210826.0


In [4]:
df_apt3 = pd.read_csv('./data/아파트(매매)__실거래가_20210902153655.csv', skiprows=15, encoding='CP949')
df_apt3

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 송파구 가락동,95-1,95,1,가락금호아파트,59.91,202108,8,123000,1,1997,송파대로32길 15,
1,서울특별시 송파구 가락동,21-6,21,6,가락쌍용(2차),59.88,202108,2,121000,2,1999,송이로15길 31,
2,서울특별시 송파구 가락동,21-6,21,6,가락쌍용(2차),84.42,202108,12,135000,1,1999,송이로15길 31,
3,서울특별시 송파구 가락동,70-19,70,19,대림,84.11,202108,9,140000,2,1988,송이로 88,
4,서울특별시 송파구 가락동,70-19,70,19,대림,120.96,202108,11,170000,5,1988,송이로 88,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,서울특별시 송파구 풍납동,220-2,220,2,신동아파밀리에,59.36,202108,1,85900,8,1993,풍성로6길 15,
72,서울특별시 송파구 풍납동,510,510,0,신성노바빌아파트,59.78,202108,16,98500,15,2000,한가람로 468,
73,서울특별시 송파구 풍납동,401-1,401,1,쌍용,84.85,202108,11,143000,15,1994,올림픽로47길 12,
74,서울특별시 송파구 풍납동,508,508,0,한강극동,84.76,202108,25,111000,11,1995,토성로 38-6,


In [5]:
df_apt = pd.concat([df_apt1, df_apt2, df_apt3], axis=0) # 인덱스 번호도 그대로 이어져서 붙여짐(중복)
df_apt

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.9200,202108,21,199500,6,2020,개포로 264,
1,서울특별시 강남구 개포동,185,185,0,개포주공 7단지,83.7000,202108,20,280000,2,1983,개포로 516,
2,서울특별시 강남구 개포동,138,138,0,디에이치아너힐즈,59.8732,202108,17,233000,4,2019,삼성로 11,
3,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.9670,202108,14,227000,10,2019,선릉로 8,
4,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.8600,202108,1,169000,10,1992,개포로109길 9,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71,서울특별시 송파구 풍납동,220-2,220,2,신동아파밀리에,59.3600,202108,1,85900,8,1993,풍성로6길 15,
72,서울특별시 송파구 풍납동,510,510,0,신성노바빌아파트,59.7800,202108,16,98500,15,2000,한가람로 468,
73,서울특별시 송파구 풍납동,401-1,401,1,쌍용,84.8500,202108,11,143000,15,1994,올림픽로47길 12,
74,서울특별시 송파구 풍납동,508,508,0,한강극동,84.7600,202108,25,111000,11,1995,토성로 38-6,


<br>

> **DataFrame**에서 행 번호에 해당하는 **index**는 중요한 역할을 합니다.  
예를 들어 아래처럼 index를 확인할 수 있고, 특정 index를 지정해서 관측치를 선택하는 것도 가능합니다. 

In [None]:
df_apt.index

In [7]:
# index 0 관측치 선택
df_apt.loc[0] # df1, df2, df3의 0번째 총 3개

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.92,202108,21,199500,6,2020,개포로 264,
0,서울특별시 서초구 내곡동,BL-1,1,0,서초더샵포레,114.71,202108,14,185000,8,2014,헌릉로8길 58,
0,서울특별시 송파구 가락동,95-1,95,1,가락금호아파트,59.91,202108,8,123000,1,1997,송파대로32길 15,


>결합 이전 기존 Index 활용으로 **0** 인덱스 관측치의 중복 발생  
행 결합이나 정렬 이후 인덱스를 재지정하거나 초기화 필요

In [12]:
# reset_index()을 활용한 index 초기화
    ## drop=True: 기존 인덱스를 변수로 추가할 지 버릴지 선택
df_apt.reset_index(inplace=True) # 반환값이 없음

# index의 오른쪽 숫자는 기존의 인덱스들

# 데이터의 변경사항이 존재할 경우,
# inplace = False : 원본 데이터의 변경사항을 허용하는 속성

In [13]:
# index 0 관측치 재선택
# 원본데이터 손실 방지를 위해 복사한 데이터 활용
df_apt.loc[0]
# series이므로 아래와 같이 출력됨

index                   0
시군구         서울특별시 강남구 개포동
번지                   1282
본번                   1282
부번                      0
단지명             개포래미안포레스트
전용면적(㎡)             59.92
계약년월               202108
계약일                    21
거래금액(만원)          199,500
층                       6
건축년도                 2020
도로명               개포로 264
해제사유발생일               NaN
Name: 0, dtype: object

* `inplace=True` : 원본 데이터의 변경사항 허용
* `axis=1 : 행 방향, 'axis=0 : 열 방향'

#### [실습]  데이터 결합 및 인덱스 초기화

출처 : [서울시 지하철 호선별 역별 승하차 인원수](http://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do)

1. `data`폴더의 `CARD_SUBWAY_MONTH_`로 시작하는 3개 데이터 확인하기  
    

2. 1.의 데이터를 각각 불러와서 저장하고, pd.concat()으로 행 결합하기(encoding='CP949' 활용)


3. index 초기화 하기



In [42]:
import glob as g
path_list = g.glob('./data/CARD_SUBWAY_MONTH_*.csv')
path_list

['./data\\CARD_SUBWAY_MONTH_201907.csv',
 './data\\CARD_SUBWAY_MONTH_202007.csv',
 './data\\CARD_SUBWAY_MONTH_202107.csv']

In [9]:
# Library 임포트
import pandas as pd
from glob import glob

path_list = glob('./data/CARD_SUBWAY_MONTH_*.csv')

df_list = []

# data폴더의 CARD_SUBWAY_MONTH
for path in path_list:
    temp = pd.read_csv(path, encoding='CP949')
    df_list.append(temp)

df_card = pd.concat(df_list, axis=0)

df_card.reset_index(inplace=True, drop=True) # 새로운 인덱스로 대체(inplace=True)후 기존 인덱스 값들 모두 제거(drop=True)
df_card

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20190701,1호선,종로3가,34944.0,32751.0,20190704
1,20190701,1호선,종로5가,28640.0,28862.0,20190704
2,20190701,1호선,동대문,14793.0,16182.0,20190704
3,20190701,1호선,신설동,17911.0,17483.0,20190704
4,20190701,1호선,제기동,21946.0,22345.0,20190704
...,...,...,...,...,...,...
55261,20210731,경원선,청량리(서울시립대입구),11320.0,13138.0,20210803
55262,20210731,경원선,외대앞,4261.0,4279.0,20210803
55263,20210731,경원선,신이문,4666.0,4313.0,20210803
55264,20210731,2호선,용두(동대문구청),1292.0,1364.0,20210803


In [None]:
# Library 임포트
import pandas as pd

path_list = g.glob('./data/CARD_SUBWAY_MONTH_*.csv') # 'CARD_SUBWAY_MONTH_'로 시작하는 csv파일 모두 불러와서 path_list에 리스트 형태로 저장

targets = []
for x in path_list:
    df_temp = pd.read_csv(x, encoding='CP949')
    targets.append(df_temp)
    
df_subway = pd.concat(targets, axis=0)

# index 초기화 하기
df_subway.reset_index(drop=True, inplace=True)
df_subway

#### [참고] glob과 for 반복문을 활용한 복수 데이터 처리

**glob** 라이브러리의 *glob()* 을 활용하면 복수의 데이터 경로를 손쉽게 처리 가능

In [None]:
# 대상 파일 목록 생성
from glob import glob
file_list  = glob('data/apt/*.csv')
file_list

In [None]:
# for를 활용한 반복
target = list()
for path_ in file_list:
    target.append(pd.read_csv(path_, skiprows=15, encoding='CP949'))
target

In [None]:
# 최종 작업
df_subway = pd.concat(target, axis=0).reset_index(drop=True)
df_subway

<br>

### 1.2. merge()를 활용한 KEY 변수 기준 결합 

SQL의 JOIN, Excel의 VLOOKUP()과 같이 KEY 변수를 활용한 데이터 결합은 *merge()* 를 활용

In [10]:
# 예제 데이터 불러오기
df_left  = pd.read_csv('./data/data_left.csv')
df_right = pd.read_csv('./data/data_right.csv')

In [11]:
df_left

Unnamed: 0,product_id,category,sales
0,P001,A,100
1,P002,B,300
2,P003,,100
3,P005,A,200


In [14]:
df_right

Unnamed: 0,category,name,manager_id
0,A,Food,E009
1,B,Beverage,E009
2,C,Industrial,E010


<br>

> key를 활용한 데이터 결합에서는 일치하는 key가 있는, 짝이 있는 관측치만 출력하는 것이 기본값으로 설정되어 있습니다. SQL에서는 이것을 **inner join**이라고 부릅니다.  

*merge()* 에서 `how=` 옵션을 활용해서 다음과 같은 데이터 결합 방법 지정 

+ `inner`: inner join, key 기준 일치하는 관측치만 포함
+ `left`:  left join. inner join의 결과물과 왼쪽 데이터의 짝 없는 관측치 포함
+ `right`: right join. inner join의 결과물과 오른쪽 데이터의 짝 없는 관측치 포함
+ `outer`: full outer join. inner join과 양쪽 데이터의 짝이 없는 모든 관측치 포함

In [15]:
# merge()를 활용한 결합
pd.merge(df_left, df_right, how='inner', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100,Food,E009
1,P005,A,200,Food,E009
2,P002,B,300,Beverage,E009


In [16]:
# left join
pd.merge(df_left, df_right, how='left', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100,Food,E009
1,P002,B,300,Beverage,E009
2,P003,,100,,
3,P005,A,200,Food,E009


In [17]:
# right join
pd.merge(df_left, df_right, how='right', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100.0,Food,E009
1,P005,A,200.0,Food,E009
2,P002,B,300.0,Beverage,E009
3,,C,,Industrial,E010


In [18]:
# full outer join
pd.merge(df_left, df_right, how='outer', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100.0,Food,E009
1,P005,A,200.0,Food,E009
2,P002,B,300.0,Beverage,E009
3,P003,,100.0,,
4,,C,,Industrial,E010


#### [실습]  데이터 결합 

1. `data`폴더의 `production.csv`를 불러와서 **df_pd** 로 저장하기

2. `data`폴더의 `weather.csv`를 불러와서 **df_wt** 로 저장하기

3. 두 데이터를 `date`를 기준으로 결합하기



In [36]:
df_pd = pd.read_csv('./data/production.csv')
df_wt = pd.read_csv('./data/weather.csv')

display(df_pd.head(20)); display(df_wt.head(20))

Unnamed: 0,date,factory,line,capacity,production,defective
0,2021-01-04,A,1,1000.0,979,3
1,2021-01-04,A,2,1000.0,948,3
2,2021-01-04,A,3,1000.0,962,4
3,2021-01-04,B,4,1500.0,1473,3
4,2021-01-04,B,5,1500.0,1462,5
5,2021-01-04,C,6,2000.0,1982,4
6,2021-01-04,C,7,2000.0,2046,7
7,2021-01-04,C,8,2000.0,1993,6
8,2021-01-04,C,9,2000.0,2031,6
9,2021-01-05,A,1,1000.0,986,2


Unnamed: 0,date,temp_high,temp_low,hum,rain
0,2021-01-01,1.6,-9.8,64.0,
1,2021-01-02,-1.4,-8.4,38.5,
2,2021-01-03,-2.0,-9.1,45.0,
3,2021-01-04,0.3,-8.4,51.4,0.0
4,2021-01-05,-2.1,-9.9,52.8,0.0
5,2021-01-06,-1.9,-12.0,54.6,2.3
6,2021-01-07,-8.4,-16.5,49.9,
7,2021-01-08,-10.7,-18.6,44.0,
8,2021-01-09,-7.5,-16.6,46.3,
9,2021-01-10,-2.7,-12.8,54.4,


In [38]:
pd.merge(df_pd, df_wt, how='left', on='date').head(20)

Unnamed: 0,date,factory,line,capacity,production,defective,temp_high,temp_low,hum,rain
0,2021-01-04,A,1,1000.0,979,3,0.3,-8.4,51.4,0.0
1,2021-01-04,A,2,1000.0,948,3,0.3,-8.4,51.4,0.0
2,2021-01-04,A,3,1000.0,962,4,0.3,-8.4,51.4,0.0
3,2021-01-04,B,4,1500.0,1473,3,0.3,-8.4,51.4,0.0
4,2021-01-04,B,5,1500.0,1462,5,0.3,-8.4,51.4,0.0
5,2021-01-04,C,6,2000.0,1982,4,0.3,-8.4,51.4,0.0
6,2021-01-04,C,7,2000.0,2046,7,0.3,-8.4,51.4,0.0
7,2021-01-04,C,8,2000.0,1993,6,0.3,-8.4,51.4,0.0
8,2021-01-04,C,9,2000.0,2031,6,0.3,-8.4,51.4,0.0
9,2021-01-05,A,1,1000.0,986,2,-2.1,-9.9,52.8,0.0


* 생산량 기준, 날씨 기준으로 데이터를 분석

<br>
<hr>
<br>


## 2. 데이터 부분 선택

일반적인 비즈니스 데이터 분석에서 주제와 기간, 사이트, 제품, 공정 등 본인의 업무와 관련이 있는 일부 데이터만 선택하고 활용  
SQL을 활용한 데이터 추출 과정과 별개로 Python에서 각 분석 과정에서 맞게 부분 데이터를 다시 선택하고 사용

<br> 

In [39]:
# 예제 데이터 불러오기
import pandas as pd
df_ins = pd.read_csv('data/insurance.csv')
df_ins

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


<br>

### 2.1. 데이터프레임의 변수(열) 선택 방법

- DataFrame 뒤에 마침표`.`를 찍고 `Tab` 키를 눌러 메서드들과 함께 변수(열)이름을 선택가능
- `[]` 연산자를 활용한 변수(열)의 선택 가능


In [48]:
# .을 활용한 하나의 변수(열) 선택 (공백이 포함된 변수명일 경우 사용 불가)
df_ins.region # 변수의 이름에 공백이 들어가면 사용이 불가능 ex) df_ins.age of

# (★권장)선택 문법을 통한 열 선택 (공백이 포함된 변수명일 경우에도 사용 가능)
df_ins['region']

0       southwest
1       southeast
2       southeast
3       northwest
4       northwest
          ...    
1333    northwest
1334    northeast
1335    southeast
1336    southwest
1337    northwest
Name: region, Length: 1338, dtype: object

<br>


### 2.2. 대괄호를 활용한 데이터 부분 선택

DataFrame에 대괄호를 붙이고 슬라이스:로 관측치 번호를 지정하거나 따옴표''로 변수 이름을 넣어 데이터 부분을 선택 가능  
변수 이름을 리스트 형식으로 묶어 넣어 여러개 변수를 한번에 선택 가능

In [49]:
# 한 변수 선택 
type(df_ins['age'])

pandas.core.series.Series

In [55]:
# 리스트를 활용한 복수 변수 선택
x =['age','smoker','charges']
df_ins[x]

Unnamed: 0,age,smoker,charges
0,19,yes,16884.92400
1,18,no,1725.55230
2,28,no,4449.46200
3,33,no,21984.47061
4,32,no,3866.85520
...,...,...,...
1333,50,no,10600.54830
1334,18,no,2205.98080
1335,18,no,1629.83350
1336,21,no,2007.94500


> 표시되는 인덱스는 값일 뿐, 순서를 나타내는 것은 아님

In [57]:
# 관측치 선택(슬라이싱)
df_ins[0:3]

# 관측지 선택(pd.head())
# df_ins.head(3)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462


In [62]:
df_ins[['age', 'smoker', 'charges']]

Unnamed: 0,age,smoker,charges
0,19,yes,16884.92400
1,18,no,1725.55230
2,28,no,4449.46200
3,33,no,21984.47061
4,32,no,3866.85520
...,...,...,...
1333,50,no,10600.54830
1334,18,no,2205.98080
1335,18,no,1629.83350
1336,21,no,2007.94500


In [None]:
# 연속된 대괄호 활용가능

x = df_ins[['age','smoker','charges']][0:5] # df[0:5]
x.shape[0]

<br>

#### [실습]  

1. 아래의 명령어를 실행해서 df_subway 데이터 생성하기 

2. .columns 변수(속성)를 활용해서 변수이름 확인하기

3. 슬라이스를 활용하여 11~15번째 관측치(행) 선택하기

4. '사용일자', '역명', '하차총승객수' 세 변수(열) 선택하기



    

In [65]:
df_card.columns

Index(['사용일자', '노선명', '역명', '승차총승객수', '하차총승객수', '등록일자'], dtype='object')

In [68]:
df_card[10:15]

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
10,20190701,2호선,을지로4가,14801.0,14830.0,20190704
11,20190701,2호선,동대문역사문화공원,18590.0,21628.0,20190704
12,20190701,2호선,신당,16228.0,16636.0,20190704
13,20190701,2호선,상왕십리,16372.0,15797.0,20190704
14,20190701,2호선,왕십리(성동구청),20431.0,16884.0,20190704


In [70]:
df_card[['사용일자', '역명', '하차총승객수']][10:15]

Unnamed: 0,사용일자,역명,하차총승객수
10,20190701,을지로4가,14830.0
11,20190701,동대문역사문화공원,21628.0
12,20190701,신당,16636.0
13,20190701,상왕십리,15797.0
14,20190701,왕십리(성동구청),16884.0


In [None]:
# 1. 아래의 명령어를 실행해서 df_subway 데이터 생성하기
df_subway

# 2. .columns 변수(속성)를 활용해서 변수이름 확인하기
df_subway.columns

# 3. 슬라이스를 활용하여 11~15번째 관측치(행) 선택하기
df_subway[10:15]

# 4. '사용일자', '역명', '하차총승객수' 세 변수(열) 선택하기
df_subway[['사용일자', '역명', '하차총승객수']]

df_subway[10:15][['사용일자', '역명', '하차총승객수']]

<br>

## 2.3. loc과 iloc을 활용한 관측치/변수 선택

loc은 행 이름(index)과 열 이름(column)으로 데이터에서 일부를 선택하고, iloc은 정수(integer) 형식의 행 번호, 열 번호를 활용  
두 방법 모두 리스트[ ]나 슬라이스:를 활용한 방법을 지원

* `indexer` : 선택해주는 것 (행과 열을 동시에 선택)
  1. `loc` : label이나 인덱스로 선택
  2. `iloc` : 정수형식의 행, 열 번호 활용

In [71]:
# 실습을 위해 원본 데이터를 복제(copy)하고 부분선택
df_ins2 = df_ins.copy()[0:10]
df_ins2

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552
5,31,female,25.74,0,no,southeast,3756.6216
6,46,female,33.44,1,no,southeast,8240.5896
7,37,female,27.74,3,no,northwest,7281.5056
8,37,male,29.83,2,no,northeast,6406.4107
9,60,female,25.84,0,no,northwest,28923.13692


In [81]:
# 실습을 위해 인덱스를 별도로 지정
df_ins2['idx'] = list(range(101, 111))
df_ins2.set_index('idx', inplace=True)

df_ins2

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
101,19,female,27.9,0,yes,southwest,16884.924
102,18,male,33.77,1,no,southeast,1725.5523
103,28,male,33.0,3,no,southeast,4449.462
104,33,male,22.705,0,no,northwest,21984.47061
105,32,male,28.88,0,no,northwest,3866.8552
106,31,female,25.74,0,no,southeast,3756.6216
107,46,female,33.44,1,no,southeast,8240.5896
108,37,female,27.74,3,no,northwest,7281.5056
109,37,male,29.83,2,no,northeast,6406.4107
110,60,female,25.84,0,no,northwest,28923.13692


<br> 

### 2.3.1. loc을 활용한 부분 선택

loc은 실제로 눈에 보이는 index와 column을 활용

In [84]:
df_ins2.loc[101] # series형태

age                19
sex            female
bmi              27.9
children            0
smoker            yes
region      southwest
charges     16884.924
Name: 101, dtype: object

In [89]:
x = [101, 103]
df_ins2.loc[x]

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
101,19,female,27.9,0,yes,southwest,16884.924
103,28,male,33.0,3,no,southeast,4449.462


In [95]:
df_ins2.loc[101:103]
# loc에는 인덱스에 순서적인 위치개념이 없음, start와 end값을 포함한 그 사이의 모든 값

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
101,19,female,27.9,0,yes,southwest,16884.924
102,18,male,33.77,1,no,southeast,1725.5523
103,28,male,33.0,3,no,southeast,4449.462


In [96]:
df_ins2.loc[101:103, 'smoker'] # 행이 복수여도 열을 하나 : series

idx
101    yes
102     no
103     no
Name: smoker, dtype: object

In [97]:
# 변수이름 리스트 활용가능
df_ins2.loc[101:103, ['smoker','region']] # DataFrame

Unnamed: 0_level_0,smoker,region
idx,Unnamed: 1_level_1,Unnamed: 2_level_1
101,yes,southwest
102,no,southeast
103,no,southeast


In [98]:
# 변수이름 슬라이스:를 활용 가능 
df_ins2.loc[101:103, 'smoker':'charges']

Unnamed: 0_level_0,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
101,yes,southwest,16884.924
102,no,southeast,1725.5523
103,no,southeast,4449.462


In [99]:
# 모든 관측치 선택할 때는 :
df_ins2.loc[:, 'smoker':'charges']

Unnamed: 0_level_0,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
101,yes,southwest,16884.924
102,no,southeast,1725.5523
103,no,southeast,4449.462
104,no,northwest,21984.47061
105,no,northwest,3866.8552
106,no,southeast,3756.6216
107,no,southeast,8240.5896
108,no,northwest,7281.5056
109,no,northeast,6406.4107
110,no,northwest,28923.13692


<br> 

### 2.2.2. iloc을 활용한 부분 선택

iloc은 이름과 상관없이 정수로 표현한 위치, 번호를 활용하며 리스트나 슬라이스 활용 방법은 loc과 동일

In [120]:
### display(df_ins2)
df_ins2.iloc[0:4, 0:2]

Unnamed: 0_level_0,age,sex
idx,Unnamed: 1_level_1,Unnamed: 2_level_1
101,19,female
102,18,male
103,28,male
104,33,male


#### [실습] 

1. df_pr에서 index 기준 '3'의 'Weight' 확인하기
2. df_pr에서 index 기준 '11~15'의 'Age'부터 'Exercise'까지 선택하기
3. df_pr에서 첫번째 ~ 다섯번째 관측치와 다섯번째 ~ 열번째 변수 선택하기

In [133]:
# data 폴더 내 PulseRates.csv 파일을 df_pr에 저장한 후 아래의 결과를 확인하시오
df_pr = pd.read_csv('./data/PulseRates.csv')

# 1. df_pr에서 index 기준 '3'의 'Weight' 확인하기
df_pr.loc[3]['Weight']

# 2. df_pr에서 index 기준 '11~15'의 'Age'부터 'Exercise'까지 선택하기
df_pr.loc[11:15, 'Age':'Exercise']

# 3. df_pr에서 첫번째 ~ 다섯번째 관측치와 다섯번째 ~ 열번째 변수 선택하기
df_pr.iloc[0:5, 4:10]

Unnamed: 0,Smokes,Alcohol,Exercise,Ran,Pulse1,Pulse2
0,2,1,2,2,86.0,88.0
1,2,1,2,1,82.0,150.0
2,2,1,1,1,96.0,176.0
3,2,1,1,2,71.0,73.0
4,2,1,3,2,90.0,88.0


In [None]:
df_pr = pd.read_csv('./data/PulseRates.csv')
display(df_pr)
df_pr.loc[3, 'Weight']
df_pr.loc[11:15, 'Age':'Exercise']
df_pr.iloc[0:5, 4:10]

### 2.4. 함수를 활용한 여러 변수 선택 



In [None]:
import pandas as pd

df_pr = pd.read_csv('./data/PulseRates.csv')
df_pr

In [None]:
# filter( ) 메서드에서 변수 이름 패턴을 활용한 선택 
    ## regex :  정규표현식(regular expression)
    ## '^s' : 's'로 시작하는 이름/텍스트
    ## 's$' : 's'로 끝나는 이름/텍스트
    
df_pr.filter(regex='se')   

In [None]:
# 변수형식 확인하기
    ## int/float : 숫자
    ## object : 문자열
df_ins = pd.read_csv('./data/insurance.csv')
df_ins.dtypes

In [None]:
# 수치형 변수만 선택
df_ins.select_dtypes(include='object')

In [None]:
# 문자열 변수만 선택
df_ins.select_dtypes(include='object')

<br>

#### [실습] Student performance 데이터 활용

1. df_sp에서 수치형 변수만 선택
2. df_sp에서 수치형이 아닌 변수만 선택
3. df_sp에서 이름에 'score'가 들어간 변수만 선택



In [None]:
# data 폴더 내 StudentsPerformance.csv 파일
import pandas as pd
df_sp = pd.read_csv('./data/StudentsPerformance.csv')
df_sp

# 1. df_sp에서 수치형 변수만 선택
df_sp.select_dtypes(include='number')

# 2. df_sp에서 수치형이 아닌 변수만 선택
df_sp.dtypes
df_sp.select_dtypes(exclude='number')

# 3. df_sp에서 이름에 'score'가 들어간 변수만 선택
df_sp.filter(regex="score")

df_sp


<br>

### 3.5. 조건을 활용한 관측치 선택

SQL에서 WHERE 절이나 Excel의 Filter와 같이 데이터에서 부분을 선택할 때 조건을 활용하는 경우 많음  
[ ]나 .loc[ ] 안에 조건식을 넣어서 조건과 일치하는 관측치만 선택 가능

In [None]:
df_ins

In [None]:
# 1 단계 : 조건 설정(결과는 True/False)
    # bool 타입 Series 
df_ins['age'] < 30

In [None]:
# 2 단계 : []와 조건을 활용한 관측치 선택
cond = df_ins['age'] < 30
df_ins.loc[cond]

In [None]:
# &와 |를 활용한 조건 결합
cond1 = df_ins['age'] < 30
cond2 = df_ins['sex'] == 'female'
cond = cond1 & cond2
df_ins[cond]

In [None]:
df_ins[(df_ins['age'] < 30) | (df_ins['sex'] == 'female')]

<br> 

> 특히 비즈니스 데이터는 범주화, 그룹화된 변수들이 많고, 수많은 담당자들이 그 중 일부 범주, 그룹, 수준을 나눠서 운영하는 경우가 많습니다.  
*isin()* 을 활용해서 내가 관심있는 범주인지 아닌지 포함여부에 대한 연산이 가능합니다.

In [None]:
# 변수 region의 수준 목록 확인 및 관심 수준 선택
df_ins['region']

In [None]:
# isin()을 활용한 특정 수준 관측치 선택
cond1 = df_ins['region'].isin(['southeast','northwest'])
(df_ins['region'] == 'southeast') | (df_ins['region'] == 'northwest')

In [None]:
df_ins.loc[cond1]

<br>

#### [실습]

1. df_sp에서 math score가 90 이상인 관측치(행) 선택
2. df_sp에서 race/ethnicity가 'group D', 'group E'인 관측치(행) 선택(isin() 활용)
3. 1.과 2.를 동시에 만족하는 관측치(행) 선택 

In [None]:
df_sp

# 1. df_sp에서 math score가 90 이상인 관측치(행) 선택
cond1 = df_sp['math score'] >= 90
df_sp.loc[cond1].shape

# 2. df_sp에서 race/ethnicity가 'group D', 'group E'인 관측치(행) 선택(isin() 활용)
cond2 = df_sp['race/ethnicity'].isin(['group D', 'group E'])
df_sp[cond2].shape

# 3. 1.과 2.를 동시에 만족하는 관측치(행) 선택
cond3 = cond1 & cond2
df_sp.loc[cond3].shape

#### [참고] Series의 str 메서드 활용
문자열 Series(한 변수)에서 str 함수를 활용하면 특정 단어를 포함하거나 특정 패턴과 일치하는 관측치를 선택 가능

In [None]:
df_sp

In [None]:
df_sp['parental level of education'].str.startswith('b')

In [None]:
df_sp['parental level of education'].str.endswith('college')

In [None]:
df_sp['parental level of education'].str.contains('degree')

<br>

#### [참고] Series의 between 메서드 활용
수치형 Series(한 변수)에서 *between()* 으로 특정 범위 내 관측치 선택 가능

In [None]:
df_sp['math score'].between(80, 89.9)

In [None]:
# 양쪽 끝 경계 포함 여부 지정 가능
    # 'both', 'left', 'right', 'neither'
df_sp['math score'].between(80, 90, inclusive='left')

<br>

#### [참고] ~를 활용한 부정(True/False 반전)
bool Series(True/False) 앞에 **~** 를 붙여서 True와 False를 뒤집기 가능

In [None]:
cond1 = df_sp['math score'].between(80, 90, inclusive='left')
cond1

In [None]:
~cond1

In [None]:
df_sp[~cond1]

<br>

### 2.6. 함수를 활용한 부분 관측치 선택


In [None]:
# head( )와 tail()
import pandas as pd
df_ins = pd.read_csv('./data/insurance.csv')
df_ins.head()
df_ins.tail()

In [None]:
df_ins.shape[0]

In [None]:
# sample( )의 활용
# df_ins.sample(frac=0.005)
df_ins.sample(n=10)

In [None]:
# nlargest( ), nsmallest( )로 상위/하위 관측치 선택
df_ins.nlargest(10, 'charges')


In [None]:
df_ins.nsmallest(10, 'charges')

<br>

#### [실습]

1. df_sp에서 math score 상위 20 명 선택
2. df_sp에서 writing score 하위 10명 선택


In [None]:
df_sp

# df_sp에서 math score 상위 20 명 선택
df_sp.nlargest(5, ['math score', 'reading score', 'writing score'])

# df_sp에서 writing score 하위 10명 선택
df_sp.nsmallest(10, 'writing score')


In [None]:
df_ins

<br>

### 2.7. 중복값 제거

`drop_duplicates()`를 활용해서 중복값을 제거한 목록 생성 가능

In [None]:
# df_ins[['sex', 'region']].drop_duplicates()
df_ins.drop_duplicates(subset=['sex', 'region'])

### 2.8. 관측치 정렬

`sort_values()`를 활용해서 관측치를 정렬

In [None]:
df_ins

In [None]:
# age 순 데이터 정렬
df_ins.sort_values('age')

In [None]:
# 원본 데이터는 영향 없음
df_ins.head()

In [None]:
# 원본 데이터의 정렬
df_ins = df_ins.sort_values('age')
df_ins.head()

In [None]:
# 내림차순 지정
df_ins = df_ins.sort_values('age', ascending=False)
df_ins

In [None]:
# 복수 기준의 설정 
df_ins.sort_values(['age', 'charges'], ascending=[True, False])

In [None]:
# index를 활용한 정렬
df_ins = df_ins.sort_index()
df_ins

<br>

#### [실습] 데이터 df_sp 활용

1. 'gender', 'lunch' 조합의 중복값 제거 목록 생성   
2. 전체 관측치를 'math score', 'reading score'의 내림차순으로 정렬

In [None]:
df_sp

# 'gender', 'lunch' 조합의 중복값 제거 목록 생성
df_sp.drop_duplicates(subset=['gender', 'lunch'])

# 전체 관측치를 'math score', 'reading score'의 내림차순으로 정렬
df_sp.sort_values(['math score', 'reading score'], ascending=[False, False])

#### End of script