# 데이터 결합 및 부분 선택

### 주요 내용

1. 데이터 결합
2. index, columns을 활용한 부분 선택 
3. 조건을 활용한 관측치 선택

<br>

### 목표 
1. 복수의 데이터를 적절한 방법으로 결합할 수 있다.
2. 변수 이름 등을 활용하여 부분 데이터를 선택한다.
3. 주제에 맞게 조건을 활용하여 부분 관측치를 선택한다. 


<br>
<hr>
<br>

## 1. DataFrame 형식의 활용

**pandas**는 데이터를 저장하는 형식 DataFrame을 중심으로 구성되어 있습니다. pandas의 다양한 함수를 활용해서 데이터를 불러오거나 저장할 수 있고, 분석 과정에서 필요한 전처리나 집계 작업도 가능합니다.   


In [2]:
# 라이브러리 불러오기
import pandas as pd

<br>

DataFrame에서 각각의 열, 변수가 하나의 Series로 저장되어 있습니다. Series에 딸려 있는 메서드가 있고, DataFrame에 딸린 메서드가 있어서 구분할 수 있으면 좋지만 이런 세부적인 내용을 몰라도 큰 문제는 없습니다. 그리고 직접 Series를 만들고 결합해서 DataFrame을 만드는 것이 아니라 csv 파일로 데이터를 불러오는 경우가 많기 때문에 더욱이 Series 형식을 자세히 알아둘 필요는 없습니다. 

만약 직접 DataFrame을 만들어야 할 때는 DataFrame( )을 활용할 수 있습니다. 그리고 이 안에 딕셔너리를 넣는 것이 일반적입니다.

In [3]:
# 딕셔너리를 활용한 DataFrame 생성
df_own = pd.DataFrame({'FIRST' : ['A', 'B', 'C', 'D'],
                       'SECOND': [7,6,5,8], 
                       'THIRD' : pd.date_range('2022-12-05', periods=4, freq='W-MON')})
df_own
    # freq='W-MON' : 매주 월요일


Unnamed: 0,FIRST,SECOND,THIRD
0,A,7,2022-12-05
1,B,6,2022-12-12
2,C,5,2022-12-19
3,D,8,2022-12-26


<br>
<hr>
<br>

## 2. 데이터 결합

### 2.1. concat( )을 활용한 동일 구조 데이터 행 결합

구조는 똑같고 기간이나 상품만 다른 여러 데이터가 있으면 결합해서 활용합니다. 이때 pandas의 *concat()*을 활용합니다. 함수 안에서 `axis=0`옵션을 활용해서 행 결합(아래로 이어 붙이기)을 할 수 있고, `axis=1`로 열 결합도 가능합니다. `axis=0`이 기본값이라서 생략 가능합니다.

In [4]:
# 행 결합
    ## 출처 : 국토교통부 실거래가(http://rtdown.molit.go.kr/)
df_apt1 = pd.read_csv('data/아파트(매매)__실거래가_20210902153616.csv', skiprows=15, encoding='CP949')
df_apt1.head(n=3)

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.92,202108,21,199500,6,2020,개포로 264,
1,서울특별시 강남구 개포동,185,185,0,개포주공 7단지,83.7,202108,20,280000,2,1983,개포로 516,
2,서울특별시 강남구 개포동,138,138,0,디에이치아너힐즈,59.8732,202108,17,233000,4,2019,삼성로 11,


In [5]:
df_apt2 = pd.read_csv('data/아파트(매매)__실거래가_20210902153636.csv', skiprows=15, encoding='CP949')
df_apt2.head(n=3)

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 서초구 내곡동,BL-1,1,0,서초더샵포레,114.71,202108,14,185000,8,2014,헌릉로8길 58,
1,서울특별시 서초구 반포동,18-1,18,1,래미안퍼스티지,169.31,202108,7,527000,26,2009,반포대로 275,
2,서울특별시 서초구 반포동,757,757,0,반포 주공1단지,106.25,202108,9,455000,2,1973,신반포로 9,


In [6]:
df_apt3 = pd.read_csv('data/아파트(매매)__실거래가_20210902153655.csv', skiprows=15, encoding='CP949')
df_apt3.head(n=3)

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 송파구 가락동,95-1,95,1,가락금호아파트,59.91,202108,8,123000,1,1997,송파대로32길 15,
1,서울특별시 송파구 가락동,21-6,21,6,가락쌍용(2차),59.88,202108,2,121000,2,1999,송이로15길 31,
2,서울특별시 송파구 가락동,21-6,21,6,가락쌍용(2차),84.42,202108,12,135000,1,1999,송이로15길 31,


In [12]:
df_apt = pd.concat([df_apt1, df_apt2, df_apt3])
df_apt.reset_index(drop=True)

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.9200,202108,21,199500,6,2020,개포로 264,
1,서울특별시 강남구 개포동,185,185,0,개포주공 7단지,83.7000,202108,20,280000,2,1983,개포로 516,
2,서울특별시 강남구 개포동,138,138,0,디에이치아너힐즈,59.8732,202108,17,233000,4,2019,삼성로 11,
3,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.9670,202108,14,227000,10,2019,선릉로 8,
4,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.8600,202108,1,169000,10,1992,개포로109길 9,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
381,서울특별시 송파구 풍납동,220-2,220,2,신동아파밀리에,59.3600,202108,1,85900,8,1993,풍성로6길 15,
382,서울특별시 송파구 풍납동,510,510,0,신성노바빌아파트,59.7800,202108,16,98500,15,2000,한가람로 468,
383,서울특별시 송파구 풍납동,401-1,401,1,쌍용,84.8500,202108,11,143000,15,1994,올림픽로47길 12,
384,서울특별시 송파구 풍납동,508,508,0,한강극동,84.7600,202108,25,111000,11,1995,토성로 38-6,


<br>

**DataFrame**에서 행 번호에 해당하는 **index**는 꽤 중요한 역할을 합니다. 예를 들어 아래처럼 index를 확인할 수 있고, 특정 index를 지정해서 관측치를 선택하는 것도 가능합니다. 

In [13]:
df_apt.index

Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9,
            ...
            66, 67, 68, 69, 70, 71, 72, 73, 74, 75],
           dtype='int64', length=386)

In [14]:
# index 0 관측치 선택
df_apt.loc[0]

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.92,202108,21,199500,6,2020,개포로 264,
0,서울특별시 서초구 내곡동,BL-1,1,0,서초더샵포레,114.71,202108,14,185000,8,2014,헌릉로8길 58,
0,서울특별시 송파구 가락동,95-1,95,1,가락금호아파트,59.91,202108,8,123000,1,1997,송파대로32길 15,


위의 실행된 결과를 보면 **0** 이라는 인덱스를 가진 관측치가 세개나 되는 것을 볼 수 있습니다. 결합 이전의 기존 데이터 인덱스를 그대로 사용하기 때문인데요, 행 결합이나 정렬 이후 인덱스를 재지정하거나 초기화 해주는 것이 좋습니다. 


In [15]:
# reset_index()을 활용한 index 초기화
    ## drop=True: 기존 인덱스를 변수로 추가할 지 버릴지 선택
df_apt = df_apt.reset_index(drop=True)
df_apt

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일
0,서울특별시 강남구 개포동,1282,1282,0,개포래미안포레스트,59.9200,202108,21,199500,6,2020,개포로 264,
1,서울특별시 강남구 개포동,185,185,0,개포주공 7단지,83.7000,202108,20,280000,2,1983,개포로 516,
2,서울특별시 강남구 개포동,138,138,0,디에이치아너힐즈,59.8732,202108,17,233000,4,2019,삼성로 11,
3,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.9670,202108,14,227000,10,2019,선릉로 8,
4,서울특별시 강남구 개포동,12,12,0,성원대치2단지아파트,49.8600,202108,1,169000,10,1992,개포로109길 9,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
381,서울특별시 송파구 풍납동,220-2,220,2,신동아파밀리에,59.3600,202108,1,85900,8,1993,풍성로6길 15,
382,서울특별시 송파구 풍납동,510,510,0,신성노바빌아파트,59.7800,202108,16,98500,15,2000,한가람로 468,
383,서울특별시 송파구 풍납동,401-1,401,1,쌍용,84.8500,202108,11,143000,15,1994,올림픽로47길 12,
384,서울특별시 송파구 풍납동,508,508,0,한강극동,84.7600,202108,25,111000,11,1995,토성로 38-6,


In [None]:
# index 0 관측치 재선택
df_apt.loc[0]

#### [실습]  데이터 결합 및 인덱스 초기화

출처 : [서울시 지하철 호선별 역별 승하차 인원수](http://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do)

1. `data`폴더의 `CARD_SUBWAY_MONTH_`로 시작하는 3개 데이터 확인하기  
    


2. 1.의 데이터를 각각 불러와서 저장하고, pd.concat()으로 행 결합하기(encoding='CP949' 활용)


3. index 초기화 하기



In [10]:
df_test1=pd.read_csv('data/CARD_SUBWAY_MONTH_201907.csv',encoding='CP949')
df_test2=pd.read_csv('data/CARD_SUBWAY_MONTH_202007.csv',encoding='CP949')
df_test3=pd.read_csv('data/CARD_SUBWAY_MONTH_202107.csv',encoding='CP949')


In [15]:
df_test = pd.concat([df_test1,df_test2,df_test3])
df_test = df_test.reset_index(drop=True)
df_test

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
0,20190701,1호선,종로3가,34944.0,32751.0,20190704
1,20190701,1호선,종로5가,28640.0,28862.0,20190704
2,20190701,1호선,동대문,14793.0,16182.0,20190704
3,20190701,1호선,신설동,17911.0,17483.0,20190704
4,20190701,1호선,제기동,21946.0,22345.0,20190704
...,...,...,...,...,...,...
55261,20210731,경원선,청량리(서울시립대입구),11320.0,13138.0,20210803
55262,20210731,경원선,외대앞,4261.0,4279.0,20210803
55263,20210731,경원선,신이문,4666.0,4313.0,20210803
55264,20210731,2호선,용두(동대문구청),1292.0,1364.0,20210803


<br>

### 2.2. merge()를 활용한 KEY 변수 기준 결합 
일반적인 분석에서는 SQL의 JOIN, Excel의 VLOOKUP()과 같은 방법으로 KEY 변수를 활용한 데이터 결합을 자주 활용합니다.  
이 때, `merge()`를 활용합니다. 

In [16]:
# 예제 데이터 불러오기
df_left  = pd.read_csv('data/data_left.csv')
df_right = pd.read_csv('data/data_right.csv')

In [17]:
df_left

Unnamed: 0,product_id,category,sales
0,P001,A,100
1,P002,B,300
2,P003,,100
3,P005,A,200


In [18]:
df_right

Unnamed: 0,category,name,manager_id
0,A,Food,E009
1,B,Beverage,E009
2,C,Industrial,E010


<br>

key를 활용한 데이터 결합에서는 일치하는 key가 있는, 짝이 있는 관측치만 출력하는 것이 기본값으로 설정되어 있습니다. SQL에서는 이것을 **inner join**이라고 부릅니다.  

*merge()*에서 `how=` 옵션을 활용해서 다음과 같은 데이터 결합도 가능합니다.

+ `inner`: inner join. key 기준 일치하는 관측치만 포함
+ `left`:  left join. inner join의 결과물과 왼쪽 데이터의 짝 없는 관측치 포함
+ `right`: right join. inner join의 결과물과 오른쪽 데이터의 짝 없는 관측치 포함
+ `outer`: full outer join. inner join과 양쪽 데이터의 짝이 없는 모든 관측치 포함

In [19]:
#join 할 때 column 이름이 다르면 left_on, right_on 으로 옵션 넣어줄 수 있음 
# merge()를 활용한 결합
pd.merge(df_left, df_right, how='inner', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100,Food,E009
1,P005,A,200,Food,E009
2,P002,B,300,Beverage,E009


In [20]:
# left join
pd.merge(df_left, df_right, how='left', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100,Food,E009
1,P002,B,300,Beverage,E009
2,P003,,100,,
3,P005,A,200,Food,E009


In [21]:
# right join
pd.merge(df_left, df_right, how='right', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100.0,Food,E009
1,P005,A,200.0,Food,E009
2,P002,B,300.0,Beverage,E009
3,,C,,Industrial,E010


In [22]:
# full outer join
pd.merge(df_left, df_right, how='outer', on='category')

Unnamed: 0,product_id,category,sales,name,manager_id
0,P001,A,100.0,Food,E009
1,P005,A,200.0,Food,E009
2,P002,B,300.0,Beverage,E009
3,P003,,100.0,,
4,,C,,Industrial,E010


In [23]:
#csv 저장
dff=pd.merge(df_left, df_right, how='outer', on='category')
dff.to_csv('save_csv_test.csv')

<br>
<hr>
<br>


## 3. 데이터 부분 선택

데이터 분석 과정에서 회사의 모든 데이터를 활용하지 않습니다. 주제와 기간, 사이트, 제품, 공정 등 본인의 업무와 관련이 있는 일부 데이터만 선택합니다. SQL이나 Excel과 같은 도구를 활용해서 데이터 추출하거나 생성하면서 이미 적합한 데이터가 선택되어 있지만 Python에서 각 분석 과정에서 맞게 부분 데이터를 다시 선택하고 사용합니다.  

데이터의 일부를 선택하는 다양한 방법을 살펴보겠습니다. 

<br> 

In [24]:
# 예제 데이터 불러오기
# 처음에 불러올 때 usecols 옵션으로 원하는 column만 가져올 수 있음 
import pandas as pd
df_ins = pd.read_csv('data/insurance.csv')
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


<br>

### 3.1. .을 활용한 변수 선택

DataFrame 뒤에 마침표(.)를 찍고 `Tab` 키를 누르면 DataFrame의 메서드들과 함께 변수이름을 확인할 수 있습니다. .은 가장 간단한 변수 선택 방법입니다.  

이렇게 선택된 변수는 **Series** 형식으로 선택되어 출력됩니다. 

In [25]:
# .을 활용한 하나의 변수 선택
df_ins.age

0       19
1       18
2       28
3       33
4       32
        ..
1333    50
1334    18
1335    18
1336    21
1337    61
Name: age, Length: 1338, dtype: int64

<br>


### 3.2. 대괄호를 활용한 데이터 부분 선택

불러온 데이터 뒤에 대괄호를 붙이고 슬라이스:로 관측치 번호를 지정하거나 따옴표''로 변수 이름을 넣어 
데이터 부분을 선택할 수 있습니다.  
변수 이름을 리스트 형식으로 묶어 넣어 여러개 변수를 한번에 선택할 수도 있습니다. 

In [26]:
# 관측치 선택
df_ins[0:3]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462


In [27]:
# 한 변수 선택 
df_ins['age']

0       19
1       18
2       28
3       33
4       32
        ..
1333    50
1334    18
1335    18
1336    21
1337    61
Name: age, Length: 1338, dtype: int64

In [28]:
# 리스트를 활용한 복수 변수 선택
df_ins[['age','smoker','charges']]

Unnamed: 0,age,smoker,charges
0,19,yes,16884.92400
1,18,no,1725.55230
2,28,no,4449.46200
3,33,no,21984.47061
4,32,no,3866.85520
...,...,...,...
1333,50,no,10600.54830
1334,18,no,2205.98080
1335,18,no,1629.83350
1336,21,no,2007.94500


In [29]:
# 연속된 대괄호 활용가능
df_ins[0:5][['age','smoker','charges']]

Unnamed: 0,age,smoker,charges
0,19,yes,16884.924
1,18,no,1725.5523
2,28,no,4449.462
3,33,no,21984.47061
4,32,no,3866.8552


<br>

#### [실습]  

1. 아래의 명령어를 실행해서 df_subway 데이터 생성하기 

2. .columns 메서드를 활용해서 변수이름 확인하기

3. 슬라이스를 활용하여 11~15번째 관측치 선택하기

4. '사용일자', '역명', '하차총승객수' 세 변수 선택하기



    

In [30]:
df_sw1907 = pd.read_csv('./data/CARD_SUBWAY_MONTH_201907.csv', encoding='CP949')
df_sw2007 = pd.read_csv('./data/CARD_SUBWAY_MONTH_202007.csv', encoding='CP949')
df_sw2107 = pd.read_csv('./data/CARD_SUBWAY_MONTH_202107.csv', encoding='CP949')
df_subway = pd.concat([df_sw1907, df_sw2007, df_sw2107])
df_subway.sample(n=10)

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
12553,20210721,경부선,병점,11353.0,11179.0,20210724
8395,20190715,경부선,구로,22181.0,22440.0,20190718
2656,20210705,경부선,용산,31681.0,31997.0,20210708
3230,20200706,8호선,신흥,4346.0,4648.0,20200709
5275,20190709,공항철도 1호선,디지털미디어시티,15859.0,14181.0,20190712
5054,20210709,7호선,숭실대입구(살피재),11316.0,11284.0,20210712
5908,20200710,1호선,종각,39408.0,39996.0,20200713
16844,20210729,2호선,동대문역사문화공원(DDP),9387.0,10425.0,20210801
3040,20190706,3호선,일원,6100.0,6170.0,20190709
17791,20200731,3호선,독립문,7360.0,7507.0,20200803


In [34]:
df_subway.columns

Index(['사용일자', '노선명', '역명', '승차총승객수', '하차총승객수', '등록일자'], dtype='object')

In [38]:
df_subway[10:15]

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
10,20190701,2호선,을지로4가,14801.0,14830.0,20190704
11,20190701,2호선,동대문역사문화공원,18590.0,21628.0,20190704
12,20190701,2호선,신당,16228.0,16636.0,20190704
13,20190701,2호선,상왕십리,16372.0,15797.0,20190704
14,20190701,2호선,왕십리(성동구청),20431.0,16884.0,20190704


In [37]:
df_subway[['사용일자','노선명','역명']]

Unnamed: 0,사용일자,노선명,역명
0,20190701,1호선,종로3가
1,20190701,1호선,종로5가
2,20190701,1호선,동대문
3,20190701,1호선,신설동
4,20190701,1호선,제기동
...,...,...,...
18627,20210731,경원선,청량리(서울시립대입구)
18628,20210731,경원선,외대앞
18629,20210731,경원선,신이문
18630,20210731,2호선,용두(동대문구청)


<br>

## 3.3. loc과 iloc을 활용한 관측치/변수 선택

loc은 행 이름(index)과 열 이름(column)으로 데이터에서 일부를 선택하고, iloc은 정수(integer) 형식의 행 번호, 열 번호를 활용합니다.  

두 방법 모두 리스트[ ]나 슬라이스:를 활용한 방법을 지원합니다.



In [39]:
# 실습을 위해 원본 데이터를 복제(copy)하고 부분선택
df_ins2 = df_ins.copy()[0:10]
df_ins2

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552
5,31,female,25.74,0,no,southeast,3756.6216
6,46,female,33.44,1,no,southeast,8240.5896
7,37,female,27.74,3,no,northwest,7281.5056
8,37,male,29.83,2,no,northeast,6406.4107
9,60,female,25.84,0,no,northwest,28923.13692


In [40]:
# 실습을 위해 인덱스를 별도로 지정
df_ins2['idx'] = list(range(101, 111))
df_ins2.set_index('idx', inplace=True)
df_ins2

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
101,19,female,27.9,0,yes,southwest,16884.924
102,18,male,33.77,1,no,southeast,1725.5523
103,28,male,33.0,3,no,southeast,4449.462
104,33,male,22.705,0,no,northwest,21984.47061
105,32,male,28.88,0,no,northwest,3866.8552
106,31,female,25.74,0,no,southeast,3756.6216
107,46,female,33.44,1,no,southeast,8240.5896
108,37,female,27.74,3,no,northwest,7281.5056
109,37,male,29.83,2,no,northeast,6406.4107
110,60,female,25.84,0,no,northwest,28923.13692


<br> 

### 3.3.1. loc을 활용한 부분 선택

loc은 실제로 눈에 보이는 index와 column을 활용합니다. 

In [44]:
df_ins2.loc[101]

age                19
sex            female
bmi              27.9
children            0
smoker            yes
region      southwest
charges     16884.924
Name: 101, dtype: object

In [45]:
df_ins2.loc[[101, 103]]

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
101,19,female,27.9,0,yes,southwest,16884.924
103,28,male,33.0,3,no,southeast,4449.462


In [46]:
df_ins2.loc[101:103]

Unnamed: 0_level_0,age,sex,bmi,children,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
101,19,female,27.9,0,yes,southwest,16884.924
102,18,male,33.77,1,no,southeast,1725.5523
103,28,male,33.0,3,no,southeast,4449.462


In [47]:
df_ins2.loc[101:103, 'smoker']

idx
101    yes
102     no
103     no
Name: smoker, dtype: object

In [108]:
# 변수이름 리스트 활용가능
df_ins2.loc[101:103, ['smoker','region']]

Unnamed: 0_level_0,smoker,region
idx,Unnamed: 1_level_1,Unnamed: 2_level_1
101,yes,southwest
102,no,southeast
103,no,southeast


In [49]:
# 변수이름 슬라이스:를 활용 가능 
df_ins2.loc[101:103, 'smoker':'charges']

Unnamed: 0_level_0,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
101,yes,southwest,16884.924
102,no,southeast,1725.5523
103,no,southeast,4449.462


In [50]:
# 모든 관측치 선택할 때는 :
df_ins2.loc[:, 'smoker':'charges']

Unnamed: 0_level_0,smoker,region,charges
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
101,yes,southwest,16884.924
102,no,southeast,1725.5523
103,no,southeast,4449.462
104,no,northwest,21984.47061
105,no,northwest,3866.8552
106,no,southeast,3756.6216
107,no,southeast,8240.5896
108,no,northwest,7281.5056
109,no,northeast,6406.4107
110,no,northwest,28923.13692


<br> 

### 3.2.2. iloc을 활용한 부분 선택

iloc은 이름과 상관없이 정수로 표현한 위치, 번호를 활용합니다.  
리스트나 슬라이스 활용 방법은 loc과 동일합니다. 

In [None]:
df_ins2.iloc[0:3, [0,3,4]]

#### [실습] 

1. df_pr에서 index 기준 '3'의 'Weight' 확인하기
2. df_pr에서 index 기준 '11~15'의 'Age'부터 'Exercise'까지 선택하기
3. df_pr에서 첫번째 ~ 다섯번째 관측치와 다섯번째 ~ 열번째 변수 선택하기

In [51]:
df_pr = pd.read_csv('data/PulseRates.csv')
df_pr.head()

Unnamed: 0,Height,Weight,Age,Gender,Smokes,Alcohol,Exercise,Ran,Pulse1,Pulse2,Year
0,173,57.0,18,2,2,1,2,2,86.0,88.0,93
1,179,58.0,19,2,2,1,2,1,82.0,150.0,93
2,167,62.0,18,2,2,1,1,1,96.0,176.0,93
3,195,84.0,18,1,2,1,1,2,71.0,73.0,93
4,173,64.0,18,2,2,1,3,2,90.0,88.0,93


In [62]:
df_pr.loc[3]['Weight']
df_pr.loc[10:16,'Age':'Exercise']
df_pr.iloc[0:5, 4:10]

Unnamed: 0,Smokes,Alcohol,Exercise,Ran,Pulse1,Pulse2
0,2,1,2,2,86.0,88.0
1,2,1,2,1,82.0,150.0
2,2,1,1,1,96.0,176.0
3,2,1,1,2,71.0,73.0
4,2,1,3,2,90.0,88.0


### 3.4. 함수를 활용한 여러 변수 선택 

다양한 변수 선택 상황에서 활용할 수 있는 함수들이 있습니다.

In [63]:
# filter( ) 메서드에서 변수 이름 패턴을 활용한 선택 
df_ins.filter(regex='^s')
    ## regex :  정규표현식(regular expression)
    ## '^s' : 's'로 시작하는 이름/텍스트
    

Unnamed: 0,sex,smoker
0,female,yes
1,male,no
2,male,no
3,male,no
4,male,no
...,...,...
1333,male,no
1334,female,no
1335,female,no
1336,female,no


In [64]:
# 변수형식 확인하기
df_ins.dtypes
    ## int/float : 숫자
    ## object : 문자열

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

In [65]:
# 수치형 변수만 선택
df_ins.select_dtypes(include='number')

Unnamed: 0,age,bmi,children,charges
0,19,27.900,0,16884.92400
1,18,33.770,1,1725.55230
2,28,33.000,3,4449.46200
3,33,22.705,0,21984.47061
4,32,28.880,0,3866.85520
...,...,...,...,...
1333,50,30.970,3,10600.54830
1334,18,31.920,0,2205.98080
1335,18,36.850,0,1629.83350
1336,21,25.800,0,2007.94500


In [66]:
# 문자열 변수만 선택
df_ins.select_dtypes(include='object')

Unnamed: 0,sex,smoker,region
0,female,yes,southwest
1,male,no,southeast
2,male,no,southeast
3,male,no,northwest
4,male,no,northwest
...,...,...,...
1333,male,no,northwest
1334,female,no,northeast
1335,female,no,southeast
1336,female,no,southwest


<br>

#### [실습] Student performance 데이터 활용

1. df_sp에서 수치형 변수만 선택
2. df_sp에서 문자열 변수만 선택
3. df_sp에서 이름에 'score'가 들어간 변수만 선택


In [67]:
df_sp = pd.read_csv('data/StudentsPerformance.csv')
df_sp.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [73]:
df_sp.select_dtypes('int')

Unnamed: 0,math score,reading score,writing score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75
...,...,...,...
995,88,99,95
996,62,55,55
997,59,71,65
998,68,78,77


In [72]:
df_sp.select_dtypes('object')

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course
0,female,group B,bachelor's degree,standard,none
1,female,group C,some college,standard,completed
2,female,group B,master's degree,standard,none
3,male,group A,associate's degree,free/reduced,none
4,male,group C,some college,standard,none
...,...,...,...,...,...
995,female,group E,master's degree,standard,completed
996,male,group C,high school,free/reduced,none
997,female,group C,high school,free/reduced,completed
998,female,group D,some college,standard,completed


In [76]:
df_sp.filter(regex='score')

Unnamed: 0,math score,reading score,writing score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75
...,...,...,...
995,88,99,95
996,62,55,55
997,59,71,65
998,68,78,77


<br>

### 3.5. 조건을 활용한 관측치 선택

SQL에서 WHERE 절이나 Excel의 Filter와 같이 데이터에서 부분을 선택할 때 조건을 활용하는 경우가 많습니다. [ ] 인덱스 안에 조건식을 넣어서 조건과 일치하는 관측치만 선택할 수 있습니다.

In [77]:
# 1 단계 : 조건 설정(결과는 True/False)
    # bool 타입 Series 
df_ins['age'] < 30

0        True
1        True
2        True
3       False
4       False
        ...  
1333    False
1334     True
1335     True
1336     True
1337    False
Name: age, Length: 1338, dtype: bool

In [78]:
# 2 단계 : []와 조건을 활용한 관측치 선택
df_ins[df_ins['age'] < 30]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
10,25,male,26.220,0,no,northeast,2721.32080
12,23,male,34.400,0,no,southwest,1826.84300
...,...,...,...,...,...,...,...
1328,23,female,24.225,2,no,northeast,22395.74424
1331,23,female,33.400,0,no,southwest,10795.93733
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350


In [79]:
# &와 |를 활용한 조건 결합
df_ins[(df_ins['age'] < 30) & (df_ins['sex'] == 'female')]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
31,18,female,26.315,0,no,northeast,2198.18985
32,19,female,28.600,5,no,southwest,4687.79700
40,24,female,26.600,0,no,northeast,3046.06200
46,18,female,38.665,2,no,northeast,3393.35635
...,...,...,...,...,...,...,...
1328,23,female,24.225,2,no,northeast,22395.74424
1331,23,female,33.400,0,no,southwest,10795.93733
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350


In [80]:
df_ins[(df_ins['age'] < 30) | (df_ins['sex'] == 'female')]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.90,0,yes,southwest,16884.9240
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.00,3,no,southeast,4449.4620
5,31,female,25.74,0,no,southeast,3756.6216
6,46,female,33.44,1,no,southeast,8240.5896
...,...,...,...,...,...,...,...
1332,52,female,44.70,3,no,southwest,11411.6850
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.80,0,no,southwest,2007.9450


<br> 

특히 비즈니스 데이터는 범주화, 그룹화된 변수들이 많고, 수많은 담당자들이 그 중 일부 범주, 그룹, 수준을 나눠서 운영하는 경우가 많습니다. *isin()*을 활용해서 내가 관심있는 범주인지 아닌지 포함여부에 대한 연산이 가능합니다.

In [85]:
# isin() 예제 
# df 안에 bool 형태의 조건문이 들어감
cond1 = df_ins['region'].isin(['southeast','northwest'])
cond1

0       False
1        True
2        True
3        True
4        True
        ...  
1333     True
1334    False
1335     True
1336    False
1337     True
Name: region, Length: 1338, dtype: bool

In [88]:
df_ins[cond1]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
5,31,female,25.740,0,no,southeast,3756.62160
...,...,...,...,...,...,...,...
1327,51,male,30.030,1,no,southeast,9377.90470
1330,57,female,25.740,2,no,southeast,12629.16560
1333,50,male,30.970,3,no,northwest,10600.54830
1335,18,female,36.850,0,no,southeast,1629.83350


<br>

#### [실습]

1. df_sp에서 math score가 90 이상인 관측치 선택
2. df_sp에서 race/ethnicity가 'group D', 'group E'인 관측치 선택(isin() 활용)
3. 1.과 2.를 동시에 만족하는 관측치 선택 

In [89]:
df_sp.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [97]:
df_sp[df_sp['math score']>= 90]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
34,male,group E,some college,standard,none,97,87,82
104,male,group C,some college,standard,completed,98,86,90
114,female,group E,bachelor's degree,standard,completed,99,100,100
121,male,group B,associate's degree,standard,completed,91,89,92
149,male,group E,associate's degree,free/reduced,completed,100,100,93
165,female,group C,bachelor's degree,standard,completed,96,100,100
171,male,group E,some high school,standard,none,94,88,78
179,female,group D,some high school,standard,completed,97,100,100
233,male,group E,some high school,standard,none,92,87,78
263,female,group E,high school,standard,none,99,93,90


In [98]:
df_sp[df_sp['race/ethnicity'].isin(['group D', 'group E'])]


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
8,male,group D,high school,free/reduced,completed,64,64,67
11,male,group D,associate's degree,standard,none,40,52,43
20,male,group D,high school,standard,none,66,69,63
22,male,group D,some college,standard,none,44,54,53
24,male,group D,bachelor's degree,free/reduced,completed,74,71,80
...,...,...,...,...,...,...,...,...
992,female,group D,associate's degree,free/reduced,none,55,76,76
993,female,group D,bachelor's degree,free/reduced,none,62,72,74
995,female,group E,master's degree,standard,completed,88,99,95
998,female,group D,some college,standard,completed,68,78,77


In [106]:
df_sp[(df_sp['math score']>= 90) & (df_sp['race/ethnicity'].isin(['group D', 'group E'])) ]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
34,male,group E,some college,standard,none,97,87,82
114,female,group E,bachelor's degree,standard,completed,99,100,100
149,male,group E,associate's degree,free/reduced,completed,100,100,93
171,male,group E,some high school,standard,none,94,88,78
179,female,group D,some high school,standard,completed,97,100,100
233,male,group E,some high school,standard,none,92,87,78
263,female,group E,high school,standard,none,99,93,90
286,male,group E,associate's degree,standard,completed,97,82,88
299,male,group D,associate's degree,free/reduced,none,90,87,75
306,male,group E,some college,standard,completed,99,87,81


#### [참고] Series의 str 메서드 활용
문자열 Series(한 변수)에서 str 함수를 활용하면 특정 단어를 포함하거나 특정 패턴과 일치하는 관측치를 선택할 수 있습니다.

In [100]:
df_sp['parental level of education'].str.startswith('b')

0       True
1      False
2      False
3      False
4      False
       ...  
995    False
996    False
997    False
998    False
999    False
Name: parental level of education, Length: 1000, dtype: bool

In [101]:
df_sp['parental level of education'].str.endswith('college')

0      False
1       True
2      False
3      False
4       True
       ...  
995    False
996    False
997    False
998     True
999     True
Name: parental level of education, Length: 1000, dtype: bool

In [102]:
df_sp['parental level of education'].str.contains('degree')

0       True
1      False
2       True
3       True
4      False
       ...  
995     True
996    False
997    False
998    False
999    False
Name: parental level of education, Length: 1000, dtype: bool

#### [참고] Series의 between 메서드 활용
문자열 Series(한 변수)에서 str 함수를 활용하면 특정 단어를 포함하거나 특정 패턴과 일치하는 관측치를 선택할 수 있습니다.

In [109]:
df_sp['math score'].between(80, 89.9)

0      False
1      False
2      False
3      False
4      False
       ...  
995     True
996    False
997    False
998    False
999    False
Name: math score, Length: 1000, dtype: bool

In [110]:
# 양쪽 끝 경계 포함 여부 지정 가능
    # 'both', 'left', 'right'
df_sp[df_sp['math score'].between(80, 90, inclusive='left')] 

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
6,female,group B,some college,standard,completed,88,95,92
16,male,group C,high school,standard,none,88,89,86
35,male,group E,associate's degree,standard,completed,81,81,79
49,male,group C,high school,standard,completed,82,84,82
53,male,group D,high school,standard,none,88,78,75
...,...,...,...,...,...,...,...,...
970,female,group D,bachelor's degree,standard,none,89,100,100
981,male,group D,some high school,standard,none,81,78,78
987,male,group E,some high school,standard,completed,81,75,76
990,male,group E,high school,free/reduced,completed,86,81,75


<br>

### 3.6. 함수를 활용한 부분 관측치 선택

함수를 활용해서 일부 관측치를 확인하기도 합니다.

In [111]:
# head( )와 tail()
df_ins.head()
df_ins.tail()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1333,50,male,30.97,3,no,northwest,10600.5483
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [118]:
# sample( )의 활용
df_ins.sample(frac=0.005)
df_ins.sample(n=10)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
959,48,male,36.67,1,no,northwest,28468.91901
647,40,female,23.37,3,no,northeast,8252.2843
65,19,female,28.9,0,no,southwest,1743.214
966,51,male,24.795,2,yes,northwest,23967.38305
998,33,female,36.29,3,no,northeast,6551.7501
1242,22,female,21.28,3,no,northwest,4296.2712
928,62,female,39.16,0,no,southeast,13470.8044
566,38,female,40.565,1,no,northwest,6373.55735
448,40,female,29.6,0,no,southwest,5910.944
931,39,female,32.5,1,no,southwest,6238.298


In [124]:
# nlargest( ), nsmallest( )로 상위/하위 관측치 선택
df_ins.nlargest(10, 'charges')


Unnamed: 0,age,sex,bmi,children,smoker,region,charges
543,54,female,47.41,0,yes,southeast,63770.42801
1300,45,male,30.36,0,yes,southeast,62592.87309
1230,52,male,34.485,3,yes,northwest,60021.39897
577,31,female,38.095,1,yes,northeast,58571.07448
819,33,female,35.53,0,yes,northwest,55135.40209
1146,60,male,32.8,0,yes,southwest,52590.82939
34,28,male,36.4,1,yes,southwest,51194.55914
1241,64,male,36.96,2,yes,southeast,49577.6624
1062,59,male,41.14,1,yes,southeast,48970.2476
488,44,female,38.06,0,yes,southeast,48885.13561


In [125]:
df_ins.nsmallest(10, 'charges')

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
940,18,male,23.21,0,no,southeast,1121.8739
808,18,male,30.14,0,no,southeast,1131.5066
1244,18,male,33.33,0,no,southeast,1135.9407
663,18,male,33.66,0,no,southeast,1136.3994
22,18,male,34.1,0,no,southeast,1137.011
194,18,male,34.43,0,no,southeast,1137.4697
866,18,male,37.29,0,no,southeast,1141.4451
781,18,male,41.14,0,no,southeast,1146.7966
442,18,male,43.01,0,no,southeast,1149.3959
1317,18,male,53.13,0,no,southeast,1163.4627


<br>

#### [실습]

1. df_sp에서 math score 상위 20 명 선택
2. df_sp에서 writing score 하위 10명 선택


In [119]:
df_sp.sample(n=10)


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
908,female,group C,bachelor's degree,free/reduced,none,67,75,72
731,male,group A,some high school,free/reduced,none,55,46,43
119,female,group C,some college,standard,none,55,69,65
837,female,group A,high school,standard,completed,75,82,79
869,male,group C,associate's degree,free/reduced,none,49,51,51
702,male,group A,bachelor's degree,standard,completed,87,84,87
585,female,group C,associate's degree,standard,none,65,76,76
352,female,group C,some college,standard,completed,63,78,80
963,female,group C,some high school,free/reduced,completed,65,76,75
361,male,group B,some high school,standard,completed,85,84,78


In [128]:
df_sp.nlargest(20, 'math score', 'all')

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
149,male,group E,associate's degree,free/reduced,completed,100,100,93
451,female,group E,some college,standard,none,100,92,97
458,female,group E,bachelor's degree,standard,none,100,100,100
623,male,group A,some college,standard,completed,100,96,86
625,male,group D,some college,standard,completed,100,97,99
916,male,group E,bachelor's degree,standard,completed,100,100,100
962,female,group E,associate's degree,standard,none,100,100,100
114,female,group E,bachelor's degree,standard,completed,99,100,100
263,female,group E,high school,standard,none,99,93,90
306,male,group E,some college,standard,completed,99,87,81


In [123]:
df_sp.nsmallest(10, 'writing score')

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
59,female,group C,some high school,free/reduced,none,0,17,10
596,male,group B,high school,free/reduced,none,30,24,15
327,male,group A,some college,free/reduced,none,28,23,19
76,male,group E,some high school,standard,none,30,26,22
980,female,group B,high school,free/reduced,none,8,24,23
211,male,group C,some college,free/reduced,none,35,28,27
338,female,group B,some high school,free/reduced,none,24,38,27
896,male,group B,high school,free/reduced,none,36,29,27
17,female,group B,some high school,free/reduced,none,18,32,28
601,female,group C,high school,standard,none,29,29,30


<br>

### 3.7. 중복값 제거

`drop_duplicates()`를 활용해서 중복값을 제거한 목록 생성이 가능합니다.

In [126]:
df_ins[['sex','region']].drop_duplicates()

Unnamed: 0,sex,region
0,female,southwest
1,male,southeast
3,male,northwest
5,female,southeast
7,female,northwest
8,male,northeast
12,male,southwest
16,female,northeast


### 3.8. 관측치 정렬

`sort_values()`를 활용해서 관측치를 정렬할 수 있습니다. 

In [129]:
# age 순 데이터 정렬
df_ins.sort_values('age')

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1248,18,female,39.820,0,no,southeast,1633.96180
482,18,female,31.350,0,no,southeast,1622.18850
492,18,female,25.080,0,no,northeast,2196.47320
525,18,female,33.880,0,no,southeast,11482.63485
529,18,male,25.460,0,no,northeast,1708.00140
...,...,...,...,...,...,...,...
398,64,male,25.600,2,no,southwest,14988.43200
335,64,male,34.500,0,no,southwest,13822.80300
378,64,female,30.115,3,no,northwest,16455.70785
1265,64,male,23.760,0,yes,southeast,26926.51440


In [130]:
# 원본 데이터는 영향 없음
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [131]:
# 원본 데이터의 정렬
df_ins = df_ins.sort_values('age')
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1248,18,female,39.82,0,no,southeast,1633.9618
482,18,female,31.35,0,no,southeast,1622.1885
492,18,female,25.08,0,no,northeast,2196.4732
525,18,female,33.88,0,no,southeast,11482.63485
529,18,male,25.46,0,no,northeast,1708.0014


In [132]:
# 내림차순 지정
df_ins = df_ins.sort_values('age', ascending=False)
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
635,64,male,38.19,0,no,northeast,14410.9321
1051,64,male,26.41,0,no,northeast,14394.5579
603,64,female,39.05,3,no,southeast,16085.1275
752,64,male,37.905,0,no,northwest,14210.53595
768,64,female,39.7,0,no,southwest,14319.031


In [133]:
# 복수 기준의 설정 
df_ins.sort_values(['age', 'charges'], ascending=[True, False])

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
803,18,female,42.240,0,yes,southeast,38792.68560
759,18,male,38.170,0,yes,southeast,36307.79830
161,18,female,36.850,0,yes,southeast,36149.48350
623,18,male,33.535,0,yes,northeast,34617.84065
57,18,male,31.680,2,yes,southeast,34303.16720
...,...,...,...,...,...,...,...
768,64,female,39.700,0,no,southwest,14319.03100
801,64,female,35.970,0,no,southeast,14313.84630
752,64,male,37.905,0,no,northwest,14210.53595
534,64,male,40.480,0,no,southeast,13831.11520


In [134]:
# index를 활용한 정렬
df_ins = df_ins.sort_index()
df_ins.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


<br>


#### [실습] 데이터 df_sp 활용

1. 전체 관측치를 'math score', 'reading score'의 내림차순으로 정렬해서 출력


In [139]:
df_sp.sort_values(['math score','reading score'], ascending=[False,False]).reset_index(drop= True)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,male,group E,associate's degree,free/reduced,completed,100,100,93
1,female,group E,bachelor's degree,standard,none,100,100,100
2,male,group E,bachelor's degree,standard,completed,100,100,100
3,female,group E,associate's degree,standard,none,100,100,100
4,male,group D,some college,standard,completed,100,97,99
...,...,...,...,...,...,...,...,...
995,female,group C,some college,free/reduced,none,22,39,33
996,female,group B,some college,standard,none,19,38,32
997,female,group B,some high school,free/reduced,none,18,32,28
998,female,group B,high school,free/reduced,none,8,24,23


#### End of script