<h3> 불린 인덱싱 </h3>

시리즈, 데이터프레임에 조건식을 전달하면 각 원소에 대해 참/거짓을 판별해 불린값으로 구성된 객체를 반환한다. 이때 참에 해당하는 데이터 값을 따로 선택할 수 있다. <br>
조건식을 만들고 **행 인덱스 위치에 대입**하면 필터링을 할 수 있다.
타이타닉 데이터셋을 불러오자. 그리고 나이가 10세 이상, 20세 미만인 승객을 필터링해보자.

In [None]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

mask1 = (titanic.age >= 10) & (titanic.age < 20)
df_teenage = titanic.loc[mask1, :]
print(df_teenage.head())

    survived  pclass     sex   age  ...  deck  embark_town  alive  alone
9          1       2  female  14.0  ...   NaN    Cherbourg    yes  False
14         0       3  female  14.0  ...   NaN  Southampton     no   True
22         1       3  female  15.0  ...   NaN   Queenstown    yes   True
27         0       1    male  19.0  ...     C  Southampton     no  False
38         0       3  female  18.0  ...   NaN  Southampton     no  False

[5 rows x 15 columns]


이번에는 나이가 10세 미만인 여성 승객을 필터링해보자.

In [None]:
mask2 = (titanic.age < 10) & (titanic.sex == 'female')
df_female_under10 = titanic.loc[mask2, :]
print(df_female_under10.head())

     survived  pclass     sex  age  ...  deck  embark_town  alive  alone
10          1       3  female  4.0  ...     G  Southampton    yes  False
24          0       3  female  8.0  ...   NaN  Southampton     no  False
43          1       2  female  3.0  ...   NaN    Cherbourg    yes  False
58          1       2  female  5.0  ...   NaN  Southampton    yes  False
119         0       3  female  2.0  ...   NaN  Southampton     no  False

[5 rows x 15 columns]


이번에는 OR 연산자를 활용해 10세 미만 혹은 60세 이상인 승객을 필터링해보자. <br>
행 인덱스에 :가 아니라 열을 담은 리스트를 전달하면 해당 열의 데이터만 추출할 수 있다.

In [None]:
mask3 = (titanic.age < 10) | (titanic.age >= 60)
df_under10_morethan60 = titanic.loc[mask3, ['age', 'sex', 'alone']]
print(df_under10_morethan60.head())

     age     sex  alone
7    2.0    male  False
10   4.0  female  False
16   2.0    male  False
24   8.0  female  False
33  66.0    male   True


<h3> isin() 메소드 활용 </h3>

데이터프레임 열에 **isin() 메소드**를 적용하면 특정 값을 가진 행들을 따로 추출할 수 있다. 인자로 추출할 값들로 만든 리스트를 전달하면 된다.

* **isin() 메소드를 활용한 필터링: DataFrame의 열 객체.isin(추출 값의 리스트)**

먼저 불린 인덱싱을 이용해 'sibsp' 열의 값이 3, 4, 5 중에서 하나인 행들을 추출해보자. <br>

* 'sibsp'열은 같이 탑승한 형제 또는 배우자 수를 의미한다.

In [None]:
import pandas as pd

# IPython 디스플레이 설정 변경 - 출력할 최대 열의 개수
pd.set_option('display.max_columns', 10)

# 함께 탑승한 형제 또는 배우자의 수가 3, 4, 5인 승객만 따로 추출
mask3 = titanic['sibsp'] == 3
mask4 = titanic['sibsp'] == 4
mask5 = titanic['sibsp'] == 5

df_boolean = titanic[mask3 | mask4 | mask5]
print(df_boolean.head())

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns]


이번에는 isin() 메소드를 활용해보자. 훨씬 코드 수가 줄은 것을 확인할 수 있다.

In [None]:
isin_filter = titanic['sibsp'].isin([3, 4, 5])
df_isin = titanic[isin_filter]
print(df_isin.head())

    survived  pclass     sex   age  sibsp  ...  adult_male  deck  embark_town  \
7          0       3    male   2.0      3  ...       False   NaN  Southampton   
16         0       3    male   2.0      4  ...       False   NaN   Queenstown   
24         0       3  female   8.0      3  ...       False   NaN  Southampton   
27         0       1    male  19.0      3  ...        True     C  Southampton   
50         0       3    male   7.0      4  ...       False   NaN  Southampton   

   alive  alone  
7     no  False  
16    no  False  
24    no  False  
27    no  False  
50    no  False  

[5 rows x 15 columns]
