# 판다스 자료형

![%ED%8C%8C%EC%9D%B4%EC%84%A0%20%EC%9E%90%EB%A3%8C%ED%98%95.PNG](attachment:%ED%8C%8C%EC%9D%B4%EC%84%A0%20%EC%9E%90%EB%A3%8C%ED%98%95.PNG)

## 자료형 변환하기
* DataFrame객체(또는 Series객체).<b>`astype('새로운데이터타입이름')`</b>

* seaborn의 'tips' 데이터셋을 이요하여 자료형 변환을 해본다.

In [1]:
# 판다스와 seaborn 라이브러를 임포트한다.

import pandas as pd
import seaborn as sns

In [2]:
# seaborn의 'tips'데이터셋을 로드하고 데이터프레임 tips를 생성한다.

tips=sns.load_dataset("tips")

In [3]:
# 데이터프레임 tips의 앞쪽 데이터를 확인

tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [5]:
# tips의 행열확인

tips.shape

(244, 7)

In [7]:
# tips 각 열의 데이터 타입 확인

tips.dtypes

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

In [8]:
# tips의 요약정보확인

tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [13]:
# 성별을 나타내는 sex열의 고유데이터를 확인한다.

tips["sex"].value_counts()

Male      157
Female     87
Name: sex, dtype: int64

In [15]:
# 흡연여부를 나타내는 smoker열의 고유데이터를 확인한다.

tips["smoker"].value_counts()

No     151
Yes     93
Name: smoker, dtype: int64

In [12]:
# 요일을 나타내는 day열의 고유데이터를 확인한다.

tips["day"].value_counts()

Sat     87
Sun     76
Thur    62
Fri     19
Name: day, dtype: int64

In [16]:
# 시간을 나타내는 time열의 고유데이터를 확인한다.

tips["time"].value_counts()

Dinner    176
Lunch      68
Name: time, dtype: int64

In [20]:
# 흡연여부를 나타내는 smoker열은 카테고리형이다. 이열을 문자열로 바꾸고 'smoker_str'열을 생성한다.

smoker_str = tips["smoker"].astype("str")

In [21]:
# 'smoker_str'열 확인

smoker_str

0       No
1       No
2       No
3       No
4       No
      ... 
239     No
240    Yes
241    Yes
242     No
243     No
Name: smoker, Length: 244, dtype: object

In [23]:
# tips의 각 열의데이터 타입을 확인

tips.dtypes

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

In [24]:
# 'total_bill'열의 데이터형을 문자열로 변환

tips["total_bill"] =tips["total_bill"].astype("str")

In [25]:
# 'total_bill'열 확인

tips["total_bill"]

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
       ...  
239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, Length: 244, dtype: object

In [27]:
# tips의 각 열의데이터 타입을 확인 (float -> object)

tips.dtypes

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

In [28]:
# 'total_bill'열의 데이터형을 실수형으로 변환

tips["total_bill"] = tips["total_bill"].astype("float")

In [29]:
# tips의 각 열의데이터 타입을 확인

tips.dtypes

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

## 잘못 입력한 데이터 처리

### 잘못입력한 문자열 처리하기
* pandas.to_numeric()

* 1,3,5,7행의 'total_bill'열 데이터를 'missing'으로 바꾸고 tips_sub_missing에 대입한다.



In [94]:
# tips 데이터프레임의 앞의 10개의 데이터를 복사하여 tips_sub_missing 데이터프레임을 생성

tips_sub_missing = tips.head(10).copy()

In [99]:
# tips_sub_missing 확인

tips_sub_missing

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


In [38]:
# tips_sub_missing'의 1,3,5,7행의 'total_bill'열의 데이터를 'missing'으로 수정

tips_sub_missing.loc[[1,3,5,7],"total_bill"] = "missing"

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


In [39]:
# tips_sub_missing확인

tips_sub_missing

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,missing,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,missing,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,missing,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,missing,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


In [40]:
# tips_sub_missing 데이터타입 확인
# 'missing'때문에 object로 바뀜

tips_sub_missing.dtypes

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

In [43]:
# astype()으로 float로 바꿀수 없음을 확인
# errors를 써서 오류 발생시 무시 할수 있다. ignore
# float를 변경 불가! 문자가 있으니

tips_sub_missing["total_bill"].astype("float", errors = "ignore")

0      16.99
1    missing
2      21.01
3    missing
4      24.59
5    missing
6       8.77
7    missing
8      15.04
9      14.78
Name: total_bill, dtype: object

In [45]:
# panas.to_unmeric(errors='coerce')로 float로 바꿀수 있음을 확인
# errors="coerce" 무시하고 강행하면 결측치로 처리한다!!

pd.to_numeric(tips_sub_missing["total_bill"], errors="coerce")

0    16.99
1      NaN
2    21.01
3      NaN
4    24.59
5      NaN
6     8.77
7      NaN
8    15.04
9    14.78
Name: total_bill, dtype: float64

## 카테고리(Category)형-범주형
* Pandas 라이브러리는 유한한 범위의 값만을 가질 수 있는 카테고리라는 특수한 자료형이 있다.
* 주로 동일한 문자열이 반복되어 데이터를 구성하는 경우에 사용한다.

In [48]:
# 카테고리형 시리즈 s 만들기

s = pd.Series({0:"a",1:"b", 2:"c", 3:"a"})
s

0    a
1    b
2    c
3    a
dtype: object

In [49]:
# 카테고리형에 카테고리값 외의 다른 값 대입하기

# s[0]='f'

s[0]="f"
s

0    f
1    b
2    c
3    a
dtype: object

In [50]:
# tips의 'sex'열을 문자열로 바꾼다.

tips["sex"] = tips["sex"].astype('str')

In [51]:
# tips의 요약정보 확인

tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    object  
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(3), float64(2), int64(1), object(1)
memory usage: 8.9+ KB


In [52]:
# tips의 'sex'열을 카테고리형으로 바꾼다.

tips["sex"] = tips["sex"].astype("category")

In [53]:
# tips의 요약정보 확인

tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


* 위 결과 문자열보다 카테고리형일 경우, 메모리 용량이 줄어들었음을 확인할수있다.

## 문자열 메소드

In [54]:
# capitalize() : 첫문자를 대문자로 변환

"sona".capitalize()

'Sona'

In [56]:
# count() : 문자열의 개수반환

"sona.hahahahahahaha".count("a")

8

In [58]:
# startswith() : 문자열이 특정 문자로 시작하면 참

"sona".startswith("s")

True

In [59]:
"sona".startswith("o")

False

In [60]:
# endswith() : 문자열이 특정 문자로 끝나면 참

"sona".endswith("a")

True

In [61]:
"sona".endswith("s")

False

In [63]:
# find() : 찾을 문자열의 첫 번째 인덱스를 반환, 실패시 -1 반환

"sona".find("o")

1

In [64]:
"sona".find("t") #없으니까 -1 반환

-1

In [69]:
# isalpha() : 모든 문자가 알파벳이면 참
# 빈칸도 False!

"sona    ".isalpha()

False

In [67]:
"sona".isalpha()

True

In [71]:
# isdecimal() : 모든 문자가 숫자이면 참

"1234    ".isdecimal()

False

In [72]:
"1234".isdecimal()

True

In [75]:
# isalnum() :  모든 문자가 알파벳이거나 숫자이면 참

"lightsn52       ".isalnum()

False

In [76]:
"lightsn52".isalnum()

True

In [77]:
# lower() : 모든 문자를 소문자로 변환

"SONA".lower()

'sona'

In [78]:
# upper() : 모든 문자를 대문자로 변환

"sona".upper()

'SONA'

In [79]:
# replace() : 문자열의 문다를 다른 문자로 변경

"sonahahahahah".replace("a","o")

'sonohohohohoh'

In [81]:
# strip() : 문자열의 맨 앞과 맨뒤에 있는 빈 칸을 제거함

" sona ".strip()

'sona'

In [82]:
# split() : 구분자를 지정하여 문자열을 나누고, 나눈 값들의 리스트를 반환

"sHoHnHa".split("H")

['s', 'o', 'n', 'a']

In [83]:
# partition() : split() 메소드와 비슷한 역할을 하지만 구분자도 반환함 
# 맨앞만 구분되어서 나눠짐!

"sHoHnHa".partition("H")

('s', 'H', 'oHnHa')

In [85]:
# center() : 지정한 너비로 문자열을 늘리고 문자열을 가운데 정렬한다.

"sHoHnHa".center(20)

'      sHoHnHa       '

In [86]:
# zfill() : 문자열의 빈칸을 '0'으로 채운다.

"1234".zfill(10)

'0000001234'

# 열 재구성
* 데이터프레임의 열을 재구성해본다.

## 열 순서 변경

* <b>`데이터프레임객체[재구성한 열이름의 리스트]`</b>

- <u>열 이름을 원하는 순서대로 정리해서 리스트를 만들고 데이터프레임에서 열을 다시 선택하는 방식으로 열 순서를 바꿀 수 있다.</u>

* titanic 데이터프레임의 열을 재구성해본다

In [87]:
# seaborn 라이브러리를 임포트한다

import seaborn as sns

In [88]:
# seaborn의 titanic 데이터셋을 로드해서 데이터프렘을 만들고 titanic변수에 대입한다.

titanic = sns.load_dataset("titanic")

In [90]:
# 데이터프레임 titanic의 앞부분 데이터를 확인한다.

titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


* titanic 데이터플레임 중 첫번째 5행과 첫 4개의 열을 슬라이싱하여 서브데이터프레임 df를 만든다.


In [96]:
# 첫번째 5행과 첫 4개의 열을 슬라이싱하여 서브데이터프레임 df를 만든다.

df = titanic.iloc[:5,:4]

#동일식 titanic.loc[0:4,"survived":"age"]
df

Unnamed: 0,survived,pclass,sex,age
0,0,3,male,22.0
1,1,1,female,38.0
2,1,3,female,26.0
3,1,1,female,35.0
4,0,3,male,35.0


* 데이터프레임 df의 열의 순서를 컬럼명 오름차순으로 바꾼다.

In [116]:
# 열 이름을 리스트로 만들기, 변수 columns에 대입

columns = df.columns.to_list()

#동일식: list(df.columns)

In [120]:
# 변수 columns확인

columns

['age', 'pclass', 'sex', 'survived']

In [121]:
# 리스트로 만들어진 열이름을 알파벳순 오름차순으로 정렬하기, 변수 columns_sorted에 대입

columns_sorted = sorted(columns)

In [122]:
# columns_sorted확인

columns_sorted

['age', 'pclass', 'sex', 'survived']

In [123]:
# 정렬된 이름 순서대로 열을 선택해서 새로운 df_sorted 데이터프레임 생성

df_sorted = df[columns_sorted]

In [124]:
# df_sorted확인

df_sorted

Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


In [125]:
#물론  이렇게 써줘도 된다.

df[['age', 'pclass', 'sex', 'survived']]

Unnamed: 0,age,pclass,sex,survived
0,22.0,3,male,0
1,38.0,1,female,1
2,26.0,3,female,1
3,35.0,1,female,1
4,35.0,3,male,0


* 데이터프레임 df의 열의 순서를 컬럼명 내림차순으로 바꾼다.

In [137]:
# 열 이름을 기존 순서의 정반대 역순으로 정렬하기, 변수 columns_reversed에 대입

columns_reversed = list(reversed(columns_sorted))

columns_reversed2 = sorted(list(df.columns),reverse=True)

In [136]:
# columns_reversed확인

columns_reversed

['survived', 'sex', 'pclass', 'age']

In [138]:
columns_reversed2

['survived', 'sex', 'pclass', 'age']

In [140]:
# 역순으로 정렬된 열 이름 순서대로 열을 선택해서 새로운 df_reversed 데이터프레임 생성

df_reversed= df[['survived', 'sex', 'pclass', 'age']]

In [141]:
# df_reversed확인

df_reversed

Unnamed: 0,survived,sex,pclass,age
0,0,male,3,22.0
1,1,female,1,38.0
2,1,female,3,26.0
3,1,female,1,35.0
4,0,male,3,35.0


* 데이터프레임 df의 열의 순서를 'pclass', 'sex', 'age', 'survived' 순(임의의 순서)으로 바꾼다.

In [142]:
# 열 이름을 사용자가 정의한 임의의 순서로 재배치하기, df_customed에 대입

df_customed = df[[ 'pclass', 'sex', 'age', 'survived']]

In [143]:
# df_customed 확인

df_customed

Unnamed: 0,pclass,sex,age,survived
0,3,male,22.0,0
1,1,female,38.0,1
2,3,female,26.0,1
3,1,female,35.0,1
4,3,male,35.0,0


## 열 분리 

 <b>`시리즈의 문자열 리스트 인덱싱 : 시리즈객체.str.get(인덱스)`</b>

- <u>하나의 열이 여러 가지 정보를 담고 있을 때 각 정보를 서로 분리해서 사용하는 경우</u>가 있다.
- 어떤 열에 '연월일' 정보가 있을때 '연', '월', '일'을 구분하여 3개의 열을 만드는 것이나, 사람의 이름이 들어 있는 열을 '성'과 '이름'을로 구분하는 것을 예로 들수 있다.

* '주가데이터.xlsx'파일(한국 주식시장에 상장된 모 회사의 날짜별 주가를 정리한 데이터)의 날짜데이터를 연,월,일로 분리해본다.

In [144]:
# 판다스 라이브러리 임포트

import pandas as pd

In [146]:
import os
os.listdir('./data')

['.ipynb_checkpoints',
 'auto-mpg.csv',
 'euro12.csv',
 'Euro_2012_stats_TEAM.csv',
 'matzipData.csv',
 '남북한발전전력량.xlsx',
 '소상공인시장진흥공단_상가업소정보_의료기관.csv',
 '주가데이터.xlsx']

In [165]:
# './data/주가데이터.xlsx'파일을 읽어봐 데이터프레임 df를 생성한다.

df = pd.read_excel("./data/주가데이터.xlsx")
df

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039
5,2018-06-25,11150,150,11400,11450,11000,55519
6,2018-06-22,11300,100,11250,11450,10750,134805
7,2018-06-21,11200,350,11350,11750,11200,133002
8,2018-06-20,11550,250,11200,11600,10900,308596
9,2018-06-19,11300,700,11850,11950,11300,180656


In [166]:
# 데이터프레임 df의 요약 정보를 확인

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   연월일     20 non-null     datetime64[ns]
 1   당일종가    20 non-null     int64         
 2   전일종가    20 non-null     int64         
 3   시가      20 non-null     int64         
 4   고가      20 non-null     int64         
 5   저가      20 non-null     int64         
 6   거래량     20 non-null     int64         
dtypes: datetime64[ns](1), int64(6)
memory usage: 1.2 KB


### Series.str 
- <b>`시리즈의 값을 문자열로 접근하기 위해 사용되는 속성`</b>

* '연월일' 열의 내용을 분리해 '연','월','일' 3개의 열을 생성한다.

In [167]:
# 문자열 메소드를 사용하기 위해 '연월일' 열의 자료형을 변경한다.
# 결과를 '연월일_str' 컬럼에 대입한다.

df['연월일_str'] = df['연월일'].astype("str")

In [168]:
# df의 요약정보확인

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   연월일      20 non-null     datetime64[ns]
 1   당일종가     20 non-null     int64         
 2   전일종가     20 non-null     int64         
 3   시가       20 non-null     int64         
 4   고가       20 non-null     int64         
 5   저가       20 non-null     int64         
 6   거래량      20 non-null     int64         
 7   연월일_str  20 non-null     object        
dtypes: datetime64[ns](1), int64(6), object(1)
memory usage: 1.4+ KB


In [169]:
# '연월일_str' 열의 문자열데이터를 split() 메소드로 분리하여 ['연','월', '일'] 형태의 리스트로 정리해서 dates변수에 대입

dates= df["연월일_str"].str.split("-")
dates

0     [2018, 07, 02]
1     [2018, 06, 29]
2     [2018, 06, 28]
3     [2018, 06, 27]
4     [2018, 06, 26]
5     [2018, 06, 25]
6     [2018, 06, 22]
7     [2018, 06, 21]
8     [2018, 06, 20]
9     [2018, 06, 19]
10    [2018, 06, 18]
11    [2018, 06, 15]
12    [2018, 06, 14]
13    [2018, 06, 12]
14    [2018, 06, 11]
15    [2018, 06, 08]
16    [2018, 06, 07]
17    [2018, 06, 05]
18    [2018, 06, 04]
19    [2018, 06, 01]
Name: 연월일_str, dtype: object

In [170]:
# 분리된 정보를 각각 새로운 열에 담아 df에 추가하기
# dates에서 연정보를 추출하여 '연_str'컬럼에 대입

df['연_str']= dates.str[0]

In [171]:
# 분리된 정보를 각각 새로운 열에 담아 df에 추가하기
# dates에서 월정보를 추출하여 '월_str'컬럼에 대입

df['월_str']= dates.str[1]

In [172]:
# 분리된 정보를 각각 새로운 열에 담아 df에 추가하기
# dates에서 일정보를 추출하여 '일_str'컬럼에 대입

df['일_str']= dates.str[2]

In [173]:
# df확인

df

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연월일_str,연_str,월_str,일_str
0,2018-07-02,10100,600,10850,10900,10000,137977,2018-07-02,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018-06-29,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018-06-28,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018-06-27,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018-06-26,2018,6,26
5,2018-06-25,11150,150,11400,11450,11000,55519,2018-06-25,2018,6,25
6,2018-06-22,11300,100,11250,11450,10750,134805,2018-06-22,2018,6,22
7,2018-06-21,11200,350,11350,11750,11200,133002,2018-06-21,2018,6,21
8,2018-06-20,11550,250,11200,11600,10900,308596,2018-06-20,2018,6,20
9,2018-06-19,11300,700,11850,11950,11300,180656,2018-06-19,2018,6,19


### Series.dt
- <b>`시리즈의 값을 datetime으로 접근하기 위해 사용되는 속성`</b>
- 시리즈객체.dt.year
- 시리즈객체.dt.month
- 시리즈객체.dt.day

In [178]:
# datetime타입인 '연월일' 열에서 연도를 추출하여 '연_int' 열을 생성한다.

df['연_int'] = df['연월일'].dt.year

In [179]:
# datetime타입인 '연월일' 열에서 월을 추출하여 '월_int' 열을 생성한다.

df['월_int'] = df['연월일'].dt.month

In [180]:
# datetime타입인 '연월일' 열에서 일을 추출하여 '일_int' 열을 생성한다.

df['일_int'] = df['연월일'].dt.day

In [181]:
# df확인

df

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연월일_str,연_str,월_str,일_str,연_int,월_int,일_int
0,2018-07-02,10100,600,10850,10900,10000,137977,2018-07-02,2018,7,2,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018-06-29,2018,6,29,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018-06-28,2018,6,28,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018-06-27,2018,6,27,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018-06-26,2018,6,26,2018,6,26
5,2018-06-25,11150,150,11400,11450,11000,55519,2018-06-25,2018,6,25,2018,6,25
6,2018-06-22,11300,100,11250,11450,10750,134805,2018-06-22,2018,6,22,2018,6,22
7,2018-06-21,11200,350,11350,11750,11200,133002,2018-06-21,2018,6,21,2018,6,21
8,2018-06-20,11550,250,11200,11600,10900,308596,2018-06-20,2018,6,20,2018,6,20
9,2018-06-19,11300,700,11850,11950,11300,180656,2018-06-19,2018,6,19,2018,6,19


In [182]:
# 최종 데이터프레임 df의 요약정보를 확인한다.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   연월일      20 non-null     datetime64[ns]
 1   당일종가     20 non-null     int64         
 2   전일종가     20 non-null     int64         
 3   시가       20 non-null     int64         
 4   고가       20 non-null     int64         
 5   저가       20 non-null     int64         
 6   거래량      20 non-null     int64         
 7   연월일_str  20 non-null     object        
 8   연_str    20 non-null     object        
 9   월_str    20 non-null     object        
 10  일_str    20 non-null     object        
 11  연_int    20 non-null     int64         
 12  월_int    20 non-null     int64         
 13  일_int    20 non-null     int64         
dtypes: datetime64[ns](1), int64(9), object(4)
memory usage: 2.3+ KB


# 필터링
- <u>시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출</u>하는 개념이다.

## 불린 인덱싱

데이터프레임의 불린 인덱싱: <b>`데이터프레임객체[불린시리즈]`</b>

- 시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 불린(참,거짓) 값으로 구성된 시리즈를 반환한다.
- 이때 참에 해당하는 데이터 값을 따로 선택할 수 있는데, 많은 데이터 중에서 어떤 조건을 만족하는 데이터만을 추출하는 필터링 기법의 한 유형이다.
- 데이터프레임의 각 열은 시리즈 객체이므로, 조건식(>, <, ==, ..)을 적용하면 각 원소가 조건을 만족하는지 여부를 참과 거짓 값으로 표시하여 불린시리즈를 만들 수 있다.
- 이 **`불린시리즈를 데이터프레임에 대입하면 조건을 만족하는 행들만 선택`**할 수 있다.

* seaborn의 'titanic'데이터셋을 이용하여 불린인덱싱 해본다.

In [183]:
# seaborn임포트

import seaborn as sns

In [195]:
# titanic 불러와서 변수 titanic에 대입

titanic = sns.load_dataset("titanic")

In [185]:
# head

titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [186]:
# info

titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


* 나이가 10대(10~19세)인 승객만 따로 선택


In [188]:
# titanic 데이터프레임의 각 행의 age가 10대인지 여부를 True, False값으로 가지는 불린시리즈 mask1 생성

mask1 = (titanic["age"]>=10) & (titanic["age"]<20)

In [189]:
# mask1 확인

mask1

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887     True
888    False
889    False
890    False
Name: age, Length: 891, dtype: bool

In [190]:
# mask1의 타입 확인

type(mask1)
# mask1은 불린시리즈이다.

pandas.core.series.Series

In [214]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask1을 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# 결과른 df_teenage에 대입


df_teenage = titanic.loc[mask1]

In [215]:
# df_teenage 확인

df_teenage

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [221]:
# 나이가 10대(10~19세)인 승객만 따로 선택

titanic[ (titanic["age"]>=10) & (titanic["age"]<20) ]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [222]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask1을 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# 열 인덱스에 ':' 대입해 모든 열을 선택했기 때문에 나이가 10대인 탑승객에 대한 모든 열을 선택할 수 있다.

titanic.loc[(titanic["age"]>=10) & (titanic["age"]<20),:]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [224]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask1를 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# .loc 없이도 사용가능함! 

titanic[(titanic["age"]>=10) & (titanic["age"]<20)]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


* 나이가 10세 미만(0~9세)이고 여성인 승객만 따로 선택

In [229]:
# titanic 데이터프레임의 각 행의 age가 10세 미만이고 성별이 여성인지 여부를 True, False값으로 가지는 불린시리즈 mask2 생성

mask2 = (titanic["age"]<10) & (titanic["sex"]=="female")

In [230]:
# mask2 확인, mssk2는 불린 시리즈임

mask2

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Length: 891, dtype: bool

In [231]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask2를 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# 결과를 df_female_under10에 대입

df_female_under10 = titanic.loc[mask2]

In [232]:
# df_female_under10 확인

df_female_under10

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False
147,0,3,female,9.0,2,2,34.375,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
184,1,3,female,4.0,0,2,22.025,S,Third,child,False,,Southampton,yes,False
205,0,3,female,2.0,0,1,10.4625,S,Third,child,False,G,Southampton,no,False
233,1,3,female,5.0,4,2,31.3875,S,Third,child,False,,Southampton,yes,False


In [233]:
# 나이가 10세 미만(0~9세)이고 여성인 승객만 따로 선택

(titanic["age"]<10) & (titanic["sex"]=="female")

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False
147,0,3,female,9.0,2,2,34.375,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
184,1,3,female,4.0,0,2,22.025,S,Third,child,False,,Southampton,yes,False
205,0,3,female,2.0,0,1,10.4625,S,Third,child,False,G,Southampton,no,False
233,1,3,female,5.0,4,2,31.3875,S,Third,child,False,,Southampton,yes,False


In [234]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask2를 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# 열 인덱스에 ':' 대입해 모든 열을 선택했기 때문에 나이가 10세 미만이고 성별이 여성인 탑승객에 대한 모든 열을 선택할 수 있다.

titanic.loc[(titanic["age"]<10) & (titanic["sex"]=="female"),:]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False
147,0,3,female,9.0,2,2,34.375,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
184,1,3,female,4.0,0,2,22.025,S,Third,child,False,,Southampton,yes,False
205,0,3,female,2.0,0,1,10.4625,S,Third,child,False,G,Southampton,no,False
233,1,3,female,5.0,4,2,31.3875,S,Third,child,False,,Southampton,yes,False


In [235]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask2를 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.

titanic[mask2]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False
147,0,3,female,9.0,2,2,34.375,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
184,1,3,female,4.0,0,2,22.025,S,Third,child,False,,Southampton,yes,False
205,0,3,female,2.0,0,1,10.4625,S,Third,child,False,G,Southampton,no,False
233,1,3,female,5.0,4,2,31.3875,S,Third,child,False,,Southampton,yes,False


* 나이가 10세 미만(0~9세)이거나 또는 60세 이상인 승객의 age, sex, alone 열만 선택

In [236]:
# titanic 데이터프레임의 각 행의 age가 10세 미만이거나 age가 60세 이상인지 여부를 True, False값으로 가지는 불린시리즈 mask3 생성

mask3 = (titanic["age"]<10) | (titanic["age"]>=60)

In [237]:
# mask3 확인

mask3

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: age, Length: 891, dtype: bool

In [238]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask3을 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# 열 인덱스에 '['age', 'sex', 'alone']' 대입해 원하는 열만을 선택했기 때문에 나이가 10세 미만이거나 60세 이상인 
# 탑승객의 나이, 성별, 혼자탑승여부를 선택할 수 있다.
# 결과를 df_under10_morethan60에 대입

df_under10_morethan60 = titanic.loc[mask3]

In [239]:
# df_under10_morethan60 확인

df_under10_morethan60

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.00,3,1,21.0750,S,Third,child,False,,Southampton,no,False
10,1,3,female,4.00,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
16,0,3,male,2.00,4,1,29.1250,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.00,3,1,21.0750,S,Third,child,False,,Southampton,no,False
33,0,2,male,66.00,0,0,10.5000,S,Second,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
831,1,2,male,0.83,1,1,18.7500,S,Second,child,False,,Southampton,yes,False
850,0,3,male,4.00,4,2,31.2750,S,Third,child,False,,Southampton,no,False
851,0,3,male,74.00,0,0,7.7750,S,Third,man,True,,Southampton,no,True
852,0,3,female,9.00,1,1,15.2458,C,Third,child,False,,Cherbourg,no,False


In [240]:
# 나이가 10세 미만(0~9세)이거나 또는 60세 이상인 승객의 age, sex, alone 열만 선택 1

df_under10_morethan60[["age","sex","alone"]]

Unnamed: 0,age,sex,alone
7,2.00,male,False
10,4.00,female,False
16,2.00,male,False
24,8.00,female,False
33,66.00,male,True
...,...,...,...
831,0.83,male,False
850,4.00,male,False
851,74.00,male,True
852,9.00,female,False


In [242]:
# 나이가 10세 미만(0~9세)이거나 또는 60세 이상인 승객의 age, sex, alone 열만 선택 2

titanic.loc[(titanic["age"]<10) | (titanic["age"]>=60),["age","sex","alone"]]

Unnamed: 0,age,sex,alone
7,2.00,male,False
10,4.00,female,False
16,2.00,male,False
24,8.00,female,False
33,66.00,male,True
...,...,...,...
831,0.83,male,False
850,4.00,male,False
851,74.00,male,True
852,9.00,female,False


In [246]:
# 나이가 10세 미만(0~9세)이거나 또는 60세 이상인 승객의 age, sex, alone 열만 선택 3
# 위의 식 보다 느리다! df 만들고 그것에서 또 조회를 하니까!

titanic[(titanic["age"]<10) | (titanic["age"]>=60)][["age","sex","alone"]]

Unnamed: 0,age,sex,alone
7,2.00,male,False
10,4.00,female,False
16,2.00,male,False
24,8.00,female,False
33,66.00,male,True
...,...,...,...
831,0.83,male,False
850,4.00,male,False
851,74.00,male,True
852,9.00,female,False


* 혼자온 사람이 아닌 데이터만 필터링

In [243]:
# 혼자온 사람이 아닌 데이터만 필터링

titanic[ titanic["alone"]==False ]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
874,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False


In [244]:
# 혼자온 사람이 아닌 데이터만 필터링

titanic[ titanic["alone"]==0 ]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
874,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False


In [247]:
# 혼자온 사람이 아닌 데이터만 필터링 1

titanic[ titanic["alone"]!=True ]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
874,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False


In [248]:
# 혼자온 사람이 아닌 데이터만 필터링 2

titanic[ titanic["alone"]!=1 ]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
874,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False


In [249]:
# 혼자온 사람이 아닌 데이터만 필터링 3
# "~"는 not이란 의미니까 false라고 생각하면 됨!


titanic[ ~titanic["alone"] ]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
874,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False


## isin() 메소드 활용

**`isin() 메소드를 활용한 필터링: 데이터프레임의 열객체.isin(추측 값의 리스트)`**

- 데이터프레임의 열에 isin() 메소드를 적용하면 특정 값을 가진 행들을 따로 추출할 수 있다.
- 이때 isin() 메소드에 데이터프레임의 열에서 추출하려는 값들로 만든 리스트를 전달한다.

* 형제나배우자 수가 3명이거나 4명이거나 5명인 데이터만 필터링

In [253]:
titanic.loc[(titanic["sibsp"]==3) | (titanic["sibsp"]==4) | (titanic["sibsp"]==5)]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
59,0,3,male,11.0,5,2,46.9,S,Third,child,False,,Southampton,no,False
63,0,3,male,4.0,3,2,27.9,S,Third,child,False,,Southampton,no,False
68,1,3,female,17.0,4,2,7.925,S,Third,woman,False,,Southampton,yes,False
71,0,3,female,16.0,5,2,46.9,S,Third,woman,False,,Southampton,no,False
85,1,3,female,33.0,3,0,15.85,S,Third,woman,False,,Southampton,yes,False


In [255]:
titanic[(titanic["sibsp"]==3) | (titanic["sibsp"]==4) | (titanic["sibsp"]==5)][:]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
59,0,3,male,11.0,5,2,46.9,S,Third,child,False,,Southampton,no,False
63,0,3,male,4.0,3,2,27.9,S,Third,child,False,,Southampton,no,False
68,1,3,female,17.0,4,2,7.925,S,Third,woman,False,,Southampton,yes,False
71,0,3,female,16.0,5,2,46.9,S,Third,woman,False,,Southampton,no,False
85,1,3,female,33.0,3,0,15.85,S,Third,woman,False,,Southampton,yes,False


In [254]:
titanic[(titanic["sibsp"]==3) | (titanic["sibsp"]==4) | (titanic["sibsp"]==5)]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
59,0,3,male,11.0,5,2,46.9,S,Third,child,False,,Southampton,no,False
63,0,3,male,4.0,3,2,27.9,S,Third,child,False,,Southampton,no,False
68,1,3,female,17.0,4,2,7.925,S,Third,woman,False,,Southampton,yes,False
71,0,3,female,16.0,5,2,46.9,S,Third,woman,False,,Southampton,no,False
85,1,3,female,33.0,3,0,15.85,S,Third,woman,False,,Southampton,yes,False


In [252]:
# isin() 메소들 활용하여 동일한 조건으로 추출
# isin() 메소드의 인자로 [3, 4, 5]형태의 리스트를 전달하면 해당 값이 존재하는 행은 참을 반환하고
# 값이 없으면 거짓을 반환한다.
# isin_filter는 불린시리즈이다.

titanic.loc[titanic['sibsp'].isin([3,4,5])]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
59,0,3,male,11.0,5,2,46.9,S,Third,child,False,,Southampton,no,False
63,0,3,male,4.0,3,2,27.9,S,Third,child,False,,Southampton,no,False
68,1,3,female,17.0,4,2,7.925,S,Third,woman,False,,Southampton,yes,False
71,0,3,female,16.0,5,2,46.9,S,Third,woman,False,,Southampton,no,False
85,1,3,female,33.0,3,0,15.85,S,Third,woman,False,,Southampton,yes,False
