In [3]:
import pandas as pd
import numpy as np

### CSV(Comma Seperated Value). 데이터 값이 콤마로 구분되는 텍스트 파일

In [303]:
data = {
    "c1": [1, 2, "누락"],
    "c2": [1.11, "", 3.33],
    "c3": ["one", "two", "three"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


### csv로 출력하기. to_csv() 메서드 활용. 첫 인자로는 파일 경로. 의미 없는 인덱스를 저장하지 않으려면 index=False 키워드 활용

In [23]:
df.to_csv("sample1.csv", index=False, encoding="UTF-8")

In [25]:
df.to_csv("sample1_1.csv", encoding="UTF-8")

### pandas csv로부터 데이터 입력하기. read_csv() 메서드를 사용

In [26]:
df_read = pd.read_csv("sample1.csv")
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [27]:
df.to_csv("sample2.csv", index=False, header=False)

### column 인덱스 정보가 없는 경우에는 read_csv()의 names 키워드 인수 활용해서 설정 가능

In [30]:
pd.read_csv("sample2.csv", names=["c1", "c2", "c3"])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [39]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Overwriting sample3.txt


#### 데이터를 구분하는 구분자(seperator)가 콤마가 아니면 sep인수를 써서 구분자를 사용자가 지정해줘야 한다. 길이가 정해지지 않은 공백이 구분자인 경우에는 '\s' 정규식(regular expression) 문자열을 사용하면 된다.

In [33]:
pd.read_table("sample3.txt", sep="\s+")

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


#### 파일 안에 데이터뿐만이 아니라 상단에 부가적인 텍스트가 있는 경우

In [34]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [37]:
pd.read_csv("sample4.txt", skiprows=[0, 1]) # [0, 1] 명시된 줄은 건너뛰기. 리스트 아닌 range(2)도 가능

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


#### 자료 안 특정값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN 값으로 취급할 값을 넣는다.

In [43]:
df_na_val = pd.read_csv("sample1.csv", na_values=["누락"])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


#### 파일을 읽을 때와 마찬가지로 파일을 출력할 때도 sep인수로 구분자 바꿀 수 있다

In [45]:
df_na_val.to_csv("sample5.txt", sep="|")

In [46]:
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


#### 불러올 때와 마찬가지로 저장할 때도 na_rep 키워드 인수를 사용해서 NaN 표시값을 바꿀 수도 있따. 아래의 코드를 보면 NaN 값을 '누락'으로 변경해서 저장한다.

In [53]:
df_na_val.to_csv("sample6.csv", na_rep="누락")

In [54]:
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")

#### 앞이나 뒤의 특정 개수만 보고 싶다면 head()메서드나 tail() 메서드 사용. 메서드 인수로 출력할 행의 수를 넣으면 된다.

In [57]:
titanic.head(20)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
5,0,male,2.0,3,1,21.075,Third,unknown,Southampton,n
6,1,female,27.0,0,2,11.1333,Third,unknown,Southampton,n
7,1,female,14.0,1,0,30.0708,Second,unknown,Cherbourg,n
8,1,female,4.0,1,1,16.7,Third,G,Southampton,n
9,0,male,20.0,0,0,8.05,Third,unknown,Southampton,y


#### pandas는 numpy 배열과 같이 콤마를 사용한 (row 인덱스, column 인덱스) 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer)속성도 제공합니다.
- loc: label 값 기반의 2차원 인덱싱
- iloc: 순서를 나타내는 정수 기반의 2차원 인덱싱

### df.loc[row 인덱싱 값] # column 생략
### df.loc[row 인덱싱 값, column 인덱싱 값]

#### dataframe 고급 인덱싱 - loc 인덱서

이 떄 인덱싱 값은 다음 중 하나다. row 인덱싱 값은 정수 또는 row index 데이터이고 column 인덱싱 값은 label 문자열이다.
- index 데이터
- index 데이터 슬라이스
- index 데이터 리스트
- 같은 row 인덱스를 가지는 boolean Series(row 인덱싱의 경우)
- 또는 위의 값들을 반환하는 함수

In [67]:
df1 = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                     index = ["a", "b", "c"], columns = ["A", "B", "C", "D"])

df1

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


#### loc 인덱서를 사용하면서 인덱스를 콤마 없이 하나만 넣으면 row을 선택합니다.
인덱스 데이터가 "a"인 행을 고르면 해당하는 row가 Series로 반환됩니다. Series라서 상하로 길게 표현되기는 했지만 row를 가져오고 있습니다.

In [68]:
df1.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

#### 인덱스 데이터의 슬라이싱도 가능. 이 떄는 사실 loc를 쓰지 않을 떄와 같은 결과 출력

In [72]:
df1.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [73]:
df1["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


#### 인덱스 데이터의 리스트 자료형도 사용 가능. 이 때는 loc를 쓰지 않으면 KeyError 오류 발생

In [74]:
df1.loc[["b", "c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [78]:
df1.A > 15 # . 찍어서 쓰는 것은 영문자 컬럼만 가능

a    False
b    False
c     True
Name: A, dtype: bool

In [80]:
df1.loc[df1.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


#### callable한 함수를 만들어서 인덱싱하는데 사용할 수 있다. 다음 함수는 A열의 값이 10보다 큰 row만 선택한다.

In [81]:
def select_rows(df, num):
    return df.A > num
select_rows(df1, 10)

a    False
b     True
c     True
Name: A, dtype: bool

In [84]:
df1.loc[select_rows(df1, 10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [86]:
df.loc["A"] # KeyError, loc 인덱서는 column 접근 불가

KeyError: 'A'

#### (주의사항) row 인덱스 값이 아래의 예제처럼 default로 주어지는 정수로 생성된 DataFrame의 경우에는 슬라이싱 마지막 숫자가 포함된 결과를 가져옵니다. loc은 label index에 접근하기 때문에

In [87]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns = ["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


#### 원래 row 인덱스 값이 정수인 경우에는 마지막 값이 포함. loc -> label 바라봄(마지막 포함).
#### iloc -> 인덱스를 바라봄(마지막 미포함)

In [89]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [90]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [91]:
df2.iloc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


인덱싱 값을 row와 columns 모두 받으려면 df.loc[row 인덱스, column 인덱스]와 같은 형태로 사용. row 인덱스 label 값이 a, column 인덱스 label 값이 A인 위치의 값을 구하는 것은 다음과 같다.

In [101]:
df1

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [96]:
df1.loc["a": "A"]

Unnamed: 0,A,B,C,D


In [97]:
df1.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [98]:
df1.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [100]:
df1.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [104]:
df1.loc[df1.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


#### iloc 인덱서는 loc인덱서와 반대로 label이 아니라 순서를 나타내는 정수 인덱스만 받는다.

In [106]:
df1.iloc[0, 1]

11

In [107]:
df1.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [110]:
df1.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [111]:
df1.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택

In [114]:
df1.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [116]:
df1.iloc[-1] = df1.iloc[-1] * 2
df1

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


pandas는 numpy 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하다. 또 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공.
가장 간단한 데이터 분석은 데이터의 개수를 세는 것. 개수를 셀 때는 count() 메서드를 사용. 이 때 NaN 값은 세지 않는다.

In [117]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

count()는 NaN을 빼고 센다

In [118]:
s.count()

9

len()은 NaN 값을 상관 없이 출력

In [119]:
len(s)

10

DataFrame 객체에 count() 메서드를 사용하면 각 열마다의 데이터 개수를 센다. 그리고 그 결과를 series로 반환. count() 메서드는 NaN 값을 제외하고 개수를 세기 때문에 데이터에서 값이 누락된 부분(NaN)을 찾을 때 유용.

In [120]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [121]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

seaborn. 타이타닉 호의 승객 데이터를 아래의 예제처럼 DataFrae으로 읽어올 수 있따. 이 명령을 실행하려면 seaborn 설치해야함

In [122]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [123]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

#### 카테고리 값 세기: series의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts() 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [128]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100)) # 0~5 사이의 정수를 100회 생성
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [129]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

DataFrame에는 value_counts메서드 사용 가능. 첫 인자로 label값을 문자로 전달해도 된다.

In [138]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [139]:
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

데이터를 인덱스순으로 정렬하려면 soer_index()를, value를 기준으로 정렬하려면 sort_values() 메서드를 사용
앞의 예제에서 index로 정의 되지 않았던 s2.value_counts()의 반환값(series)에 sort_index를 적용하면 아래와 같이 정렬도니 결과 볼수있따.

In [140]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [141]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

value를 기준으로 정렬할 때 NaN 값이 잇는 경우가 있을 수 있다. 이 경우에는 정렬하면 아래 예제와 같이 NaN 값이 가장 나중으로 위치하게 된다.

In [143]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [144]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

Series 정렬 - 내림차순
큰 수에서 작은 수로, 내림차순으로 정렬하려면 ascending=False와 같이 키워드 인수 지정
NaN은 무조건 맨 마지막에

In [147]:
s.sort_values(ascending = False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

DataFrame 정렬
DataFrame에서 sort_values 메서드를 사요하려면 by 키워드 인수를 활용하여 DataFrame의 정렬 기준이 되는 cloumn을 지정해 주어야 한다.

In [212]:
df.sort_values(by=1) # dataframe은 테이블 형태이므로 1개 칼럼만 정렬하는것이 아닌

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


by 키워드 인수에 리스트 형태로 지정 가능. 리스트의 첫번쨰 열을 기준으로 먼저 정렬한 후 동일한 순서 값이 나오면 그 다음 기준으로 순서를 결정

In [213]:
df.sort_values(by=[1, 2])
# 앞 칼럼 기준으로 먼저 정렬 그 후 뒤 칼럼 정렬(앞 칼럼에 중복된 값이 있으면 뒷 칼럼 기준 정렬)

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [214]:
titanic["sex"].value_counts().sort_values(ascending=False)

male      577
female    314
Name: sex, dtype: int64

In [215]:
titanic["age"].value_counts().sort_values(ascending=False)

24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
66.00     1
0.67      1
0.42      1
34.50     1
74.00     1
Name: age, Length: 88, dtype: int64

In [216]:
titanic.value_counts("age").sort_values(ascending=False)

age
24.00    30
22.00    27
18.00    26
30.00    25
28.00    25
         ..
0.42      1
66.00     1
70.50     1
74.00     1
80.00     1
Length: 88, dtype: int64

In [217]:
titanic["class"].value_counts().sort_values(ascending=False)

Third     491
First     216
Second    184
Name: class, dtype: int64

In [218]:
titanic["alive"].value_counts().sort_values(ascending=False)

no     549
yes    342
Name: alive, dtype: int64

In [219]:
df2.value_counts("A")

KeyError: 'A'

In [220]:
df2.value_counts(["A","B","C"])

KeyError: 'A'

In [221]:
df3 = pd.DataFrame(np.ones((3, 4)), columns=list("가나다라"))
df3["나"] = 2.0
df3.iloc[1, 2] = 3.0
df3.iloc[2, 3] = np.nan
df3

Unnamed: 0,가,나,다,라
0,1.0,2.0,1.0,1.0
1,1.0,2.0,3.0,1.0
2,1.0,2.0,1.0,


In [222]:
df3.value_counts(["가", "다"])

가    다  
1.0  1.0    2
     3.0    1
dtype: int64

In [223]:
df3.value_counts(["가", "라"])

가    라  
1.0  1.0    2
dtype: int64

In [224]:
df.value_counts([0])

3.0    2
0.0    1
4.0    1
dtype: int64

In [225]:
titanic.value_counts("class")

class
Third     491
First     216
Second    184
dtype: int64

DataFrame 행/열 합계
row와 cloumn의 합계를 구할 때는 sum(axis) 메서드 사용. axis 인수에는 합계로 인해 없어지는 방향축(0=row, 1=column)을 지정합니다. row의 집계를 구할 때는 sum(axis=1)메서드를 사용합니다.

In [226]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [227]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [228]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [229]:
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

In [230]:
df2.loc["ColTotal2"] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal2,24,33,25,24,15,10,5,16,152


In [231]:
df2.loc["ColTotal", :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal2,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0
ColTotal,48.0,66.0,50.0,48.0,30.0,20.0,10.0,32.0,304.0


DataFrame 행/열 합계
mean() 메서드는 평균을 구하며 앞서 설명한 sum() 메서드와 사용법이 같습니다. axis인수에는 집계로 인해 없어지는 방향축(0=row, 1=column)을 지정합니다.

In [232]:
df2.mean()

0          16.000000
1          22.000000
2          16.666667
3          16.000000
4          10.000000
5           6.666667
6           3.333333
7          10.666667
RowSum    101.333333
dtype: float64

In [233]:
df2.loc["ColTotal", :] = df2.mean()
round(df2, 1)

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal2,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0
ColTotal,16.0,22.0,16.7,16.0,10.0,6.7,3.3,10.7,101.3


In [249]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [286]:
# 타이타닉호 승객의 편균 나이
round(titanic["age"].mean(), 1)

29.7

In [287]:
# 타이타닉호 승객 중 여성 승객의 평균 나이
round(titanic["age"].loc[titanic["sex"] == "female"].mean(), 1)

27.9

In [298]:
round(titanic["age"][titanic["sex"] == "female"].mean(), 1)

27.9

In [302]:
#타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이
round(titanic["age"].loc[titanic["pclass"] == 1].loc[titanic["sex"]=="female"].mean(), 1)

34.6

In [300]:
round(titanic["age"].loc[(titanic["pclass"] == 1) & (titanic["sex"] == "female")].mean(), 1)

34.6

In [301]:
round(titanic["age"][(titanic["pclass"]==1) & (titanic["sex"] == "female")].mean(), 1)

34.6