# 2023 - 01 -19

# Pandas 데이터 입출력

## csv로 출력하기 ##

- Pandas는 데이터 파일을 읽어 DateFrame을 만들 수 있다
- CSV 파일 포맷은 데이터 값이 콤마로 구분되는 텍스트 파일이다

In [14]:
import pandas as pd
data = {
    "c1" : [1, 2, "누락"],
    "c2" : [1.11, "" , 3.33],
    "c3" : ["one","two", "three"]
}
columns = ["c1", "c2", "c3"]
index = [0, 1, 2]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


>데이터를 csv파일로 출력할 땐 to_csv()메서드를 활용  
>첫 인자로 파일 경로 입력 현재 만든 DateFrame의 index의 의미 없는 값으므로 출력할 때 배제  
>to_csv()의 기본값 인자인 index의 default가 True이니 index = False키워드를 활용하여 설정해주기  

```python
df_csv.to_csv("파일이름 및 확장자", index = False)와 같이 사용
```
- 이 셀을 시작하고 notebook_dir로 설정한 C:\python 경로에 해당 파일이 생성되었나 확인하기

In [15]:
df.to_csv("sample.csv", index = False)

### CSV로 부터 데이터 입력하기 

>만든 csv파일로부터 데이터를 불러오는 작업을 진행해보기
--> read_csv() 메서드 사용

> CSV파일로부터 데이터를 읽어 DateFrame을 만들 때에는 pandas.read_csv 함수를 사용  
> 함수의 첫 번째 인수로 "파일 이름.확장자" 문자열로 넣기

In [16]:
df_read = pd.read_csv("sample.csv")
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


--> 읽은 데이터에는 column인덱스는 있지만 row 인덱스 정보가 없으므로 0부터 시작하는 정수 인덱스가 자동으로 추가된것을 확인 가능

### Pandas 데이터 CSV로 출력

- column 인덱스를 배제하고 저장해보기  
>header = False 키워드 인수를 추가

In [17]:
df.to_csv("sample2.csv", index=False, header= False)

- column인덱스 정보가 없는 경우에 read_csv()의 names 키워드 인수를 활용해 설정가능
- 데이터를 불러올 때 names 키워드를 통하여 column 안덱스 정보 직접 추가해보기

In [19]:
pd.read_csv('sample2.csv', names = ['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


>콤마로 구분되지 않은 텍스트 파일에 대하여 처리해보기  
>주피터 랩에서 매직 명령어인 ''%%writefile 파일명' 사용하여 파일 저장

In [20]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Overwriting sample3.txt


>앞에서 만든 텍스트 파일을 불러오려면, 데이터를 구분하는 구분자가 만약 콤마가 아니면 sep 인수를 써서 구분자를 사용자가 지정해줘야 한다  
>만약 길이가 정해지지 않은 공백이 구분자인 경우에는 '\s+'정규식 문자열을 사용하면 된다

In [21]:
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


- 상단에 부가적인 텍스트가 있는 경우

In [22]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample4.txt


>데이터를 불러올 자료 파일 중에 건너 뛰어야 할 상단 행이 있으면 skiprows 인수를 사용하면 된다  
>건너 뛸 줄을 리스트 안에 작성하기  
>리스트가 아닌 range(2)도 활용 가능  

In [23]:
pd.read_csv("sample4.txt", skiprows = [0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


- 데이터를 불러올 자료 안 특정한 값을 NaN으로 취급하고 싶으면 na_values인수에 NaN 값으로 취급할 값 넣기

In [24]:
df_na_val = pd.read_csv('sample.csv', na_values = ['누락'])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


- 파일을 읽을 때와 마찬가지로 파일을 출력할 때도 sep 인수로 구분자를 바꿀 수 있다

In [39]:
df_na_val.to_csv('sample5.txt', sep ='|')

저장할 때에도 na_rep 키워드 인수를 사용해서 NaN 표시값을 바꿀 수 있다  
NaN값을 '누락'으로 변경 후 저장

In [41]:
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [42]:
df_na_val.to_csv('sample6.csv', na_rep = '누락')

>웹상에는 다양한 데이터 파일이 CSV파일 형태로 제공  
>read_csv 명령 사용시 path 대신 URL을 저장하면 pandas가 직접 해당 파일을 다운로드 후 읽어드린다  
>다음은 웹사이트에 저장되어있는 데이터 파일을 원격으로 읽는 명령 예제  

In [2]:
import pandas as pd
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n


>만약 앞이나 뒤의 특정 개수만 보고 싶다면 head()메서드나 tail()메서드를 사용하면 됩니다  
메서드 인수로 출력할 행의 수를 넣으면 됩니다 

In [47]:
titanic.head(3)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y


In [48]:
titanic.tail(3)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
624,1,female,19.0,0,0,30.0,First,B,Southampton,y
625,0,female,28.0,1,2,23.45,Third,unknown,Southampton,n
626,0,male,32.0,0,0,7.75,Third,unknown,Queenstown,y


#### DataFrame 고급 인덱싱 - loc 인덱서

DataFrame 에서 특정한 데이터만 골라내는 것을 인덱싱이라고 한다

Pandas는 Numpy배열과 같이 콤마를 사용한 (row인덱스, column 인덱스)형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서 속성 제공

- loc : label 값 기반의 2차원 인덱싱
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱

#### loc 인덱서 사용하기

```python
df.loc[row 인덱싱 값] # column 생략 --> 전체 column
df.loc[row인덱싱 값, column 인덱싱 값]
```

#### loc 인덱서 
row 인덱싱 값은 정수 또는 row index 데이터이고 column 인덱싱 값은 label 문자열이다

- index 데이터
- index 데이터 슬라이스
- index 데이터 리스트
- 같은 row 인덱스를 가지는 boolean Series (row 인덱싱의 경우)
- 또는 위의 값들을 반환하는 함수

In [66]:
import pandas as pd
import numpy as np
columns = ["A", "B", "C", "D"]
index = ["a", "b", "c"]
df_2 = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=index, columns=columns)
df_2

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


>loc인덱서를 사용하면서 인덱스를 콤마 없이 하나만 넣으면 row을 선택  
>인덱스 데이터가 "a"인 행을 고르면 해당하는 row가 Series로 반환  
>Series라서 길게 표현되지만 row를 가져옴  

In [70]:
df_2.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

>인덱스 데이터의 슬라이스도 가능  
>loc를 쓰지 않을 때와 결과가 같음

In [73]:
df_2.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [76]:
df_2["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


> 인덱스 데이터의 리스트 자료형도 가능  
> loc을 쓰지 않으면 Keyword 오류

In [75]:
df_2.loc[["b", "c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


>Bloolean Series로 row로 기준으로 인덱싱 가능  
>df.A(영어 문자열은 속성처럼 접근 가능)의 값 중 15 초과인 결과를 Bloolean Series값을 얻을 수 있다  
>이 Bloolean Series를 활용해 인덱싱 하고 있음  
>이는 데이터베이스와 같이 인덱스를 가지는 Bloolean Series도 row를 선택하는 인덱싱 값으로 쓸 수 있음  

In [80]:
df_2.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [82]:
df_2.loc[df_2.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


>callable한 함수를 만들어서 인덱시싱하는데 사용 가능  
>다음 함수는 A열의 값이 10보다 큰 row만 선택

In [84]:
def select_rows(df_2, num):
    return df_2.A > num

In [85]:
select_rows(df_2, 10)

a    False
b     True
c     True
Name: A, dtype: bool

In [86]:
df_2.loc[select_rows(df_2,10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


> loc 인덱서는 label 인덱싱이나 label 리스트 인덱싱을 불가능  
> 맨 앞에 row 값이 와야한다

In [88]:
df_2.loc["A"] #keyError

KeyError: 'A'

In [89]:
df_2.loc[["A","B"]]

KeyError: "None of [Index(['A', 'B'], dtype='object')] are in the [index]"

- (주의사항) row 인덱스 값이 아래의 예제처럼 default로 주어지는 정수로 생성된 DataFrame의 경우에는 슬라이싱 마지막 숫자가 포함된 결과를 가져옴

In [93]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns = ["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


- 원래 row 값이 정수인 경우에는 마지막 값 포함

In [96]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


#### loc 인덱서 vs iloc 인덱서

- iloc은 loc와 다르게 label인덱스가 아닌 숫자로된 인덱스에 접근하기에 우리가 아는 슬라이싱 방식과 동일하게 포함 X

In [None]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


### 정리 ###

|인덱싱 값|가능|결과|자료형|추가사항|
|:-----|:--|:--|:--|:-----|
|row 인덱스값(정수)| O | 행 | Series | | 
|row 인덱스값(정수)슬라이스| O | 행 | DataFrame | loc가 없는 경우와 같음 |
|row 인덱스값(정수)리스트| O | 행 | DataFrame | | 
|Bloolean Series| O | 행 | DataFrame | Series의 인덱스가 DataFrame의 행 인덱스와 같아야 한다 |
|Bloolean Series를 반환하는 함수| O | 행 | DataFrame | |
|column label| X | | | loc가 없는 경우에만 쓸 수 있습니다 |
|column label 리스트| X | | | loc가 없는 경우에만 쓸 수 있습니다 |

- 인덱싱 값을 row와 column 모두 받으려면 df.loc[row 인덱스, column인덱스]와 같은 형태로 사용  
- row 인덱스 label값이 a, column 인덱스 label값이 A인 위치의 값을 구하는건 다음과 같음

In [105]:
df_2.loc["a", "A"]

10

- 콤마로 구분된 인덱싱 값으로 label 데이터의 슬라이싱 또는 리스트도 사용 가능

In [113]:
df_2.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [109]:
df_2.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [112]:
df_2.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


- row 인덱스와 같은 bloolean Series나 이러한 bloolean Series를 반환하는 함수도 row의 인덱싱 값이 될수 있음

In [116]:
df_2.loc[df_2.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


#### iloc 인덱서

- iloc 인덱서는 loc 인덱서와 반대로 label이 아니라 순서를 나타내는 정수 인덱스만 받음

In [118]:
df_2.iloc[0, 1]

11

In [119]:
df_2.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [120]:
df_2.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [121]:
df_2.iloc[2: 3, 1:3]

Unnamed: 0,B,C
c,19,20


- loc 인덱서와 마찬가지로 인덱서가 하나만 들어가면 행을 선택

In [124]:
df_2.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [126]:
df_2.iloc[-1] = df_2.iloc[-1] * 2
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


### Series 데이터 개수 세기

>pandas는 numpy 2차원 배열에서 가능한 대부분의 데이터 처리가 가능  
>데이터 처리 및 변환을 위한 다양한 함수와 메서드 제공  

>가장 간단한 데이터 분석은 데이터의 개수 세기  
>개수를 셀 때는 count() 메서드를 사용 --> 이 때 NaN 값은 세지 X  

In [130]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [131]:
# count() 메서드는 NoN을 세지 않음
s.count()

9

In [134]:
# len()은 NoN을 셈
len(s)

10

>DataFrame 객체에 count() 메서드를 사용하면 각 열마다의 데이터 개수를 셈  
>그 결과 Series로 반환  
>count() 메서드는 NaN 값을 제외하고 개수를 세기 때문에 데이터에서 값이 누락된 부분(NaN)을 찾을 때 유용

In [137]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size = (4, 4)), dtype = float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [138]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

- 데이터 시각화 수업에 seaborn이라는 패키지에는 여러가지 데이터를 제공하고 있음
- 그 중 타이타닉호의 승객 데이터도 있는데 아래 예제처럼 DataFrame으로 읽어올수있다

In [6]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5) # 데이터 중 앞의 5개를 봄

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


# 연습문제 

In [7]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### Series 카테고리 값 세기

Series의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts()메서드로 각각의 값이 나온 횟수를 셀 수 있음

In [3]:
import pandas as pd
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size = 100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [4]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

### DataFrame 값 세기

>DataFrame에는 value_counts 메서드가 (ver1.1 부터 가능) 사용 가능하고 첫 인자로 label 값을 문자로 전달해도 됨  
>NaN값이 있는 row는 개수로 치지 않는다

In [5]:
df3 = pd.DataFrame(np.ones((3, 4)), columns = list("가나다라"))
df3["나"] = 2.0
df3.iloc[1, 2] = 3.0
df3.iloc[2, 3] = np.nan
df3

Unnamed: 0,가,나,다,라
0,1.0,2.0,1.0,1.0
1,1.0,2.0,3.0,1.0
2,1.0,2.0,1.0,


In [6]:
df3.value_counts(["가", "다"])

가    다  
1.0  1.0    2
     3.0    1
dtype: int64

In [1]:
import pandas as pd
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
titanic.value_counts("class")

class
Third     341
First     159
Second    127
dtype: int64

In [8]:
df2 = pd.DataFrame(np.arange(12).reshape(3, 4), columns = ["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [9]:
df2.value_counts("A")

A
0    1
4    1
8    1
dtype: int64

In [10]:
df2.value_counts(["A", "B", "C"])

A  B  C 
0  1  2     1
4  5  6     1
8  9  10    1
dtype: int64

In [150]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size = (4, 4)), dtype = float)
df.iloc[2, 3] =np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [151]:
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

- 데이터를 index순으로 정렬 --> sort_index()를 
- value를 기준으로 정렬 --> sort_values()메서드를 사용  
  
   
>앞의 예제에서 index로 정렬되지 않았던 s2.value_counts()의 반환값(Series)에 sort_vindex를 적용하면 아래와 같은 정렬을 볼 수 있음

In [153]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [154]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

> value를 기준으로 정렬할때 NaN값이 있는 경우가 있을 수 있음  
> 이 경우에는 정렬하면 아래 예제와 같이 NaN값이 가장 나중으로 위치

In [157]:
s = pd.Series(range(10))
s[3]=np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [158]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

### Sries 정렬

>내림차순

큰수에서 작은 수로, 내림차순으로 정렬하려면 ascending = False 와 같이 인수로 저장

In [162]:
s.sort_values(ascending = False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

### DataFrame 정렬

- DataFrame에서 sort_values메서드를 사용하려면 by 키워드 인수를 사용
- DataFrame의 정렬 기준이 되는 column을 지정

> DataFrame은 테이블 형태이므로 1개 column을 기준으로 다른 column도 모두 적용

In [165]:
df.sort_values(by = 1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


>by키워드 인수에 전달할 값으로 리스트 자료형의 형태로 지정가능  
>요소의 순서대로 정렬 기준의 우선순위가 됨  
>리스트릐 첫번째 열을 기준으로 먼저 정렬한 후 동일한 순서 값이 나오면 그 다음 기준으로 순서 결정  

In [168]:
df.sort_values(by = [1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


# 연습문제

#### 타이타닉호 승객에 개한 성별 인원수, 나이별 인원수, 선실별 인원수, 사망/생존 인원수 구하기  
#### sort_values 메서드를 사용하여  내림차순으로 정렬

In [2]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5) # 데이터 중 앞의 5개를 봄

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [194]:
titanic["sex"].value_counts().sort_values(ascending = False)

male      577
female    314
Name: sex, dtype: int64

In [198]:
titanic["age"].value_counts().sort_values(ascending = False)

24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
66.00     1
0.67      1
0.42      1
34.50     1
74.00     1
Name: age, Length: 88, dtype: int64

In [199]:
titanic["class"].value_counts().sort_values(ascending = False)

Third     491
First     216
Second    184
Name: class, dtype: int64

In [None]:
titanic["alive"].value_counts().sort_values(ascending = False)

0       no
1      yes
2      yes
3      yes
4       no
      ... 
886     no
887    yes
888     no
889    yes
890     no
Name: alive, Length: 891, dtype: object

-----------------------

>row과 column의 합계를 구할 때는 sum(axis) 메서드를 사용한다  
>axism인수에는 합계로 인해 없어지는 방향축(0 = row, 1 = column)을 지정  
>row의 집계를 구할때는 sum(axis = 1) 메서드 사용

In [217]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size = (4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [218]:
df2.sum(axis = 1)

0    35
1    34
2    41
3    42
dtype: int64

In [221]:
df2["RowSum"]= df2.sum(axis = 1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,59
1,6,9,2,4,5,2,4,2,67
2,4,7,7,9,1,7,0,6,66
3,9,9,7,6,9,1,0,1,66


>column의 합계를 구할 때는 sum(axis = 0)메서드를 사용하는데 axis인수의 디폴트 값이 0이므로 axis 인수 생략

In [229]:
df2.loc["ColTotal"]= df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum,ColTotal
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,59.0,94.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,67.0,101.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,66.0,107.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,66.0,108.0
ColTotal,54.0,74.25,56.25,54.0,33.75,22.5,11.25,36.0,580.5,922.5


In [228]:
df2.loc["ColTotal", :]= df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum,ColTotal
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,59.0,94.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,67.0,101.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,66.0,107.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,66.0,108.0
ColTotal,30.0,41.25,31.25,30.0,18.75,12.5,6.25,20.0,322.5,512.5


>mean() 메서드는 평균을 구하여 앞서 설명한 sum()메서드와 사용법이 같음  
>axis 인수에는 집계로 인해 없어지는 방향축( 0 = row, 1 = column )을 지정

In [224]:
df2.mean()

0             6.00
1             8.25
2             6.25
3             6.00
4             3.75
5             2.50
6             1.25
7             4.00
RowSum       64.50
ColTotal    102.50
dtype: float64

In [225]:
df2.loc["ColTotal"]= df2.mean()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum,ColTotal
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,59.0,94.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,67.0,101.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,66.0,107.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,66.0,108.0
ColTotal,6.0,8.25,6.25,6.0,3.75,2.5,1.25,4.0,64.5,102.5


# 연습문제

In [233]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0.0,3.0,male,22.0,1.0,0.0,7.2500,S,Third,man,1.0,,Southampton,no,0.0
1,1.0,1.0,female,38.0,1.0,0.0,71.2833,C,First,woman,0.0,C,Cherbourg,yes,0.0
2,1.0,3.0,female,26.0,0.0,0.0,7.9250,S,Third,woman,0.0,,Southampton,yes,1.0
3,1.0,1.0,female,35.0,1.0,0.0,53.1000,S,First,woman,0.0,C,Southampton,yes,0.0
4,0.0,3.0,male,35.0,0.0,0.0,8.0500,S,Third,man,1.0,,Southampton,no,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
887,1.0,1.0,female,19.0,0.0,0.0,30.0000,S,First,woman,0.0,B,Southampton,yes,1.0
888,0.0,3.0,female,,1.0,2.0,23.4500,S,Third,woman,0.0,,Southampton,no,0.0
889,1.0,1.0,male,26.0,0.0,0.0,30.0000,C,First,man,1.0,C,Cherbourg,yes,1.0
890,0.0,3.0,male,32.0,0.0,0.0,7.7500,Q,Third,man,1.0,,Queenstown,no,1.0


1. 타이타닉호 승객의 평균 나이

In [313]:
round(titanic["age"].mean(),1)  #round( ,1)  -> 1의 자리 수까지 반올림

29.7

2. 타이타닉로 승객 중 여성 승객의 평균 나이

In [310]:
round(titanic.loc[titanic.sex == "female"]["age"].mean(),1)

27.9

3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이

In [311]:
titanic2 = titanic[titanic.pclass == 1.0]
round(titanic2[titanic2.sex == "female"]["age"].mean(), 1)

34.6

In [312]:
round(titanic[(titanic.pclass == 1.0) & (titanic2.sex == "female")]["age"].mean(), 1)

34.6