### 데이터 갯수 세기
판다스 패키지의 `Series`, `DataFrame` 객체의 `count()` 메서드로 데이터의 갯수를 셀 수 있음  
단, `NaN` 값은 세지 않는다.

In [36]:
import pandas as pd
import numpy as np

In [37]:
s = pd.Series(np.arange(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [38]:
s.count()   # 3번은 NaN 이므로 세지 않아서 9개로 센다.

9

In [39]:
df = pd.DataFrame(np.random.randint(5, size = (4,4)), dtype=float)  # randint 이게 뭐임
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,0.0,4.0,0.0
1,2.0,3.0,4.0,2.0
2,0.0,1.0,3.0,
3,3.0,2.0,1.0,2.0


In [40]:
# 열 기준으로 그룹화하여 카운트
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [41]:
import seaborn

In [42]:
titanic = seaborn.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [43]:
titanic.count() #타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### 카테고리 값 세기
`Series` 객체에 값이 정수, 문자열, 카테고리 값인 경우에 `value_counts()` 메서드로 각 값의 갯수를 셀수 있음  
`DataFrame`객체에는 `value_counts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함

In [44]:
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()


95    1
96    4
97    4
98    4
99    1
dtype: int32

In [45]:
s2.value_counts()

1    20
0    18
4    17
3    17
2    14
5    14
Name: count, dtype: int64

In [46]:
df[0].value_counts()

0
1.0    1
2.0    1
0.0    1
3.0    1
Name: count, dtype: int64

### 정렬
 `sort_index`, `sort_values`메서드로 정렬 가능  
 `sort_index`: 인덱스 기준으로 정렬(기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶으면 `ascending=False`를 지정한다.)  
 `short_values()`: 값 기준으로 정렬, 만약 NaN값이 있다면 무조건 맨뒤로 지정됨

In [47]:
s2.value_counts().sort_index()

0    18
1    20
2    14
3    17
4    17
5    14
Name: count, dtype: int64

In [48]:
s.sort_values() # 3번 인덱스 값이 NaN이므로 제일 나중으로 배치됨.

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [49]:
s.sort_values(ascending=False)  # 내림차순으로 정렬, 3번 NaN은 제일 나중으로.

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터 프레임에서 `sort_values()` 메서드를 사용할 땐 `by` 인수로 정렬 기준이 될 열을 지정  
`by` 인수에 리스트를 전달하면 복수 정렬을 하게 됨

In [50]:
df

Unnamed: 0,0,1,2,3
0,1.0,0.0,4.0,0.0
1,2.0,3.0,4.0,2.0
2,0.0,1.0,3.0,
3,3.0,2.0,1.0,2.0


In [51]:
df.sort_values(by=2)    # 2열을 기준으로 오름차순으로 정렬이 되므로 행도 2열의 오름차순 정렬에 맞게, 변경됨.

Unnamed: 0,0,1,2,3
3,3.0,2.0,1.0,2.0
2,0.0,1.0,3.0,
0,1.0,0.0,4.0,0.0
1,2.0,3.0,4.0,2.0


In [52]:
df.sort_values(by=[2, 0])

Unnamed: 0,0,1,2,3
3,3.0,2.0,1.0,2.0
2,0.0,1.0,3.0,
0,1.0,0.0,4.0,0.0
1,2.0,3.0,4.0,2.0


#### 파이썬으로 다음 연산을 수행한다.

sort_values 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [53]:
titanic['sex'].value_counts().sort_values()

sex
female    314
male      577
Name: count, dtype: int64

In [55]:
titanic['age'].value_counts().sort_values()

age
74.00     1
34.50     1
0.42      1
0.67      1
66.00     1
         ..
28.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: count, Length: 88, dtype: int64

In [56]:
titanic['class'].value_counts().sort_values()

class
Second    184
First     216
Third     491
Name: count, dtype: int64

In [57]:
titanic['alive'].value_counts().sort_values()

alive
yes    342
no     549
Name: count, dtype: int64

### 행/열 합계
`sum()` 메서드로 행 또는 열의 합계를 구할 수 있음  
`axis`인수로 1을 지정하면 행의 합, 0을 지정하면 열의 합

In [58]:
df2 = pd.DataFrame(np.random.randint(10, size = (4, 6)))
df2

Unnamed: 0,0,1,2,3,4,5
0,5,6,9,1,5,7
1,8,4,6,5,4,5
2,3,6,1,4,4,4
3,3,4,2,8,8,7


In [59]:
df2.sum(axis=1) # 행방향 합계

0    33
1    32
2    22
3    32
dtype: int64

In [60]:
df2['RowSum'] = df2.sum(axis =1)
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,5,6,9,1,5,7,33
1,8,4,6,5,4,5,32
2,3,6,1,4,4,4,22
3,3,4,2,8,8,7,32


In [62]:
df2.sum()   #열의 합

0          19
1          20
2          18
3          18
4          21
5          23
RowSum    119
dtype: int64

In [64]:
df2.loc['ColTotal',:] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,5.0,6.0,9.0,1.0,5.0,7.0,33.0
1,8.0,4.0,6.0,5.0,4.0,5.0,32.0
2,3.0,6.0,1.0,4.0,4.0,4.0,22.0
3,3.0,4.0,2.0,8.0,8.0,7.0,32.0
ColTotal,19.0,20.0,18.0,18.0,21.0,23.0,119.0


In [65]:
df2.mean(axis=1)

0            9.428571
1            9.142857
2            6.285714
3            9.142857
ColTotal    34.000000
dtype: float64

In [66]:
df2.mean()  # 열에 대한 평균

0          7.6
1          8.0
2          7.2
3          7.2
4          8.4
5          9.2
RowSum    47.6
dtype: float64

#### <aside>
파이썬으로 다음 연산을 수행한다.

1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [72]:
# 1. 타이타닉호 승객의 평균 나이를 구하라.
titanic['age'].mean()

29.69911764705882

In [77]:
# 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
titanic.loc[ titanic.sex == 'female', 'age'].mean()

27.915708812260537