In [2]:
import pandas as pd
import numpy as np

### 데이터 갯수 세기
판다스에서 패키지의 `Series` , `DataFrame` 객체의 `count()` 메서드로 데이터의 개수를 셀 수 있음  
단, `NaN` 값은 포함하지 않는다.

In [3]:
s = pd.Series(np.arange(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [4]:
s.count()

9

In [6]:
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2,3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,2.0,2.0,3.0
1,4.0,3.0,1.0,4.0
2,3.0,4.0,0.0,
3,0.0,4.0,2.0,1.0


In [8]:
# 열 기준으로 그룹화 하여 카운트
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [10]:
import seaborn

In [11]:
titanic = seaborn.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [13]:
# 타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [14]:
len(titanic)

891

### 카테고리 값 세기
`Series` 객체에 값이 정수, 문자열, 카테고리 값인 경우에 `value_counts()` 메서드로 각 값의 갯수를 셀 수 있음  
`DateFrame` 객체에는 `value_counts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함

In [15]:
s2 = pd.Series(np.random.randint(6, size=250))
s2.tail()

245    0
246    5
247    2
248    1
249    0
dtype: int32

In [16]:
s2.value_counts()

5    53
2    46
0    42
4    41
1    37
3    31
Name: count, dtype: int64

In [19]:
df[0].value_counts()

0
0.0    2
4.0    1
3.0    1
Name: count, dtype: int64

### 정렬
`sort_index` , `sort_values` 메서드로 정렬이 가능하다.  
  
`sort_index` : 인데스 기준으로 정렬 ( 기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶으면 `ascending = False` 를 지정한다.)  
  
`sort_values` : 값 기준으로 정렬, 만약 NaN 값이 있다면 무조건 맨뒤로 지정됨

In [21]:
s2.value_counts().sort_index()

0    42
1    37
2    46
3    31
4    41
5    53
Name: count, dtype: int64

In [23]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [24]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터 프레임에서 `sort_values()` 메서드를  사용할 땐 `by` 인수로 정렬 기준이 될 열을 지정  
`by` 인수에 리스트를 전달하면 복수 정렬을 하게 됨

In [26]:
df.sort_values(by=2)

Unnamed: 0,0,1,2,3
2,3.0,4.0,0.0,
1,4.0,3.0,1.0,4.0
0,0.0,2.0,2.0,3.0
3,0.0,4.0,2.0,1.0


In [27]:
df.sort_values(by=[2,0])

Unnamed: 0,0,1,2,3
2,3.0,4.0,0.0,
1,4.0,3.0,1.0,4.0
0,0.0,2.0,2.0,3.0
3,0.0,4.0,2.0,1.0
