In [None]:
import numpy as np
import pandas as pd

### 데이터 갯수 세기
판다스 패키지의 `Series`, `DataFrame` 객체의 `count()` 메서드로 데이터의 갯수를 셀 수 있음
단, `NaN` 값은 포함하지 않음

In [None]:
s = pd.Series(np.arange(10))
s[3] = np.nan
s

In [None]:
# 카운트 세기 (NAN 제외 갯수)
s.count

In [None]:
df=pd.DataFrame(np.random.randint(5,size=(4,4)), dtype=float)
df.iloc[2,3]=np.nan
df

In [None]:
#열 기준으로 그룹화하여 카운트
df.count()  

In [None]:
import seaborn

In [63]:
titanic = seaborn.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [None]:
# 각 열마다 데이터 개수가 나옴
titanic.count()

In [None]:
len(titanic)

### 카테고리 값 세기

`Series` 객체에 값이 정수, 문자열, 카테고리 값인 경우에  
`value_counts()`메서드로 각 값의 갯수를 셀 수 있음

`DataFrame`객체에는 `value_counts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함

In [None]:
s2 = pd.Series(np.random.randint(6,size=250))
s2.tail()

In [None]:
s2.value_counts()

In [None]:
df[0].value_counts()

### 정렬
`sort_index`, `sort_values` 메서드로 정렬 가능
`sort_index`: 인덱스 기준으로 정렬  
(기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶으면 `ascending=False`를 지정)  


`sort_values`: 만약 NaN 값이 있다면 무조건 맨뒤로 지정됨

In [None]:
s2.value_counts().sort_index()

In [None]:
# `sort_values`: 만약 NaN 값이 있다면 무조건 맨뒤로 지정됨
s.sort_values()


In [None]:
# 내림차순
s.sort_values(ascending=False)

In [None]:
df.sort_values(by=2)

In [None]:
df.sort_values(by=[2,0])

##### 파이썬으로 다음 연산을 수행한다.
sort_values 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수,   
나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [None]:
titanic['sex'].value_counts().sort_values()

In [None]:
titanic['age'].value_counts().sort_values()

In [None]:
titanic['class'].value_counts().sort_values()

In [None]:
titanic['alive'].value_counts().sort_values()

### 행/열 합계
`sum()` 메서드로 행 또는 열의 합계를 구할 수 있음
`axis` 인수로 1을 지정하면 행의 합, 0(defalt)을 지정하면 열의 합

In [None]:

df2 = pd.DataFrame(np.random.randint(10,size=(4,6))) 

In [None]:
df2.sum(axis=1)

In [None]:
df2['RowSum']=df2.sum(axis=1)
df2

In [None]:
df2.sum()

In [None]:
df2.loc['colTotal',:] = df2.sum()
df2

In [None]:
df2.mean(axis=1)

In [62]:
df2.mean()

0           7.8
1          12.6
2          10.8
3          11.4
4          11.4
5          10.8
RowSum    129.6
dtype: float64

##### 파이썬으로 다음 연산을 수행한다.

1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [None]:
titanic

In [65]:
#1. 타이타닉호 승객의 평균 나이를 구하라.
titanic['age'].mean()

29.69911764705882

In [71]:
#2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
titanic.loc[titanic.sex == 'female','age'].mean()

27.915708812260537

In [78]:
#3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.
#타이타닉호를 검색 하고 (loc) 1등급 검색 조건 & 여성 승객들 조건으로 잡고 , 나이를 검색하는데 그 나이를 평균으로.

#p는 왜 붙는가?
titanic.loc[(titanic.pclass == 1) & (titanic.sex == 'female'),'age'].mean()

34.61176470588235