In [None]:
import pandas as pd
import numpy as np

### 데이터 갯수 세기
판다스 패키지의 `Series`, `DataFrame` 객체의 `count()` 메서드로 데이터의 갯수를 셀 수 있음  
단, `NaN`값은 포함하지 않음

In [None]:
s = pd.Series(np.arange(10))
s[3] = np.nan
s

In [None]:
s.count()

In [None]:
df = pd.DataFrame(np.random.randint(5,size=(4,4)), dtype=float)
df.iloc[2,3] = np.nan
df

In [None]:
# 열 기준으로 그룹화하여 카운트
df.count()

In [None]:
import seaborn

In [None]:
titanic = seaborn.load_dataset('titanic')
titanic.head()

In [None]:
titanic.count()

In [None]:
len(titanic)

### 카테고리 값 세기
`Series` 객체에 값이, 정수, 문자열, 카테고리 값인 경우에 `value_counts()` 메서드로 각 값의 갯수를 셀 수 있음  
`DataFrame` 객체에는 `vaule_ciunts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함

In [None]:
s2 = pd.Series(np.random.randint(6,size=250))
s2.tail()

In [None]:
df.value_counts()

In [None]:
df[0].value_counts()

### 정렬  
`sort_index()`, `sort_values()` 메서드로 정렬 가능  
`sort_index()` : 인덱스 기준으로 정렬 (기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶으면 `ascending = False`를 지정),   
`sort_values()` : 값 기준으로 정렬, 만약 NaN 값이 있다면 무조건 맨뒤로 지정됨  

In [None]:
s2.value_counts().sort_index()

In [None]:
s.sort_values()

In [None]:
s.sort_values(ascending=False)

데이터프레임에서 `sort_values()` 메서드를 사용할 땐 `by` 인수로 정렬 기준이 될 열을 지정  
`by` 인수에 리스트를 전달하면 복수 정렬을 하게 됨

In [None]:
df.sort_values(by=2)

In [None]:
df.sort_values(by=[2,0])

파이썬으로 다음 연산을 수행한다.  
  
sort_values 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [None]:
titanic['sex'].value_counts().sort_values()

In [None]:
titanic['age'].value_counts().sort_values()

In [None]:
titanic['class'].value_counts().sort_values()

In [None]:
titanic['alive'].value_counts().sort_values()

### 행/열 합계
`sum()` 메서드로 행 또는 열의 합계를 구할 수 있음  
`axis` 인수로 1을 지정하면 행의 합, 0(default)을 지정하면 열의 합

In [None]:
df2 = pd.DataFrame(np.random.randint(10, size= (4,6)))
df2

In [None]:
df2.sum(axis=1)

In [None]:
df2['RowSum'] = df2.sum(axis=1)
df2

In [None]:
df2.sum()

In [None]:
df2.loc['ColTotal'] = df2.sum()
df2

In [None]:
df2.mean(axis=1)

In [None]:
df2.mean()

파이썬으로 다음 연산을 수행한다.  
  
1. 타이타닉호 승객의 평균 나이를 구하라.  
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.  
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.  

In [32]:
titanic['age'].mean()

29.69911764705882

In [33]:
titanic.loc[titanic.sex == 'female','age'].mean()

27.915708812260537

In [35]:
titanic.loc[(titanic.pclass == 1) & (titanic.sex == 'female'),'age'].mean()

34.61176470588235

### `apply` 변환
행 또는 열 단위로 복잡한 처리를 하고자 할 때 사용하는 메서드  
`apply`는 인수로 행 또는 열을 받는 함수를 전달받음

In [36]:
df3 = pd.DataFrame({
    'A' : [1,3,4,3,4],
    'B' : [2,3,1,2,3],
    'C' : [1,5,2,4,4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [38]:
def getColMean(col):
    return col.mean()

df3.apply(getColMean)

A    3.0
B    2.2
C    3.2
dtype: float64

In [46]:
def getMean(col):
    return col.max() - col.min()

df3.apply(getMean)

A    3
B    2
C    4
dtype: int64

In [47]:
df3.apply(getMean,axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [48]:
df3.apply(pd.value_counts)

  df3.apply(pd.value_counts)


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [45]:
def checkAge(row):
    result = None
    if(row.age >= 20) :
        result = 'adult'
    else :
        result = 'child'
    return result

titanic['adult','child'] = titanic.apply(checkAge, axis = 1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,"(adult, child)"
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult


In [44]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True
