### 데이터 갯수 세기
판다스 패키지의 `Series`, `DataFrame` 객체의 `count()` 메서드로 데이터의 갯수를 셀 수 있음  
단, `NaN` 값은 포함하지 않음

In [None]:
import pandas as pd
import numpy as np

In [None]:
s = pd.Series(np.arange(10))
s[3] = np.nan
s

In [None]:
s.count()

In [None]:
df = pd.DataFrame(np.random.randint(5, size = (4,4)), dtype = float)
df.iloc[2,3] = np.nan
df

In [None]:
# 열 기준으로 그룹화하여 카운트
df.count()

In [None]:
import seaborn

In [None]:
titanic = seaborn.load_dataset('titanic')
titanic.head()

In [None]:
titanic.count()

In [None]:
len(titanic)

### 카테고리 값 세기
`Series` 객체에 값이 정수, 문자열, 카테고리 값인 경우에 `value_counts()` 메서드로 각 값의 갯  
수를 셀 수 있음  
`DataFrame` 객체에는 `value_counts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야함

In [None]:
s2 = pd.Series(np.random.randint(6, size = 250))  
s2.tail()

In [None]:
df[0].value_counts()

### 정렬
`sort_index()`, `sort_values()` 메서드로 정렬 가능  
`sort_index()`: 인덱스 기준으로 정렬(기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶으면  
`ascending = False`를 지정)  
`sort_values()` :  값 기준으로 정렬, 만약 NaN 값이 있다면 무조건 맨 뒤로 지정됨

In [None]:
s2.value_counts()                                                     

In [None]:
s

In [None]:
s.sort_values(ascending= False)

데이터 프레임에서 `sort_values()` 메서드를 사용할 땐 `by` 인수로 정렬 기준이 될 열을 지정  
`by` 인수에 리스트를 전달하면 복수 정렬을 하게 됨 

In [None]:
df.sort_values(by=2)

In [None]:
df.sort_values(by=[2,0])

##### 파이썬으로 다음 연산을 수행한다.
`sort_values` 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수,  
사망/생존(alive) 인원수를 구하라.

In [None]:
titanic.sort_values(['sex', 'age', 'class', 'alive'])

In [None]:
titanic['sex'].value_counts().sort_values()

In [None]:
titanic['age'].value_counts().sort_values()

In [None]:
titanic['class'].value_counts().sort_values()

In [None]:
titanic['alive'].value_counts().sort_values()

### 행/열 합계
`sum()` 메서드로 행 또는 열의 합계를 구할 수 있음
`axis` 인수로 1을 지정하면 행의 합, 0(default)을 지정하면 열의 합

In [45]:
df2 = pd.DataFrame(np.random.randint(10, size = (4, 6)))
df2

Unnamed: 0,0,1,2,3,4,5
0,6,9,1,8,2,2
1,0,9,8,9,9,5
2,5,8,5,3,2,3
3,3,4,9,2,4,4


In [46]:
df2.sum(axis =1)

0    28
1    40
2    26
3    26
dtype: int64

In [47]:
df2['RowSum'] = df2.sum(axis = 1)
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,6,9,1,8,2,2,28
1,0,9,8,9,9,5,40
2,5,8,5,3,2,3,26
3,3,4,9,2,4,4,26


In [48]:
df2.sum()

0          14
1          30
2          23
3          22
4          17
5          14
RowSum    120
dtype: int64

In [49]:
df2.loc['ColTotal', : ] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,6.0,9.0,1.0,8.0,2.0,2.0,28.0
1,0.0,9.0,8.0,9.0,9.0,5.0,40.0
2,5.0,8.0,5.0,3.0,2.0,3.0,26.0
3,3.0,4.0,9.0,2.0,4.0,4.0,26.0
ColTotal,14.0,30.0,23.0,22.0,17.0,14.0,120.0


In [50]:
df2.mean( axis = 1)

0            8.000000
1           11.428571
2            7.428571
3            7.428571
ColTotal    34.285714
dtype: float64

In [51]:
df2.mean()

0          5.6
1         12.0
2          9.2
3          8.8
4          6.8
5          5.6
RowSum    48.0
dtype: float64

##### 파이썬으로 다음 연산을 수행한다.
1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객 중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객 중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [54]:
titanic['age'].mean()

29.69911764705882

In [57]:
titanic.loc[titanic.sex == 'female','age']

1      38.0
2      26.0
3      35.0
8      27.0
9      14.0
       ... 
880    25.0
882    22.0
885    39.0
887    19.0
888     NaN
Name: age, Length: 314, dtype: float64

In [61]:
titanic.loc[(titanic.pclass == 1) & (titanic.sex == 'female'), 'age'].mean()

34.61176470588235

### apply 변환
행 또는 열 단위로 복잡한 처리를 하고자 할 때 사용하는 메서드  
`apply`는 인수로 행 또는 열을 받는 함수를 전달 받음

In [62]:
df3 = pd.DataFrame(
    {
        'A' : [1, 3, 4, 3, 4],
        'B' : [2, 3, 1, 2, 3,],
        'C' : [1, 5, 2, 4, 4]
    }
)
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [80]:
def getColMean(col):   
    return col.mean()
df3.apply(getColMean)

A    3.0
B    2.2
C    3.2
dtype: float64

In [82]:
def getMean(col):
    return col.max() - col.min()
df3.apply(getMean)

A    3
B    2
C    4
dtype: int64

In [83]:
df3.apply(getMean, axis = 1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [72]:
df3.apply(pd.value_counts)

  df3.apply(pd.value_counts)


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [None]:
def checkAge(row):
    result = None
    if row.age >= 20:
        result = 'adult'

    else: 
        result = 'child'
    return result


titanic['adult/child'] = titanic.apply(checkAge, axis = 1)
titanic

##### 파이썬으로 다음 연산을 수행한다.
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라  
`category1` 카테고리는 다음과 같이 정의된다.  

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 2살 미만이면 성별에 관계없이 "child"라고 한다

In [87]:
titanic.iloc[1]

survived               1
pclass                 1
sex               female
age                 38.0
sibsp                  1
parch                  0
fare             71.2833
embarked               C
class              First
who                woman
adult_male         False
deck                   C
embark_town    Cherbourg
alive                yes
alone              False
adult/child        adult
Name: 1, dtype: object

In [None]:
def getCategory1(row): 
    result = None
    if row.age >= 20:
        result = row.sex
    else:
        result = 'child'
    return result

titanic['category1'] = titanic.apply(getCategory1, axis = 1)
titanic

### `fillna` 메서드
판다스의 객체에서 `NaN` 값을 특정한 값으로 변경하고자 할때 `fillna()` 메서드로 변경 할 수 있음

In [92]:
df.fillna(0.0)
df

Unnamed: 0,0,1,2,3
0,1.0,0.0,0.0,0.0
1,1.0,1.0,2.0,3.0
2,1.0,1.0,1.0,
3,2.0,4.0,0.0,4.0


##### 파이썬으로 다음 연산을 수행한다.
타이타닉호의 승객 중 나이를 명시하지 않은 고객을 나이를 명시한 고객의 평균 나이 값이 되도록  
titanic 데이터프레임을 고쳐라

In [104]:
titanic.age.fillna(titanic.age.mean()).round(2)

AttributeError: 'Series' object has no attribute 'age'