시리즈의 기본 함수를 알아보겠습니다. 

# 통계 정보

In [7]:
import pandas as pd
train = pd.read_csv(r'/Users/seo/kaggle/titanic/train.csv')

In [8]:
train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


## 통계정보 확인 

빈도 수, 평균, 분산, 4분위, 최소, 최대값을 확인할 때는 `describe()`를 이용합니다. 

In [16]:
train.Pclass.describe()

count    891.000000
mean       2.308642
std        0.836071
min        1.000000
25%        2.000000
50%        3.000000
75%        3.000000
max        3.000000
Name: Pclass, dtype: float64

## 평균

평균은 `mean()`으로 확인합니다. 

In [3]:
train.Age.mean()

29.69911764705882

## 빈도수 확인
값의 빈도 확인은 `value_counts()`으로 확인합니다. 기본적으로 결측치는 제외되지만 `dropna=False`를 추가하여 결측치도 함께 확인할 수 있습니다. 

In [13]:
# 빈도수 확인 
train.Age.value_counts()

24.00    30
22.00    27
18.00    26
19.00    25
30.00    25
         ..
55.50     1
70.50     1
66.00     1
23.50     1
0.42      1
Name: Age, Length: 88, dtype: int64

In [14]:
# 결측치도 추가해서 확인. NaN 건수가 출력 됨 
train['Age'].value_counts(dropna=False)

NaN      177
24.00     30
22.00     27
18.00     26
28.00     25
        ... 
36.50      1
55.50      1
66.00      1
23.50      1
0.42       1
Name: Age, Length: 89, dtype: int64

In [10]:
# 정규화 
train['Pclass'].value_counts(normalize=True)

3    0.551066
1    0.242424
2    0.206510
Name: Pclass, dtype: float64

In [11]:
# 카테고리화 
train['Pclass'].value_counts(bins=3)

(2.333, 3.0]      491
(0.997, 1.667]    216
(1.667, 2.333]    184
Name: Pclass, dtype: int64

# 결측치 확인 
결측치 확인은 `isnull()`을 이용합니다. `fillna()`를 이용하여 결측치를 다른 값으로 대치할 수 있습니다. 

In [17]:
pAge = train.Age

# 결측치 건수 
pAge.isnull().sum()

177

In [18]:
# fillna를 이용하여 결측치를 -1로 변환 
pAge.fillna(-1, inplace=True)
pAge.isnull().sum()

0

# 일반 함수 

## map
`map`함수는 값을 다른 값으로 대치 할 때 사용합니다. 딕셔너리를 전달 하거나, 함수를 전달하여 다른 값으로 변경할 수 있습니다. 

In [19]:
# pClass 값은 1, 2, 3 으로 적용되어 있습니다. 
pClass = train['Pclass']
pClass

0      3
1      1
2      3
3      1
4      3
      ..
886    2
887    1
888    3
889    1
890    3
Name: Pclass, Length: 891, dtype: int64

In [20]:
# map 함수를 이용하여 다른 값으로 대치합니다. 
mapping = { 1:"High", 2:"Middle", 3:"Low"}
pClass = pClass.map(mapping)
pClass

0         Low
1        High
2         Low
3        High
4         Low
        ...  
886    Middle
887      High
888       Low
889      High
890       Low
Name: Pclass, Length: 891, dtype: object

In [22]:
# pClas의 값으로 함수를 호출하여 결과로 값을 대치합니다. 
pClass = pClass.map('Person Class is {0}'.format)
pClass

0         Person Class is Low
1        Person Class is High
2         Person Class is Low
3        Person Class is High
4         Person Class is Low
                ...          
886    Person Class is Middle
887      Person Class is High
888       Person Class is Low
889      Person Class is High
890       Person Class is Low
Name: Pclass, Length: 891, dtype: object

In [24]:
# 람다 함수를 이용하여 처리 가능 
pClass = pClass.map(lambda x: x.lower())
pClass

0         person class is low
1        person class is high
2         person class is low
3        person class is high
4         person class is low
                ...          
886    person class is middle
887      person class is high
888       person class is low
889      person class is high
890       person class is low
Name: Pclass, Length: 891, dtype: object

## apply
`apply`는 값으로 함수를 호출 할 때 사용합니다. NumPy의 `ufunc`나 하나의 파라미터로 동작하는 함수를 사용합니다. 

In [30]:
pAge = train.Age

# pAge값이 0보다 크면 몫만 표현하고, 작으면 -1로 표현 
def calc(value):
    return value - value%10 if value >= 0 or value is None else -1

pAge = pAge.apply(calc)
pAge

0      20.0
1      30.0
2      20.0
3      30.0
4      30.0
       ... 
886    20.0
887    10.0
888    -1.0
889    20.0
890    30.0
Name: Age, Length: 891, dtype: float64

In [32]:
# 람다 함수 전달 
pAge = pAge.apply(lambda value : value // 10)
pAge

0      2.0
1      3.0
2      2.0
3      3.0
4      3.0
      ... 
886    2.0
887    1.0
888   -1.0
889    2.0
890    3.0
Name: Age, Length: 891, dtype: float64

In [33]:
# 함수 파라미터 전달 
def calc(value, param1):
    return value + param1

pAge = pAge.apply(calc, args=(5, ))
pAge

0      7.0
1      8.0
2      7.0
3      8.0
4      8.0
      ... 
886    7.0
887    6.0
888    4.0
889    7.0
890    8.0
Name: Age, Length: 891, dtype: float64