In [71]:
import pandas as pd
import numpy as np

### 데이터 갯수 세기
판다스 패키지의 `Series`, `DataFrame` 객체의 `count()` 메서드로 데이터의 갯수를 셀 수 있음  
단, `NaN` 값은 포함하지 않음

In [2]:
s = pd.Series(np.arange(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [3]:
s.count()

9

In [4]:
df = pd.DataFrame(np.random.randint(5, size = (4, 4)), dtype = float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,3.0,2.0,3.0,0.0
2,3.0,1.0,0.0,
3,0.0,3.0,1.0,2.0


In [5]:
# 열 기준으로 그룹화하여 카운트
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [72]:
import seaborn as sns

In [73]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [8]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [9]:
len(titanic)

891

### 카테고리 값 세기
`Series` 객체의 값이 정수, 문자열, 카테고리 값인 경우에 `value_counts()` 메서드로 각 값의 갯수를 셀 수 있음  
`DataFrame` 객체에는 `value_counts()` 메서드가 존재하지 않아 각 열마다 따로 갯수를 세야 함

In [10]:
s2 = pd.Series(np.random.randint(6, size = 250))
s2.tail()

245    4
246    5
247    0
248    5
249    0
dtype: int32

In [11]:
s2.value_counts() # 값의 갯수 기준으로 내림차순 정렬

5    52
3    49
4    39
2    38
0    37
1    35
Name: count, dtype: int64

In [12]:
df.value_counts() # 행의 조합의 갯수 세기

0    1    2    3  
0.0  3.0  1.0  2.0    1
2.0  0.0  2.0  0.0    1
3.0  2.0  3.0  0.0    1
Name: count, dtype: int64

### 정렬
`sort_index()`, `sort_values()` 메서드로 정렬 가능  
`sort_index()` : 인덱스 기준으로 정렬(기본적으로 오름차순 정렬, 만약 내림차순 정렬을 하고 싶으면 `ascending=False`를 지정)  
`sort_values()` : 값 기준으로 정렬, 만약 NaN 값이 있다면 무조건 맨 뒤로 지정됨

In [13]:
s2.value_counts().sort_index()

0    37
1    35
2    38
3    49
4    39
5    52
Name: count, dtype: int64

In [14]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [15]:
s.sort_values(ascending = False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터프레임에서 `sort_values()` 메서드를 사용할 땐 `by` 인수로 정렬 기준이 될 열을 지정  
`by` 인수에 리스트를 전달하면 복수 정렬을 하게 됨

In [16]:
df

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,3.0,2.0,3.0,0.0
2,3.0,1.0,0.0,
3,0.0,3.0,1.0,2.0


In [18]:
df.sort_values(by=2)

Unnamed: 0,0,1,2,3
2,3.0,1.0,0.0,
3,0.0,3.0,1.0,2.0
0,2.0,0.0,2.0,0.0
1,3.0,2.0,3.0,0.0


In [19]:
df.sort_values(by=[2, 0])
# 2번째 열을 기준으로 오름차순 정렬, 중복된 값이 있을 경우 0번째 열에서 중복된 다시 오름차순 정렬

Unnamed: 0,0,1,2,3
2,3.0,1.0,0.0,
3,0.0,3.0,1.0,2.0
0,2.0,0.0,2.0,0.0
1,3.0,2.0,3.0,0.0


##### 파이썬으로 다음 연산을 수행한다.
`sort_values` 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [21]:
titanic['sex'].value_counts().sort_values()

sex
female    314
male      577
Name: count, dtype: int64

In [22]:
titanic['age'].value_counts().sort_values()

age
74.00     1
34.50     1
0.42      1
0.67      1
66.00     1
         ..
28.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: count, Length: 88, dtype: int64

In [23]:
titanic['class'].value_counts().sort_values()

class
Second    184
First     216
Third     491
Name: count, dtype: int64

In [24]:
titanic['alive'].value_counts().sort_values()

alive
yes    342
no     549
Name: count, dtype: int64

### 행/열 합계
`sum()` 메서드로 행 또는 열의 합계를 구할 수 있음  
`axis` 인수로 1을 지정하면 행의 합, 0(default)을 지정하면 열의 합

In [25]:
df2 = pd.DataFrame(np.random.randint(10, size=(4, 6)))
df2

Unnamed: 0,0,1,2,3,4,5
0,9,4,4,6,4,8
1,0,6,7,0,8,5
2,3,4,9,9,8,4
3,5,1,7,9,6,3


In [26]:
df2.sum(axis=1)

0    35
1    26
2    37
3    31
dtype: int64

In [27]:
df2['RowSum'] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,9,4,4,6,4,8,35
1,0,6,7,0,8,5,26
2,3,4,9,9,8,4,37
3,5,1,7,9,6,3,31


In [28]:
df2.sum()

0          17
1          15
2          27
3          24
4          26
5          20
RowSum    129
dtype: int64

In [29]:
df2.loc['ColTotal', :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,9.0,4.0,4.0,6.0,4.0,8.0,35.0
1,0.0,6.0,7.0,0.0,8.0,5.0,26.0
2,3.0,4.0,9.0,9.0,8.0,4.0,37.0
3,5.0,1.0,7.0,9.0,6.0,3.0,31.0
ColTotal,17.0,15.0,27.0,24.0,26.0,20.0,129.0


In [30]:
df2.mean(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,RowSum
0,9.0,4.0,4.0,6.0,4.0,8.0,35.0
1,0.0,6.0,7.0,0.0,8.0,5.0,26.0
2,3.0,4.0,9.0,9.0,8.0,4.0,37.0
3,5.0,1.0,7.0,9.0,6.0,3.0,31.0
ColTotal,17.0,15.0,27.0,24.0,26.0,20.0,129.0


In [31]:
df2.mean()

0          6.8
1          6.0
2         10.8
3          9.6
4         10.4
5          8.0
RowSum    51.6
dtype: float64

##### 파이썬으로 다음 연산을 수행한다.
1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

In [32]:
titanic['age'].mean()

29.69911764705882

In [34]:
titanic.loc[titanic.sex =='female','age'].mean()

27.915708812260537

In [37]:
titanic.loc[(titanic.pclass == 1) * (titanic.sex == 'female'), 'age'].mean()

34.61176470588235

### `apply` 변환
행 또는 열 단위로 복잡한 처리를 하고자 할 때 사용하는 메서드  
`apply`는 인수로 행 또는 열을 받는 함수를 전달받음

In [38]:
df3 = pd.DataFrame(
    {
        'A':[1,3,4,3,4],
        'B':[2,3,1,2,3],
        'C':[1,5,2,4,4]
    }
)
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [41]:
def getMean(col): # 인자 값이 2개가 들어오면 에러 발생
    return col.mean()

df3.apply(getMean)

A    3.0
B    2.2
C    3.2
dtype: float64

In [42]:
df3.apply(getMean, axis=1)

0    1.333333
1    3.666667
2    2.333333
3    3.000000
4    3.666667
dtype: float64

In [44]:
df3.apply(pd.value_counts)

  df3.apply(pd.value_counts)


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [49]:
# titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)

def checkAge(row):
    result = None
    if row.age >= 20:
        result = 'adult'
    else:
        result = 'child'
    return result

titanic['audult/child'] = titanic.apply(checkAge, axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,audult/child
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult


##### 파이썬으로 다음 연산을 수행한다.

타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category1` 열을 만들어라. `category1` 카테고리는 다음과 같이 정의된다.

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 “child”라고 한다.

In [53]:
titanic.iloc[1]

survived                1
pclass                  1
sex                female
age                  38.0
sibsp                   1
parch                   0
fare              71.2833
embarked                C
class               First
who                 woman
adult_male          False
deck                    C
embark_town     Cherbourg
alive                 yes
alone               False
audult/child        adult
Name: 1, dtype: object

In [56]:
def getCategory1(row):
    result = None
    if row.age >= 20:
        result = row.sex
    else:
        result = 'child'
    return result

titanic['category1'] = titanic.apply(getCategory1, axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,audult/child,category1
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male


### `fillna` 메서드
판다스의 객체에서 `NaN` 값을 특정한 값으로 변경하고자 할 때 `fillna()` 메서드로 변경할 수 있음

In [61]:
df.fillna(0.0)

Unnamed: 0,0,1,2,3
0,2.0,0.0,2.0,0.0
1,3.0,2.0,3.0,0.0
2,3.0,1.0,0.0,0.0
3,0.0,3.0,1.0,2.0


##### 파이썬으로 다음 연산을 수행한다.
타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

In [74]:
titanic.age = titanic.age.fillna(titanic.age.mean()).round(2)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


### `astype` 메서드
판다스 객체의 데이터 타입을 변경하고자 할 때 `astype()` 메서드를 사용

In [76]:
df3.astype(float)

Unnamed: 0,A,B,C
0,1.0,2.0,1.0
1,3.0,3.0,5.0
2,4.0,1.0,2.0
3,3.0,2.0,4.0
4,4.0,3.0,4.0


##### 파이썬으로 다음 연산을 수행한다.
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category2` 열을 만들어라. `category2` 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 `male` 또는 `female`로 시작한다.
2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.
3. 예를 들어 27살 남성은 `male27` 값이 된다.


In [78]:
titanic['category2'] = titanic.sex + titanic.age.astype(str)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,female19.0
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,female29.7
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,male26.0


### 실수 값의 카테고리 지정
`cut()` 메서드와 `qcut()` 메서드로 실수 범위에 따라 카테고리를 지정할 수 있음  
`cut()` : 직접 경계선을 지정하여 카테고리 하는 메서드  
`qcut()` : 갯수를 동일하게 하여 카테고리 하는 메서드

In [84]:
age = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

`cut()` 메서드에 카테고리할 리스트와 경계 리스트, 라벨 리스트를 전달하여 카테고리 된 `Categorical` 인스턴스를 반환 받음  
`Categorical` 인스턴스는 `categories` 속성으로 카테고리 라벨을, `codes` 속성으로 카테고리 된 인덱스 리스트를 반환

In [85]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(age, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [86]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [87]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [89]:
df4 = pd.DataFrame(age, columns=['age'])
df4['age_cat'] = pd.cut(age, bins, labels=labels)
df4

Unnamed: 0,age,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [90]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
cats

['Q4', 'Q4', 'Q3', 'Q2', 'Q2', ..., 'Q2', 'Q3', 'Q1', 'Q3', 'Q3']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [91]:
cats.value_counts()

Q1    250
Q2    250
Q3    250
Q4    250
Name: count, dtype: int64

##### 파이썬으로 다음 연산을 수행한다.
타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘중년’, ‘장년’, ‘노년’ 나이 그룹으로 나눈다.  
```python
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
```  
그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.

In [100]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

cats = pd.cut(titanic.age, bins, labels=labels)
ratio = cats.value_counts() / cats.count()
ratio

age
청년      0.464082
중년      0.274800
미성년자    0.188141
장년      0.067275
노년      0.005701
Name: count, dtype: float64

##### 파이썬으로 다음 연산을 수행한다.
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 `category3` 열을 만들어라. `category3` 카테고리는 다음과 같이 정의된다.

1. 20살 미만이면 성별에 관계없이 “미성년자”라고 한다.
2. 20살 이상이면 나이에 따라 “청년”, “중년”, “장년”, “노년”을 구분하고 그 뒤에 성별을 나타내는 “남성”, “여성”을 붙인다.

In [102]:
def checkAge(row):
    result = None

    sex = '남성' if row.sex =='male' else '여성'

    if row.age >= 20:
        result = row.category3 + 
        sex
    else:
        result = row.category3
    return result

titanic['category3'] = cats.astype(str)
titanic['category3'] = titanic.apply(checkAge)
titanic

AttributeError: 'Series' object has no attribute 'sex'