Pandas는 NumPy의 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다.

### 데이터 갯수 세기¶
가장 간단한 데이터 분석은 데이터의 갯수를 세는 것이다. count 메서드를 사용한다. NaN 값은 세지 않는다.

In [3]:
import pandas as pd
import numpy as np

In [4]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [5]:
s.count()

9

데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데이터에서 값이 누락된 부분을 찾을 때 유용하다.

In [6]:
np.random.seed(0)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,4.0,0.0,3.0,3.0
1,3.0,1.0,3.0,2.0
2,4.0,0.0,0.0,
3,2.0,1.0,0.0,1.0


In [7]:
df.count()  # 각 열별로 데이터 갯수를 셈

0    4
1    4
2    4
3    3
dtype: int64

### Practice 1
타이타닉호 승객 데이터의 데이터 값을 각 열마다 구해본다.

In [8]:
import seaborn as sns
titanic = sns.load_dataset("titanic")

In [9]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [10]:
titanic.count()  # age, deck에 대한 정보 누락이 많음

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### 카테고리 값 카운팅
시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있다.

In [11]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [12]:
s2.value_counts() # 0~5 중 1의 갯수가 가장 많음.. 가장 많은 갯수 순으로 보여줌

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

데이터프레임에는 value_counts 메서드가 없으므로 각 열마다 별도로 적용해야 한다.

In [13]:
df

Unnamed: 0,0,1,2,3
0,4.0,0.0,3.0,3.0
1,3.0,1.0,3.0,2.0
2,4.0,0.0,0.0,
3,2.0,1.0,0.0,1.0


In [14]:
df[0].value_counts()

4.0    2
2.0    1
3.0    1
Name: 0, dtype: int64

In [15]:
df[1].value_counts()

1.0    2
0.0    2
Name: 1, dtype: int64

### 정렬
데이터를 정렬하려면 sort_index와 sort_values 메서드를 사용한다. sort_index는 인덱스 값을 기준으로, sort_values는 데이터 값을 기준으로 정렬한다.

앞에서 s2 시리즈의 각 데이터 값에 따른 데이터 갯수를 보기좋게 정렬하려면 다음처럼 sort_index를 적용한다.

In [16]:
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [17]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

NaN값이 있는 경우에는 정렬하면 NaN값이 가장 나중으로 간다.

In [18]:
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [19]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

큰 수에서 작은 수로 반대 방향 정렬하려면 ascending=False 인수를 지정한다.

In [20]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

데이터프레임에서 sort_values 메서드를 사용하려면 by 인수로 정렬 기준이 되는 열을 지정해 주어야 한다.

In [21]:
df

Unnamed: 0,0,1,2,3
0,4.0,0.0,3.0,3.0
1,3.0,1.0,3.0,2.0
2,4.0,0.0,0.0,
3,2.0,1.0,0.0,1.0


In [22]:
df.sort_values(by=1)  # 열 1의 기준으로 정렬

Unnamed: 0,0,1,2,3
0,4.0,0.0,3.0,3.0
2,4.0,0.0,0.0,
1,3.0,1.0,3.0,2.0
3,2.0,1.0,0.0,1.0


by 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 된다. 즉, 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따지게 된다.

In [23]:
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
2,4.0,0.0,0.0,
0,4.0,0.0,3.0,3.0
3,2.0,1.0,0.0,1.0
1,3.0,1.0,3.0,2.0


### Practice 2
타이타닉호 승객중 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

In [39]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [31]:
titanic.sex.value_counts()

male      577
female    314
Name: sex, dtype: int64

In [34]:
titanic.age.value_counts().sort_index()

0.42      1
0.67      1
0.75      2
0.83      2
0.92      1
1.00      7
2.00     10
3.00      6
4.00     10
5.00      4
6.00      3
7.00      3
8.00      4
9.00      8
10.00     2
11.00     4
12.00     1
13.00     2
14.00     6
14.50     1
15.00     5
16.00    17
17.00    13
18.00    26
19.00    25
20.00    15
20.50     1
21.00    24
22.00    27
23.00    15
         ..
44.00     9
45.00    12
45.50     2
46.00     3
47.00     9
48.00     9
49.00     6
50.00    10
51.00     7
52.00     6
53.00     1
54.00     8
55.00     2
55.50     1
56.00     4
57.00     2
58.00     5
59.00     2
60.00     4
61.00     3
62.00     4
63.00     2
64.00     2
65.00     3
66.00     1
70.00     2
70.50     1
71.00     2
74.00     1
80.00     1
Name: age, Length: 88, dtype: int64

In [49]:
titanic.iloc[:, 8].value_counts()  # titanic.class : not working

Third     491
First     216
Second    184
Name: class, dtype: int64

In [50]:
titanic.alive.value_counts()  # 사망자 수가 더 많음

no     549
yes    342
Name: alive, dtype: int64

### 행/열 합계
행과 열의 합계를 구할 때는 sum(axis) 메서드를 사용한다.

In [52]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(8, size=(4, 8)))  #0~7까지 숫자를 반복해서 4 x 8 행렬 만들기
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,3,4,0,7,1,3,5
1,7,0,0,1,4,7,5,4
2,6,1,2,4,6,5,2,4
3,3,4,2,4,5,6,2,4


행 합계를 구할 때는 sum(axis=1) 메서드를 사용한다.

In [53]:
df2.sum(axis=1)

0    28
1    28
2    30
3    30
dtype: int64

In [55]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,3,4,0,7,1,3,5,28
1,7,0,0,1,4,7,5,4,28
2,6,1,2,4,6,5,2,4,30
3,3,4,2,4,5,6,2,4,30


열 합계를 구할 때는 sum(axis=0) 메서드를 사용하는데 axis인수의 디폴트 값이 0이므로 axis인수를 생략할 수 있다.

In [61]:
df2.sum()

0          21
1           8
2           8
3           9
4          22
5          19
6          12
7          17
RowSum    116
dtype: int64

In [62]:
df2.loc["ColTotal"] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,3,4,0,7,1,3,5,28
1,7,0,0,1,4,7,5,4,28
2,6,1,2,4,6,5,2,4,30
3,3,4,2,4,5,6,2,4,30
ColTotal,21,8,8,9,22,19,12,17,116


### apply 변환
행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용한다. 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킨다.

In [63]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


예를 들어 각 열의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 람다 함수를 넣는다.

In [64]:
df3.apply(lambda x : x.max() - x.min())

A    3
B    2
C    4
dtype: int64

만약 행에 대해 적용하고 싶으면 axis=1 인수를 쓴다.

In [65]:
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts 함수를 넣을 수도 있다.

In [66]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


NaN 값은 fillna 메서드를 사용하여 원하는 값으로 바꿀 수 있다. astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능하다.

In [67]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


### 실수 값을 카테고리 값으로 변환
실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용한다.

cut: 실수 값의 경계선을 지정하는 경우
qcut: 갯수가 똑같은 구간으로 나누는 경우

In [68]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

cut 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꿀 수 있다. bins 인수는 카테고리를 나누는 기준값이 된다. 영역을 넘는 값은 NaN으로 처리된다.

In [71]:
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

cut 명령이 반환하는 값은 Categorical 클래스 객체이다. 이 객체는 categories 속성으로 라벨 문자열을, codes 속성으로 정수로 인코딩한 카테고리 값을 가진다.

In [72]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [73]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [74]:
cats.codes  # 각 데이터별로 카테고리 정수값(0~4, -1: nan)이 할당된 결과 출력

array([-1,  0,  0,  1,  1,  3,  2,  4,  1,  3,  2, -1], dtype=int8)

In [75]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눈다. 예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가진다.

In [77]:
data = np.random.randn(1000)  # randn : 기대값이 0이고 표준편차 1인 가우시안 표준 정규분포를 따르는 난수 1000개로 이루어진 1차원 배열 생성
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

[Q1, Q1, Q4, Q3, Q3, ..., Q2, Q2, Q3, Q3, Q4]
Length: 1000
Categories (4, object): [Q1 < Q2 < Q3 < Q4]

In [78]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

In [80]:
cats.categories

Index(['Q1', 'Q2', 'Q3', 'Q4'], dtype='object')

In [82]:
data[:10]

array([-2.29230928, -1.41555249,  0.8858294 ,  0.63190187,  0.04026035,
       -0.90312288,  0.17532267,  0.19443089, -0.53524902,  0.77735121])

### Practice 3

+ bins = [1, 15, 25, 35, 60, 99]
+ labels = ["미성년자", "청년", "중년", "장년", "노년"]

타이타닉호 승객을 사망자와 생존자 그룹으로 나누고 각 그룹에 대해 '미성년자', '청년', '중년', '장년', '노년' 승객의 비율을 구한다. 각 그룹 별로 비율의 전체 합은 1이 되어야 한다.

In [83]:
titanic.alive.value_counts()

no     549
yes    342
Name: alive, dtype: int64

In [87]:
# 사망자와 생존자 그룹 분리
titanic_dead = titanic[titanic.alive == "no"]
titanic_alive = titanic[titanic.alive == "yes"]

In [92]:
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

cats_dead = pd.cut(titanic_dead.age, bins, labels=labels)
cats_alive = pd.cut(titanic_alive.age, bins, labels=labels)

In [93]:
cats_dead.cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x119bb6c50>

In [94]:
type(cats_dead) # class가 아닌 시리즈 데이터 출력.. 위의 예시와 다름.. 더 편한듯...

pandas.core.series.Series

In [96]:
cats_dead.tail()

884     청년
885     장년
886     중년
888    NaN
890     중년
Name: age, dtype: category
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]

In [97]:
cats_dead.value_counts()

청년      143
장년      117
중년      113
미성년자     32
노년       17
Name: age, dtype: int64

In [98]:
cats_alive.value_counts()

중년      83
장년      78
청년      75
미성년자    37
노년       5
Name: age, dtype: int64

In [99]:
# 각 그룹별로 미성년자, 청년, 중년, 장년, 노년 승객 비율 구하기
type(cats_dead.value_counts())

pandas.core.series.Series

In [102]:
df_dead = pd.DataFrame(cats_dead.value_counts())
df_alive = pd.DataFrame(cats_alive.value_counts())

In [113]:
df_dead["Rate"] = (df_dead.age / df_dead.age.sum() * 100).round(2)
df_alive["Rate"] = (df_alive.age / df_alive.age.sum() * 100).round(2)

In [114]:
df_alive

Unnamed: 0,age,Rate
중년,83,29.86
장년,78,28.06
청년,75,26.98
미성년자,37,13.31
노년,5,1.8


In [115]:
df_dead

Unnamed: 0,age,Rate
청년,143,33.89
장년,117,27.73
중년,113,26.78
미성년자,32,7.58
노년,17,4.03
