# pandas 데이터 처리 및 변환 


In [1]:
# 필요 package import

import numpy as np
import pandas as pd

In [2]:
# 변수 실행시 마지막 변수만 보여주던 것을 모든 변수를 보여주도록 설정 변경

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"


#### 데이터 개수 세기
* `count()`
    * NaN 값은 세지 않음.

In [3]:
# 시리즈에서 개수 세기
s = pd.Series(range(10))
s[3] = np.nan

s

print('데이터 개수 세기', s.count())

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

데이터 개수 세기 9


## DataFrame에 `count()`함수 적용하기
* 각 열마다 데이터 개수를 세기때문에 누락된 부분을 찾을 때 유용

  
* 난수를 발생시켜 dataframe을 생성한다.
    * 난수 seed(값)이라는 함수를 사용할 수 있다.
    * seed의 의미 : 난수 알고리즘에서 사용하는 기본 값으로, seed 값이 같으면 동일한 난수가 발생한다.
    * 계속 변경되는 난수를 받고 싶으면, 함수 등을 이용해서 시드값이 매번 변하게 작업해야한다. `time.time()`

In [4]:
# 시드 고정
np.random.seed(1)
np.random.randint(5, size=4)

# 시드 변경
import time
np.random.seed(int(time.time()))
np.random.randint(5, size=4)

array([3, 4, 0, 1])

array([4, 0, 1, 2])

In [5]:
np.random.seed(1)

df1 = pd.DataFrame(np.random.randint(5, size=(4, 4)))
df1.iloc[2, 3] = np.nan
df1

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


In [6]:
# df1의 각 열의 데이터의 갯수를 센 결과를 반환한다. (Series 형태)
df1.count()

0    4
1    4
2    4
3    3
dtype: int64

In [7]:
# 타이타닉호 승객 데이터를 사용
# seaborn 패키지 내에 data로 존재

import seaborn as sns
# titanic 데이터셋 로드 : load_dataset('data 명')
titanic = sns.load_dataset('titanic')

# 데이터셋의 앞부분을 추출해서 반환하는 함수 dataset.head() : 매개변수 생략, 앞에서 5개 반환
titanic.head()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [8]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

* 카테고리 값 세기
  * 시리즈의 값이 정수, 문자열 등 카테고리 값인 경우에, `value_counts()`를 활용해 각각의 값이 나온 횟수를 셀 수 있다.

In [9]:
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail() # 데이터의 뒷부분 값을 출력

95    0
96    5
97    2
98    4
99    1
dtype: int32

In [10]:
# 값의 개수를 세줌
s2.value_counts()

1    21
4    18
0    18
5    16
3    14
2    13
dtype: int64

In [11]:
# titanic dataset을 참고하여 생존자와 사망자의 수를 파악

titanic.head()
titanic['alive'].value_counts()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


no     549
yes    342
Name: alive, dtype: int64

### 데이터 정렬

#### Series의 정렬
* `sort_index()` : 인덱스를 기준으로 정렬
* `sort_values()` : 데이터 값을 기준으로 정렬

In [12]:
# 시리즈 구조 정렬
s2

# 시리즈 데이터의 index를 기준으로 정렬
s2.value_counts().sort_index()

# 시리즈 데이터 index를 기준으로 정렬(내림차순)
s2.value_counts().sort_index(ascending=False)

# 데이터 값을 기준으로 정렬
s2.value_counts().sort_values()
# 시리즈 데이터 값을 기준으로 정렬(내림차순)
s2.value_counts().sort_values(ascending=False)

0     4
1     2
2     4
3     5
4     2
     ..
95    0
96    5
97    2
98    4
99    1
Length: 100, dtype: int32

0    18
1    21
2    13
3    14
4    18
5    16
dtype: int64

5    16
4    18
3    14
2    13
1    21
0    18
dtype: int64

2    13
3    14
5    16
4    18
0    18
1    21
dtype: int64

1    21
0    18
4    18
5    16
3    14
2    13
dtype: int64

#### 데이터프레임 정렬
* 데이터프레임은 2차원 배열과 동일하기 때문에, 정렬 시 기준열을 줘야 함 `by`인수 사용
    * `by = (['기준열1', '기준열2',... ])
    * 기준열 1을 이용해서 정렬하고, 같은 값에 대해서는 기준열 2로 정렬

In [13]:
df1.sort_values(by=0)

df1.sort_values(by=[0, 1])

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


Unnamed: 0,0,1,2,3
1,3,0,0,1.0
0,3,4,0,1.0
3,4,2,4,3.0
2,4,4,1,


### 연습문제 
* 타이타닉 데이터에서 성별(sex)인원 수 , 나이(age) 별 인원 수, 선실(class) 별 인원 수, 사망/생존(alive) 인원 수를 구하시오.
* 성별 인원 수는 인덱스 기준으로 정렬, 나이별 인원수는 값 기준 정렬
* 나머지는 임의 기준 정렬

In [14]:
titanic['sex'].value_counts().sort_index()

titanic['age'].value_counts().sort_values()

titanic['class'].value_counts()

titanic['alive'].value_counts()

female    314
male      577
Name: sex, dtype: int64

0.42      1
20.50     1
24.50     1
0.67      1
14.50     1
         ..
30.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: age, Length: 88, dtype: int64

Third     491
First     216
Second    184
Name: class, dtype: int64

no     549
yes    342
Name: alive, dtype: int64

#### 행 / 열 합계
* 행과 열의 합계를 구할 때는 `sum(axis{index (0), columns (1)})` - axis는 0이 기본

In [15]:
# 4행 8열의 데이터 프레임 생성, data는 난수를 발생시켜서 사용
# 매번 같은 난수가 발생되면서, 0~9범위에서 발생하도록 설정
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [16]:
# 각 행의 합계 - axis=1
df2.sum(axis=1)

# 각 열의 합계 axis=0
df2.sum(axis=0)

0    35
1    34
2    41
3    42
dtype: int64

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [17]:
# 각 행의 합계를 구해서 새로운 열 RowSum으로 추가

df2['RowSum'] = df2.sum(axis=1)

In [18]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [19]:
# 새로운 행 추가
# loc 인덱서를 사용하면 가장 간단하게 추가 가능
# ColTotal
df2.loc['ColTotal'] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal,24,33,25,24,15,10,5,16,152


#### 행 / 열 삭제
* `DataFrame.drop(labels, axis{0 or ‘index’, 1 or ‘columns’})`
* 그냥 해서는 원본 반영이 안된다. `inplace=True`를 통해 원본 바로 삭제 가능

In [20]:
# 행/열 삭제
df2.drop(['RowSum'], axis=1)

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1
ColTotal,24,33,25,24,15,10,5,16


#### 최대, 최소, 평균값 
* `mean()`, `max()`, `min()` 

In [21]:
df2.mean(axis=0)
df2.max(axis=0)
df2.min(axis=0)

0          9.6
1         13.2
2         10.0
3          9.6
4          6.0
5          4.0
6          2.0
7          6.4
RowSum    60.8
dtype: float64

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

0          4
1          7
2          2
3          4
4          0
5          0
6          0
7          1
RowSum    34
dtype: int64

In [22]:
# 예제 df 생성

df3 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df3


Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [23]:
# df3 데이터프레임 각 열과 각 행의 최댓값과 최솟값의 차이를 구하시오

# 함수 정의 - 일회성 함수 (lambda 매개변수: 함수 내에서 일어나야 할 연산)
# 함수를 각 열마다 호출하고 결과 반환 받아서 리스트에 저장

# 동일한 연산을 모든 열/행에 반복 적용하고자 할 때 : df.apply(반복적용할 함수)

df3.apply(lambda x:x.max() - x.min(), axis=0) # 열
df3.apply(lambda x:x.max() - x.min(), axis=1) # 행

a    3
b    4
c    4
dtype: int64

0    1
1    2
2    3
3    1
4    1
dtype: int64

#### 데이터 값을 카테고리 값으로 변환
* 값의 크기를 기준으로 하여 카테고리 값으로 변환하고 싶을 때

##### `cut(data, bins, label)`
    * data : 구간(나눌 실제 값) / bins : 구간 경계 값 / label : 카테고리 값

In [24]:
# 구간을 나눌 실제 값 : 관측 데이터
ages = [0, 0, 4, 0, 4, 4, 2, 10, 21, 23, 37, 15, 38, 31, 61, 20, 41, 31, 100]

# 구간 경계값 설정
bins = [0, 15, 25, 35, 60, 100]

# label : 카테고리 명
labels = ['미성년자', '청년', '중년', '장년', '노년']


In [25]:
# 함수 적용해서 카테고리 생성
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, NaN, '미성년자', NaN, '미성년자', ..., '노년', '청년', '장년', '중년', '노년']
Length: 19
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [26]:
type(cats)

# 카테고리 값을 출력
cats.categories

# -1로 나오는건 카테고리를 정하지 못했음을 의미
cats.codes

pandas.core.arrays.categorical.Categorical

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

array([-1, -1,  0, -1,  0,  0,  0,  0,  1,  1,  3,  0,  3,  2,  4,  1,  3,
        2,  4], dtype=int8)

In [27]:
# age 리스트를 이용해서 df 생성

df4 = pd.DataFrame(ages, columns=['ages'])
df4

Unnamed: 0,ages
0,0
1,0
2,4
3,0
4,4
5,4
6,2
7,10
8,21
9,23


In [28]:
df4['age_cut'] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cut
0,0,
1,0,
2,4,미성년자
3,0,
4,4,미성년자
5,4,미성년자
6,2,미성년자
7,10,미성년자
8,21,청년
9,23,청년


##### `qcut()`
* 구간 경계선을 지정하지 않고, 데이터 개수가 같도록, 지정한 수의 구간으로 나눈다.
    * Ex. 1000개의 데이터를 4구간으로 나누려 한다면, `qcut()`을 사용해 한 구간마다 250개씩 나누게 됨.
    * 예외) 같은 숫자인 경우에는 같은 구간으로 처리한다.
    * `pd.qcut(data, bins, labels=[d1, d2, ...])`
    

In [29]:
# 랜덤 정수 20개를 생성하고 생성된 정수를 4개의 구간으로 나누시오
# 각 구간의 label은 Q1, Q2, Q3, Q4로 설정하시오.

np.random.seed(1)

data = np.random.randint(20, size=(20))

qcat = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
qcat

['Q1', 'Q3', 'Q3', 'Q2', 'Q2', ..., 'Q4', 'Q1', 'Q4', 'Q3', 'Q2']
Length: 20
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [30]:
pd.value_counts(qcat)

Q4    5
Q3    5
Q2    5
Q1    5
dtype: int64

# 연습문제
* 타이타닉호 승객을 사망자와 생존자 그룹으로 나누고(alive)
* 각 그룹에 대해 미성년자, 청년, 중년, 장년, 노년 승객의 비율을 구하시오.
* bins=[1,15,25,35,60,99]
* labels=['미성년자','청년','중년','장년','노년']
* 각 그룹별 비율의 전체 합은 1이 되어야 한다.
* 비율 구하는 함수 사용하지 말고, 직접 계산해 볼 것.(cut 함수 이용해서 작업)

In [62]:
bins = [0, 15, 25, 35, 60, 99]

labels = ['미성년자', '청년', '중년', '장년', '노년']

titanic['age_cut'] = pd.cut(titanic['age'], bins=bins, labels=labels)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_cut
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,청년
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,장년
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,중년
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,중년
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,중년
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,중년
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,청년
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,중년


In [44]:
alived = titanic.loc[titanic['alive'] == 'yes']
died = titanic.loc[titanic['alive'] == 'no']

In [80]:
print('생존자 그룹 비율')
print('-----------------------------------------------')
(alived['age_cut'].value_counts(dropna=False) / len(alived['age_cut']) * 100).round(3)

print('사망자 그룹 비율')
print('-----------------------------------------------')
(died['age_cut'].value_counts(dropna=False) / len(died['age_cut']) * 100).round(3)

생존자 그룹 비율
-----------------------------------------------


중년      24.269
장년      22.807
청년      21.930
NaN     15.205
미성년자    14.327
노년       1.462
Name: age_cut, dtype: float64

사망자 그룹 비율
-----------------------------------------------


청년      26.047
NaN     22.769
장년      21.311
중년      20.583
미성년자     6.193
노년       3.097
Name: age_cut, dtype: float64