In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import pandas as pd
import numpy as np

# pandas 데이터 처리 및 변환 관련 함수

## 1. 데이터 개수 세기
> 가장 간단한 분석은 개수를 세기이다. count 함수 사용
> nan 값은 세지 않는다.

In [3]:
# 시리즈에서 개수 세기
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [4]:
s.count()

9

### 1.1 데이터 프레임에 count 함수 적용하기
> 각 열마다 데이터 개수를 세기 때문에 누락된 부분을 찾을 때 유용

#### 난수 발생시켜 DataFrame 생성

- 난수 seed(값)라는 함수를 사용할 수 있음
- seed의 의미 : 난수 알고리즘에서 사용하는 기본 값으로
                시드값이 같으면 동일한 난수가 발생함
- 계속 변경되는 난수를 받고 싶으면 함수 등을 이용해서 시드값이 매번 변하게 작업해야 함 Time.time()

In [13]:
# np.random.seed(1) : 고정 값
import time
np.random.seed(int(time.time())) # 변경 시드값
np.random.randint(5,size=4)

array([1, 1, 0, 4])

In [26]:
np.random.seed(1)
df1=pd.DataFrame(np.random.randint(5,size=(4,4)))
df1.iloc[2,3] = np.nan
df1

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


In [29]:
df1.count() # df1의 각 열 데이터의 갯수를 센 결과를 반환
# 시리즈 형태로 반환

0    4
1    4
2    4
3    3
dtype: int64

In [31]:
# 타이타닉호 승객 데이터를 사용
# seaborn 패키지 내에 data로 존재
import seaborn as sns # seaborn 패키지 - 그래프 그리는 패키지
# 타이타닉 데이터 셋 로드 : load_dataset('data명')
titanic = sns.load_dataset('titanic')
# 데이터셋의 앞부분을 추출해서 반환하는 함수 dataset.head() : 매개변수 생략하면 5개 반환
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [33]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

카테고리 값 세기
- 시리즈의 값이 정수, 문자열 등 카테고리 값인 경우에
- value_counts() 메서드를 사용해 각각의 값이 나온 횟수를 셀 수 있음

In [34]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6,size = 100))
s2.tail() #데이터의 뒷부분 값 5개를 출력

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [35]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [56]:
# 데이터 프레임에 value_counts() 적용
df1

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


- 데이터프레임에서는 value_counts() 함수 사용 불가
- 시리즈에서만 사용 가능
- 데이터프레임에서 사용할 때는 각 열마다 별도로 정의한다

In [45]:
df1[0].value_counts()
df1.iloc[2,3]=np.nan
df1
df1[3].value_counts() # nan은 알아서 계산하지 않음

3    2
4    2
Name: 0, dtype: int64

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


1.0    2
3.0    1
Name: 3, dtype: int64

In [50]:
# titanic dataset을 참고하여 생존자와 사망자의 수를 파악하시오.
titanic.head()
titanic['alive'].value_counts()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


no     549
yes    342
Name: alive, dtype: int64

## 정렬함수 - 데이터 정렬시 사용
- sort_index() : 인덱스를 기준으로 정렬
- sort_value() : 데이터값을 기준으로 정렬

In [51]:
s2

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [54]:
s2.value_counts().sort_index() # 시리즈 데이터의 index를 기준으로 정렬

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [57]:
s2.value_counts().sort_values() # 값을 기준으로 오름차순 정렬
s2.value_counts().sort_values(ascending=False) # 값을 기준으로 내림차순으로 정렬

2    13
3    14
5    16
4    17
0    18
1    22
dtype: int64

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [58]:
s2.sort_values()

57    0
38    0
39    0
85    0
28    0
     ..
71    5
40    5
46    5
11    5
0     5
Length: 100, dtype: int32

## 데이터 프레임 정렬
- 데이터 프레임은 2차원 배열과 동일하기 때문에
    - 정렬시 기준열을 줘야한다. by 인수사용
- by = 기준열, by = [기준열1,기준열2] 

In [59]:
df1

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


In [60]:
df1.sort_values(by=0) # 기준열을 0열로 정함

Unnamed: 0,0,1,2,3
0,3,4,0,1.0
1,3,0,0,1.0
2,4,4,1,
3,4,2,4,3.0


In [62]:
df1.sort_values(by=[0,1])

Unnamed: 0,0,1,2,3
1,3,0,0,1.0
0,3,4,0,1.0
3,4,2,4,3.0
2,4,4,1,


# 연습문제
타이타닉 호 승객에 대해 성별 인원수, 나이별 인원수, 선실별 인원수, 사망/생존 인원수를 구하시오
성별 인원수는 인덱스 기준으로 정렬하고 나이별 인원수는 값 기준 정렬
그 나머지는 임의 기준 정렬하시오

In [81]:
titanic.head()
titanic['sex'].value_counts().sort_index()
titanic['age'].value_counts().sort_values()
titanic['class'].value_counts().sort_index(ascending = True)
titanic['alive'].value_counts().sort_values(ascending = True)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


female    314
male      577
Name: sex, dtype: int64

0.42      1
20.50     1
24.50     1
0.67      1
14.50     1
         ..
30.00    25
19.00    25
18.00    26
22.00    27
24.00    30
Name: age, Length: 88, dtype: int64

First     216
Second    184
Third     491
Name: class, dtype: int64

yes    342
no     549
Name: alive, dtype: int64

In [74]:
# titanic.age.value_counts()
# 이렇게 . 연산자를 사용할 수 있지만
# titanic.class.value_counts() # SyntaxError: invalid syntax
# 인덱스 명이 예약어와 동일한 경우에는 . 인덱스명 접근은 불가능하기에 ['class']로 접근해야 함

SyntaxError: invalid syntax (<ipython-input-74-48012474e27e>, line 3)

In [None]:
### 행/열 합계
- 행과 열의 합계를 구할 때는 sum(axis=0/1) - axis는 0이 기본
0을 넣으면 열기준, 1을 넣으면 행기준

In [93]:
# 4행 8열의 데이터 프레임 생성, 난수를 발생시켜서 사용
# 매번 같은 난수가 발생되면서 0-9 범위에서 발생하도록 설정

np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size = (4,8))) # 0-9  하려면 10으로
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [87]:
# 각 행의 합계 - df.sum(axis=1)
df2.sum(axis=1) # 시리즈 결과를 반환

0    35
1    34
2    41
3    42
dtype: int64

In [None]:
# 각 열의 합계 - df2.sum(axis=0) or df2.sum()
df2.sum(axis=0) # 시리즈 결과를 반환

In [94]:
# 각 행의 합계를 구해서 새로운 열 RowSum으로 추가
# 일반적으로 행 끝에 데이터를 붙이는 것은 데이터 프레임 행 인덱스에 맞지 않으므로
# 새로운 열을 추가하는 경우가 대다수

df2['RowSum'] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [98]:
# 새로운 행 추가
# loc인덱서 사용하여 가장 간단하게 추가 가능
# ColTotal
df2.loc['ColTotal']=df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal,72,99,75,72,45,30,15,48,456


In [105]:
# 행/열 삭제
# df.drop('행이름',0) - 행제거 : 행을 제거한 df을 반환(원본에 반영 안됨)
# df.drop('열이름',1) - 열제거 : 열을 제거한 df을 반환(원본에 반영 안됨)
# 원본을 수정하려면 저장을 해야 함
df2.drop('ColTotal', 0)
df2.drop('RowSum',1)
df2 # 아무것도 삭제 안됨

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1
ColTotal,72,99,75,72,45,30,15,48


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal,72,99,75,72,45,30,15,48,456


In [106]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal,72,99,75,72,45,30,15,48,456


In [108]:
df2.mean(axis=0)
df2.max(axis=0)
df2.min(axis=0)

0          19.2
1          26.4
2          20.0
3          19.2
4          12.0
5           8.0
6           4.0
7          12.8
RowSum    121.6
dtype: float64

0          72
1          99
2          75
3          72
4          45
5          30
6          15
7          48
RowSum    456
dtype: int64

0          4
1          7
2          2
3          4
4          0
5          0
6          0
7          1
RowSum    34
dtype: int64

In [109]:
#예제 df 생성
df3 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df3

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [112]:
# max, min 함수 활용 예제
# df3 데이터 프레임 각 열과 각 행의 최대값과 최소값의 차이를 구하시오.
# 함수 정의 - 1회성 함수 생성 가능 (lambda 매개변수 : 함수 내에서 일어나야 할 연산)
# 함수를 각 열마다 호출 결과를 반환 받아서 리스트에 저장

# 동일한 연산을 모든 열에 혹은 모든 행에 반복 적용하고자 할때 : df.apply(반복 적용할 함수, axis=0/1)
lambda x : x.max() - x.min()
df3.apply(lambda x : x.max() - x.min(), axis = 0)
df3.apply(lambda x : x.max() - x.min(), axis = 1)

<function __main__.<lambda>(x)>

a    3
b    4
c    4
dtype: int64

0    1
1    2
2    3
3    1
4    1
dtype: int64

### 데이터 값을 카테고리 값으로 변환
- 값의 크기를 기준으로 하여 카테고리 값으로 변환하고 싶을 때
- pd.cut(data,bins,label)
- data : 구간 나눌 실제 값, bins : 구간 경계값, label : 카테고리 값
- qcut(data,bins,label)

In [127]:
# 구간을 나눌 실제 값 : 관측 데이터
ages = [0,0,4,0,4,4,2,10,21,23,37,15,38,31,61,20,41,31,100]

In [129]:
# 구간 경계값 설정
bins = [0,15,25,35,60,100]
# label : 카테고리명
labels = ['미성년자', '청년', '중년', '장년','노년']

In [130]:
# 함수 적용해서 카테고리 생성
cats = pd.cut(ages,bins,labels = labels)
cats
type(cats)

[NaN, NaN, '미성년자', NaN, '미성년자', ..., '노년', '청년', '장년', '중년', '노년']
Length: 19
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

pandas.core.arrays.categorical.Categorical

In [124]:
cats.categories # 카테고리 값을 출력

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [131]:
cats.codes 
# -1 : 카테고리를 정하지 못했다
# 0 : 미성년자 --- 4 : 노년 순

array([-1, -1,  0, -1,  0,  0,  0,  0,  1,  1,  3,  0,  3,  2,  4,  1,  3,
        2,  4], dtype=int8)

In [128]:
# age 리스트를 이용해서 df 생성
df4 = pd.DataFrame(ages,columns=['ages'])
df4

Unnamed: 0,ages
0,0
1,0
2,4
3,0
4,4
5,4
6,2
7,10
8,21
9,23


In [136]:
df4['age_cut'] = pd.cut(ages,bins,labels=labels)
df4

Unnamed: 0,ages,age_cut
0,0,
1,0,
2,4,미성년자
3,0,
4,4,미성년자
5,4,미성년자
6,2,미성년자
7,10,미성년자
8,21,청년
9,23,청년


In [None]:
# qcut() : 구간 경계선을 지정하지 않고 데이터 개수가 같도록 지정한 수의 구간으로 나눈다
# 예) 1000개의 데이터를 4구간으로 나누려고 한다면
# qcut 명령어를 사용하여 한 구간마다 250개씩 나누게 된다
# 예외 ) 같은 숫자인 경우에는 같은 구간으로 처리한다.
# 형식 : pd.qcut(data,구간수, labels=[d1,d2...])

In [144]:
np.random.seed(2)
data = np.random.randint(20, size = 20)
data

array([ 8, 15, 13,  8, 11, 18, 11,  8,  7,  2, 17, 11, 15,  5,  7,  3,  6,
        4, 10, 11])

In [158]:
qcat = pd.qcut(data,4,labels=['q1','q2','q3','q4'])
qcat

['q2', 'q4', 'q4', 'q2', 'q3', ..., 'q1', 'q1', 'q1', 'q3', 'q3']
Length: 20
Categories (4, object): ['q1' < 'q2' < 'q3' < 'q4']

In [161]:
pd.value_counts(qcat)

q4    5
q3    5
q2    5
q1    5
dtype: int64

In [None]:
# 연습문제
# 타이타닉호 승객을 사망자와 생존자 그룹으로 나누고(alive)
# 각 그룹에 대해 미성년자, 청년, 중년, 장년, 노년 승객의
# 비율을 구하시오.
# bins=[1,15,25,35,60,99]
# labels=['미성년자','청년','중년','장년','노년']
# 각 그룹별 비율의 전체 합은 1이 되어야 한다.

In [162]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [163]:
titanic_alive = 

ValueError: could not convert string to float: 'yes'