## pandas 데이터처리 및 변환 관련 함수

count() : 데이터 개수 반환  
value_counts() : 데이터 빈도 수 반환  
sort_index() : 인덱스를 기준으로 정렬  
sort_values() : 데이터 값을 기준으로 정렬  
dropna() : NaN 제거  
fillna() : NaN을 다른 값으로 채움  
apply() : 동일한 반복 연산에 함수 적용  
cut() : 데이터 구간 분할  
qcut() : 경계선 없이 데이터 수가 동일한 구간으로 분할  
set_index() : 열로 인덱스 설정  
reset_index() : 인덱스 제거하고 열로 추가  
rename() : 열/행 인덱스 이름 변경

In [2]:
import pandas as pd
import numpy as np

In [3]:
# 변수 명이 두 번 이상 출력되어도 모두 콘솔에서 보여주도록 함.

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## Count(): 데이터 개수 반환
- 결측치는 포함하지 않음

In [4]:
s = pd.Series(range(10))
s[3] = np.nan # NaN 값 저장
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

### 데이터 프레임에 count()함수 적용하기
- 각 열마다 데이터 개수를 세기때문에 누락된 부분을 찾을 때 유용

#### 난수로 dataframe 생성
- 난수 seed(값)라는 함수를 사용할 수 있음
- seed의 의미 : 난수 알고리즘에서 사용하는 기본 값으로
    - 시드값이 같으면 동일한 난수가 발생함
    - 난수 함수 사용시 매번 고정된 값 발생
- 계속 변경되는 난수를 받고 싶으면 함수등을 이용해서 시드값이 매번 변하게 작업해야 함. Time.tiem()

In [8]:
np.random.randint(5)  # 난수발생
np.random.randint(5, size = 4)  # 난수의 개수 설정
np.random.seed(3)  # 같은 값이 추출됨

1

In [68]:
# 시드값이 매번 다르게 전달되도록 코드를 작성
# seed 값을 시간을 기반으로 생성 (시간은 계속 변경)
import time
np.random.seed(int(time.time())) # seed 값을 시간을 기반으로 생성 
np.random.randint(5, size=4)
# 실행할 때마다 다르게 생성

np.random.seed(3) # 시드값 고정되어서 동일한 값의 난수가 발생
df1=pd.DataFrame(np.random.randint(5,size=(4,4))) #기본 정수
df1

array([2, 3, 4, 0])

Unnamed: 0,0,1,2,3
0,2,0,1,3
1,0,0,0,3
2,2,3,1,1
3,2,0,4,4


In [13]:
# 문제: 2행 3열의 값을 NaN으로 변경
df1[3][2] = np.nan  # 기본 인덱스는 열을 먼저 작성한다. 
df1

Unnamed: 0,0,1,2,3
0,2,0,1,3.0
1,0,0,0,3.0
2,2,3,1,
3,2,0,4,4.0


In [17]:
df1.dtypes
df1.count()

0      int32
1      int32
2      int32
3    float64
dtype: object

0    4
1    4
2    4
3    3
dtype: int64

- 타이타닉 승객 데이터 사용
    - seaborn 패키지 내에 data로 존재
    - 데이터셋 읽어오기 : 패키지명.load_dataset("data명")

In [20]:
# !pip install seaborn
import seaborn as sns

In [22]:
# 타이타닉 승객 데이터 로드
titanic = sns.load_dataset('titanic') ; titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [23]:
# csv 파일로 저장
titanic.to_csv('data/titanic.csv')

#### 변수설명  
-PassengerId : 각 승객의 고유 번호  
-Survived : 생존 여부(종속 변수)  
	0 = 사망  
	1 = 생존  
-Pclass : 객실 등급 - 승객의 사회적, 경제적 지위  
	1st = Upper  
	2nd = Middle  
	3rd = Lower  
-Name : 이름  
-Sex : 성별  
-Age : 나이  
-SibSp : 동반한 Sibling(형제자매)와 Spouse(배우자)의 수  
-Parch : 동반한 Parent(부모) Child(자식)의 수  
-Ticket : 티켓의 고유넘버  
-Fare : 티켓의 요금  
-Cabin : 객실 번호  
-Embarked : 승선한 항  
	C = Cherbourg (셰르부르)  
	Q = Queenstown  
	S = Southampton

## 카테고리 값 세기
- 시리즈의 값이 정수,문자열 등 카테고리 값인 경우에
- 시리즈.value_counts() 메서드를 사용해 각각의 값이 나온 횟수를 셀 수 있음
    - value_counts() 인수 
        - dropna=True 디폴트 (NaN 무시)  
        - dropna=False : NaN 개수도 카운트  
        - ascending=True : 오름차순 정렬 (기본 False로 내림차순)  
        - normalize=True  
            - 각 값 및 전체에서의 범주형 데이터의 비율을 계산  
            - 전체 10개 중 1이 3개 : 0.3  
            - 시리즈.value_counts(normalize=True)

### 범주형 데이터에 value_counts() 함수 적용
- 범주형 데이터 : 관측 결과가 몇개의 범주 또는 항목의 형태로 나타나는 자료
    - ex. 성별(남,여), 선호도(좋다, 보통, 싫다), 혈액형(A,B,O,AB) 등

In [25]:
# titanic 데이터의 alive 열 : 생존여부가 yes/no로 표시되어 있음
titanic['alive'].dtype # dtype('O') : Object (문자)
titanic['alive'].value_counts()
titanic['alive'].value_counts(normalize=True)
titanic['alive'].value_counts(normalize=True) * 100

dtype('O')

alive
no     549
yes    342
Name: count, dtype: int64

alive
no     0.616162
yes    0.383838
Name: proportion, dtype: float64

alive
no     61.616162
yes    38.383838
Name: proportion, dtype: float64

In [28]:
titanic['sex'].value_counts()
titanic['sex'].value_counts(normalize=True)
titanic['sex'].value_counts(normalize=True) * 100

sex
male      577
female    314
Name: count, dtype: int64

sex
male      0.647587
female    0.352413
Name: proportion, dtype: float64

sex
male      64.758698
female    35.241302
Name: proportion, dtype: float64

In [29]:
titanic[['sex','alive']].head()

Unnamed: 0,sex,alive
0,male,no
1,female,yes
2,female,yes
3,female,yes
4,male,no


In [30]:
titanic[['sex','alive']].value_counts()

sex     alive
male    no       468
female  yes      233
male    yes      109
female  no        81
Name: count, dtype: int64

In [31]:
# 성별에 따른 생존자 수와 사망자 수의 정보를 가지고 있는 데이터 프레임 생성
pd.DataFrame(titanic[['sex','alive']].value_counts())

Unnamed: 0_level_0,Unnamed: 1_level_0,count
sex,alive,Unnamed: 2_level_1
male,no,468
female,yes,233
male,yes,109
female,no,81


In [34]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [35]:
titanic['embarked'].value_counts()

embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [37]:
titanic['embarked'].value_counts(dropna =False)  # 결측치를 포함하고
titanic['embarked'].value_counts(dropna =True)  # 결측치를 제외하고

embarked
S      644
C      168
Q       77
NaN      2
Name: count, dtype: int64

embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [38]:
# 정렬
titanic['embarked'].value_counts(dropna =True, ascending=True) 

embarked
Q     77
C    168
S    644
Name: count, dtype: int64

## 정렬함수 -데이터 정렬 시 사용
- sort_index(ascending=True/False) : 인덱스를 기준으로 정렬
    - ascending 생략하면 오름차순 정렬
- sort_values(ascending=True/False) : 데이터 값을 기준으로 정렬

In [45]:
np.random.seed(1) #항상 같은 값이 나오게 설정
s2=pd.Series(np.random.randint(6,size=100)) # 0~5 사이 정수 100개 생성
s2

s2.value_counts()  # 빈도값 기준 내림차순 정렬
s2.value_counts().sort_index()  # 인덱스 기준 내림차순 정렬

s2.value_counts().sort_values(ascending=True) # 빈도값 기준 오름차순 정렬
s2.value_counts().sort_values(ascending=False) # 빈도값 기준 내림차순 정렬



0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

0    18
1    22
2    13
3    14
4    17
5    16
Name: count, dtype: int64

2    13
3    14
5    16
4    17
0    18
1    22
Name: count, dtype: int64

1    22
0    18
4    17
5    16
3    14
2    13
Name: count, dtype: int64

## 데이터 프레임 정렬

- df.sort_values() : 특정열 값 기준 정렬
    - 데이터프레임은 2차원 배열과 동일하기 때문에
        - 정렬시 기준열을 줘야 한다. by 인수 사용 : 생략 불가
        - by = 기준열, by=[기준열1,기준열2]
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)
- df.sort_index() : df의 index 기준 정렬
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)

In [70]:
df1.sort_values(by=0)   # 0열만 오름차순 정렬
df1.sort_values(by=0, ascending=False)  # 0열만 내림차순 정렬
df1.sort_values(by=[0, 2], ascending=False)  # 0열과 2열만 내림차순 정렬

Unnamed: 0,0,1,2,3
1,0,0,0,3
0,2,0,1,3
2,2,3,1,1
3,2,0,4,4


Unnamed: 0,0,1,2,3
0,2,0,1,3
2,2,3,1,1
3,2,0,4,4
1,0,0,0,3


Unnamed: 0,0,1,2,3
3,2,0,4,4
0,2,0,1,3
2,2,3,1,1
1,0,0,0,3


## 행/열 합계
- df.sum() 함수 사용
- 행과 열의 합계를 구할때는 sum(axis=0/1) - axis는 0이 기본


- 각 열의 합계를 구할때는 sum(axis=0)
- 각 행의 합계를 구할때는 sum(axis=1)

In [75]:
#4행 8열의 데이터프레임 작성, 난수를 발생시키고
#0-9범위에서 매번 같은 난수 발생되어 반환되도록 설정
np.random.seed(1)
df2=pd.DataFrame(np.random.randint(10,size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [76]:
# 각 열의 합계 = axis 값의 생략
df2.sum(axis=0)

# 각 행의 합계
df2.sum(axis=1)


0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

0    35
1    34
2    41
3    42
dtype: int64

In [77]:
# df2에 각 행의 합계를 표시하는 tatal 열 추가
df2['total'] = df2.sum(axis=1) ; df2

# df2에 각 열의 합계를 표시하는 colltatal 행 추가
df2.loc['colltotal'] = df2.sum() ; df2

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
colltotal,24,33,25,24,15,10,5,16,152


In [None]:
# 각 열의 최소값
df2.min(axis=0)
# 각 행의 최소 값
df2.min(axis=1)

In [78]:
# ColTotal 제외하고 최대값 추출
# 0~3행 범위만 포함

# loc 사용
df2.loc["max_data"] = df2[0:4].max()
df2

# iloc 사용
df2.loc['max_data'] = df2.iloc[0:4].max()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
colltotal,24,33,25,24,15,10,5,16,152
max_data,9,9,9,9,9,7,4,7,42


In [79]:
# 0행 0열에 NaN 값 추가
df2.iloc[0,0] = np.nan  # 혹은 df2[0][0] = np.nan
df2
# NaN이 포함되면 데이터 타입이 실수로 변환

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,,8,9,5,0,0,1,7,35
1,6.0,9,2,4,5,2,4,2,34
2,4.0,7,7,9,1,7,0,6,41
3,9.0,9,7,6,9,1,0,1,42
colltotal,24.0,33,25,24,15,10,5,16,152
max_data,9.0,9,9,9,9,7,4,7,42


In [80]:
# NaN이 포함된 행 삭제
# 원본 데이터에 반영
df2.dropna(axis=0, inplace=True)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total
1,6.0,9,2,4,5,2,4,2,34
2,4.0,7,7,9,1,7,0,6,41
3,9.0,9,7,6,9,1,0,1,42
colltotal,24.0,33,25,24,15,10,5,16,152
max_data,9.0,9,9,9,9,7,4,7,42


In [82]:
# NaN 추가 
# 0행 1열
# 1행, 4열
# 2행, 5열
df2.iloc[0,1] = np.nan
df2.iloc[1,4] = np.nan
df2.iloc[2,5] = np.nan
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total
1,,,2,4,5.0,2.0,4,2,34
2,4.0,7.0,7,9,,7.0,0,6,41
3,9.0,9.0,7,6,9.0,,0,1,42
colltotal,24.0,33.0,25,24,15.0,10.0,5,16,152
max_data,9.0,9.0,9,9,9.0,7.0,4,7,42


In [85]:
# NaN 값을 특정 숫자로 대체 : fillna(숫자)
# 0으로 대체
df2.fillna(0, inplace=True)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total
1,0.0,0.0,2,4,5.0,2.0,4,2,34
2,4.0,7.0,7,9,0.0,7.0,0,6,41
3,9.0,9.0,7,6,9.0,0.0,0,1,42
colltotal,24.0,33.0,25,24,15.0,10.0,5,16,152
max_data,9.0,9.0,9,9,9.0,7.0,4,7,42


## 열 또는 행에 동일한 연산 반복 적용할 때 : apply() 메소드 (함수)
- apply() 함수 : DataFrame의 행이나 열에 복잡한 반복 연산을 수행 메소드
    - 동일한 연산은 함수화 되어있어야 함   
    - 주로 익명의 lambda 함수를 같이 사용  
    - dataframe의 특정 영역을 함수의 입력 값으로 받고   
    - axis 옵션을 주어 행과 열 데이터 중 원하는 데이터를 처리  

- apply(반복적용할 함수, axis=0/1)  
    - 0 : 열마다 반복  
    - 1 : 행마다 반복    
    - 생략시 기본값 : 0 
    
- 적용되는 함수가 행/열 자체가 아닌 각 요소에 적용되는 함수인 경우우
- axis값이 0 또는 1에 대해 동일한 결과 출력  


- apply() 함수는 데이터프레임에 사용
- 시리즈에서는 map() 함수 사용

In [86]:
df3 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df3

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [87]:
# np.sum() 함수에 데이터 전달
np.sum([1, 2, 3]) # 각 데이터 합산 결과 반행

6

In [88]:
# apply() 사용하지 않고
# 각 열에 대해 np.sum() 함수를 사용 : 반복 적용
np.sum(df3['a'])
np.sum(df3['b'])
np.sum(df3['c'])

15

15

16

In [90]:
# for 문 사용하는 경우
for i in df3:
    np.sum(df3[i])
    
# 또는 
for col in df3.columns:
    print(np.sum(df3[col]))

15

15

16

15
15
16


In [91]:
# apply() 함수 사용
# apply(반복적용할 함수, axis=0/1)
df3.apply(np.sum, axis=0) # 각 열에 대해 np.sum() 함수 적용한 결과 반환

df3.apply(np.sum) # axis=0 생략 가능

a    15
b    15
c    16
dtype: int64

a    15
b    15
c    16
dtype: int64

In [92]:
# 각 행에 대해 np.sum() 함수 적용
df3.apply(np.sum, axis=1)

0     4
1    11
2     7
3    11
4    13
dtype: int64

## 사용자 정의 함수를 apply() 함수에 사용 + lambda 사용

In [99]:
# 사용자 정의 함수 
# 시리즈 값을 전달받아서 최대값과 최소값의 차이를 구해 반환하는 함수
# 함수명 diff
# max() / min() 사용

def diff(x):  # x는 시리즈
    return max(x) - min(x)

# apply(반복적용할 함수, axis=0/1)

# apply() 함수 사용 : 각 열에 적용
df3.apply(diff, axis=0)

# apply() 함수 사용 : 각 행에 적용
df3.apply(diff, axis=1) 

a    3
b    4
c    4
dtype: int64

0    1
1    2
2    3
3    1
4    1
dtype: int64

In [102]:
# lambda 함수 사용 : 위의 diff() 함수 사용하지 않음
df3.apply(lambda x : x.max() - x.min(), axis=0) # axis=0는 생략가능 : 각 열에 적용

df3.apply(lambda x : x.max() - x.min(), axis=1) # 각 행에 적용

# 사실 lambda나 apply 사용 안 해도 구할 수 있음;
df3.max(axis=0) - df3.min(axis=0) # 각 열에 적용
df3.max(axis=1) - df3.min(axis=1) # 각 행에 적용

a    3
b    4
c    4
dtype: int64

0    1
1    2
2    3
3    1
4    1
dtype: int64

a    3
b    4
c    4
dtype: int64

0    1
1    2
2    3
3    1
4    1
dtype: int64

In [103]:
data = [
    [22, 60.1, 170.5, '남', '서울'],
    [45, 51.3, 160.5, '여', '부산'],
    [23, 88.1, 175.5, '남', '대구'],
    [33, 60.1, 180.5, '남', '제주'],
    [40, 60.1, 173.5, '남', '강릉']    
]

columns = ['나이', '몸무게', '키', '성별', '주소']
index = ['홍길동', '성춘향', '이몽룡', '변학도', '강길동']

df4 = pd.DataFrame(data, index=index, columns=columns)
df4

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


In [104]:
# apply() + lambda  함수 사용 예

# (1) 사용자 정의 함수 생성하고 apply() 함수 적용

# 사용자 정의 함수 : check
# 주소 값을 받아서 '서울' 또는 '대구'에 거주하는지 확인하고 결과 반환 (True/False 반환)
def check(x):
    result = False
    if x in ['서울', '대구']:
        result = True
    return result

In [105]:
# 사용자 정의 함수를 apply() 함수에 사용
df4['주소'].apply(check, 1)

홍길동     True
성춘향    False
이몽룡     True
변학도    False
강길동    False
Name: 주소, dtype: bool

In [106]:
# (2) lambda 함수를 apply()에 적용

df4['주소'].apply(lambda x : x in ['서울','대구'], 1)
df4['주소'].apply(lambda x : x in ['서울','대구'], 0)
df4['주소'].apply(lambda x : x in ['서울','대구'])

# df4['주소'] 값의 각 원소에 적용하기 때문에 axis 값에 상관없이 같은 결과가 나옴.

홍길동     True
성춘향    False
이몽룡     True
변학도    False
강길동    False
Name: 주소, dtype: bool

홍길동     True
성춘향    False
이몽룡     True
변학도    False
강길동    False
Name: 주소, dtype: object

홍길동     True
성춘향    False
이몽룡     True
변학도    False
강길동    False
Name: 주소, dtype: bool

In [107]:
# (2) lambda 함수를 apply()에 적용한 결과 

# True에 해당되는 행만 추출해서 데이터프레임으로 출력
df4[df4['주소'].apply(lambda x : x in ['서울','대구'])]

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
이몽룡,23,88.1,175.5,남,대구


## map() 함수 사용

In [108]:
# 시리즈에서 map() 사용
s = pd.Series([100, 20, 63])
s

0    100
1     20
2     63
dtype: int64

In [110]:
def check(score):
    if score >= 60 :
        result = '합격'
    else:
        result = '불합격'
    return result

s.map(check)


0     합격
1    불합격
2     합격
dtype: object

## 데이터값을 카테고리 값으로 변환  (데이터 범주화)
- 값의 크기를 기준으로하여 카테고리 값으로 변환하고 싶을때
    - cut(data,bins,labels)
        - 숫자 값의 경계선을 지정하는 경우
            - 예를 들어 나이 (0, 15, 20, 23,..., 100)가 있을 때
                - 경계선 나이를 0, 4,18, 35, 50, 65,100 ... 지정해서
                - 미성년자, 청년, 중년, ... 등의 카테고리로 나눌 경우
        - data : 구간 나눌 실제 값   
        - bins : 구간 경계값  
        - labels: 카테고리값  
    - qcut(data, 구간수, labels=[d1,d2....])
        - 구간 경계선을 지정하지 않고 데이터 수가 동일한 구간으로 분할

In [64]:
#구간을 나눌 실제 값 : 관측 데이터
ages=[0, 0.5, 4, 6, 4, 5, 2,10, 21, 23, 37,15, 38, 31, 61, 20, 41, 31,100]
data = ages

# 카테고리를 나누는 기준 설정 : 구간 경계값
bins = [0, 4, 18, 35, 50, 65, 100]
# 0~4 : 0 < 영유아 <=4
# 5~18, ....

# 각 구간의 이름 : labels (카테고리명)
# 주의! : 순서는 구간(bins)의 순서와 동일해야 함
labels = ['영유아','미성년자','청년','중년','장년','노년']

In [67]:
# cut() 함수 : cut(data,bins(구간 경계값의 리스트),labels)
ctgs = pd.cut(data, bins,labels=labels)


AttributeError: 'Categorical' object has no attribute 'dataframe'

In [114]:
# categories 속성 : 라벨 문자열의 카테고리 값
ctgs.categories 

Index(['영유아', '미성년자', '청년', '중년', '장년', '노년'], dtype='object')

## .codes
- 범주화된 자료들을 숫자로 인코딩함.
- NaN은 -1로 표시

In [117]:
ctgs.codes

# 나이가 0 살에 해당 : NaN으로 처리
# 구간운 0 < 영유아 <= 4

array([-1,  0,  0,  1,  0,  1,  0,  1,  2,  2,  3,  1,  3,  2,  4,  2,  3,
        2,  5], dtype=int8)

In [122]:
ctg_df = pd.DataFrame({'나이':ages,'연령대':ctgs})
ctg_df

ctg_df['연령대'].value_counts()

Unnamed: 0,나이,연령대
0,0.0,
1,0.5,영유아
2,4.0,영유아
3,6.0,미성년자
4,4.0,영유아
5,5.0,미성년자
6,2.0,영유아
7,10.0,미성년자
8,21.0,청년
9,23.0,청년


연령대
청년      5
영유아     4
미성년자    4
중년      3
장년      1
노년      1
Name: count, dtype: int64

## qcut()
- qcut(data, 구간수, labels=[d1,d2....])
- 구간 경계선을 지정하지 않고 데이터 수가 동일한 구간으로 분할
- 예 : 1000개의 데이터를 4구간으로 분할하는 경우
    - 한 구간마다 250개씩 데이터 포함
- 예외 : 같은 숫자인 경우에는 같은 구간으로 처리
    - 각 구간의 데이터 수가 다를 수 있음

In [74]:
# 랜덤정수 20개를 생성하고 생성된 정수를 4개의 구간 분할
# 각 구간의 label은 Q1,Q2,Q3,Q4 로 설정

# 랜덤정수 생성 : 범위 0-19, size =20
# seed 설정해서 재 실행해도 랜덤정수가 변하지 않도록 생성
np.random.seed(1)
data = np.random.randint(21, size=21)
data

array([ 5, 11, 12,  8,  9, 11,  5, 15,  0, 16,  1, 12,  7, 13,  6, 18, 20,
        5, 18, 20, 11])

In [75]:
qctg = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
qctg

['Q1', 'Q2', 'Q3', 'Q2', 'Q2', ..., 'Q4', 'Q1', 'Q4', 'Q4', 'Q2']
Length: 21
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [76]:
# 각 구간 수 확인
pd.value_counts(qctg)

Q1    6
Q2    6
Q4    5
Q3    4
Name: count, dtype: int64

In [127]:
qctg_df = pd.DataFrame(data, columns=['관측수'])
qctg_df

Unnamed: 0,관측수
0,5
1,11
2,12
3,8
4,9
5,11
6,5
7,15
8,0
9,16


In [128]:
# qctg 값을 '범주' 열 추가 
qctg_df['범주'] = qctg
qctg_df

Unnamed: 0,관측수,범주
0,5,Q1
1,11,Q3
2,12,Q3
3,8,Q2
4,9,Q2
5,11,Q3
6,5,Q1
7,15,Q4
8,0,Q1
9,16,Q4


In [129]:
# qctg_df를 범주 열 기준 오름차순 정렬
qctg_df.sort_values(by='범주')

Unnamed: 0,관측수,범주
0,5,Q1
16,5,Q1
10,1,Q1
8,0,Q1
6,5,Q1
14,6,Q2
12,7,Q2
19,10,Q2
4,9,Q2
3,8,Q2


In [130]:
# 참고 : 동일한 값이 존재할 경우 구간의 수가 달라질 수 있음
data = np.random.randint(20, size=20)
data

qctg = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
qctg

pd.value_counts(qctg)

array([14, 18,  4,  9, 17,  0, 13,  9,  9,  7,  1,  0, 17,  8, 13, 19, 15,
       10,  8,  7])

['Q3', 'Q4', 'Q1', 'Q2', 'Q4', ..., 'Q4', 'Q4', 'Q3', 'Q2', 'Q1']
Length: 20
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

Q1    6
Q2    5
Q4    5
Q3    4
Name: count, dtype: int64

## 인덱스 설정
경우에 따라 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 들어가 있거나
반대로 일반 데이터 열이어야 하는데 인덱스로 들어가 있는 경우가 존재 

 => 인덱스와 열을 교환하는 방법이 필요

### 인덱스 설정 함수

데이터프레임의 인덱스를 설정하고 제거하는 함수 
- 기본적으로 원본에 반영되지 않기 때문에, replace = True 를 통해 원본 반영 가능
<br>


 - set_index()
 <br>
        - 기존의 행 인덱스를 제거하고  
         <br>
        - 데이터 열 중에서 하나를 인덱스로 설정  
         <br>
        - (열 -> 인덱스)  
        <br>
 - reset_index()  
        - 기존의 행 인덱스를 제거하고   
        - 인덱스를 열로 추가  
        - (인덱스 -> 열)  

In [146]:
df4 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df4

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [147]:
# 'a'열을 인덱스로 설정
df4.set_index('a') # 원본 반영되지 않음
df4

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,3,5
4,1,2
3,4,4
4,5,4


Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [148]:
# 원본에 반영
df4.set_index('a', inplace=True)
df4

df4.index

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,3,5
4,1,2
3,4,4
4,5,4


Index([1, 3, 4, 3, 4], dtype='int64', name='a')

## reset_index() 시 기존 인덱스 삭제 가능
- trop=True로 설정하면
- 인덱스를 열 인덱스로 올리는 것이 아니라 그냥 버림
- 인덱스값이 관측값이 아니거나 불필요한 경우는 
- df의 열데이터로 추가되지 않게 해야함

In [149]:
# 인덱스를 열로 보내고 기본 인덱스(0-base 위치 인덱스)로 변경
df4.reset_index(inplace=True)
df4

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [150]:
# 다시 인덱스 설정하고
df4.set_index('a', inplace=True)
df4
# reset_index() 하면서 인덱스 삭제
df4.reset_index(drop=True, inplace=True)
df4

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,3,5
4,1,2
3,4,4
4,5,4


Unnamed: 0,b,c
0,2,1
1,3,5
2,1,2
3,4,4
4,5,4


## index 이름 변경
- 행 인덱스 이름 변경  
    - rename(index={현재 index:새index}) 
- 열 인덱스 이름 변경  
    - rename(columns={현재 index:새index}) 

In [None]:
df4 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df4

In [151]:
# 행 인덱스 이름 변경 : index 지정
df4.rename(index={0:'1반',1:'2반', 2:'3반', 3:'4반',4:'5반'}, inplace=True)
df4

Unnamed: 0,b,c
1반,2,1
2반,3,5
3반,1,2
4반,4,4
5반,5,4


In [152]:
# 특정 행만 인덱스 이름 변경
df4.rename(index={'5반':'6반'}, inplace=True)
df4

Unnamed: 0,b,c
1반,2,1
2반,3,5
3반,1,2
4반,4,4
6반,5,4


In [None]:
# 열 인덱스 b의 이름 변경 : new
# columns 값 지정
df4.rename(columns={'b':'new'},inplace=True)
df4

In [None]:
# 열 인덱스 순서 변경
df4 = df4[['c', 'a', 'new']]
df4

## 리스트 내포 for문의 일반 문법
- [표현식(연산식) for 항목 in 반복가능객체 if 조건문]
- if 조건문은 생략 가능하다.
- 반복가능객체 : 리스트, 튜플,딕셔너리,range()등


In [154]:
a=[1,2,3,4]
result = [] # 빈리스트 생성

for num in a :
    result.append(num*2)
    
result

[2, 4, 6, 8]

In [155]:
[num *2 for num in a]
result = [num *2 for num in a]
result

[2, 4, 6, 8]

[2, 4, 6, 8]

In [156]:
# if 문 포함된 경우
result = [x**2 for x in range(10) if x%2 == 0]
result

[0, 4, 16, 36, 64]

In [157]:
# if else 문 포함
# [참일 때 if 조건 else 거짓일 때  for x in 반복가능한 객체]
scores = [90, 55, 80, 77, 40]
# 60 이상이면 합격, 아니면 불합격 결과를 리스트로 생성
result = ['합격' if x >= 60 else '불합격' for x in scores]
result

['합격', '불합격', '합격', '합격', '불합격']

In [158]:
data = {'점수':scores, '결과':result}

df5 = pd.DataFrame(data)
df5

Unnamed: 0,점수,결과
0,90,합격
1,55,불합격
2,80,합격
3,77,합격
4,40,불합격
