# 판다스 (데이터프레임) 데이터 조작 함수 사용

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import pandas as pd
import numpy as np

### pandas 데이터처리 및 변환 관련 함수

count() : 데이터 개수 반환  
value_counts() : 데이터 빈도 수 반환  
sort_index() : 인덱스를 기준으로 정렬  
sort_values() : 데이터 값을 기준으로 정렬  
dropna() : NaN 제거  
fillna() : NaN을 다른 값으로 채움  
apply() : 동일한 반복 연산에 함수 적용  
cut() : 데이터 구간 분할  
qcut() : 경계선 없이 데이터 수가 동일한 구간으로 분할  
set_index() : 열로 인덱스 설정  
reset_index() : 인덱스 제거하고 열로 추가  
rename() : 열/행 인덱스 이름 변경  

### count() : 데이터 개수 반환
- NaN은 세지 않음

In [5]:
s = pd.Series(range(10))
s[3] = np.nan # NaN값 지정
s # float으로 바뀜 

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [7]:
# series count()
s.count()
# NaN값 제외

9

### 데이터 프레임에 count()함수 적용하기
- 각 열마다 데이터 개수를 세기때문에 누락된 부분을 찾을 때 유용

#### 난수 발생시켜 dataframe 생성
- np.random.randint(5) : 0~4 사이의 난수 발행
- 난수 seed(값)라는 함수를 사용할 수 있음
- seed의 의미 : 난수 알고리즘에서 사용하는 기본 값으로
    - 시드값이 같으면 동일한 난수가 발생함
    - 난수 함수 사용시 매번 고정된 값 발생
- 계속 변경되는 난수를 받고 싶으면 함수등을 이용해서 시드값이 매번 변하게 작업해야 함. time.time()

In [12]:
# 실행 할 때마다 다른 값 발생
np.random.randint(3) # 0~2 중 1개 값 생성

1

In [14]:
np.random.randint(5, size=4) # 0~4 중 4개 값 생성

array([0, 1, 4, 3])

In [18]:
# 실행 할 때마다 고정값으로 난수 발생 : seed 값 지정
# seed 값 기반으로 똑같은 값
np.random.seed(3)
np.random.randint(5, size=4)

array([2, 0, 1, 3])

In [24]:
# 실행 할 때마다 고정값으로 난수 발생 : seed 값 지정
np.random.seed(3)
df1 = pd.DataFrame(np.random.randint(5, size=(4,4)))
df1

Unnamed: 0,0,1,2,3
0,2,0,1,3
1,0,0,0,3
2,2,3,1,1
3,2,0,4,4


In [31]:
# 3행 4열에 NaN값 지정
df1.iloc[2,3] = np.NaN  # 0-index로 접근
df1.iloc[2,3] = None # pandas에서 none : 이렇게 해도 가능
df1

Unnamed: 0,0,1,2,3
0,2,0,1,3.0
1,0,0,0,3.0
2,2,3,1,
3,2,0,4,4.0


In [32]:
df1.dtypes  # None값 있는 부분만 float

0      int64
1      int64
2      int64
3    float64
dtype: object

In [33]:
# 각 열의 원소의 개수 카운트
df1.count()
# 3열의 NaN값 제외 : 3개

0    4
1    4
2    4
3    3
dtype: int64

- 타이타닉 승객 데이터 사용
    - seaborn 패키지 내에 dataset으로 존재
    - 데이터셋 읽어오기 : 패키지명.load_dataset("data명")

In [36]:
import seaborn as sns

In [37]:
titanic= sns.load_dataset('titanic')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [38]:
titanic.head(2)
titanic.tail(3)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [39]:
# titanic.csv 파일로 저장
titanic.to_csv('../data/titanic.csv')

In [40]:
# 데이터 정보 확인
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


변수설명  
passengerId : 각 승객의 고유 번호  
survived : 생존 여부(종속 변수)  
	0 = 사망  
	1 = 생존  
class : 객실 등급 - 승객의 사회적, 경제적 지위  
	First  
	Second 
	Third  
sex : 성별  
age : 나이  
sibsp : 동반한 Sibling(형제자매)와 Spouse(배우자)의 수  
parch : 동반한 Parent(부모) Child(자식)의 수   
fare : 티켓의 요금  
embark_town : 승선한 항  
	C = Cherbourg (셰르부르)  
	Q = Queenstown  
	S = Southampton  

In [51]:
# age : float type
# NaN 값 때문인지, 실수값이 존재하는지 확인
# age 열의 값 중에서 1보다 작은 값을 갖는 행을 데이터프레임으로 추출
# age열만 추출 loc(행, 열)
titanic.loc[titanic['age']<1,['age']]

Unnamed: 0,age
78,0.83
305,0.92
469,0.75
644,0.75
755,0.67
803,0.42
831,0.83


In [52]:
# 각 열의 값의 개수
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### value_counts()  함수

###  카테고리 값 세기
- 시리즈의 값이 정수,문자열 등 카테고리 값인 경우에
- 시리즈.value_counts() 메서드를 사용해 각각의 값이 나온 횟수를 셀 수 있음
    - value_counts() 인수 
        - dropna=True 디폴트 (NaN 무시)  
        - dropna=False : NaN 개수도 카운트  
        - ascending=True : 오름차순 정렬 (기본 False로 내림차순)  
        - normalize=True  
            - 각 값 및 전체에서의 범주형 데이터의 비율을 계산  
            - 전체 10개 중 1이 3개 : 0.3  
            - 시리즈.value_counts(normalize=True)  

##### 범주형 데이터에 value_counts() 함수 적용
- 범주형 데이터 : 관측 결과가 몇개의 범주 또는 항목의 형태로 나타나는 자료
    - ex. 성별(남,여), 선호도(좋다, 보통, 싫다), 혈액형(A,B,O,AB) 등

In [55]:
# titanic 데이터의 alive열의 생존 여부 확인(yes/no)
titanic['alive'].value_counts()

# 전체 값에서 각 값의 비율로 표시
titanic['alive'].value_counts(normalize=True)

# 비율 퍼센트
# 전체 값에서 각 값의 비율로 표시
titanic['alive'].value_counts(normalize=True) * 100


no     549
yes    342
Name: alive, dtype: int64

no     0.616162
yes    0.383838
Name: alive, dtype: float64

no     61.616162
yes    38.383838
Name: alive, dtype: float64

In [58]:
# titanic 에 승선한 승객의 남여 수와 비율 확인
titanic['sex'].value_counts()
titanic['sex'].value_counts(normalize=True) * 100

male      577
female    314
Name: sex, dtype: int64

male      64.758698
female    35.241302
Name: sex, dtype: float64

In [69]:
# 성별에 따른 생존자 수와 사망자 수의 정보
# column 2개 추출
titanic.loc[:,['sex','alive']].value_counts()
titanic[['sex','alive']].value_counts()

sex     alive
male    no       468
female  yes      233
male    yes      109
female  no        81
dtype: int64

sex     alive
male    no       468
female  yes      233
male    yes      109
female  no        81
dtype: int64

In [70]:
# 성별에 따른 생존자 수와 사망자 수의 정보를 가지고 있는 데이터프레임 생성
df = pd.DataFrame(titanic.loc[:,['sex','alive']].value_counts())
df
df.index

Unnamed: 0_level_0,Unnamed: 1_level_0,0
sex,alive,Unnamed: 2_level_1
male,no,468
female,yes,233
male,yes,109
female,no,81


MultiIndex([(  'male',  'no'),
            ('female', 'yes'),
            (  'male', 'yes'),
            ('female',  'no')],
           names=['sex', 'alive'])

In [71]:
df2 =

SyntaxError: invalid syntax (1845562346.py, line 1)

In [73]:
# value_counts() : NaN값을 포함시키지 않음
# NaN제외 : dropna=True 디폴트 (생략 가능)
titanic['embarked'].value_counts()
titanic['embarked'].value_counts(normalize=True)

S    644
C    168
Q     77
Name: embarked, dtype: int64

S    0.724409
C    0.188976
Q    0.086614
Name: embarked, dtype: float64

In [74]:
# dropna=False : NaN값 포함
titanic['embarked'].value_counts(dropna=False)
titanic['embarked'].value_counts(dropna=False,normalize=True)

S      644
C      168
Q       77
NaN      2
Name: embarked, dtype: int64

S      0.722783
C      0.188552
Q      0.086420
NaN    0.002245
Name: embarked, dtype: float64

In [75]:
# 기본 정렬 : 내림 차순
# 오름 차순 정렬로 설정 : ascending=True
titanic['embarked'].value_counts(dropna=False, ascending=True)

NaN      2
Q       77
C      168
S      644
Name: embarked, dtype: int64

### 정렬함수 -데이터 정렬 시 사용
- sort_index(ascending=True/False) : 인덱스를 기준으로 정렬
    - ascending 생략하면 오름차순 정렬
- sort_values(ascending=True/False) : 데이터 값을 기준으로 정렬

In [77]:
# 시리즈 생성
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))  # 0~5사이의 정수 100개 생성
s2

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int64

In [78]:
# 빈도값 기준으로 grouping : value_counts()
s2.value_counts() # 기본 : 내림차순

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [80]:
# 빈도값을 기준으로 오름차순 정렬 : sort_values()
s2.value_counts().sort_values()

2    13
3    14
5    16
4    17
0    18
1    22
dtype: int64

In [83]:
# 빈도값을 기준으로 내림차순 생성
s2.value_counts().sort_values(ascending=False)

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [87]:
# 인덱스 기준으로 오름차순 정렬
s2.sort_index()


# 인덱스 기준으로 내림차순 정렬
s2.sort_index(ascending=False)

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int64

99    3
98    4
97    2
96    5
95    4
     ..
4     1
3     0
2     4
1     3
0     5
Length: 100, dtype: int64

### 데이터프레임 정렬
- df.sort_values() : 특정 열 값 기준 정렬
    - 데이터프레임은 2차원 배열과 동일하기 때문에
        - 정렬시 기준 열 필요 : by 인수(option) 사용 (생략불가)
        - by = 기준열, by = [기준열1, 기준열2]
- df.sort_index() : df의 index 기준 정렬
    - 오름차순/내림차순 : ascending=True/False (생략하면 오름차순)

In [89]:
df1

Unnamed: 0,0,1,2,3
0,2,0,1,3.0
1,0,0,0,3.0
2,2,3,1,
3,2,0,4,4.0


In [91]:
# df1.sort_values() # 정렬기준 by없으면 오류!

In [93]:
# 0열 기준 오름차순 정렬
df1.sort_values(by=0)

# 0열 기준 내림차순 정렬
df1.sort_values(by=0, ascending=False)

Unnamed: 0,0,1,2,3
1,0,0,0,3.0
0,2,0,1,3.0
2,2,3,1,
3,2,0,4,4.0


Unnamed: 0,0,1,2,3
0,2,0,1,3.0
2,2,3,1,
3,2,0,4,4.0
1,0,0,0,3.0


In [94]:
# 2차 정렬 : by[기준1, 기준2]
# 0열 기준으로 1차 정렬
# 정렬 결과 동일한 값에 대해 2열 기준 2차 정렬(desc)
df1.sort_values(by=[0,2], ascending=False)

Unnamed: 0,0,1,2,3
3,2,0,4,4.0
0,2,0,1,3.0
2,2,3,1,
1,0,0,0,3.0


In [96]:
# 3차 정렬 : 1열 기준(desc)
df1.sort_values(by=[0,2,1], ascending=False)

Unnamed: 0,0,1,2,3
3,2,0,4,4.0
2,2,3,1,
0,2,0,1,3.0
1,0,0,0,3.0


### 행/열 합계 및 평균
- df.sum() 사용
    - 행과 열의 합계 : sum(axis=0/1) : axis는 0이 기본
    - axis = 0 : 각 열의 합계
    - axis = 1 : 각 행의 합계 

In [133]:
# 4행 8열의 데이터프레임 생성
# 0~9 범위 값으로 난수 발생
# seed 값 고정
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4,8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [134]:
# 각 행의 합계
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [116]:
# 각 열의 합계
df2.sum(axis=0)

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [117]:
df2.sum()  # axis값 생략하면 기본 axis=0: 각 열의 합계

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [107]:
# 각 열의 평균
df2.mean(axis=0)

# 각 행의 평균
df2.mean(axis=1)

0    6.00
1    8.25
2    6.25
3    6.00
4    3.75
5    2.50
6    1.25
7    4.00
dtype: float64

0    4.375
1    4.250
2    5.125
3    5.250
dtype: float64

In [132]:
# max()/min() 동일
df2

0             59
1             67
2             66
3             66
col_total    258
total        516
dtype: int64

In [142]:
# df2에 각 행의 합계를 표시하는 'total'열 추가
df2['total'] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,59
1,6,9,2,4,5,2,4,2,67
2,4,7,7,9,1,7,0,6,66
3,9,9,7,6,9,1,0,1,66
col_total,24,33,25,24,15,10,5,16,258
max,9,9,9,9,9,7,4,7,96
max2,9,9,9,9,9,7,4,7,96


In [143]:
# 각 열의 합계를 표시하는 col_total행 추가
df2.loc['col_total'] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,59
1,6,9,2,4,5,2,4,2,67
2,4,7,7,9,1,7,0,6,66
3,9,9,7,6,9,1,0,1,66
col_total,66,84,68,66,48,34,18,46,708
max,9,9,9,9,9,7,4,7,96
max2,9,9,9,9,9,7,4,7,96


In [140]:
# 각 열의 최대값을 구해서 max행으로 추가
df2.loc['max'] = df2[0:4].max()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total
0,5,8,9,5,0,0,1,7,24
1,6,9,2,4,5,2,4,2,33
2,4,7,7,9,1,7,0,6,25
3,9,9,7,6,9,1,0,1,24
col_total,24,33,25,24,15,10,5,16,106
max,9,9,9,9,9,7,4,7,33


In [165]:
# 각 행의 평균 값을 구해서 average 열 추가
df2['average'] = df2.iloc[:,0:8].mean(axis=1)  # iloc[행인덱스, 열인덱스] start ~ end
df2['average2'] = df2.loc[:,0:7].mean(axis=1)  # loc[행인덱스, 열인덱스] start ~ end-1

df2

Unnamed: 0,0,1,2,3,4,5,6,7,total,average,average2
0,5,8,9,5,0,0,1,7,59,4.375,4.375
1,6,9,2,4,5,2,4,2,67,4.25,4.25
2,4,7,7,9,1,7,0,6,66,5.125,5.125
3,9,9,7,6,9,1,0,1,66,5.25,5.25
col_total,66,84,68,66,48,34,18,46,708,53.75,53.75
max,9,9,9,9,9,7,4,7,96,7.875,7.875
max2,9,9,9,9,9,7,4,7,96,7.875,7.875


### NaN값 처리 함수
- df.dropna(axis = 0/1)
    - NaN값이 포함된 열 또는 행 삭제
    - 변경 사항을 원본 데이터에 반영하려면 inplace = True 설정
- df.fillna(값)
    - NaN을 정해진 값으로 채움
    - 변경 사항을 원본 데이터에 반영하려면 inplace = True 설정

In [167]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total,average,average2
0,5,8,9,5,0,0,1,7,59,4.375,4.375
1,6,9,2,4,5,2,4,2,67,4.25,4.25
2,4,7,7,9,1,7,0,6,66,5.125,5.125
3,9,9,7,6,9,1,0,1,66,5.25,5.25
col_total,66,84,68,66,48,34,18,46,708,53.75,53.75
max,9,9,9,9,9,7,4,7,96,7.875,7.875
max2,9,9,9,9,9,7,4,7,96,7.875,7.875


In [168]:
# 0행 0열에 NaN값 추가
df2.iloc[0,0] = np.nan
df2
# NaN값이 포함되면 데이터 타입이 float으로 바뀜
# 0열의 값이 float으로 바뀜

# df2[0][0] = np.nan

Unnamed: 0,0,1,2,3,4,5,6,7,total,average,average2
0,,8,9,5,0,0,1,7,59,4.375,4.375
1,6.0,9,2,4,5,2,4,2,67,4.25,4.25
2,4.0,7,7,9,1,7,0,6,66,5.125,5.125
3,9.0,9,7,6,9,1,0,1,66,5.25,5.25
col_total,66.0,84,68,66,48,34,18,46,708,53.75,53.75
max,9.0,9,9,9,9,7,4,7,96,7.875,7.875
max2,9.0,9,9,9,9,7,4,7,96,7.875,7.875


In [169]:
# NaN이 포함된 행 삭제: axis=0
# 변경 사항을 원본 데이터에 반영
df2.dropna(axis=0, inplace=True)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total,average,average2
1,6.0,9,2,4,5,2,4,2,67,4.25,4.25
2,4.0,7,7,9,1,7,0,6,66,5.125,5.125
3,9.0,9,7,6,9,1,0,1,66,5.25,5.25
col_total,66.0,84,68,66,48,34,18,46,708,53.75,53.75
max,9.0,9,9,9,9,7,4,7,96,7.875,7.875
max2,9.0,9,9,9,9,7,4,7,96,7.875,7.875


In [170]:
# 0행 0열에 NaN값 지정
df2.iloc[0, 0] = np.nan
df2

Unnamed: 0,0,1,2,3,4,5,6,7,total,average,average2
1,,9,2,4,5,2,4,2,67,4.25,4.25
2,4.0,7,7,9,1,7,0,6,66,5.125,5.125
3,9.0,9,7,6,9,1,0,1,66,5.25,5.25
col_total,66.0,84,68,66,48,34,18,46,708,53.75,53.75
max,9.0,9,9,9,9,7,4,7,96,7.875,7.875
max2,9.0,9,9,9,9,7,4,7,96,7.875,7.875


In [171]:
# NaN값이 포함된 열 삭제
df2.dropna(axis=1, inplace=True)
df2

Unnamed: 0,1,2,3,4,5,6,7,total,average,average2
1,9,2,4,5,2,4,2,67,4.25,4.25
2,7,7,9,1,7,0,6,66,5.125,5.125
3,9,7,6,9,1,0,1,66,5.25,5.25
col_total,84,68,66,48,34,18,46,708,53.75,53.75
max,9,9,9,9,7,4,7,96,7.875,7.875
max2,9,9,9,9,7,4,7,96,7.875,7.875


In [173]:
# NaN추가
# 0행 0열
# 1행 4열
# 2행 5열
df2.iloc[0, 0],df2.iloc[1, 4],df2.iloc[2, 5] = np.nan, np.nan, np.nan
df2

Unnamed: 0,1,2,3,4,5,6,7,total,average,average2
1,,2,4,5,2.0,4.0,2,67,4.25,4.25
2,7.0,7,9,1,,0.0,6,66,5.125,5.125
3,9.0,7,6,9,1.0,,1,66,5.25,5.25
col_total,84.0,68,66,48,34.0,18.0,46,708,53.75,53.75
max,9.0,9,9,9,7.0,4.0,7,96,7.875,7.875
max2,9.0,9,9,9,7.0,4.0,7,96,7.875,7.875


In [174]:
# NaN값을 0으로 채우기
df2.fillna(0, inplace=True)
df2

Unnamed: 0,1,2,3,4,5,6,7,total,average,average2
1,0.0,2,4,5,2.0,4.0,2,67,4.25,4.25
2,7.0,7,9,1,0.0,0.0,6,66,5.125,5.125
3,9.0,7,6,9,1.0,0.0,1,66,5.25,5.25
col_total,84.0,68,66,48,34.0,18.0,46,708,53.75,53.75
max,9.0,9,9,9,7.0,4.0,7,96,7.875,7.875
max2,9.0,9,9,9,7.0,4.0,7,96,7.875,7.875


In [176]:
# 1개의 열 값 만 정수로 변환
# 1열의 모든 값을 정수로 변환
df2[1] = df2[1].astype(int)
df2

Unnamed: 0,1,2,3,4,5,6,7,total,average,average2
1,0,2,4,5,2.0,4.0,2,67,4.25,4.25
2,7,7,9,1,0.0,0.0,6,66,5.125,5.125
3,9,7,6,9,1.0,0.0,1,66,5.25,5.25
col_total,84,68,66,48,34.0,18.0,46,708,53.75,53.75
max,9,9,9,9,7.0,4.0,7,96,7.875,7.875
max2,9,9,9,9,7.0,4.0,7,96,7.875,7.875


In [177]:
# 여러 개의 열 값을 정수로 변환
df2[[5,6]] = df2[[5,6]].astype(int)
df2

Unnamed: 0,1,2,3,4,5,6,7,total,average,average2
1,0,2,4,5,2,4,2,67,4.25,4.25
2,7,7,9,1,0,0,6,66,5.125,5.125
3,9,7,6,9,1,0,1,66,5.25,5.25
col_total,84,68,66,48,34,18,46,708,53.75,53.75
max,9,9,9,9,7,4,7,96,7.875,7.875
max2,9,9,9,9,7,4,7,96,7.875,7.875


In [178]:
# 데이터프레임 전체의 값을 정수로 변환
df2 = df2.astype(int)
df2


# 주의 : 모든 값이 숫자인 경우에만 가능
# NaN이 포함되어있는 상태에서 하면 오류!
# -> 먼저 NaN 값을 숫자로 변경후 형 변환

Unnamed: 0,1,2,3,4,5,6,7,total,average,average2
1,0,2,4,5,2,4,2,67,4,4
2,7,7,9,1,0,0,6,66,5,5
3,9,7,6,9,1,0,1,66,5,5
col_total,84,68,66,48,34,18,46,708,53,53
max,9,9,9,9,7,4,7,96,7,7
max2,9,9,9,9,7,4,7,96,7,7


### 열 또는 행에 동일한 연산 반복 적용할 때 : apply() 메소드 (함수)
- apply() 함수 : DataFrame의 행이나 열에 복잡한 반복 연산을 수행 메소드
    - 동일한 연산은 함수화 되어있어야 함   
    - 주로 익명의 lambda 함수를 같이 사용  
    - dataframe의 특정 영역을 함수의 입력 값으로 받고   
    - axis 옵션을 주어 행과 열 데이터 중 원하는 데이터를 처리  

- apply(반복적용할 함수, axis=0/1)  
    - 0 : 열마다 반복  
    - 1 : 행마다 반복    
    - 생략시 기본값 : 0 
    
- 적용되는 함수가 행/열 자체가 아닌 각 요소에 적용되는 함수인 경우  
  - axis값이 0 또는 1에 대해 동일한 결과 출력  


- apply() 함수는 데이터프레임에 사용
- 시리즈에서는 map() 함수 사용

In [179]:
df3 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df3

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [None]:
# np.sum() 함수에 데이터 전달
# 합계

In [181]:
# apply() 사용하지 않고
# 각 열에 대해 np.sum() 함수를 사용 : 반복 적용해야함
np.sum(df3['a'])
np.sum(df3['b'])
np.sum(df3['c'])

15

15

16

In [182]:
# apply() 사용해서 반복 적용
# apply(반복적용할 함수명, axis=0/1)
# 0: 열에 대해 반복 적용
# 1: 행에 대해 반복 적용

In [184]:
df3.apply(np.sum, axis=0) # 각 열에 반복 적용, 디폴트이므로 생략 가능
df3.apply(np.sum, axis=1) # 각 행에 반복 적용

a    15
b    15
c    16
dtype: int64

0     4
1    11
2     7
3    11
4    13
dtype: int64

### 사용자 정의 함수를 apply() 함수에 사용

In [185]:
# 사용자 정의함수
# 시리즈 값을 전달 받아서 제곱의 최대값과 최소값의 차이를 구해 반환하는 함수
def diff(x):
    return max(x*x) - min(x*x)

In [186]:
df3

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [188]:
# apply() 함수 사용 : 각 열에 적용 : axis=0
df3.apply(diff, 0)

a    15
b    24
c    24
dtype: int64

In [189]:
# apply() 함수 사용 : 각 행에 적용 : axis=1
df3.apply(diff,1)

0     3
1    16
2    15
3     7
4     9
dtype: int64

### 1회성 함수 lambda 함수를 apply() 함수에 사용

In [None]:
# 함수 내용이 간단할때 람다

In [191]:
df3.apply(lambda x: (x*x).max() - (x*x).min()) # axis=0생략 : 각 열에 적용

a    15
b    24
c    24
dtype: int64

In [192]:
df3.apply(lambda x: (x*x).max() - (x*x).min(), axis=1) # axis=1 : 각 행에 적용

0     3
1    16
2    15
3     7
4     9
dtype: int64

### 시리즈에서 map() 함수 사용하여 반복 적용

In [194]:
data = [90, 89, 50, 75, 45]
index = ['홍길동', '성춘향', '이몽룡', '변학도', '강길동']

df4 = pd.DataFrame(data, index=index, columns=['점수'])
df4

Unnamed: 0,점수
홍길동,90
성춘향,89
이몽룡,50
변학도,75
강길동,45


In [195]:
# 사용자 정의 함수
def result(x):
    result = '불합격'
    if x > 60:
        result = '합격'
    return result

In [None]:
# 점수 열의 각 값에 반복 적용 : map() 함수 사용
# df['점수'] : 시리즈
# 점수를 함수에 전달하고 결과를 받아서
# df4에 '결과' 열로 추가

In [197]:
type(df4['점수']) # 시리즈

pandas.core.series.Series

In [198]:
data = [
    [22, 60.1, 170.5, '남', '서울'],
    [45, 51.3, 160.5, '여', '부산'],
    [23, 88.1, 175.5, '남', '대구'],
    [33, 60.1, 180.5, '남', '제주'],
    [40, 60.1, 173.5, '남', '강릉']    
]

columns = ['나이', '몸무게', '키', '성별', '주소']
index = ['홍길동', '성춘향', '이몽룡', '변학도', '강길동']

df5 = pd.DataFrame(data, index=index, columns=columns)
df5

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,160.5,여,부산
이몽룡,23,88.1,175.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,173.5,남,강릉


In [None]:
# 사용자 정의 함수 : address_check() 함수 생성
# 주소 값이 서울 또는 대구 : True 반환

# 사용자 정의 함수를 apply()사용해서 
# 서울 또는 대구에 거주하는 행만 출력

In [222]:
def address_check(df):
    return df['주소'] == '서울' or df['주소'] == '대구' 

def address_check2(x):
    return x in ['서울', '대구']

In [220]:
df5[df5.apply(address_check, 1)]  # 모든 행

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
이몽룡,23,88.1,175.5,남,대구


In [223]:
# 사용자 정의 함수를 map()함수에 적용해서
# 서울 또는 대구에 거주하는 행만 출력
df5[df5['주소'].map(address_check2)]

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
이몽룡,23,88.1,175.5,남,대구


In [None]:
# 동일 내용으로 람다식으로 구현
df5[df5.apply(lambda df: df['주소'] == '서울' or df['주소'] == '대구' , 1)]

# 데이터값을 카테고리 값으로 변환
- 값의 크기를 기준으로하여 카테고리 값으로 변환하고 싶을때
    - cut(data,bins,labels)
        - 숫자 값의 경계선을 지정하는 경우
            - 예를 들어 나이 (0, 15, 20, 23,..., 100)가 있을 때
                - 경계선 나이를 0, 4,18, 35, 50, 65,100 ... 지정해서
                - 미성년자, 청년, 중년, ... 등의 카테고리로 나눌 경우
        - data : 구간 나눌 실제 값   
        - bins : 구간 경계값  
        - labels: 카테고리값  
    - qcut(data, 구간수, labels=[d1,d2....])
        - 구간 경계선을 지정하지 않고 데이터 수가 동일한 구간으로 분할

#### qcut()
- qcut(data, 구간수, labels=[d1,d2....])
- 구간 경계선을 지정하지 않고 데이터 수가 동일한 구간으로 분할
- 예 : 1000개의 데이터를 4구간으로 분할하는 경우
    - 한 구간마다 250개씩 데이터 포함
- 예외 : 같은 숫자인 경우에는 같은 구간으로 처리
    - 각 구간의 데이터 수가 다를 수 있음

### 인덱스 설정
경우에 따라 데이터프레임에 인덱스로 들어가 있어야 할 데이터가
일반 데이터 열에 들어가 있거나
반대로 일반 데이터 열이어야 하는데 인덱스로 들어가 있는 경우가 존재  
인덱스와 열을 교환하는 방법이 필요

#### 인덱스 설정 함수

데이터프레임의 인덱스 설정하고 제거하는 함수 
 - set_index()  
        - 기존의 행 인덱스를 제거하고  
        - 데이터 열 중에서 하나를 인덱스로 설정  
        - (열 -> 인덱스)  
 - reset_index()  
        - 기존의 행 인덱스를 제거하고   
        - 인덱스를 열로 추가  
        - (인덱스 -> 열)  

### reset_index() 시 기존 인덱스 삭제 가능
- drop=True로 설정하면
- 인덱스를 열 인덱스로 올리는 것이 아니라 그냥 버림
- 인덱스값이 관측값이 아니거나 불필요한 경우는 
- df의 열데이터로 추가되지 않게 해야함

### index 이름 변경
- 행 인덱스 이름 변경  
    - rename(index={현재 index:새index}) 
- 열 인덱스 이름 변경  
    - rename(columns={현재 index:새index}) 

#### 리스트 내포 for문의 일반 문법
- [표현식(연산식) for 항목 in 반복가능객체 if 조건문]
- if 조건문은 생략 가능하다.
- 반복가능객체 : 리스트, 튜플,딕셔너리,range()등
