In [7]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [6]:
import numpy as np
import pandas as pd

## pandas 데이터 처리 및 변환 관련 함수

## count() 함수
- 가장 간단한 분석은 개수를 세는 것임
- NaN 값은 세지 않음 (유효한 값만 처리한다는 의미)

In [4]:
s = pd.Series(range(10))
s
s[3] = np.nan
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [5]:
s.count()

9

## 난수
- 난숫 : seed(값) 라는 함수를 사용할 수 있음
- seed 의미 : 난수 알고리즘에서 사용하는 기본값
    - 시드값이 같으면 동일한 난수가 발생

In [29]:
np.random.randint(5, size=4)

array([4, 2, 0, 4])

In [32]:
np.random.seed(3)#난수값을 고정하기 위해 사용 값은 3이 아니여도 상관없음(동시에 사용해야 값이 고정됨)
np.random.randint(5, size=4)

array([2, 0, 1, 3])

In [33]:
np.random.randint(5, size=4)

array([0, 0, 0, 3])

In [37]:
#예제 데이터 프레임 생성
# 데이터 0-4범위의 난수 발생, 4행4열, 실수형데이터로 생성
np.random.seed(3)
df=pd.DataFrame(np.random.randint(5,size=(4,4)),dtype=float) ## dtype을 통해 데이터 타입 설정 가능
df
np.random.seed(3)
df1=pd.DataFrame(np.random.randint(5,size=(4,4))) #기본 정수
df1

# df1.iloc[2,3] =np.nan
# df1


Unnamed: 0,0,1,2,3
0,2.0,0.0,1.0,3.0
1,0.0,0.0,0.0,3.0
2,2.0,3.0,1.0,1.0
3,2.0,0.0,4.0,4.0


Unnamed: 0,0,1,2,3
0,2,0,1,3
1,0,0,0,3
2,2,3,1,1
3,2,0,4,4


In [40]:
np.random.seed(3)
df1=pd.DataFrame(np.random.randint(5,size=(4,4))) #기본 정수

df1.iloc[2,3] =np.nan
df1


Unnamed: 0,0,1,2,3
0,2,0,1,3.0
1,0,0,0,3.0
2,2,3,1,
3,2,0,4,4.0


## count() - 유효한 값만 카운트

In [41]:
#df의 count()는 각 열에 대한 연산을 진행 - 각 열의 유효한 원소의 개수를 반환
df1.count()

0    4
1    4
2    4
3    3
dtype: int64

## count 함수 사용 예제 (titanic 데이터 활용)

- 타이타닉 승객 데이터 사용
    - seaborn 패키지 내에 data로 존재
    - 데이터셋 읽어오기 : 패키지명.load_dataset("data명")


In [43]:
import seaborn as sns # seaborn에서 제공하는 data를 사용하기 위해서 import
# seaborn은 그래프 관련 패키지

In [45]:
titanic = sns.load_dataset('titanic')

titanic.head() #기본 5개 확인

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [48]:
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


## Import 한 data가 유효한지 확인 방법
- data.shpae()
    - (행, 열) 파악
- data.count()
    - 유효값 수를 파악

In [50]:
# titanic df의  각 열의 원소 개수를 산출 - count() 함수
titanic.shape #(행 , 열) 갯수 반환
titanic.count() # 시리즈 반환
## 위에 2가지를 통해서 각 열의 값의 차기 발생하는 것으로 결측지가 있다는 것을 알 수 있음

(891, 15)

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

##  value_counts() - 카테고리 값 세기
- 시리즈의 값이 정수,문자열 등 카테고리 값인 경우에
- 시리즈.value_counts() 메서드를 사용해 각각의 값이 나온 횟수를 셀 수 있음
- 파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율을 계산
    - 시리즈.value_counts(normalize=True)


In [9]:
np.random.seed(1)
s2=pd.Series(np.random.randint(6,size=100))
s2
s2.head() ## 기본값은 5개 

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

0    5
1    3
2    4
3    0
4    1
dtype: int32

In [54]:
s2.tail() ## head와 반대 개년 끝에 5개 출력
len(s2)

95    4
96    5
97    2
98    4
99    3
dtype: int32

100

In [56]:
s2.value_counts() # 0,1,2,3,4,5  각 값이 몇 번 나왔는지 결과 반환  (앞쪽 열이 index)

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

## value_counts() 함수 - 범주형 데이터에  적용
- 범주형 데이터 : 관측 별과가 몇개의 범위 또는 항목의 형태로 나타나는 자료
    - ex. 성별(남,여), 선호도(좋다, 보통, 싫다), 혈액형(A,B,O,AB) 등


In [58]:
titanic.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


In [59]:
# alive 열 : 생존여부 yes/no로 표시되어 있음
titanic['alive'].dtype # dtype('O') : Object type(문자열) 의미
titanic['alive'].value_counts()

dtype('O')

no     549
yes    342
Name: alive, dtype: int64

In [60]:
#생존자/사망자 비율 계산
titanic['alive'].value_counts(normalize=True)
titanic['alive'].value_counts(normalize=True)*100

no     0.616162
yes    0.383838
Name: alive, dtype: float64

no     61.616162
yes    38.383838
Name: alive, dtype: float64

## value_counts() 함수- 데이터 프레임 사용
- 행을 하나의 value로 정의 동일한 행이 몇 번 나타났는지를 반환
- 행 데이터의 경우가 인덱스 설정 개수된 값이 value로 표시되는 Series 반환

In [64]:
# 예제 df
df = pd.DataFrame({'num_legs': [2, 4, 4, 6],
                   'num_wings': [2, 0, 0, 0]},
                  index=['falcon', 'dog', 'cat', 'ant'])
df


Unnamed: 0,num_legs,num_wings
falcon,2,2
dog,4,0
cat,4,0
ant,6,0


In [65]:
df.value_counts() # 동일한 행렬의 값을 가진 것을 세준다

num_legs  num_wings
4         0            2
2         2            1
6         0            1
dtype: int64

In [68]:
df.index

df.value_counts() 
df.value_counts().index ## 멀티 인덱스 (value_counts()가 만든 index를 의미)

Index(['falcon', 'dog', 'cat', 'ant'], dtype='object')

num_legs  num_wings
4         0            2
2         2            1
6         0            1
dtype: int64

MultiIndex([(4, 0),
            (2, 2),
            (6, 0)],
           names=['num_legs', 'num_wings'])

In [69]:
#예제 df1
df1

Unnamed: 0,0,1,2,3
0,2,0,1,3.0
1,0,0,0,3.0
2,2,3,1,
3,2,0,4,4.0


In [70]:
df1.value_counts() #행 원소로 NaN값이 있는 필드는 개수하지 않음
#맨위는 열 내용
#위와 값이 동일할 경우 생략해서 나옴

0  1  2  3  
0  0  0  3.0    1
2  0  1  3.0    1
      4  4.0    1
dtype: int64

In [76]:
df1.value_counts().shape  #시리즈라서 shpae함수 사용 가능
df1.value_counts()
df1.value_counts().sort_index().index #index를 기준으로 정리한 것에 index 확인

(3,)

0  1  2  3  
0  0  0  3.0    1
2  0  1  3.0    1
      4  4.0    1
dtype: int64

0  1  2  3  
0  0  0  3.0    1
2  0  1  3.0    1
      4  4.0    1
dtype: int64

MultiIndex([(0, 0, 0, 3.0),
            (2, 0, 1, 3.0),
            (2, 0, 4, 4.0)],
           names=[0, 1, 2, 3])

## 데이터 정렬 - 정렬 함수 사용
- sort_index() : 인덱스를 기준으로 정렬
- sort_value() : 데이터 값을 기준으로 정렬

## 시리즈 정렬 ascending=True/False
- sort_index() / sort_value() 조합해서 사용 
- ascending=True/False : 오름차순/내림차순
- 생략하면 오름차순


In [10]:
#예제 시리즈
s2
type(s2)

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

pandas.core.series.Series

In [11]:
s2.value_counts() # 반환 값을 기준으로 정렬된 시리즈
s2.value_counts().sort_index() #인덱스 기준 정렬 : 오름차순 
s2.value_counts().sort_index(ascending=False) # 인덱스 기준 정렬 : 내림차순

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

5    16
4    17
3    14
2    13
1    22
0    18
dtype: int64

In [12]:
s2.value_counts()
s2.value_counts().sort_values(ascending=True) #원소 값 기준 오름차순
s2.value_counts().sort_values() #default 값이 오름차순
s2.value_counts().sort_values(ascending=False) #원소 값 기준 내림차순


1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

2    13
3    14
5    16
4    17
0    18
1    22
dtype: int64

2    13
3    14
5    16
4    17
0    18
1    22
dtype: int64

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [14]:
s2
s2.sort_values  ## 차이 파악 (제대로 적용 안됨)
s2.sort_values()

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

<bound method Series.sort_values of 0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32>

57    0
38    0
39    0
85    0
28    0
     ..
71    5
40    5
46    5
11    5
0     5
Length: 100, dtype: int32

## 데이터 프레임 정렬

- df.sort_values() : 특정열 값 기준 정렬
    - 데이터프레임은 2차원 배열과 동일하기 때문에
        - 정렬시 기준열을 줘야 한다. by 인수 사용 : 생략 불가
        - by = 기준열, by=[기준열1,기준열2]
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)
- df.sort_index() : DF의 INDEX 기준 정렬
    - 오름차순/내림차순 : ascending = True/False (생략하면 오름차순)


In [95]:
#예제 df1
df1

Unnamed: 0,0,1,2,3
0,2,0,1,3.0
1,0,0,0,3.0
2,2,3,1,
3,2,0,4,4.0


In [91]:
df1.sort_values() # sort_values() missing 1 required positional argument: 'by'
#by 값이 필요 열 값

TypeError: sort_values() missing 1 required positional argument: 'by'

In [94]:
df1.sort_values(by=0, ascending=True) # 0번 열을 기준으로 오름차순 (행이 바뀜)

Unnamed: 0,0,1,2,3
1,0,0,0,3.0
0,2,0,1,3.0
2,2,3,1,
3,2,0,4,4.0


In [96]:
df1.sort_values(by=0, ascending=False) # 0번 열을 기준으로 내림차순 (행이 바뀜)

Unnamed: 0,0,1,2,3
0,2,0,1,3.0
2,2,3,1,
3,2,0,4,4.0
1,0,0,0,3.0


In [97]:
df1.sort_values(by=[0,1], ascending=True) # 기준을 여러 개 줄 수 있음
# 0번 열 기준으로 동일 값이 나오면 1번 열로 정렬

Unnamed: 0,0,1,2,3
1,0,0,0,3.0
0,2,0,1,3.0
3,2,0,4,4.0
2,2,3,1,


## 데이터 프레임의 index를 기준으로 정렬

In [98]:
#df 확인
df

Unnamed: 0,num_legs,num_wings
falcon,2,2
dog,4,0
cat,4,0
ant,6,0


In [101]:
df.sort_index() #오름차순
df.sort_index(ascending=False) #내림차순

Unnamed: 0,num_legs,num_wings
ant,6,0
cat,4,0
dog,4,0
falcon,2,2


Unnamed: 0,num_legs,num_wings
falcon,2,2
dog,4,0
cat,4,0
ant,6,0


## 데이터 프레임 조작 함수 정리

## 행/열 합계
- df.sum() 함수 사용
- 행과 열의 합계를 구할때는 sum(axis=0/1) - axis는 0이 기본


- 각 열의 합계를 구할때는 sum(axis=0)
- 각 행의 합계를 구할때는 sum(axis=1)


In [102]:
# 예제 df2 생성
#4행 8열의 데이터프레임 작성, 난수를 발생시키고
#0-9범위에서 매번 같은 난수 발생되어 반환되도록 설정
np.random.seed(1)
df2=pd.DataFrame(np.random.randint(10,size=(4,8)))
df2


Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [104]:
# df2의 각 열의 합계 = sum(axis=0)
df2.sum(axis=0) # 시리즈 반환 (각 열의 합)
df2.sum() #axis=0 기본값 입력 안할 경우

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [105]:
# df2의 각 행의 합계 = sum(axis=1)
df2.sum(axis=1) 

0    35
1    34
2    41
3    42
dtype: int64

## 데이터 프레임 기본 함수 확인

In [107]:
df2.mean() # 각 열 평균
df2.max() # 각 열에 최대값
df2.min() # 각 열에 최소값

0    6.00
1    8.25
2    6.25
3    6.00
4    3.75
5    2.50
6    1.25
7    4.00
dtype: float64

0    9
1    9
2    9
3    9
4    9
5    7
6    4
7    7
dtype: int32

0    4
1    7
2    2
3    4
4    0
5    0
6    0
7    1
dtype: int32

In [108]:
df2.mean(axis=1) # 각 행 평균
df2.max(axis=1) # 각 행에 최대값
df2.min(axis=1) # 각 행에 최소값

0    4.375
1    4.250
2    5.125
3    5.250
dtype: float64

0    9
1    9
2    9
3    9
dtype: int32

0    0
1    2
2    0
3    0
dtype: int32

## df의 새로운 행과 열 추가
- 새로운 열 추가 : 기본 인덱싱
    - df['새로운 열 이름'] = 값
- 새로운 행 추가 : loc 인덱서
    - df.loc['새로운 행 익뎃스'] = 값

In [109]:
#에제 df2
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [None]:
# 위 데이터프레임의 각열의 합계를 구해서 마지막 행으로 추가

In [110]:
#새로운 행 추가 (loc 인데서 사용이 가장 간단함)
#행이름 : ColTotal

df2.loc['ColTotal'] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1
ColTotal,24,33,25,24,15,10,5,16


In [None]:
# 위 데이터프레임의 각행의 합계를 구해서 마지막 열으로 추가

In [None]:
#열 이름 : RowSum

In [112]:
#del df2['RowSum']
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1
ColTotal,24,33,25,24,15,10,5,16


In [113]:
df2['RowSum'] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal,24,33,25,24,15,10,5,16,152


## 행/열 삭제 - df의 drop() 사용 예제
- df.drop('행이름',0) : 행삭제 
    - 행삭제 후 df로 결과를 반환
- df.drop('열이름',1) : 열 삭제
    - 열삭제 후 df로 결과를 반환
- 원본에 반영되지 않으므로  원본수정하려면 저장 해야 함



- 참고) del 명령어는 삭제후 원본을 변경시키는 명령어 이점이 가장 큰 차이


In [114]:
# 예제 df2
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal,24,33,25,24,15,10,5,16,152


In [115]:
df2.drop('ColTotal',0) ### ColTotal행 삭제 원본에 반영 X
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal,24,33,25,24,15,10,5,16,152


In [116]:
df2.drop('RowSum',1) ### ColTotal행 삭제 원본에 반영 X
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1
ColTotal,24,33,25,24,15,10,5,16


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal,24,33,25,24,15,10,5,16,152


## NaN 값 처리 함수
- df.dropna(axis=0/1) - 삭제
    - NaN 값이 있는 열 또는 행을 삭제
    - 원본 반영되지 않음

- df.fillna(채우려는 값) - 입력
    - NaN 값을 정해진 값으로 채움
    - 원본 반영되지 않음


In [117]:
# df2에 걸측치 값 적용
df2.iloc[0,0] = np.nan
df2.iloc[2,7] = np.nan
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


In [118]:
## NaN이 포함된 모든 행을 삭제
df2.dropna()
df2 #원본 반영 X

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
1,6.0,9,2,4,5,2,4,2.0,34
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


In [119]:
#NaN이 포함된 모든 열을 삭제
df2.dropna(axis=1)
df2 #원본 반영 X

Unnamed: 0,1,2,3,4,5,6,RowSum
0,8,9,5,0,0,1,35
1,9,2,4,5,2,4,34
2,7,7,9,1,7,0,41
3,9,7,6,9,1,0,42
ColTotal,33,25,24,15,10,5,152


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


In [120]:
df2.fillna(0) #NaN에 0으로 채워 넣어라 (실수 처리가 됨)
df2
df2.fillna(5)

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,0.0,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,0.0,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,5.0,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


In [121]:
df2.fillna('a') # NaN에 문자 a 로 입력
df2.fillna('a')[0].dtype # dtype('O') : object(문자열)


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,a,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,a,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


dtype('O')

## astype() - 형변환

In [106]:
## df의 원소 dtype 변경 함수
# df.astype(자료형)  int/float

df2.fillna(0) #float
df2.fillna(0).astype(int) #int 
df2
df2.fillna(5)
df2.fillna(5).astype(float) # df 전체가 float로 변화

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,0.0,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,0.0,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,0,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,0,41
3,9,9,7,6,9,1,0,1,42
ColTotal,24,33,25,24,15,10,5,16,152


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8,9,5,0,0,1,7.0,35
1,6.0,9,2,4,5,2,4,2.0,34
2,4.0,7,7,9,1,7,0,5.0,41
3,9.0,9,7,6,9,1,0,1.0,42
ColTotal,24.0,33,25,24,15,10,5,16.0,152


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,5.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


## apply() 함수 - 열 또는 행에 동일한 연산 반복 적용 

- apply() 함수는 DataFrame의 행이나 열에 복잡한 연산을 vectorizing할 수 있게 해주는 함수로 매우 많이 활용되는 함수임

- 동일한 연산을 모든열에 혹은 모든 행에 반복 적용하고자 할때 사용

- apply(반복적용할 함수, axis=0/1)
    - 0 : 열마다 반복
    - 1 : 행마다 반복 
    - 생략시 기본값 : 0
    
- 데이터프레임의 기본 집계함수(sum, min, max, mean 등)들은 행/열 단위 벡터화 연산을 수행함
    - apply() 함수를 사용할 필요가 없음

- 일반적으로 apply() 함수 사용은 복잡한 연산을 해결하기 위한 lambda 함수나 사용자 정의 함수를 각 열 또는 행에 일괄 적용시키기 위해 사용




In [125]:
#예제 df3 생성
df3 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df3


Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [129]:
# df3의 각 열에 대해 np.sum 이라는 함수를 반복 적용하는 코드를 생성하시오

df3.apply(np.sum) # a/b/c 각각 열에 대한 합계
df3.apply(np.sum, 1) # a/b/c 각각 행에 대한 합계

a    15
b    15
c    16
dtype: int64

0     4
1    11
2     7
3    11
4    13
dtype: int64

In [130]:
## 동일한 결과
df3.sum(axis=0) #열 단위 합
df3.sum(axis=1) #셀 단위 합

a    15
b    15
c    16
dtype: int64

0     4
1    11
2     7
3    11
4    13
dtype: int64

## apply() 함수 적용 예시 - lambda 함수에 apply() 사용 예제

In [131]:
df3

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [134]:
# 집합 데이터(시리즈)의 최대값과 최소값의 차이를 구하는 연산을 lambda 함수로 정의
diff = lambda x : x.max()-x.min()

In [135]:
# df3의 a열의 최대값과 최소값의 차이를 위에서 생성한 lamba 함수를 이용해서 구하시오
diff(df3['a'])

3

In [136]:
# apply 함수를 이용하여 위에서 생성한 lambda diff를 df3의 모든 열/행에 반복 적용하여 모든 열.행의 최대값과 최소값의 차이를 구하시오

df3.apply(diff,0) # 모든 열에 적용(0)
df3.apply(diff,1) # 모든 행에 적용(1)

a    3
b    4
c    4
dtype: int64

0    1
1    2
2    3
3    1
4    1
dtype: int64

In [138]:
# 다른 방법 : 직접 연산
#df3 각 행에 대하여 최대값과 최소값 차이
df3.max(axis=1) - df3.min(axis=1) #총 3번 연산을 해야함
df3.max(axis=0) - df3.min(axis=0)

0    1
1    2
2    3
3    1
4    1
dtype: int64

a    3
b    4
c    4
dtype: int64

## 데이터 프레임  value_counts로 카테고리 계산 

In [151]:
## df3의 각 열의 데이터에 대해서 카테고리 세기를 수행하시오
df3
df3.value_counts()
# apply() 함수를 사용해서 value_counts() 적용 test
df3.apply(pd.value_counts) # 여기서 반복되는 값 1~ 5까지를 각열에 나온 횟수로 표현

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


a  b  c
1  2  1    1
3  3  5    1
   4  4    1
4  1  2    1
   5  4    1
dtype: int64

Unnamed: 0,a,b,c
1,1.0,1,1.0
2,,1,1.0
3,2.0,1,
4,2.0,1,2.0
5,,1,1.0


In [154]:
## df3의 각 열의 데이터에 대해서 카테고리 세기를 수행하고 
## NaN 값은 0으로 변환 후 반환도는 전체 데이터의 타입을 정수로 변환하시오.

df3.apply(pd.value_counts)
df3.apply(pd.value_counts).fillna(0)
df3.apply(pd.value_counts).fillna(0).astype(int)


Unnamed: 0,a,b,c
1,1.0,1,1.0
2,,1,1.0
3,2.0,1,
4,2.0,1,2.0
5,,1,1.0


Unnamed: 0,a,b,c
1,1.0,1,1.0
2,0.0,1,1.0
3,2.0,1,0.0
4,2.0,1,2.0
5,0.0,1,1.0


Unnamed: 0,a,b,c
1,1,1,1
2,0,1,1
3,2,1,0
4,2,1,2
5,0,1,1


## 관측 데이터 값을 범주형(카테고리) 값으로 변환

- 값의 크기를 기준으로 카테고리 값으로 변환하고 싶을 때
    - cut(data, bins, label)
    - data : 구간을 나눌 실제 관측 값, bins : 구간 경계 값, label : 카테고리 값

In [155]:
ages = [0, 0.5, 4, 6, 4, 5, 2, 10, 21, 37, 15, 38, 31, 61, 20, 41, 31, 100]

In [156]:
#label : 카테고리 명
labels=['영유아','미성년자','청년','중년','장년','노년']

#bins : 구간 경계값 설정
bins = [0, 4, 15, 25, 35, 60, 100]

# 0 < 영유아 <= 4
# 4 < 미성년자 <= 15

In [157]:
# 함수 적용해서 카테고리 

cats = pd.cut(ages, bins=bins, labels=labels)
cats

[NaN, '영유아', '영유아', '미성년자', '영유아', ..., '노년', '청년', '장년', '중년', '노년']
Length: 18
Categories (6, object): ['영유아' < '미성년자' < '청년' < '중년' < '장년' < '노년']

In [158]:
type(cats) #Categorical (범주형 특수 데이타 타입)

pandas.core.arrays.categorical.Categorical

In [159]:
list(cats)

[nan,
 '영유아',
 '영유아',
 '미성년자',
 '영유아',
 '미성년자',
 '영유아',
 '미성년자',
 '청년',
 '장년',
 '미성년자',
 '장년',
 '중년',
 '노년',
 '청년',
 '장년',
 '중년',
 '노년']

## Categorical 클래스 객체
- 카테고리명 속성 : Categorical.categories
- 코드 속성 : Categorical.codes 
    - 인코딩한 카테고리 값을 정수로 갖는다.


In [160]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [161]:
cats.categories

Index(['영유아', '미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [162]:
cats.codes 
# codes 값이 -1이면 카테고리를 정하지 못했음을 의미 (결측치)

array([-1,  0,  0,  1,  0,  1,  0,  1,  2,  4,  1,  4,  3,  5,  2,  4,  3,
        5], dtype=int8)

In [163]:
# age 리스트를 이용해서 df 생성
df4 = pd.DataFrame(ages, columns=['ages'])
df4
df4.ages

Unnamed: 0,ages
0,0.0
1,0.5
2,4.0
3,6.0
4,4.0
5,5.0
6,2.0
7,10.0
8,21.0
9,37.0


0       0.0
1       0.5
2       4.0
3       6.0
4       4.0
5       5.0
6       2.0
7      10.0
8      21.0
9      37.0
10     15.0
11     38.0
12     31.0
13     61.0
14     20.0
15     41.0
16     31.0
17    100.0
Name: ages, dtype: float64

In [165]:
df4['연령대'] = pd.cut(df4.ages, bins=bins, labels=labels)
df4

Unnamed: 0,ages,연령대
0,0.0,
1,0.5,영유아
2,4.0,영유아
3,6.0,미성년자
4,4.0,영유아
5,5.0,미성년자
6,2.0,영유아
7,10.0,미성년자
8,21.0,청년
9,37.0,장년


## qcut()

- 구간 경계선을 지정하지 않고 데이터 개수가 같도록 지정한 수의 구간으로 분할하기  

- 형식 : pd.qcut(data,구간수,labels=[d1,d2....])
    
    
    - 예)1000개의 데이터를 4구간으로 나누려고 한다면
        - qcut 명령어를 사용 한 구간마다 250개씩 나누게 된다.
        - 예외)같은 숫자인 경우에는 같은 구간으로 처리한다.


In [166]:
# 랜덤정수 20개를 생성하고 생성된 정수를 4개의 구간으로 나누시오.

# 각 구간의 label은 Q1,Q2,Q3,Q4 로 설정하시오.

#랜덤정수 생성 : 범위 0-19, size =20
#seed 설정해서 재 실행해도 랜덤정수가 변하지 않도록 생성

#seed 설정
np.random.seed(2)
# 랜덤 정수 생성
data = np.random.randint(20, size =20)
data



array([ 8, 15, 13,  8, 11, 18, 11,  8,  7,  2, 17, 11, 15,  5,  7,  3,  6,
        4, 10, 11])

In [167]:
qcat = pd.qcut(data, 4, labels=['Q1','Q2','Q3','Q4'])
qcat

['Q2', 'Q4', 'Q4', 'Q2', 'Q3', ..., 'Q1', 'Q1', 'Q1', 'Q3', 'Q3']
Length: 20
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [168]:
data.sort()
data

array([ 2,  3,  4,  5,  6,  7,  7,  8,  8,  8, 10, 11, 11, 11, 11, 13, 15,
       15, 17, 18])

In [170]:
list(qcat)

['Q2',
 'Q4',
 'Q4',
 'Q2',
 'Q3',
 'Q4',
 'Q3',
 'Q2',
 'Q2',
 'Q1',
 'Q4',
 'Q3',
 'Q4',
 'Q1',
 'Q2',
 'Q1',
 'Q1',
 'Q1',
 'Q3',
 'Q3']

In [171]:
pd.value_counts(qcat)

Q1    5
Q2    5
Q3    5
Q4    5
dtype: int64

## 인덱스 설정 함수


##  set_index(), reset_index() - 데이터 프레임 인덱스 설정
- set_index() : 기존 행 인덱스를 제거하고 데이터 열 중
하나를 인덱스로 설정해주는 함수
- reset_index() : 기존 행인덱스를 제거하고 기본인덱스로 변경
    - 기본인덱스 : 0부터 1씩 증가하는 정수 인덱스
    - 따로 설정하지 않으면 기존 인덱스는 데이터열로 추가 됨


In [172]:
# 예제 df3
df3 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df3


Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [173]:
# df3의 a열을 인덱스로 설정

df3.set_index('a') # 원본에 반영 X
df3

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,3,5
4,1,2
3,4,4
4,5,4


Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [174]:
df3 = df3.set_index('a')
df3 # 변경된 내용 반영

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,3,5
4,1,2
3,4,4
4,5,4


In [176]:
 #df3의 행 인덱스를 제거하고 기본 인덱스로 정의 -reset_index()
    
df3.reset_index() # 기존 index -> data
df3.reset_index(drop=True) # 기존 index -> 삭제

# 기존 index의 처리 : drop=True -> 기존 인덱스 제거
# 기존 index의 처리 : drop 설정 x -> 기존 인덱스가 그냥 data로 들어옴

Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


Unnamed: 0,b,c
0,2,1
1,3,5
2,1,2
3,4,4
4,5,4


## index 원소 변경하기 : df. rename() 사용
- df.rename(index={현재인덱스:바꿀인덱스})

In [177]:
df3
df3 = df3.reset_index(drop=True)
df3

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,1
3,3,5
4,1,2
3,4,4
4,5,4


Unnamed: 0,b,c
0,2,1
1,3,5
2,1,2
3,4,4
4,5,4


In [179]:
df3.rename(index={0:'1반'}) #원본 반영 X
df3.rename(columns={'b':'학생'})

df3.rename(index={0:'1반'}, columns={'b':'학생'})
df3

Unnamed: 0,b,c
1반,2,1
1,3,5
2,1,2
3,4,4
4,5,4


Unnamed: 0,학생,c
0,2,1
1,3,5
2,1,2
3,4,4
4,5,4


Unnamed: 0,학생,c
1반,2,1
1,3,5
2,1,2
3,4,4
4,5,4


Unnamed: 0,b,c
0,2,1
1,3,5
2,1,2
3,4,4
4,5,4


## 인덱스 1부터 시작
- df1.index = df1.index + 1

In [8]:
df3 = pd.DataFrame({
    'a':[1,3,4,3,4],
    'b':[2,3,1,4,5],
    'c':[1,5,2,4,4]
})
df3


Unnamed: 0,a,b,c
0,1,2,1
1,3,3,5
2,4,1,2
3,3,4,4
4,4,5,4


In [9]:
df3.index=df3.index+1

In [10]:
df3

Unnamed: 0,a,b,c
1,1,2,1
2,3,3,5
3,4,1,2
4,3,4,4
5,4,5,4


## 리스트 내포 연산
- [표현식(연산식) for 항목 in 반복가능객체 if 조건문]
- if 조건문은 생략 가능하다.
- 반복가능객체 : 리스트, 튜플,딕셔너리,range()등


In [180]:
a = [1,2,3,4]
# 위 a 리스트의 각원소에 대해 2배한 원속 값을 만들고 result라는 변수에 저장

result = []

for num in a:
    result.append(num*2)

result

[2, 4, 6, 8]

In [181]:
# 내포 for 문 사용
result2 = []

result2= [num*2 for num in a]
result2

[2, 4, 6, 8]