# 판다스 개요
- pandas는 데이터 조작 및 분석을 위해 python 프로그래밍 언어로 작성된 소프트웨어 라이브러리다
- 특히, 숫자로 이루어진 테이블과 시계열을 다루기 위해 그에 대한 자료 구조와 조작법을 제공한다
- https://pandas.pydata.org/

# pandas 불러오기
- pandas는 일반적으로 pd라는 별칭으로 불러온다
- pip install pandas

In [1]:
import pandas as pd
import numpy as np


# pandas에서 사용하는 자료 구

<pre> 
□ 판다스의 구성요소
(1) Series
    - DataFrame 중에서 하나의 column에 해당하는 데이터
    - 1차원 데이터 (index,values 2가지 요소를 포함)

(2) DataFrame
    - Data Table 전체를 의마하는 용어
    - 2차원 데이터 (index, column, values 3가지 요소를 포함)

(3) Index
    - Series, DataFrame의 index 및 column을 구성하는 이름

</pre>
![image.png](attachment:image.png)

# 시리즈(Series)

### 시리즈 생성
- 시리즈는 1차원 배열과 유사하게 사용할 수 있다.
- pandas의 Series 클래스의 생성자에 리스트를 전달하여 시리즈 객체를 생성할 수 있다.
- 리스트의 요소에 대해 인덱스가 자동으로 생성되어 시리즈 객체를 출력할 대 자동으로 표시된다.(명시적으로 인덱스 값을 전달할 수도 있다.)

In [4]:
num_list = [2,3,5,7,9]
sr = pd.Series(num_list)
print(sr)
print(type(sr))

sr = pd.Series(num_list,index = list('abcde'))
print(sr)

0    2
1    3
2    5
3    7
4    9
dtype: int64
<class 'pandas.core.series.Series'>
a    2
b    3
c    5
d    7
e    9
dtype: int64


In [92]:
menu_list=  ['토스트','제육','치킨']
index_list = ['아침','점심','저녁']
sr = pd.Series(menu_list,index= index_list)
print(sr)

아침    토스트
점심     제육
저녁     치킨
dtype: object


- 인덱스와 값만 가져올 수도 잇

In [12]:
print(sr.index)
print(sr.index.values)
print(sr.values)

Index(['아침', '점심', '저녁'], dtype='object')
['아침' '점심' '저녁']
['토스트' '제육' '치킨']


- 딕셔너리를 이용해서 Series 생성한다
- key는 index가 되고 value는 column의 값이 된다

In [13]:
dic_data = {'a':21,'b':22, 'c':23,'d':24}
sr = pd.Series(dic_data, name='mySeries')
print(sr)

a    21
b    22
c    23
d    24
Name: mySeries, dtype: int64


### 원소선택

In [17]:
print(sr[0])
print(sr['a'])
print(sr[0:2]) #Series 객체
print(sr[[0,2]])
print(sr['a':'c']) #이름을 사용하여 슬라이싱 한 경우 마지막 값을 포함한다

21
21
a    21
b    22
Name: mySeries, dtype: int64
a    21
c    23
Name: mySeries, dtype: int64
a    21
b    22
c    23
Name: mySeries, dtype: int64


### unique(),value_counts()
- sr.uniuqe() : `결측치(NULL)를 포함하며`, 중복을 제외한 데이터의 종류를 ndarray로 반환
- sr.value_counts() : `결측치(NULL)를 포함하지 않으며`, 데이터의 종류별 개수를  Series객체로 반환

In [19]:
sr = pd.Series(['A','B','A',np.NaN,'C','D','D','A'])
print(sr.unique())
print(sr.value_counts())

['A' 'B' nan 'C' 'D']
A    3
D    2
B    1
C    1
Name: count, dtype: int64


## 데이터 프레임(DataFrmae)

### 데이터프레임 생성
- 데이터프레임은 2차원 배열과 유사하게 사용할 수 있다
- pandas의 DataFrame 클래스의 생성자에 **이중** 리스트(또는 딕셔너리)를 전달하여 데이터프레임 객체를 생성할 수 있다.
- 리스트의 요소에 대해 인덱스와 컬럼이 자동으로 생성되어 데이터프레임 객체를 출력할 때 자동으로 표시된다.

In [99]:
# 인덱스와 컬럼을 정해주지 않으면 배열의 모양이 맞지 않아도 된다
nums = [[1,2,3], [4,5,6], [7,8,9,10]]
df = pd.DataFrame(nums)

display(df)

print(df)
print(type(df))

Unnamed: 0,0,1,2,3
0,1,2,3,
1,4,5,6,
2,7,8,9,10.0


   0  1  2     3
0  1  2  3   NaN
1  4  5  6   NaN
2  7  8  9  10.0
<class 'pandas.core.frame.DataFrame'>


In [98]:
# 인덱스와 컬럼을 정해주면 배열의 모양이 맞지 않으면 오류가 난다
menu = [['토스트','시리얼','스크램블'],
['제육','칼국수','육개장'],
['치킨','삼겹살','라면']]
index = ['아침','점심','저녁']
columns = ['월','화','수']
df = pd.DataFrame(menu,columns=columns,index=index)
display(df)

Unnamed: 0,월,화,수
아침,토스트,시리얼,스크램블
점심,제육,칼국수,육개장
저녁,치킨,삼겹살,라면


In [25]:
print(df.index)
print(df.columns)
print(df.values)

Index(['아침', '점심', '저녁'], dtype='object')
Index(['월', '화', '수'], dtype='object')
[['토스트' '시리얼' '스크램블']
 ['제육' '칼국수' '육개장']
 ['치킨' '삼겹살' '라면']]


- 딕셔너리를 이용한 데이터프레임 생

In [101]:
raw_data = {
    '이름':['홍길동','전우치','손오공','사오정','저팔계'],
    '나이':[32,27,30,31,35],
    '전화번호':['010-1234-5678','010-1111-2222','010-3333-2333','010-7777-5555','010-6666-6666'],
    '지역':['서울','부산','대구','인천','광주'],
}
df = pd.DataFrame(raw_data)
display(df)

Unnamed: 0,이름,나이,전화번호,지역
0,홍길동,32,010-1234-5678,서울
1,전우치,27,010-1111-2222,부산
2,손오공,30,010-3333-2333,대구
3,사오정,31,010-7777-5555,인천
4,저팔계,35,010-6666-6666,광주


## 데이터 조회 및 처리

In [29]:
import numpy as np
import pandas as pd

data = np.random.randint(100,size=(10,10))
df = pd.DataFrame(data,index=list('ABCDEFGHIJ'),
columns = list('abcdefghij'))
display(df)

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,82,34,95,36,43,3,41,57,52,23
B,64,8,25,18,94,91,48,25,52,1
C,70,12,67,91,34,21,26,7,63,90
D,34,23,44,99,61,51,83,55,27,47
E,21,52,82,74,53,72,21,27,45,84
F,3,52,63,34,78,70,60,96,70,39
G,58,20,31,1,55,22,98,61,73,20
H,6,29,8,57,56,39,77,96,78,90
I,67,23,10,76,66,90,34,44,78,29
J,22,12,52,5,11,21,36,31,18,29


### 간략한 데이터 조회

### 열 값 일기
- df[열명] / df.열

In [31]:
# print(df.a) #Series
print(df['a'])

A    82
B    64
C    70
D    34
E    21
F     3
G    58
H     6
I    67
J    22
Name: a, dtype: int32


In [34]:
# 추출하고자하는 컬럼을 리스트로 전달하면 DataFrame으로 추출된다.
print(df[['a']])
print(type(df[['a']]))

    a
A  82
B  64
C  70
D  34
E  21
F   3
G  58
H   6
I  67
J  22
<class 'pandas.core.frame.DataFrame'>


### 행 값 읽기
- df.loc[행명]
- df.iloc[행번호]

In [35]:
df.loc['A']
#82	34	95	36	43	3	41	57	52	23

a    82
b    34
c    95
d    36
e    43
f     3
g    41
h    57
i    52
j    23
Name: A, dtype: int32

- 여러개의 행 값 읽기: 행 이름을 리스트로 전

In [39]:
df.loc[['A', 'B', 'C','D']]

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,82,34,95,36,43,3,41,57,52,23
B,64,8,25,18,94,91,48,25,52,1
C,70,12,67,91,34,21,26,7,63,90
D,34,23,44,99,61,51,83,55,27,47


In [40]:
df.iloc[0]

a    82
b    34
c    95
d    36
e    43
f     3
g    41
h    57
i    52
j    23
Name: A, dtype: int32

### df.head(), df.tail()
- 상위(하위) n개의 행을 조회한다.
- 매개변수로 값을 전달하지 않으면 5개의 행을 선택한다.

In [44]:
df.head(2)

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,82,34,95,36,43,3,41,57,52,23
B,64,8,25,18,94,91,48,25,52,1


df.sample() : n개의 랜덤 데이터 추

In [45]:
df.sample(2)

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
J,22,12,52,5,11,21,36,31,18,29
A,82,34,95,36,43,3,41,57,52,23


### 데이터 정보 조회

In [46]:
# 컬럼별 데이터 타입 조회
print(df.dtypes)

a    int32
b    int32
c    int32
d    int32
e    int32
f    int32
g    int32
h    int32
i    int32
j    int32
dtype: object


In [49]:
#DataFrame의 shape확인
print(df.shape)

# 데이터의 컬럼마다 개수를 시리즈 형태로 반환
print(df.count())

# 기술 통계 정보 요약
print(df.describe())

(10, 10)
a    10
b    10
c    10
d    10
e    10
f    10
g    10
h    10
i    10
j    10
dtype: int64
               a          b          c          d          e          f   
count  10.000000  10.000000  10.000000  10.000000  10.000000  10.000000  \
mean   42.700000  26.500000  47.700000  49.100000  55.100000  48.000000   
std    28.802199  15.608046  29.522308  35.397583  22.932025  31.485446   
min     3.000000   8.000000   8.000000   1.000000  11.000000   3.000000   
25%    21.250000  14.000000  26.500000  22.000000  45.500000  21.250000   
50%    46.000000  23.000000  48.000000  46.500000  55.500000  45.000000   
75%    66.250000  32.750000  66.000000  75.500000  64.750000  71.500000   
max    82.000000  52.000000  95.000000  99.000000  94.000000  91.000000   

               g          h          i          j  
count  10.000000  10.000000  10.000000  10.000000  
mean   52.400000  49.900000  55.600000  45.200000  
std    26.073401  29.489923  20.918891  31.915862  
min    21.0000

## 인덱싱,슬라이싱을 이용한 데이터 추출

- 열의 이름이나 목록을 이용해서 열 값을 인덱싱 할 수 있다.

-열의 순서를 이용해서 인덱싱을 할 수 없다.

In [50]:
#df[0]
df['a']



A    82
B    64
C    70
D    34
E    21
F     3
G    58
H     6
I    67
J    22
Name: a, dtype: int32

-열 위치 값을 인덱싱이나 슬라이싱에 적용하려면 columns 속성을 이용해야 한다.

In [51]:
df[df.columns[0]] #df.columns[0] == 'a'

A    82
B    64
C    70
D    34
E    21
F     3
G    58
H     6
I    67
J    22
Name: a, dtype: int32

In [52]:
df[df.columns[2:4]]

Unnamed: 0,c,d
A,95,36
B,25,18
C,67,91
D,44,99
E,82,74
F,63,34
G,31,1
H,8,57
I,10,76
J,52,5


- 행의 이름(또는 위치값)을 이용해서 인덱싱과 슬라이싱을 할 수 있다.
- 행의 이름으로 슬라이싱을 할 경우에는 마지막 요소까지 포함된다


In [53]:
df['A':'C']

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,82,34,95,36,43,3,41,57,52,23
B,64,8,25,18,94,91,48,25,52,1
C,70,12,67,91,34,21,26,7,63,90


In [54]:
df[1:4]

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
B,64,8,25,18,94,91,48,25,52,1
C,70,12,67,91,34,21,26,7,63,90
D,34,23,44,99,61,51,83,55,27,47


### df.at, df.iat
- 라벨 또는 인덱스를 이용해서 특정 위치의 데이터를 가져온다.(단일값 추출)

In [55]:
display(df)

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,82,34,95,36,43,3,41,57,52,23
B,64,8,25,18,94,91,48,25,52,1
C,70,12,67,91,34,21,26,7,63,90
D,34,23,44,99,61,51,83,55,27,47
E,21,52,82,74,53,72,21,27,45,84
F,3,52,63,34,78,70,60,96,70,39
G,58,20,31,1,55,22,98,61,73,20
H,6,29,8,57,56,39,77,96,78,90
I,67,23,10,76,66,90,34,44,78,29
J,22,12,52,5,11,21,36,31,18,29


In [56]:
df.at['B','c']

25

In [57]:
df.iat[1,2]

25

### df.loc, df.iloc
- 행과 열을 지정해서 데이터를 선택할 수 있다.
    - df.loc[[행이름],[열이름]]
    - df.iloc[[행인덱스],[열인덱스]]

In [58]:
print(df.loc['A','a'])

82


In [59]:
df.loc[['E','C','A'],['c','c','c']]

Unnamed: 0,c,c.1,c.2
E,82,82,82
C,67,67,67
A,95,95,95


In [61]:
df.loc['A':'E','c':'j']

Unnamed: 0,c,d,e,f,g,h,i,j
A,95,36,43,3,41,57,52,23
B,25,18,94,91,48,25,52,1
C,67,91,34,21,26,7,63,90
D,44,99,61,51,83,55,27,47
E,82,74,53,72,21,27,45,84


### 조건 인덱싱

In [62]:
df

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,82,34,95,36,43,3,41,57,52,23
B,64,8,25,18,94,91,48,25,52,1
C,70,12,67,91,34,21,26,7,63,90
D,34,23,44,99,61,51,83,55,27,47
E,21,52,82,74,53,72,21,27,45,84
F,3,52,63,34,78,70,60,96,70,39
G,58,20,31,1,55,22,98,61,73,20
H,6,29,8,57,56,39,77,96,78,90
I,67,23,10,76,66,90,34,44,78,29
J,22,12,52,5,11,21,36,31,18,29


In [63]:
# 'a'열의 요소 중 50을 초과하는 값이 있을때 해당값의 행을 선택
df[df['a']>50]

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,82,34,95,36,43,3,41,57,52,23
B,64,8,25,18,94,91,48,25,52,1
C,70,12,67,91,34,21,26,7,63,90
G,58,20,31,1,55,22,98,61,73,20
I,67,23,10,76,66,90,34,44,78,29


In [80]:
df.loc[:,df.loc['B'] >50]

Unnamed: 0,a,e,f,i
A,82,43,3,52
B,64,94,91,52
C,70,34,21,63
D,34,61,51,27
E,21,53,72,45
F,3,78,70,70
G,58,55,22,73
H,6,56,39,78
I,67,66,90,78
J,22,11,21,18


In [81]:
df[df%2 == 0]

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,82.0,34.0,,36.0,,,,,52.0,
B,64.0,8.0,,18.0,94.0,,48.0,,52.0,
C,70.0,12.0,,,34.0,,26.0,,,90.0
D,34.0,,44.0,,,,,,,
E,,52.0,82.0,74.0,,72.0,,,,84.0
F,,52.0,,34.0,78.0,70.0,60.0,96.0,70.0,
G,58.0,20.0,,,,22.0,98.0,,,20.0
H,6.0,,8.0,,56.0,,,96.0,78.0,90.0
I,,,10.0,76.0,66.0,90.0,34.0,44.0,78.0,
J,22.0,12.0,52.0,,,,36.0,,18.0,


In [87]:
df2 = df.copy()
df2['k'] = ['one', 'two','one', 'two','one', 'two','one', 'two','one', 'two']
print(df2)

    a   b   c   d   e   f   g   h   i   j    k
A  82  34  95  36  43   3  41  57  52  23  one
B  64   8  25  18  94  91  48  25  52   1  two
C  70  12  67  91  34  21  26   7  63  90  one
D  34  23  44  99  61  51  83  55  27  47  two
E  21  52  82  74  53  72  21  27  45  84  one
F   3  52  63  34  78  70  60  96  70  39  two
G  58  20  31   1  55  22  98  61  73  20  one
H   6  29   8  57  56  39  77  96  78  90  two
I  67  23  10  76  66  90  34  44  78  29  one
J  22  12  52   5  11  21  36  31  18  29  two


In [90]:
df2[df2['k'].isin(['one','two'])]

Unnamed: 0,a,b,c,d,e,f,g,h,i,j,k
A,82,34,95,36,43,3,41,57,52,23,one
B,64,8,25,18,94,91,48,25,52,1,two
C,70,12,67,91,34,21,26,7,63,90,one
D,34,23,44,99,61,51,83,55,27,47,two
E,21,52,82,74,53,72,21,27,45,84,one
F,3,52,63,34,78,70,60,96,70,39,two
G,58,20,31,1,55,22,98,61,73,20,one
H,6,29,8,57,56,39,77,96,78,90,two
I,67,23,10,76,66,90,34,44,78,29,one
J,22,12,52,5,11,21,36,31,18,29,two


# 데이터 수정

In [1]:
import numpy as np
import pandas as pd

data = np.random.randint(100,size=(10,10))
df = pd.DataFrame(data,index=list('ABCDEFGHIJ'),
columns = list('abcdefghij'))
display(df)

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,14,92,89,8,44,0,51,70,72,53
B,93,64,31,72,46,8,26,26,63,54
C,13,21,83,31,12,87,53,5,90,79
D,35,38,17,10,64,95,89,74,12,33
E,40,17,40,41,44,10,1,57,60,26
F,59,29,91,85,61,18,69,44,37,66
G,42,3,20,30,67,47,30,9,3,35
H,52,71,48,12,29,11,98,79,18,91
I,4,44,25,72,46,0,14,26,92,86
J,67,17,16,5,75,68,89,44,23,40


- 인덱싱과 슬라이싱을 통해 선택된 위치에 값을 대입하여 데이터를 수정할 수 있다.

In [2]:
df['e'] = df['f'] = 0
df

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,14,92,89,8,0,0,51,70,72,53
B,93,64,31,72,0,0,26,26,63,54
C,13,21,83,31,0,0,53,5,90,79
D,35,38,17,10,0,0,89,74,12,33
E,40,17,40,41,0,0,1,57,60,26
F,59,29,91,85,0,0,69,44,37,66
G,42,3,20,30,0,0,30,9,3,35
H,52,71,48,12,0,0,98,79,18,91
I,4,44,25,72,0,0,14,26,92,86
J,67,17,16,5,0,0,89,44,23,40


In [3]:
df['E' : 'F'] = 0
df 

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,14,92,89,8,0,0,51,70,72,53
B,93,64,31,72,0,0,26,26,63,54
C,13,21,83,31,0,0,53,5,90,79
D,35,38,17,10,0,0,89,74,12,33
E,0,0,0,0,0,0,0,0,0,0
F,0,0,0,0,0,0,0,0,0,0
G,42,3,20,30,0,0,30,9,3,35
H,52,71,48,12,0,0,98,79,18,91
I,4,44,25,72,0,0,14,26,92,86
J,67,17,16,5,0,0,89,44,23,40


In [5]:
df.at['E','e'] = 1
df

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,14,92,89,8,0,0,51,70,72,53
B,93,64,31,72,0,0,26,26,63,54
C,13,21,83,31,0,0,53,5,90,79
D,35,38,17,10,0,0,89,74,12,33
E,0,0,0,0,1,0,0,0,0,0
F,0,0,0,0,0,0,0,0,0,0
G,42,3,20,30,0,0,30,9,3,35
H,52,71,48,12,0,0,98,79,18,91
I,4,44,25,72,0,0,14,26,92,86
J,67,17,16,5,0,0,89,44,23,40


In [6]:
df.loc['D':'G','d':'g'] = -2
df

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,14,92,89,8,0,0,51,70,72,53
B,93,64,31,72,0,0,26,26,63,54
C,13,21,83,31,0,0,53,5,90,79
D,35,38,17,-2,-2,-2,-2,74,12,33
E,0,0,0,-2,-2,-2,-2,0,0,0
F,0,0,0,-2,-2,-2,-2,0,0,0
G,42,3,20,-2,-2,-2,-2,9,3,35
H,52,71,48,12,0,0,98,79,18,91
I,4,44,25,72,0,0,14,26,92,86
J,67,17,16,5,0,0,89,44,23,40


## 데이터 정렬

### df.sort_values()
- 행 또는 열을 지정해서 **값에 따라 정렬** 한다.
- 기본값은 열을 지정해서 값에 따라 오름차순으로 정렬한다

In [15]:
df.sort_values('a')
df

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,14,92,89,8,0,0,51,70,72,53
B,93,64,31,72,0,0,26,26,63,54
C,13,21,83,31,0,0,53,5,90,79
D,35,38,17,-2,-2,-2,-2,74,12,33
E,0,0,0,-2,-2,-2,-2,0,0,0
F,0,0,0,-2,-2,-2,-2,0,0,0
G,42,3,20,-2,-2,-2,-2,9,3,35
H,52,71,48,12,0,0,98,79,18,91
I,4,44,25,72,0,0,14,26,92,86
J,67,17,16,5,0,0,89,44,23,40


-행을 지정해서 정렬하려면 axis 인수에 1 또는 'columns'를 지정한다

In [12]:
df.sort_values('A',axis = 1)

Unnamed: 0,e,f,d,a,g,j,h,i,c,b
A,0,0,8,14,51,53,70,72,89,92
B,0,0,72,93,26,54,26,63,31,64
C,0,0,31,13,53,79,5,90,83,21
D,-2,-2,-2,35,-2,33,74,12,17,38
E,-2,-2,-2,0,-2,0,0,0,0,0
F,-2,-2,-2,0,-2,0,0,0,0,0
G,-2,-2,-2,42,-2,35,9,3,20,3
H,0,0,12,52,98,91,79,18,48,71
I,0,0,72,4,14,86,26,92,25,44
J,0,0,5,67,89,40,44,23,16,17


- 내림차순으로 정렬하려면 ascending 인수에 False를 전달한다

In [14]:
df.sort_values('b',axis = 0 , ascending = False)

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,14,92,89,8,0,0,51,70,72,53
H,52,71,48,12,0,0,98,79,18,91
B,93,64,31,72,0,0,26,26,63,54
I,4,44,25,72,0,0,14,26,92,86
D,35,38,17,-2,-2,-2,-2,74,12,33
C,13,21,83,31,0,0,53,5,90,79
J,67,17,16,5,0,0,89,44,23,40
G,42,3,20,-2,-2,-2,-2,9,3,35
E,0,0,0,-2,-2,-2,-2,0,0,0
F,0,0,0,-2,-2,-2,-2,0,0,0


### df.sort_index()
- 행 또는 열에 대해 정렬한다.
- 기본값은 인덱스를 오름차순으로 정렬하는 것이다.
- 컬럼명을 따라 내리마순으로 정렬하려면 axis 인수와 ascending 인수를 설정한다

In [16]:
df.sort_index(ascending=False)

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
J,67,17,16,5,0,0,89,44,23,40
I,4,44,25,72,0,0,14,26,92,86
H,52,71,48,12,0,0,98,79,18,91
G,42,3,20,-2,-2,-2,-2,9,3,35
F,0,0,0,-2,-2,-2,-2,0,0,0
E,0,0,0,-2,-2,-2,-2,0,0,0
D,35,38,17,-2,-2,-2,-2,74,12,33
C,13,21,83,31,0,0,53,5,90,79
B,93,64,31,72,0,0,26,26,63,54
A,14,92,89,8,0,0,51,70,72,53


In [17]:
df.sort_index(axis= 'columns',ascending=False)

Unnamed: 0,j,i,h,g,f,e,d,c,b,a
A,53,72,70,51,0,0,8,89,92,14
B,54,63,26,26,0,0,72,31,64,93
C,79,90,5,53,0,0,31,83,21,13
D,33,12,74,-2,-2,-2,-2,17,38,35
E,0,0,0,-2,-2,-2,-2,0,0,0
F,0,0,0,-2,-2,-2,-2,0,0,0
G,35,3,9,-2,-2,-2,-2,20,3,42
H,91,18,79,98,0,0,12,48,71,52
I,86,92,26,14,0,0,72,25,44,4
J,40,23,44,89,0,0,5,16,17,67


# 데이터 프레임 조작

## 새로운 행 또는 열 추가
- DataFrame에 새로운 열 추가
    - df['컬럼명'] = 데이터 목록
    - 컬럼명은 기존 DataFrame에 존재하지 않은 이름이어야 한다.
    - 데이터 목록은 기존 DataFrame에 다른 컬럼들과 같은 개수여야 한다,list,Series 등의 형태일 수 있다
- DataFrame에 새로운 행 추가
    - df.loc['컬럼명'] = 데이터 목록
    - 데이터 목록은 기존 DataFrame의 컬럼의 갯수와 **타입**이 같아야 한다.

In [20]:
import pandas as pd
import numpy as np

df = pd.DataFrame([[1,2,3],[7,8,9],[13,14,15]],index=list('ABC'),columns = list('abc'))
df

Unnamed: 0,a,b,c
A,1,2,3
B,7,8,9
C,13,14,15


### list를 이용해서 새로운 행 또는 열 추가

In [21]:
df.loc['D'] = [19,20,21]
df

Unnamed: 0,a,b,c
A,1,2,3
B,7,8,9
C,13,14,15
D,19,20,21


In [25]:
df['d'] = [4,10,16,22]
df

Unnamed: 0,a,b,c,d
A,1,2,3,4
B,7,8,9,10
C,13,14,15,16
D,19,20,21,22


### ndarray 이용해서 새로운 행 또는 열 추가


In [33]:
df.loc['E'] = np.array([25,26,27,28])
df

ValueError: Must have equal len keys and value when setting with an iterable

In [31]:
df['e'] = np.array([5,11,17,23,29])
df

Unnamed: 0,a,b,c,d,e
A,1,2,3,4,5
B,7,8,9,10,11
C,13,14,15,16,17
D,19,20,21,22,23
E,25,26,27,28,29


### 시리즈를 이용해서 새로운 행 또는 열 추가
- 시리즈를 이용해서 행 또는 열을 추가할 때는 기존 DataFrame과 같은 인덱스를 갖도록 작성한다.
- 인덱스를 정확하게 명시하지 않으면 추가되는 데이터는 NaN으로 초기화 된다

In [37]:
# 새로운 행을 추가하기 대문에 시리즈 객체의 인덱스를 기존 데이터프레임 객체의 컬럼명으로 지정한다.
df.loc['F'] = pd.Series([31,32,33,34,35],index = df.columns)
df

Unnamed: 0,a,b,c,d,e
A,1.0,2.0,3.0,4.0,5.0
B,7.0,8.0,9.0,10.0,11.0
C,13.0,14.0,15.0,16.0,17.0
D,19.0,20.0,21.0,22.0,23.0
E,25.0,26.0,27.0,28.0,29.0
F,31.0,32.0,33.0,34.0,35.0


In [38]:
df['f'] = pd.Series([6,12,18,24,30,36],index = df.index)
df


Unnamed: 0,a,b,c,d,e,f
A,1.0,2.0,3.0,4.0,5.0,6
B,7.0,8.0,9.0,10.0,11.0,12
C,13.0,14.0,15.0,16.0,17.0,18
D,19.0,20.0,21.0,22.0,23.0,24
E,25.0,26.0,27.0,28.0,29.0,30
F,31.0,32.0,33.0,34.0,35.0,36


In [39]:
df.loc['G'] = pd.Series([11,22,33,44,55,66])
df

Unnamed: 0,a,b,c,d,e,f
A,1.0,2.0,3.0,4.0,5.0,6.0
B,7.0,8.0,9.0,10.0,11.0,12.0
C,13.0,14.0,15.0,16.0,17.0,18.0
D,19.0,20.0,21.0,22.0,23.0,24.0
E,25.0,26.0,27.0,28.0,29.0,30.0
F,31.0,32.0,33.0,34.0,35.0,36.0
G,,,,,,


### 임의의 위치에 열을 삽입
- df.insert(위치,컬럼명,값)

In [45]:
df.insert(1,'k',[2,2,2,2,2,2,2])
df

Unnamed: 0,a,k,b,c,d,e,f
A,1.0,2,2.0,3.0,4.0,5.0,6.0
B,7.0,2,8.0,9.0,10.0,11.0,12.0
C,13.0,2,14.0,15.0,16.0,17.0,18.0
D,19.0,2,20.0,21.0,22.0,23.0,24.0
E,25.0,2,26.0,27.0,28.0,29.0,30.0
F,31.0,2,32.0,33.0,34.0,35.0,36.0
G,,2,,,,,


In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, A to G
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       6 non-null      float64
 1   k       7 non-null      int64  
 2   b       6 non-null      float64
 3   c       6 non-null      float64
 4   d       6 non-null      float64
 5   e       6 non-null      float64
 6   f       6 non-null      float64
dtypes: float64(6), int64(1)
memory usage: 448.0+ bytes


## 행열의 변경

In [48]:
df = pd.DataFrame(np.arange(1,10).reshape(3,3),columns = list('abc'))
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


### df.reindex()
- 새로운 행 또는 열을 추가하거나 삭제, 순서변경을 할 수 있다.
- 추가되는 행 또는 열의 요소는 NaN으로 초기화 된다
- 실행 결과는 원본에 영향을 주지 않고 **새로운 데이터 프레임 객체를 반환** 한다.

In [49]:
df.reindex(index= [0,1,2,3],columns=list('abcd'))

Unnamed: 0,a,b,c,d
0,1.0,2.0,3.0,
1,4.0,5.0,6.0,
2,7.0,8.0,9.0,
3,,,,


In [50]:
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


- 행 또는 열의 순서를 임의로 섞을 수도 있다.
- 기존에 존재하던 라벨을 일부러 생략해서 행 또는 열을 제거할 수 있다

In [51]:
df.reindex(index= [0,1],columns=['b','a'])

Unnamed: 0,b,a
0,2,1
1,5,4


### df.set_index()
- 열을 인덱스로 만든다.
- df.set_index(컬럼이름,inplace = True), inplace = True: 원본 데이터 변경 옵션

In [59]:
df.set_index('a',inplace=True)

In [60]:
df

Unnamed: 0_level_0,b,c
a,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,3
4,5,6
7,8,9


### df.reset_index()
- 인덱스 초기화: drop = True 인수를 전달하면 기존 인덱스를 삭제하고 기본 값으로 다시 초기화 한다.
- 인덱스를 열 데이터로 추가 할 때도 사용

In [57]:
df = df.reset_index()

In [61]:
df.reset_index(drop=True, inplace=True)

In [62]:
df

Unnamed: 0,b,c
0,2,3
1,5,6
2,8,9


## 행/열의 삭제
- DataFrame의 열 삭제
    - del df[열이름]
    - df.drop(열이름,aixs= 1), df.drop([열이름1,열이름2,...], axis=1)
    - df.drop(columns = [열이름...])
- DataFrame의 행 삭제
    - df.drop(행이름), df.drop([행이름1,행이름2,...])
    - axis = 0 이 기본 값이므로 생략 가능
    - df.drop(rows= [행이름])
- 실행 결과는 원본에 영향을 주지않고, 새로운 데이터 프레임 객체를 반환한다
- inplace = True 속성을 이용해서 원본을 직접 변경할 수 있다.

In [65]:
df = pd.DataFrame([[1,2],[3,4]],index=list('AB'),columns=list('ab'))
df

Unnamed: 0,a,b
A,1,2
B,3,4


In [66]:
df.drop('B')

Unnamed: 0,a,b
A,1,2


In [67]:
df.drop('b',axis=1)

Unnamed: 0,a
A,1
B,3


## 행/열 이름 바꾸기


In [68]:
df = pd.DataFrame(np.random.randint(1,100,(4,4)))
df

Unnamed: 0,0,1,2,3
0,26,90,11,23
1,9,27,53,85
2,69,6,57,81
3,58,78,48,9


In [69]:
df.columns = ['C1','C2','C3','C4']
df.index = list('abcd')
df

Unnamed: 0,C1,C2,C3,C4
a,26,90,11,23
b,9,27,53,85
c,69,6,57,81
d,58,78,48,9


### 특정 행/열의 이름만 바꾸기
- df.rename(index = dictionary 객체)
- df.rename(columns = index = dictionary 객체)

In [70]:
df.rename(index = {'a':'A'},inplace =True)
df.rename(columns= {'C1':'국어'},inplace=True)
df

Unnamed: 0,국어,C2,C3,C4
A,26,90,11,23
b,9,27,53,85
c,69,6,57,81
d,58,78,48,9


In [71]:
df.index = list('ABCD')
df.columns = ['1기 A반','1기 B반','2기 A반','2기 B반']
df

Unnamed: 0,1기 A반,1기 B반,2기 A반,2기 B반
A,26,90,11,23
B,9,27,53,85
C,69,6,57,81
D,58,78,48,9


- 'str' 모듈은 문자열을 다루는 함수를 가지고 있다.

In [72]:
df.columns = df.columns.str.replace(' ','_')
df

Unnamed: 0,1기_A반,1기_B반,2기_A반,2기_B반
A,26,90,11,23
B,9,27,53,85
C,69,6,57,81
D,58,78,48,9


- 컬럼명에 접두사 및 접미사 붙이기
    - df.add_prefix()
    - df.add_suffix()

In [75]:
df = df.add_prefix('KDT')
df

Unnamed: 0,KDTKDT1기_A반,KDTKDT1기_B반,KDTKDT2기_A반,KDTKDT2기_B반
A,26,90,11,23
B,9,27,53,85
C,69,6,57,81
D,58,78,48,9


In [76]:
df = df.add_suffix('_재학')
df

Unnamed: 0,KDTKDT1기_A반_재학,KDTKDT1기_B반_재학,KDTKDT2기_A반_재학,KDTKDT2기_B반_재학
A,26,90,11,23
B,9,27,53,85
C,69,6,57,81
D,58,78,48,9


## 데이터 프레임 간의 조합

In [77]:
df = pd.DataFrame([[1,2],[3,4]], index = ['A','B'], columns=['a','b'])
df

Unnamed: 0,a,b
A,1,2
B,3,4


### pd.concat()
- 두개 이상의 데이터 프레임 객체를 행 또는 열 방향으로 연결한다.
- 열 방향으로 연결하고자 할 경우 axis = 1 인자를 전달한다.
- 실행 결과는 원본에 영향을 주지 않는다
- ignore_index 인자의 값을 True로 전달하여 추가할 객체의 인덱스를 무시할 수 있다

In [78]:
df2 = pd.concat([df,df])
df2

Unnamed: 0,a,b
A,1,2
B,3,4
A,1,2
B,3,4


In [79]:
df3 = pd.DataFrame([[5,6],[7,8]],index = df.index,columns = ['c','d'])
df4 = pd.concat([df,df3],axis = 1)
df4

Unnamed: 0,a,b,c,d
A,1,2,5,6
B,3,4,7,8


# 통계


In [80]:
df = pd.DataFrame(np.random.randint(100,size=(10,10)),index=list('ABCDEFGHIJ'),columns=list('abcdefghij'))
df

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
A,50,1,33,52,16,79,72,59,49,96
B,26,40,43,24,88,89,71,24,8,13
C,80,5,14,1,15,9,59,50,95,29
D,39,52,22,16,72,37,87,95,65,10
E,84,88,76,85,3,26,98,93,31,24
F,17,43,44,19,74,80,48,66,49,34
G,53,50,41,78,33,28,86,77,49,59
H,16,63,30,9,74,44,45,92,13,11
I,46,27,91,79,31,70,23,96,7,26
J,82,5,69,38,67,86,55,73,98,30


## df.describe()
- 각 열에 대한 주요 통계 수치들을 확인한다.

In [81]:
df.describe()

Unnamed: 0,a,b,c,d,e,f,g,h,i,j
count,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0
mean,49.3,37.4,46.3,40.1,47.3,54.8,64.4,72.5,46.4,33.2
std,25.910315,28.202443,24.756817,31.434058,30.797006,29.199696,22.814226,23.481671,32.948445,26.275464
min,16.0,1.0,14.0,1.0,3.0,9.0,23.0,24.0,7.0,10.0
25%,29.25,10.5,30.75,16.75,19.75,30.25,49.75,60.75,17.5,15.75
50%,48.0,41.5,42.0,31.0,50.0,57.0,65.0,75.0,49.0,27.5
75%,73.25,51.5,62.75,71.5,73.5,79.75,82.5,92.75,61.0,33.0
max,84.0,88.0,91.0,85.0,88.0,89.0,98.0,96.0,98.0,96.0


## df.Count()
- 각 행/열에 대한 요소의 개수를 산출한다.


In [82]:
df.count(axis=1)

A    10
B    10
C    10
D    10
E    10
F    10
G    10
H    10
I    10
J    10
dtype: int64

In [83]:
# 각 열의 요소에 개수 확인
df.count()

a    10
b    10
c    10
d    10
e    10
f    10
g    10
h    10
i    10
j    10
dtype: int64

# df.mean()
- 각 행/열에 대한 평균을 산출한다

In [84]:
df.mean(axis=1)

A    50.7
B    42.6
C    35.7
D    49.5
E    60.8
F    47.4
G    55.4
H    39.7
I    49.6
J    60.3
dtype: float64

## df.std()
- 각 행/열에 대한 표준편차를 산출한다.



## df.min(), df.max()
- 각 행/열에 대한 최소/최댓값을 산출한다.

## [문제] Series, DataFrame 생성 및 연산
1. 전공을 퐇마한 Series생성
2. 수학 점수를 포함한 Series 생성
3. 국어 점수를 포함한 Series 생성
4. 영어 점수를 포함한 Series 생성
5. 앞서 만든 Series를 함해 DataFrame 생성
6. 성적 데이터 정보 확인
7. 각과목의 합계를 계산한 컬럼 추가
8. 각과목의 평균을 계산한 컬럼 추가

In [110]:
name = ['홍길동','임꺽정','전우치','손오공','저팔계','사오정']
jun = pd.Series(['컴퓨터공학과','수학과','정보통신학과','수학과','컴퓨터공학과','컴퓨터공학과'],index=name)
math = pd.Series([97,88,91,76,88,87],index=name)
korea = pd.Series([88,89,85,90,88,77],index=name)
english = pd.Series([90,100,96,91,90,90],index=name)

In [118]:
score_df = pd.DataFrame({'전공':jun,'수학':math,'국어':korea,'영어':english})
score_df


Unnamed: 0,전공,수학,국어,영어
홍길동,컴퓨터공학과,97,88,90
임꺽정,수학과,88,89,100
전우치,정보통신학과,91,85,96
손오공,수학과,76,90,91
저팔계,컴퓨터공학과,88,88,90
사오정,컴퓨터공학과,87,77,90


In [120]:
score_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, 홍길동 to 사오정
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   전공      6 non-null      object
 1   수학      6 non-null      int64 
 2   국어      6 non-null      int64 
 3   영어      6 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 240.0+ bytes


In [127]:
score_df['합계'] = score_df.loc[:,'수학':'영어'].sum(axis=1)
score_df

Unnamed: 0,전공,수학,국어,영어,합계,평균
홍길동,컴퓨터공학과,97,88,90,275,91.666667
임꺽정,수학과,88,89,100,277,92.333333
전우치,정보통신학과,91,85,96,272,90.666667
손오공,수학과,76,90,91,257,85.666667
저팔계,컴퓨터공학과,88,88,90,266,88.666667
사오정,컴퓨터공학과,87,77,90,254,84.666667


In [128]:
score_df['평균'] = score_df.loc[:,'수학':'영어'].mean(axis=1)
#score_df['평균'] = score_df.loc[:,['수학','영어','국어']].mean(axis=1)
score_df

Unnamed: 0,전공,수학,국어,영어,합계,평균
홍길동,컴퓨터공학과,97,88,90,275,91.666667
임꺽정,수학과,88,89,100,277,92.333333
전우치,정보통신학과,91,85,96,272,90.666667
손오공,수학과,76,90,91,257,85.666667
저팔계,컴퓨터공학과,88,88,90,266,88.666667
사오정,컴퓨터공학과,87,77,90,254,84.666667


In [134]:
# 평균값 포멧 적용하기
#score_df['평균'] = score_df['평균'].apply(lambda x:'{:.2f}'.format(x))
#score_df['평균'] = score_df['평균'].apply(lambda x: np.round(x, 2))
score_df

Unnamed: 0,전공,수학,국어,영어,합계,평균
홍길동,컴퓨터공학과,97,88,90,275,91.67
임꺽정,수학과,88,89,100,277,92.33
전우치,정보통신학과,91,85,96,272,90.67
손오공,수학과,76,90,91,257,85.67
저팔계,컴퓨터공학과,88,88,90,266,88.67
사오정,컴퓨터공학과,87,77,90,254,84.67


# 결측값 처리

In [135]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(0,10,(5,5)),index = list('ABCDE'), columns=list('abcde'))

#결측값 설정
df.loc['B','c'] = None
df.loc['D','e'] = np.nan
df

Unnamed: 0,a,b,c,d,e
A,6,2,0.0,4,4.0
B,9,2,,0,2.0
C,0,8,6.0,9,9.0
D,2,5,9.0,1,
E,8,1,3.0,1,0.0


In [136]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, A to E
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       5 non-null      int32  
 1   b       5 non-null      int32  
 2   c       4 non-null      float64
 3   d       5 non-null      int32  
 4   e       4 non-null      float64
dtypes: float64(2), int32(3)
memory usage: 352.0+ bytes


## df.isna(),df.notna()
- 데이터가 NaN인지 아닌지 검사한다.

In [137]:
checked_df = df.isna()
checked_df

Unnamed: 0,a,b,c,d,e
A,False,False,False,False,False
B,False,False,True,False,False
C,False,False,False,False,False
D,False,False,False,False,True
E,False,False,False,False,False


- 컬럼별 결측치 데이터 수 확인


In [138]:
checked_df.sum()

a    0
b    0
c    1
d    0
e    1
dtype: int64

In [139]:
checked_df2 = df.notna()
checked_df2

Unnamed: 0,a,b,c,d,e
A,True,True,True,True,True
B,True,True,False,True,True
C,True,True,True,True,True
D,True,True,True,True,False
E,True,True,True,True,True


## df.dropna()
- 행 또는 열에 대해 결측값을 제거한다.
- 기본 설정은 결측값이 존재하는 **행을 모두 제거**하는 방식이다

In [141]:
cleared_row_df = df.dropna()
cleared_row_df

Unnamed: 0,a,b,c,d,e
A,6,2,0.0,4,4.0
C,0,8,6.0,9,9.0
E,8,1,3.0,1,0.0


- axis 인수를 설정하면 결측값이 있는 열을 선택해서 제거할 수 있다.

In [142]:
cleared_col_df = df.dropna(axis=1)
cleared_col_df

Unnamed: 0,a,b,d
A,6,2,4
B,9,2,0
C,0,8,9
D,2,5,1
E,8,1,1


## df.fillna()
- 결측값 을 다른 값으로 채운다

In [144]:
filled_df = df.fillna(-999)
filled_df

Unnamed: 0,a,b,c,d,e
A,6,2,0.0,4,4.0
B,9,2,-999.0,0,2.0
C,0,8,6.0,9,9.0
D,2,5,9.0,1,-999.0
E,8,1,3.0,1,0.0


In [145]:
# 결측치 값을 해당 칼럼의 평균 값으로 채우기
df['c'] = df['c'].fillna(df['c'].mean())
df

Unnamed: 0,a,b,c,d,e
A,6,2,0.0,4,4.0
B,9,2,4.5,0,2.0
C,0,8,6.0,9,9.0
D,2,5,9.0,1,
E,8,1,3.0,1,0.0


- method 인자를 전달하면 열 기준 바로 앞/뒤에 있는 값으로 채울 수도 있다.
- method = 'ffill' : 앞의 값으로 채운다
- method = 'backfill' : 뒤의 값으로 채운다

In [146]:
filled_df2 = df.fillna(method = 'ffill')
filled_df2

Unnamed: 0,a,b,c,d,e
A,6,2,0.0,4,4.0
B,9,2,4.5,0,2.0
C,0,8,6.0,9,9.0
D,2,5,9.0,1,9.0
E,8,1,3.0,1,0.0


In [147]:
filled_df3 = df.fillna(method = 'backfill')
filled_df3

Unnamed: 0,a,b,c,d,e
A,6,2,0.0,4,4.0
B,9,2,4.5,0,2.0
C,0,8,6.0,9,9.0
D,2,5,9.0,1,0.0
E,8,1,3.0,1,0.0


# 데이터 중복 제거

In [148]:
import pandas as pd

df = pd.DataFrame({'k1':['one','two']*3 + ['two'],'k2':[1,1,2,3,3,4,4]})
df

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


## df.duplicated()
- 각 행의 중복여부를 확인하여 True/False 값으로 알려준다

In [149]:
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

## df.drop_duplicates()
- 모든 컬럼에 대해 중복된 값을 갖는 행을 제거한 데이터 프레임을 반환한다.

In [150]:
rm_duplicated = df.drop_duplicates()
rm_duplicated

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


## df/drop_duplicates('컬럼명 리스트')
- 매개변수로 주어진 컬럼명 목록에 대해 같은 값을 갖는 행을 제거한 데이터프레임을 반환한다

In [151]:
df['v1'] = range(7)
df

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [152]:
rm_duplicated2 = df.drop_duplicates(['k1','k2'])
rm_duplicated2

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5


- keep = 'last' 파라미터
    - duplicated() 와 drop_duplicates()는 기본적으로 처음 발견된 값을 유지한다.
    - keep = 'last' 옵션을 지정하면 마지막으로 발견된 값을 유지한다.

In [153]:
df.drop_duplicates(['k1','k2'], keep='last')


Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


# 데이터 프레임 재구조화

In [162]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(25).reshape(5,5), index= list('ABCDE'), columns=list('abcde'))

year_df = pd.DataFrame([2019,2020,2019,2020,2020],index=list('ABCDE'), columns=['year'])

class_df = pd.DataFrame(list('AABBA'),index=list('ABCDE'), columns=['class'])

df = pd.concat([df,year_df,class_df],axis=1)
df

Unnamed: 0,a,b,c,d,e,year,class
A,0,1,2,3,4,2019,A
B,5,6,7,8,9,2020,A
C,10,11,12,13,14,2019,B
D,15,16,17,18,19,2020,B
E,20,21,22,23,24,2020,A


## pd.pivot_table() (= df.pivot_table())
- 지정된 index와 column으로 피봇 테이블을 생성한다.
- 피봇 테이블: 기존 데이터를 기반으로 합계나 평균등의 통계를 산출하기 위해 새로운 표를 만드는 기능
- pivot_table(index = 행방향 컬럼, columns = 열방향 , values = 집계대상 컬럼, aggfunc = 집계 함수명)

In [160]:
# 데이터에 대해 특정 컬럼 항목으로만 정렬하고 싶을 때
# 그렇게 되면 해당 컬럼이 index가 되고, 중복된 컬럼의 항목은 하나로 합쳐지고, value 값들의 평균값을 가지게 된다
pivot1 = pd.pivot_table(df, index = 'year',columns = 'class')
pivot1

Unnamed: 0_level_0,a,a,b,b,c,c,d,d,e,e
class,A,B,A,B,A,B,A,B,A,B
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2019,0.0,10.0,1.0,11.0,2.0,12.0,3.0,13.0,4.0,14.0
2020,12.5,15.0,13.5,16.0,14.5,17.0,15.5,18.0,16.5,19.0


In [158]:
pivot2 = pd.pivot_table(df, index = ['year','class'])
pivot2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
year,class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019,A,0,1,2,3
2019,B,8,9,10,11
2020,A,4,5,6,7
2020,B,12,13,14,15


- 피벗테이블을 이용한 계산
- aggfunc 속성에 집계 함수를 지정(default 평균)


In [164]:
pivot3 = pd.pivot_table(df,index = 'year', values=['a','b','c','d','e'])
pivot3

Unnamed: 0_level_0,a,b,c,d,e
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019,5.0,6.0,7.0,8.0,9.0
2020,13.333333,14.333333,15.333333,16.333333,17.333333


In [169]:
pivot4 = pd.pivot_table(df, index= 'year', aggfunc = ['sum','mean'],values = ['a','b','c','d','e'])
pivot4

Unnamed: 0_level_0,sum,sum,sum,sum,sum,mean,mean,mean,mean,mean
Unnamed: 0_level_1,a,b,c,d,e,a,b,c,d,e
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2019,10,12,14,16,18,5.0,6.0,7.0,8.0,9.0
2020,40,43,46,49,52,13.333333,14.333333,15.333333,16.333333,17.333333


## [실습] 피봇 테이블 실습
- 'benefit' 컬럼 추가: 매출('sales') - 비용('cost')
- 피봇을 활용하여 연도별 분기 이익 데이터 확인
- 연도별 이익 평균/합계 계산

In [170]:
year_sr = pd.Series([2020]*4 +[2021]*4+[2022]*4)
quarter_sr = pd.Series(['1Q','2Q','3Q','4Q']*3)

np.random.seed(0)
sales_sr = pd.Series(np.random.randint(500,6000,12))
cost_sr = pd.Series(np.random.randint(100,1200,12))

df = pd.DataFrame({'year':year_sr,'quarter':quarter_sr,'sales':sales_sr,'cost':cost_sr})


Unnamed: 0,year,quarter,sales,cost
0,2020,1Q,3232,274
1,2020,2Q,3107,949
2,2020,3Q,2153,637
3,2020,4Q,3764,945
4,2021,1Q,5431,172
5,2021,2Q,5359,877
6,2021,3Q,1533,215
7,2021,4Q,4873,1076
8,2022,1Q,3968,855
9,2022,2Q,1205,548


In [180]:
#year_df = pd.DataFrame([2019,2020,2019,2020,2020],index=list('ABCDE'), columns=['year'])
df['benefit'] = df['sales'] - df['cost']
#df = pd.concat([df,year_df,class_df],axis=1)
df

Unnamed: 0,year,quarter,sales,cost,benefit
0,2020,1Q,3232,274,2958
1,2020,2Q,3107,949,2158
2,2020,3Q,2153,637,1516
3,2020,4Q,3764,945,2819
4,2021,1Q,5431,172,5259
5,2021,2Q,5359,877,4482
6,2021,3Q,1533,215,1318
7,2021,4Q,4873,1076,3797
8,2022,1Q,3968,855,3113
9,2022,2Q,1205,548,657


In [183]:
df_pivot = pd.pivot_table(df, index ='year', columns = 'quarter', values = 'benefit')

df_pivot

quarter,1Q,2Q,3Q,4Q
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020,2958,2158,1516,2819
2021,5259,4482,1318,3797
2022,3113,657,2149,2436


In [184]:
df_pivot = pd.pivot_table(df, index = ['year','quarter'],values = 'benefit')
df_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,benefit
year,quarter,Unnamed: 2_level_1
2020,1Q,2958
2020,2Q,2158
2020,3Q,1516
2020,4Q,2819
2021,1Q,5259
2021,2Q,4482
2021,3Q,1318
2021,4Q,3797
2022,1Q,3113
2022,2Q,657


In [186]:
df_pivot = pd.pivot_table(df,index = 'year',values = 'benefit',aggfunc = ['sum','mean'])
df_pivot

Unnamed: 0_level_0,sum,mean
Unnamed: 0_level_1,benefit,benefit
year,Unnamed: 1_level_2,Unnamed: 2_level_2
2020,9451,2362.75
2021,14856,3714.0
2022,8355,2088.75


## 다중 인덱스
- index, columns 를 중첩 형태로 전달해서 다중 인덱스를 설정할 수 있다.

In [187]:
df = pd.DataFrame(np.arange(16).reshape(4,4), index = [[1,2,3,4],['Java','Python','Java','Python']], columns = [['1기','1기','2기','2기']
    ,['오전','오후','오전','오후']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,1기,1기,2기,2기
Unnamed: 0_level_1,Unnamed: 1_level_1,오전,오후,오전,오후
1,Java,0,1,2,3
2,Python,4,5,6,7
3,Java,8,9,10,11
4,Python,12,13,14,15


In [188]:
df['1기']

Unnamed: 0,Unnamed: 1,오전,오후
1,Java,0,1
2,Python,4,5
3,Java,8,9
4,Python,12,13


In [189]:
df['1기','오후']

1  Java       1
2  Python     5
3  Java       9
4  Python    13
Name: (1기, 오후), dtype: int32

# 그룹핑
- 특정 값을 기준으로 몇개의 그룹으로 분할 하여 처리하는 방식

In [190]:
import numpy as np
import pandas as pd

df = pd.DataFrame({'A':['chol','youn']*3 + ['chol'],'B':['one','one','two','one','two','two','one'],'C':np.random.randn(7),
                   'D':np.random.randn(7)})
df

Unnamed: 0,A,B,C,D
0,chol,one,-0.181583,0.680567
1,youn,one,1.410205,-1.563497
2,chol,two,-0.374472,-0.566698
3,youn,one,0.275198,-0.24215
4,chol,two,-0.960755,1.514391
5,youn,two,0.376927,-0.333057
6,chol,one,0.033439,0.047365


## 그룹 객체 만들기

In [193]:
grouped = df.groupby('B')
print(grouped)

for key,group in grouped:
    print('key: ',key)
    print('group: ',group.head())

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022D23D71D50>
key:  one
group:        A    B         C         D
0  chol  one -0.181583  0.680567
1  youn  one  1.410205 -1.563497
3  youn  one  0.275198 -0.242150
6  chol  one  0.033439  0.047365
key:  two
group:        A    B         C         D
2  chol  two -0.374472 -0.566698
4  chol  two -0.960755  1.514391
5  youn  two  0.376927 -0.333057


In [195]:
# 특정 그룹만 선택할 수 있다.
one_group = grouped.get_group('one')
one_group.head()

Unnamed: 0,A,B,C,D
0,chol,one,-0.181583,0.680567
1,youn,one,1.410205,-1.563497
3,youn,one,0.275198,-0.24215
6,chol,one,0.033439,0.047365


## 그룹 연산
그룹별 통계치 구하기
- df.groupby (컬럼명).통계함수()
    - DataFrame의 **함수 적용 가능 컬럼들에** 대해 그룹별 통계치를 구함
    - 통계함수에는 sum,mean,std(표준),var(분산),min,max,count,quantile(4분위값)
- df.groupby(컬럼명)[컬럼명 목록].통계함수()
    - **특정 컬럼(들)**에 대한 통계값을 확인하고자 할 때
    - [컬럼명]: 결과가 Series
    - [[컬럼명]]: 결과가 DataFrame
    - [[컬럼명1,컬럼명2,...]] : DataFrame

In [197]:
df.groupby('B')[['C','D']].sum()

Unnamed: 0_level_0,C,D
B,Unnamed: 1_level_1,Unnamed: 2_level_1
one,1.537259,-1.077714
two,-0.958299,0.614636


In [198]:
df.pivot_table(index='B',values = ['C','D'], aggfunc= 'sum')

Unnamed: 0_level_0,C,D
B,Unnamed: 1_level_1,Unnamed: 2_level_1
one,1.537259,-1.077714
two,-0.958299,0.614636


In [199]:
data = pd.read_csv('sales.csv')
data

Unnamed: 0,부서,순위,연도,매출액
0,영업1팀,1,2014,876
1,해외영업팀,2,2014,789
2,영업2팀,3,2014,788
3,영업1팀,3,2015,788
4,영업2팀,1,2015,980
5,해외영업팀,2,2015,877
6,해외영업팀,3,2017,657
7,영업1팀,1,2017,910
8,영업2팀,2,2017,755
9,해외영업팀,1,2018,987


In [202]:
# 부서별 매출액 합계 산출
data.groupby('부서')[['매출액']].sum()
#df.groupby('B')[['C','D']].sum()

Unnamed: 0_level_0,매출액
부서,Unnamed: 1_level_1
영업1팀,3334
영업2팀,3193
해외영업팀,3310


In [206]:
# 멀티 인덱스 이용: 부서별 연도별 매출액 합계 산출
multi = data.groupby(['부서','연도'])[['매출액']].sum()
multi

Unnamed: 0_level_0,Unnamed: 1_level_0,매출액
부서,연도,Unnamed: 2_level_1
영업1팀,2014,876
영업1팀,2015,788
영업1팀,2017,910
영업1팀,2018,760
영업2팀,2014,788
영업2팀,2015,980
영업2팀,2017,755
영업2팀,2018,670
해외영업팀,2014,789
해외영업팀,2015,877


In [207]:
# df.unstack(): 멀티 인덱스의 하위 레벨 인덱스의 컬럼화
multi.unstack()

Unnamed: 0_level_0,매출액,매출액,매출액,매출액
연도,2014,2015,2017,2018
부서,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
영업1팀,876,788,910,760
영업2팀,788,980,755,670
해외영업팀,789,877,657,987


## Aggregation
- 집계 연산을 처리하는 함수를 그룹 객체에 적용
- df.groupby(컬럼명)[컬럼명 목록].agg([통계함수1, 통계함수2,...])


In [208]:
grouped = data.groupby('부서')
#name = grouopby로 정한 컬럼
for name, group in grouped:
    print('부서명:', name)
    print(group)
    print('-'*50)

부서명: 영업1팀
      부서  순위    연도  매출액
0   영업1팀   1  2014  876
3   영업1팀   3  2015  788
7   영업1팀   1  2017  910
10  영업1팀   2  2018  760
--------------------------------------------------
부서명: 영업2팀
      부서  순위    연도  매출액
2   영업2팀   3  2014  788
4   영업2팀   1  2015  980
8   영업2팀   2  2017  755
11  영업2팀   3  2018  670
--------------------------------------------------
부서명: 해외영업팀
      부서  순위    연도  매출액
1  해외영업팀   2  2014  789
5  해외영업팀   2  2015  877
6  해외영업팀   3  2017  657
9  해외영업팀   1  2018  987
--------------------------------------------------


In [209]:
#부서별 최대 매출액과 최소 매출액 차이 계산 함수
def min_max(x):
    return x.max() - x.min()

agg_min_max = grouped['매출액'].agg(min_max)
agg_min_max

부서
영업1팀     150
영업2팀     310
해외영업팀    330
Name: 매출액, dtype: int64

In [230]:
# 해외-영업 부서의 평균 매출액 확인
def h_mean(x):
    return x.mean()

hm = grouped.get_group('해외영업팀')
hm

Unnamed: 0,부서,순위,연도,매출액
1,해외영업팀,2,2014,789
5,해외영업팀,2,2015,877
6,해외영업팀,3,2017,657
9,해외영업팀,1,2018,987


In [217]:
grouped['매출액'].agg([np.sum,np.mean,np.max,np.min])

Unnamed: 0_level_0,sum,mean,amax,amin
부서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
영업1팀,3334,833.5,910,760
영업2팀,3193,798.25,980,670
해외영업팀,3310,827.5,987,657
