## 별책 부록 2: <모두의 딥러닝 - 개정 3판>

# 데이터 분석을 위한 판다스

[<img src="https://raw.githubusercontent.com/taehojo/taehojo.github.io/master/assets/images/linktocolab.png" align="left"/> ](https://colab.research.google.com/github/taehojo/deeplearning/blob/master/colab/supplementary2_pands92-colab.ipynb)

### 데이터 분석의 필수 라이브러리, 판다스(Pandas) 

판다스(Pandas)는 데이터 분석과 관련된 다양한 기능을 제공하는 파이썬 라이브러리입니다. 데이터를 쉽게 조작하고 다룰 수 있도록 도와주기 때문에 딥러닝, 머신러닝을 스터디 하면 반드시 함께 배우게 됩니다. 판다스 매뉴얼과 판다스 홈페이지의 Cheat Sheet등을 조합해 가장 많이 쓰는 판다스 함수들을 모았습니다. 실전에서 바로 써먹는 92개의 판다스 공식을 확인해 보시기 바랍니다.

## A. 데이터 만들기

In [1]:
# 1. 판다스 라이브러리 불러오기
import pandas as pd

In [2]:
# 2. 데이터 프레임 만들기
df = pd.DataFrame(              # df라는 변수에 데이터 프레임을 담아 줍니다.
        {"a" : [4 ,5, 6, 7],    # 열 이름을 지정해 주고 시리즈 형태로 데이터를 저장합니다. 
        "b" : [8, 9, 10, 11],
        "c" : [12, 13, 14, 15]},
        index = [1, 2, 3, 4])   # 인덱스는 1,2,3으로 정해 줍니다.

In [3]:
# 3. 데이터 프레임 출력
df

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [4]:
# 4. 데이터의 열 이름을 따로 지정해서 만들기
df = pd.DataFrame(
        [[4, 8, 12],
        [5, 9, 13],
        [6, 10, 14],
        [7, 11, 15]],
        index=[1, 2, 3, 4],
        columns=['a', 'b', 'c'])  # 열 이름을 따로 정해줄 수 있습니다.  
df

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [5]:
# 5. 인덱스가 두 개인 데이터 프레임 만들기
df = pd.DataFrame(
    {"a" : [4 ,5, 6, 7], 
     "b" : [8, 9, 10, 11],
     "c" : [12, 13, 14, 15]},
    index = pd.MultiIndex.from_tuples(      # 인덱스를 튜플로 지정합니다. 
        [('d', 1), ('d', 2), ('e', 1), ('e', 2)],     
        names=['n', 'v']))                  # 인덱스 이름을 지정합니다.
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


## B. 데이터 정렬하기

In [6]:
# 6. 특정 열의 값을 기준으로 정렬하기
df.sort_values('a', ascending=False)  # ascending=False를 적어주면 역순으로 정렬합니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,2,7,11,15
e,1,6,10,14
d,2,5,9,13
d,1,4,8,12


In [7]:
# 7. 열 이름 변경하기 
df.rename(columns = {'c':'d'})  #c 열의 이름을 d로 변경합니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,d
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [8]:
# 8. 인덱스 값 초기화하기
df.reset_index()

Unnamed: 0,n,v,a,b,c
0,d,1,4,8,12
1,d,2,5,9,13
2,e,1,6,10,14
3,e,2,7,11,15


In [9]:
# 9. 인덱스 순서대로 정렬하기
df.sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [10]:
# 10. 특정 열 제거하기
df.drop(columns=['a', 'b']) 

Unnamed: 0_level_0,Unnamed: 1_level_0,c
n,v,Unnamed: 2_level_1
d,1,12
d,2,13
e,1,14
e,2,15


## C. 행 추출하기

In [11]:
# 11. 맨 위의 행 출력하기
df.head(2)  # 2행을 출력합니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13


In [12]:
# 12. 맨 아래 행 출력하기
df.tail(2)  # 2행을 출력합니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,1,6,10,14
e,2,7,11,15


In [13]:
# 13. 특정 열의 값을 통해 추출하기 
df[df["a"] > 4]          # a열 중 4보다 큰 값이 있을 경우 해당 행을 추출합니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [14]:
# 14. 특정 열에 특정 값이 있을 경우 추출하기
df[df["a"] == 6]       # a열 중 6이 있을 경우 해당 행을 추출합니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,1,6,10,14


In [15]:
# 15. 특정 열에 특정 값이 없을 경우 추출하기
df[df["a"] != 5]        # a열 중 5가 없을 경우 해당 행을 추출합니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
e,1,6,10,14
e,2,7,11,15


In [16]:
# 16. 특정 열에 특정 숫자가 있는지 확인하기
df[df['a'].isin([4])]  # 원하는 숫자를 리스트([int]) 형식으로 써줍니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12


In [17]:
# 17. 특정 비율로 데이터 샘플링하기
df.sample(frac=0.75)  # 실행할 때마다 정해진 비율 만큼 랜덤하게 추출합니다. 

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,1,6,10,14
d,1,4,8,12
e,2,7,11,15


In [18]:
# 18. 특정 개수 만큼 데이터 샘플링하기
df.sample(n=3)  # 실행할 때마다 n에서 정한 만큼 랜덤하게 추출합니다. 

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5,9,13
d,1,4,8,12
e,2,7,11,15


In [19]:
# 19. 특정 열에서 큰 순서대로 불러오기
df.nlargest(3,'a')   # a열에서 큰 순서대로 3개를 불러와 보겠습니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,2,7,11,15
e,1,6,10,14
d,2,5,9,13


In [20]:
# 20. 특정 열에서 작은 순서대로 불러오기
df.nsmallest(3,'a')   # a열에서 작은 순서대로 3개를 불러와 보겠습니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14


## D. 열 추출하기

In [21]:
# 21.인덱스의 범위로 불러오기

# 0부터 세므로 첫 번째 줄은 인덱스 0, 4째 줄은 인덱스 3이 됩니다. 
df.iloc[1:4]    # [a:b]의 경우 a 인덱스부터 b-1인덱스까지 불러오라는 의미입니다.# a열에서 큰 순서대로 3개를 불러와 보겠습니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [22]:
# 22.첫 인덱스를 지정해 불러오기
df.iloc[2:]    # [a:]는 a인덱스부터 마지막 인덱스까지 불러오라는 의미입니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,1,6,10,14
e,2,7,11,15


In [23]:
# 23.마지막 인덱스를 지정해 불러오기
df.iloc[:3]    # [:b]는 처음부터 b-1 인덱스까지 불러오라는 의미입니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14


In [24]:
# 24.모든 인덱스를 불러오기
df.iloc[:]    # [:]는 모든 인덱스를 불러오라는 의미입니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [25]:
# 25.특정 열을 지정하여 가져오기
df[['a', 'b']]   # a열과 b열을 가져오라는 의미입니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1
d,1,4,8
d,2,5,9
e,1,6,10
e,2,7,11


In [26]:
# 26.조건을 만족하는 열 가져오기
df.filter(regex='c')    # 열 이름에 c라는 문자가 포함되어 있으면 출력하라는 의미입니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,c
n,v,Unnamed: 2_level_1
d,1,12
d,2,13
e,1,14
e,2,15


In [27]:
# 27.특정 문자가 포함되지 않는 열 가져오기
df.filter(regex='^(?!c$).*')    # 열 이름에 c라는 문자가 포함되어 있지 않으면 출력하라는 의미입니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1
d,1,4,8
d,2,5,9
e,1,6,10
e,2,7,11


## E. 행과 열 추출하기

In [28]:
# 28.특정한 행과 열을 지정해 가져오기
#df.loc[가져올 행,가져올 열]의 형태로 불러옵니다.
df.loc[:, 'a':'c']     # 모든 인덱스에서, a열부터 c열까지를 가져오라는 의미입니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [29]:
# 29. 인덱스로 특정 행과 열 가져오기
df.iloc[0:3, [0, 2]]   # 0 인덱스부터 2인덱스까지, 0번째 열과 2번째 열을 가져오라는 의미입니다. (첫 열이 0번째입니다.)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1
d,1,4,12
d,2,5,13
e,1,6,14


In [30]:
# 30. 특정 열에서 조건을 만족하는 행과 열 가져오기
df.loc[df['a'] > 5, ['a', 'c']]  # a열의 값이 5보다 큰 경우의 a열과 c열을 출력하라는 의미입니다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1
e,1,6,14
e,2,7,15


In [31]:
# 31. 인덱스를 이용해 특정 조건을 만족하는 값 불러오기 
df.iat[1, 2]    # 1번째 인덱스에서 2번째 열 값을 가져옵니다. 

13

## F. 중복 데이터 다루기

In [32]:
# 실습을 위해 중복된 값이 포함된 데이터 프레임을 만들겠습니다.
df = pd.DataFrame(
    {"a" : [4 ,5, 6, 7, 7], 
     "b" : [8, 9, 10, 11, 11],
     "c" : [12, 13, 14, 15, 15]},
    index = pd.MultiIndex.from_tuples(     
        [('d', 1), ('d', 2), ('e', 1), ('e', 2), ('e',3)],     
        names=['n', 'v']))                 
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15
e,3,7,11,15


In [33]:
# 32. 특정 열에 어떤 값이 몇 개 들어 있는지 알아보기 
df['a'].value_counts()    

7    2
4    1
5    1
6    1
Name: a, dtype: int64

In [34]:
# 33. 데이터 프레임의 행이 몇 개인지 세어보기
len(df)

5

In [35]:
# 34. 데이터 프레임의 행이 몇 개인지, 열이 몇 개인지 세어보기
df.shape

(5, 3)

In [36]:
# 35. 특정 열에 유니크한 값이 몇 개인지 세어보기
df['a'].nunique()

4

In [37]:
# 36. 데이터 프레임의 형태를 한눈에 보기
df.describe()

Unnamed: 0,a,b,c
count,5.0,5.0,5.0
mean,5.8,9.8,13.8
std,1.30384,1.30384,1.30384
min,4.0,8.0,12.0
25%,5.0,9.0,13.0
50%,6.0,10.0,14.0
75%,7.0,11.0,15.0
max,7.0,11.0,15.0


In [38]:
# 37. 중복된 값 제거하기
df = df.drop_duplicates()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


## G. 데이터 파악하기

In [39]:
# 38. 각 열의 합 보기
df.sum()

a    22
b    38
c    54
dtype: int64

In [40]:
# 39. 각 열의 값이 모두 몇 개인지 보기
df.count()

a    4
b    4
c    4
dtype: int64

In [41]:
# 40. 각 열의 중간 값 보기
df.median()

a     5.5
b     9.5
c    13.5
dtype: float64

In [42]:
# 41. 특정 열의 평균 값 보기
df['b'].mean()

9.5

In [43]:
# 42. 각 열의 25%, 75%에 해당하는 수 보기
df.quantile([0.25,0.75])

Unnamed: 0,a,b,c
0.25,4.75,8.75,12.75
0.75,6.25,10.25,14.25


In [44]:
# 43. 각 열의 최솟값 보기
df.min()

a     4
b     8
c    12
dtype: int64

In [45]:
# 44. 각 열의 최댓값 보기
df.max()

a     7
b    11
c    15
dtype: int64

In [46]:
# 45. 각 열의 표준편차 보기
df.std()

a    1.290994
b    1.290994
c    1.290994
dtype: float64

In [47]:
# 46. 데이터 프레임 각 값에 일괄 함수 적용하기 
import numpy as np
df.apply(np.sqrt)  # 제곱근 구하기

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,2.0,2.828427,3.464102
d,2,2.236068,3.0,3.605551
e,1,2.44949,3.162278,3.741657
e,2,2.645751,3.316625,3.872983


## H. 결측치 다루기

In [48]:
# 넘파이 라이브러리를 이용해 null 값이 들어 있는 데이터 프레임 만들기 

df = pd.DataFrame( 
    {"a" : [4 ,5, 6, np.nan], 
     "b" : [7, 8, np.nan, 9], 
     "c" : [10, np.nan, 11, 12]},    
    index = pd.MultiIndex.from_tuples(
        [('d', 1), ('d', 2), ('e', 1), ('e', 2)],     
        names=['n', 'v']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,
e,1,6.0,,11.0
e,2,,9.0,12.0


In [49]:
# 47. null 값인지 확인하기
pd.isnull(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,False,False,False
d,2,False,False,True
e,1,False,True,False
e,2,True,False,False


In [50]:
# 48. null 값이 아닌지를 확인하기
pd.notnull(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,True,True,True
d,2,True,True,False
e,1,True,False,True
e,2,False,True,True


In [51]:
# 49. null 값이 있는 행 삭제하기
df_notnull = df.dropna()
df_notnull

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0


In [52]:
# 50. null 값을 특정한 값으로 대체하기
df_fillna = df.fillna(13)
df_fillna

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,13.0
e,1,6.0,13.0,11.0
e,2,13.0,9.0,12.0


In [53]:
# 51. null 값을 특정한 계산 결과으로 대체하기
df_fillna_mean = df.fillna(df['a'].mean())   # a열의 평균 값으로 대체
df_fillna_mean

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,5.0
e,1,6.0,5.0,11.0
e,2,5.0,9.0,12.0


## I. 새로운 열 만들기

In [54]:
# 새로운 열 만들기 실습을 위한 데이터 프레임 만들기 
df = pd.DataFrame(
    {"a" : [4 ,5, 6, 7], 
     "b" : [8, 9, 10, 11],
     "c" : [12, 13, 14, 15]},
    index = pd.MultiIndex.from_tuples(      # 인덱스를 튜플로 지정합니다. 
        [('d', 1), ('d', 2), ('e', 1), ('e', 2)],     
        names=['n', 'v']))                  # 인덱스 이름을 지정합니다.
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [55]:
# 52. 조건에 맞는 새 열 만들기
df['sum'] = df['a']+df['b']+df['c']
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,sum
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
d,1,4,8,12,24
d,2,5,9,13,27
e,1,6,10,14,30
e,2,7,11,15,33


In [56]:
# 53. assign()을 이용해 조건에 맞는 새 열 만들기
df = df.assign(multiply=lambda df: df['a']*df['b']*df['c'])    # a,b,c열의 값을 모두 더해 d열을 만들어 줍니다.
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,sum,multiply
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
d,1,4,8,12,24,384
d,2,5,9,13,27,585
e,1,6,10,14,30,840
e,2,7,11,15,33,1155


In [57]:
# 54. 숫자형 데이터를 구간으로 나누기 
df['qcut'] = pd.qcut(df['a'], 2, labels=["600이하","600이상"])  # a열을 2개로 나누어 각각 새롭게 레이블을 만들라는 의미
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,sum,multiply,qcut
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
d,1,4,8,12,24,384,600이하
d,2,5,9,13,27,585,600이하
e,1,6,10,14,30,840,600이상
e,2,7,11,15,33,1155,600이상


In [58]:
# 55. 기준 값 이하와 이상을 모두 통일시키기
df['clip'] = df['a'].clip(lower=5,upper=6)  # a열에서 5이하는 모두 5로, 6 이상은 모두 6으로 변환
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,sum,multiply,qcut,clip
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
d,1,4,8,12,24,384,600이하,5
d,2,5,9,13,27,585,600이하,5
e,1,6,10,14,30,840,600이상,6
e,2,7,11,15,33,1155,600이상,6


In [59]:
# 56. 최댓값 불러오기
df.max(axis=0)   #axis=0은 행과 행 비교, axis=1은 열과 열 비교

a               7
b              11
c              15
sum            33
multiply     1155
qcut        600이상
clip            6
dtype: object

In [60]:
# 57. 최솟값 불러오기
df.min(axis=0)    

a               4
b               8
c              12
sum            24
multiply      384
qcut        600이하
clip            5
dtype: object

## J. 행과 열 변환하기

In [61]:
# 열을 행으로, 행을 열로 변형하기

# 실습을 위해 새로운 데이터 만들기
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}})
df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [62]:
# 58. 모든 열을 행으로 변환하기 
pd.melt(df)

Unnamed: 0,variable,value
0,A,a
1,A,b
2,A,c
3,B,1
4,B,3
5,B,5
6,C,2
7,C,4
8,C,6


In [63]:
# 59. 하나의 열만 행으로 이동시키기
pd.melt(df, id_vars=['A'], value_vars=['B'])    # A열만 그대로, B열은 행으로 이동시키기

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5


In [64]:
# 60. 여러 개의 열을 행으로 이동시키기
df_melt = pd.melt(df, id_vars=['A'], value_vars=['B','C'])    # A열만 그대로, B열과 C열은 행으로 이동시키기
df_melt

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


In [65]:
#61. 특정 열의 값을 기준으로 새로운 열 만들기 
df_pivot = df_melt.pivot(index='A', columns='variable', values='value')  # A열을 새로운 인덱스로 만들고, B열과 C열을 이에 따라 정리
df_pivot

variable,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1,2
b,3,4
c,5,6


In [66]:
#62. 원래 데이터 형태로 되돌리기
df_origin = df_pivot.reset_index()  # 인덱스를 리셋
df_origin.columns.name = None       # 인덱스 열의 이름을 초기화
df_origin

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


## K. 시리즈 데이터 연결하기

In [67]:
# 시리즈 데이터 만들기
s1 = pd.Series(['a', 'b'])
s1

0    a
1    b
dtype: object

In [68]:
# 시리즈 데이터 2
s2 = pd.Series(['c', 'd'])
s2

0    c
1    d
dtype: object

In [69]:
# 63. 시리즈 데이터 합치기
pd.concat([s1, s2])

0    a
1    b
0    c
1    d
dtype: object

In [70]:
# 64. 데이터 병합 시 새로운 인덱스 만들기
pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

In [71]:
# 65. 계층적 인덱스 추가하고 열 이름 지정하기
pd.concat([s1, s2], 
          keys=['s1', 's2'], 
          names=['Series name', 'Row ID'])

Series name  Row ID
s1           0         a
             1         b
s2           0         c
             1         d
dtype: object

## L. 데이터 프레임 연결하기

In [72]:
# 데이터 프레임 합치기

# 데이터 프레임 1
df1 = pd.DataFrame([['a', 1], 
                    ['b', 2]],
                       columns=['letter', 'number'])
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [73]:
# 데이터 프레임 2
df2 = pd.DataFrame([['c', 3], 
                    ['d', 4]],
                   columns=['letter', 'number'])
df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [74]:
# 데이터 프레임 3
df3 = pd.DataFrame([['c', 3, 'cat'], 
                    ['d', 4, 'dog']],
                       columns=['letter', 'number', 'animal'])
df3

Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


In [75]:
#데이터 프레임 4
df4 = pd.DataFrame([['bird', 'polly'], 
                    ['monkey', 'george']],
                   columns=['animal', 'name'])
df4

Unnamed: 0,animal,name
0,bird,polly
1,monkey,george


In [76]:
# 66. 데이터 프레임 합치기
pd.concat([df1, df2])

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [77]:
# 67. 열의 수가 다른 두 데이터 프레임 합치기
pd.concat([df1, df3])

Unnamed: 0,letter,number,animal
0,a,1,
1,b,2,
0,c,3,cat
1,d,4,dog


In [78]:
# 68. 함께 공유하는 열만 합치기
pd.concat([df1, df3], join="inner")

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [79]:
# 69. 열 이름이 서로 다른 데이터 합치기
pd.concat([df1, df4], axis=1)

Unnamed: 0,letter,number,animal,name
0,a,1,bird,polly
1,b,2,monkey,george


## M. 데이터 병합하기

In [80]:
# 실습을 위한 데이터 프레임 만들기 1
adf = pd.DataFrame({"x1" : ["A","B","C"], 
                    "x2": [1,2,3]})
adf

Unnamed: 0,x1,x2
0,A,1
1,B,2
2,C,3


In [81]:
# 데이터 프레임 만들기 2
bdf = pd.DataFrame({"x1" : ["A","B","D"], 
                    "x3": ["T","F","T"]})
bdf

Unnamed: 0,x1,x3
0,A,T
1,B,F
2,D,T


In [82]:
# 데이터 프레임 만들기 3
cdf = pd.DataFrame({"x1" : ["B","C","D"], 
                    "x2": [2,3,4]})
cdf

Unnamed: 0,x1,x2
0,B,2
1,C,3
2,D,4


In [83]:
# 70. 왼쪽 열을 축으로 병합하기
pd.merge(adf, bdf, how='left', on='x1')   
# x1을 키로 해서 병합, 왼쪽(adf)를 기준으로
# 왼쪽의 adf에는 D가 없으므로 해당 값은 NaN으로 변환 

Unnamed: 0,x1,x2,x3
0,A,1,T
1,B,2,F
2,C,3,


In [84]:
# 71. 오른쪽 열을 축으로 병합하기 
pd.merge(adf, bdf, how='right', on='x1')   
# x1을 키로 해서 병합, 오른쪽(bdf)을 기준으로
# 오른쪽의 bdf에는 C가 없으므로 해당 값은 NaN으로 변환 

Unnamed: 0,x1,x2,x3
0,A,1.0,T
1,B,2.0,F
2,D,,T


In [85]:
# 72. 공통의 값만 병합
pd.merge(adf, bdf, how='inner', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1,T
1,B,2,F


In [86]:
# 73. 모든 값을 병합
pd.merge(adf, bdf, how='outer', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1.0,T
1,B,2.0,F
2,C,3.0,
3,D,,T


In [87]:
# 74. 특정한 열을 비교하여 공통 값이 존재하는 경우만 가져오기
adf[adf.x1.isin(bdf.x1)]  
# adf와 bdf의 특정한 열을 비교하여 공통 값이 존재하는 경우만 가져오기
# adf.x1열과 bdf.x1열은 A,B가 같다. 따라서 adf의 해당 값만 출력

Unnamed: 0,x1,x2
0,A,1
1,B,2


In [88]:
# 75. 공통 값이 존재하는 경우 해당 값을 제외하고 병합하기
adf[~adf.x1.isin(bdf.x1)]  # 해당 값만 빼고 출력

Unnamed: 0,x1,x2
2,C,3


In [89]:
# 76. 공통의 값이 있는 것만 병합
pd.merge(adf, cdf)

Unnamed: 0,x1,x2
0,B,2
1,C,3


In [90]:
# 77. 모두 병합
pd.merge(adf, cdf, how='outer')

Unnamed: 0,x1,x2
0,A,1
1,B,2
2,C,3
3,D,4


In [91]:
# 78. 어디서 병합되었는지 표시하기
pd.merge(adf, cdf, how='outer', indicator=True)

Unnamed: 0,x1,x2,_merge
0,A,1,left_only
1,B,2,both
2,C,3,both
3,D,4,right_only


In [92]:
# 79. 원하는 병합 만 남기기 
pd.merge(adf, cdf, how='outer', indicator=True).query('_merge == "left_only"')

Unnamed: 0,x1,x2,_merge
0,A,1,left_only


In [93]:
# 80. merge 컬럼 없애기 
pd.merge(adf, cdf, how='outer', indicator=True).query('_merge == "left_only"').drop(columns=['_merge'])

Unnamed: 0,x1,x2
0,A,1


## N.  데이터 가공하기

In [94]:
# 실습을 위해 데이터 프레임을 만들어 줍니다.
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 7],   # 열 이름을 지정해 주고 시리즈 형태로 데이터를 저장합니다. 
        "b" : [8, 9, 10, 11],
        "c" : [12, 13, 14, 15]},
        index = [1, 2, 3, 4])  # 인덱스는 1,2,3으로 정해 줍니다.
df

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [95]:
# 81. 행 전체를 한 칸 아래로 이동하기
df.shift(1)

Unnamed: 0,a,b,c
1,,,
2,4.0,8.0,12.0
3,5.0,9.0,13.0
4,6.0,10.0,14.0


In [96]:
# 82. 행 전체를 한 칸 위로 이동하기
df.shift(-1)

Unnamed: 0,a,b,c
1,5.0,9.0,13.0
2,6.0,10.0,14.0
3,7.0,11.0,15.0
4,,,


In [97]:
# 83. 윗 행부터 누적해서 더하기
df.cumsum()

Unnamed: 0,a,b,c
1,4,8,12
2,9,17,25
3,15,27,39
4,22,38,54


In [98]:
# 84. 새 행과 이전 행을 비교하면서 최댓값을 출력
df.cummax()

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [99]:
# 85. 새 행과 이전 행을 비교하면서 최솟값을 출력
df.cummin()

Unnamed: 0,a,b,c
1,4,8,12
2,4,8,12
3,4,8,12
4,4,8,12


In [100]:
# 85. 윗 행부터 누적해서 곱하기
df.cumprod()

Unnamed: 0,a,b,c
1,4,8,12
2,20,72,156
3,120,720,2184
4,840,7920,32760


### O. 그룹별로 집계하기

In [101]:
# 실습을 위해 데이터 불러오기
# 모두의 딥러닝 15장, 주택 가격 예측 데이터를 불러 옵니다.
df = pd.read_csv("../data/house_train.csv")
df

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


In [102]:
# 87. 그룹 지정 및 그룹별 데이터 수 표시
df.groupby(by="YrSold").size()   # 팔린 연도를 중심으로 그룹을 만든 후, 각 그룹별 수를 표시

YrSold
2006    314
2007    329
2008    304
2009    338
2010    175
dtype: int64

In [103]:
#88. 그룹 지정 후 원하는 컬럼 표시하기 
df.groupby(by="YrSold")['LotArea'].mean()   # 팔린 연도를 중심으로 그룹을 만들 후, 각 그룹별 주차장의 넓이를 표시. 

YrSold
2006    10489.458599
2007    10863.686930
2008    10587.687500
2009    10294.248521
2010    10220.645714
Name: LotArea, dtype: float64

In [104]:
# 89. 밀집도 기준으로 순위 부여하기 
df['SalePrice'].rank(method='dense')   # 각 집 값은 밀집도를 기준으로 몇 번째인가

0       413.0
1       340.0
2       443.0
3       195.0
4       495.0
        ...  
1455    315.0
1456    416.0
1457    528.0
1458    200.0
1459    222.0
Name: SalePrice, Length: 1460, dtype: float64

In [105]:
# 90. 최저 값을 기준으로 순위 부여하기
df['SalePrice'].rank(method='min')    # 각 집 값이 최저 값을 기준으로 몇 번째인가

0       1072.0
1        909.0
2       1135.0
3        490.0
4       1236.0
         ...  
1455     828.0
1456    1076.0
1457    1285.0
1458     524.0
1459     591.0
Name: SalePrice, Length: 1460, dtype: float64

In [106]:
# 91. 순위를 비율로 표시하기  
df['SalePrice'].rank(pct=True)    # 집 값의 순위를 비율로 표시 (0=가장 싼 집, 1=가장 비싼 집)

0       0.734247
1       0.622603
2       0.777740
3       0.342123
4       0.848973
          ...   
1455    0.569863
1456    0.738356
1457    0.880137
1458    0.358904
1459    0.404795
Name: SalePrice, Length: 1460, dtype: float64

In [107]:
# 92. 동일 순위에 대한 처리 방법 정하기 
df['SalePrice'].rank(method='first')   # 순위가 같을 때 순서가 빠른 사람을 상위로 처리하기

0       1072.0
1        909.0
2       1135.0
3        490.0
4       1236.0
         ...  
1455     836.0
1456    1080.0
1457    1285.0
1458     524.0
1459     591.0
Name: SalePrice, Length: 1460, dtype: float64