# Numpy

파이썬으로 행렬, 수치 계산 등 데이터를 다루기 쉽게 도와주는 데이터 조작 라이브러리

In [1]:
import numpy as np

In [2]:
# 배열 만들기
np.array([1,3,5])
np.array(([1,2,3],[4,5,6]))

array([[1, 2, 3],
       [4, 5, 6]])

In [3]:
# 0으로 가득 찬 배열 만들기
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [4]:
# 배열의 형태 알기
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
a.shape

(3, 4)

In [5]:
# 배열의 필요한 부분 자르기
a = np.array(['a','b',3,4])
print(a[1:3])

['b' '3']


In [6]:
b = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(b)
print(b[0:2, 1:3])
print(b[:, 1:3])
print(b[1:, :])
print(b[:,:])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[2 3]
 [6 7]]
[[ 2  3]
 [ 6  7]
 [10 11]]
[[ 5  6  7  8]
 [ 9 10 11 12]]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [7]:
# 내용 수정하기
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
# 3행 4열을 1로 바꾸기
a[2,3] = 1
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11,  1]])

In [8]:
# 배열에 상수 연산
n1 = np.array([3,6,9])
print(n1)
print(n1+5)
print(n1-5)
print(n1*5)
print(n1/5)
print(n1%5)

[3 6 9]
[ 8 11 14]
[-2  1  4]
[15 30 45]
[0.6 1.2 1.8]
[3 1 4]


In [9]:
# 배열끼리 연산
n2 = np.array([1,2,3])
print(n1+n2)
print(n1-n2)
print(n1*n2)
print(n1/n2)
print(n1%n2)
print(n1.dot(n2))

[ 4  8 12]
[2 4 6]
[ 3 12 27]
[3. 3. 3.]
[0 0 0]
42


In [10]:
# 계산 기능
n3 = np.array([[1,2,3,4], [5,6,9,10]])
print(np.max(n3))
print(np.min(n3))
print(np.mean(n3)) # np.average도 가능
print(np.median(n3))
print(np.var(n3))
print(np.std(n3))

10
1
5.0
4.5
9.0
3.0


In [11]:
# 요소 선택
print(n3)
print(n3>=4)
print(n3[n3>=4])

[[ 1  2  3  4]
 [ 5  6  9 10]]
[[False False False  True]
 [ True  True  True  True]]
[ 4  5  6  9 10]


# Pandas

파이썬으로 마치 프로그래밍 버전의 엑셀을 다루듯 고성능의 데이터 구조를 만들 수 있는 라이브러리

In [12]:
import pandas as pd

### 시리즈 만들기

In [13]:
# 시리즈 만들기
# nan : not a number
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [14]:
s1 = pd.Series({
    '김': 100,
    '나': 141,
    '박': 129,
    '이': 124
})
s1.name = '수학'
print(s1)
print('--------------')

# name 지정 안하는 경우
s2 = pd.Series({
    '김': 30,
    '나': 5,
    '박': 1239,
    '이': 141
})
print(s2)
print('---------------')

# index 지정 안하는 경우
s3 = pd.Series([10,15,20,40])
s3.name = '국어'
print(s3)
print('---------------')

# name, index 모두 지정 안하는 경우
s4 = pd.Series([1,2,3,4])
print(s4)

김    100
나    141
박    129
이    124
Name: 수학, dtype: int64
--------------
김      30
나       5
박    1239
이     141
dtype: int64
---------------
0    10
1    15
2    20
3    40
Name: 국어, dtype: int64
---------------
0    1
1    2
2    3
3    4
dtype: int64


### 데이터프레임 만들기

In [15]:
df = pd.DataFrame({'출생지': ['한국', '미국'], '나이': [20, 24]})
df

Unnamed: 0,출생지,나이
0,한국,20
1,미국,24


In [16]:
# 열 추가
df['성별'] = ['남', '여']
df

Unnamed: 0,출생지,나이,성별
0,한국,20,남
1,미국,24,여


In [17]:
# 행 추가
df.loc[2] = ['일본', 25, '여']
df

Unnamed: 0,출생지,나이,성별
0,한국,20,남
1,미국,24,여
2,일본,25,여


In [18]:
df2 = pd.DataFrame(s1)
df2['영어'] = s2
df2['미술'] = [1,2,3,4]
df2

Unnamed: 0,수학,영어,미술
김,100,30,1
나,141,5,2
박,129,1239,3
이,124,141,4


In [19]:
# 특정 열 선택
df[['출생지']]

Unnamed: 0,출생지
0,한국
1,미국
2,일본


### 위치값 지정

In [20]:
# loc(location)로 위치값 지정 가능
# 특정 행 선택
df.loc[[0,2]]

Unnamed: 0,출생지,나이,성별
0,한국,20,남
2,일본,25,여


In [21]:
# 특정 행과 열 선택 (왼쪽이 행, 오른쪽이 열)
df.loc[[0,2], ['나이','성별']]

Unnamed: 0,나이,성별
0,20,남
2,25,여


In [22]:
# 조건
df.loc[df['나이'] >= 21, '나이'].mean()
# df.loc[조건, 열의 이름]
# --> df에서 나이가 21 이상인 학생들의 나이 평균을 보여달라

24.5

In [23]:
# iloc로 행과 열 번호로 데이터 접근 가능
df.iloc[2]

출생지    일본
나이     25
성별      여
Name: 2, dtype: object

In [24]:
df.iloc[0:2,0:2]

Unnamed: 0,출생지,나이
0,한국,20
1,미국,24


In [25]:
df.iloc[[1,2],0:2]

Unnamed: 0,출생지,나이
1,미국,24
2,일본,25


In [26]:
df.iloc[0:2,:]

Unnamed: 0,출생지,나이,성별
0,한국,20,남
1,미국,24,여


In [27]:
df.iloc[:,0:2]

Unnamed: 0,출생지,나이
0,한국,20
1,미국,24
2,일본,25


### 계산하기

In [28]:
df2

Unnamed: 0,수학,영어,미술
김,100,30,1
나,141,5,2
박,129,1239,3
이,124,141,4


In [29]:
# 열 합계
print(df2.sum())

# 열 평균
print(df2.mean()) # print(df2.mean(axis=0))과 같음

# 행 평균
print(df2.mean(axis=1))

# '수학' 열 평균
print(df2['수학'].mean())

수학     494
영어    1415
미술      10
dtype: int64
수학    123.50
영어    353.75
미술      2.50
dtype: float64
김     43.666667
나     49.333333
박    457.000000
이     89.666667
dtype: float64
123.5


### 데이터프레임 보여주기

In [30]:
dates = pd.date_range('20200301', periods = 6)
dates

DatetimeIndex(['2020-03-01', '2020-03-02', '2020-03-03', '2020-03-04',
               '2020-03-05', '2020-03-06'],
              dtype='datetime64[ns]', freq='D')

In [31]:
df3 = pd.DataFrame(np.random.randn(6,4), index = dates, columns = ['A', 'B', 'C', 'D'])
df3

Unnamed: 0,A,B,C,D
2020-03-01,-0.526729,-0.016533,1.514953,-0.147504
2020-03-02,0.423877,0.382296,-0.481999,-1.622659
2020-03-03,-1.486251,-0.311564,0.330879,0.605061
2020-03-04,0.368943,0.770317,2.227853,-0.563115
2020-03-05,-0.251618,1.796748,0.019616,0.040151
2020-03-06,1.004428,1.646248,0.459007,-1.308748


In [32]:
df3.index

DatetimeIndex(['2020-03-01', '2020-03-02', '2020-03-03', '2020-03-04',
               '2020-03-05', '2020-03-06'],
              dtype='datetime64[ns]', freq='D')

In [33]:
df3.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [34]:
df3.values

array([[-0.52672915, -0.01653308,  1.51495251, -0.14750435],
       [ 0.42387742,  0.38229579, -0.48199898, -1.62265925],
       [-1.48625139, -0.31156363,  0.33087859,  0.60506119],
       [ 0.36894257,  0.77031694,  2.22785257, -0.56311531],
       [-0.25161752,  1.79674819,  0.01961645,  0.04015081],
       [ 1.00442775,  1.64624801,  0.45900744, -1.30874808]])

In [35]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2020-03-01 to 2020-03-06
Freq: D
Data columns (total 4 columns):
A    6 non-null float64
B    6 non-null float64
C    6 non-null float64
D    6 non-null float64
dtypes: float64(4)
memory usage: 240.0 bytes


In [36]:
df3.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.077892,0.711252,0.678385,-0.499469
std,0.876123,0.864875,1.004992,0.843279
min,-1.486251,-0.311564,-0.481999,-1.622659
25%,-0.457951,0.083174,0.097432,-1.12234
50%,0.058663,0.576306,0.394943,-0.35531
75%,0.410144,1.427265,1.250966,-0.006763
max,1.004428,1.796748,2.227853,0.605061


In [37]:
# B열을 기준으로 내림차순 정렬
df3.sort_values(by='B', ascending=False)

Unnamed: 0,A,B,C,D
2020-03-05,-0.251618,1.796748,0.019616,0.040151
2020-03-06,1.004428,1.646248,0.459007,-1.308748
2020-03-04,0.368943,0.770317,2.227853,-0.563115
2020-03-02,0.423877,0.382296,-0.481999,-1.622659
2020-03-01,-0.526729,-0.016533,1.514953,-0.147504
2020-03-03,-1.486251,-0.311564,0.330879,0.605061


In [38]:
# A열 값이 0보다 큰 것만 보여주기
df3[df3.A>0]

Unnamed: 0,A,B,C,D
2020-03-02,0.423877,0.382296,-0.481999,-1.622659
2020-03-04,0.368943,0.770317,2.227853,-0.563115
2020-03-06,1.004428,1.646248,0.459007,-1.308748


In [39]:
# 모든 값 중에서 0보다 큰 것만 보여주기
df3[df3>0]

Unnamed: 0,A,B,C,D
2020-03-01,,,1.514953,
2020-03-02,0.423877,0.382296,,
2020-03-03,,,0.330879,0.605061
2020-03-04,0.368943,0.770317,2.227853,
2020-03-05,,1.796748,0.019616,0.040151
2020-03-06,1.004428,1.646248,0.459007,


In [40]:
# 데이터의 내용까지 복사하라
df4 = df3.copy()
# 새로운 열 추가
df4['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df4

Unnamed: 0,A,B,C,D,E
2020-03-01,-0.526729,-0.016533,1.514953,-0.147504,one
2020-03-02,0.423877,0.382296,-0.481999,-1.622659,one
2020-03-03,-1.486251,-0.311564,0.330879,0.605061,two
2020-03-04,0.368943,0.770317,2.227853,-0.563115,three
2020-03-05,-0.251618,1.796748,0.019616,0.040151,four
2020-03-06,1.004428,1.646248,0.459007,-1.308748,three


In [41]:
# E열에 two, four가 있는가
df4['E'].isin(['two','four'])

2020-03-01    False
2020-03-02    False
2020-03-03     True
2020-03-04    False
2020-03-05     True
2020-03-06    False
Freq: D, Name: E, dtype: bool

In [42]:
# E열에 two, four가 있는 행만 선택
df4[df4['E'].isin(['two','four'])]

Unnamed: 0,A,B,C,D,E
2020-03-03,-1.486251,-0.311564,0.330879,0.605061,two
2020-03-05,-0.251618,1.796748,0.019616,0.040151,four


### apply로 함수 적용하기

In [43]:
df3

Unnamed: 0,A,B,C,D
2020-03-01,-0.526729,-0.016533,1.514953,-0.147504
2020-03-02,0.423877,0.382296,-0.481999,-1.622659
2020-03-03,-1.486251,-0.311564,0.330879,0.605061
2020-03-04,0.368943,0.770317,2.227853,-0.563115
2020-03-05,-0.251618,1.796748,0.019616,0.040151
2020-03-06,1.004428,1.646248,0.459007,-1.308748


In [44]:
# cumsum으로 누적합 구하기
df3.apply(np.cumsum)

Unnamed: 0,A,B,C,D
2020-03-01,-0.526729,-0.016533,1.514953,-0.147504
2020-03-02,-0.102852,0.365763,1.032954,-1.770164
2020-03-03,-1.589103,0.054199,1.363832,-1.165102
2020-03-04,-1.220161,0.824516,3.591685,-1.728218
2020-03-05,-1.471778,2.621264,3.611301,-1.688067
2020-03-06,-0.46735,4.267512,4.070309,-2.996815


In [45]:
# lambda로 최대값과 최소값 차이 구하기
df3.apply(lambda x: x.max() - x.min())

A    2.490679
B    2.108312
C    2.709852
D    2.227720
dtype: float64

### 두 데이터프레임 병합하기

In [46]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3'],},
                    index=[0,1,2,3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7'],},
                    index=[4,5,6,7])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11'],},
                    index=[8,9,10,11])

In [47]:
print(df1)
print(df2)
print(df3)

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
    A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7
      A    B    C    D
8    A8   B8   C8   D8
9    A9   B9   C9   D9
10  A10  B10  C10  D10
11  A11  B11  C11  D11


In [48]:
# 열방향으로 합치기
result = pd.concat([df1,df2,df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [49]:
# 다중 인덱스
result = pd.concat([df1,df2,df3], keys=['x','y','z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [50]:
result.index

MultiIndex([('x',  0),
            ('x',  1),
            ('x',  2),
            ('x',  3),
            ('y',  4),
            ('y',  5),
            ('y',  6),
            ('y',  7),
            ('z',  8),
            ('z',  9),
            ('z', 10),
            ('z', 11)],
           )

In [51]:
result.index.get_level_values(0)

Index(['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y', 'z', 'z', 'z', 'z'], dtype='object')

In [52]:
result.index.get_level_values(1)

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], dtype='int64')

In [53]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7'],},
                    index=[2,3,6,7])
result = pd.concat([df1,df4], axis=1)

In [54]:
print(df1)
print(df4)
print(result)

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
    B   D   F
2  B2  D2  F2
3  B3  D3  F3
6  B6  D6  F6
7  B7  D7  F7
     A    B    C    D    B    D    F
0   A0   B0   C0   D0  NaN  NaN  NaN
1   A1   B1   C1   D1  NaN  NaN  NaN
2   A2   B2   C2   D2   B2   D2   F2
3   A3   B3   C3   D3   B3   D3   F3
6  NaN  NaN  NaN  NaN   B6   D6   F6
7  NaN  NaN  NaN  NaN   B7   D7   F7


In [55]:
# 공통된 인덱스로 합치고 공통되지 않은 인덱스의 데이터는 버리기
result = pd.concat([df1,df4], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [56]:
# df1의 인덱스로 합치기
result = pd.concat([df1,df4], axis=1, join_axes=[df1.index])
result

  


Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [57]:
# 두 데이터의 인덱스를 무시하고 합친 후 다시 인덱스 부여, 이 때 열을 기준으로 합침
result = pd.concat([df1,df4], ignore_index = True)
result

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [58]:
left = pd.DataFrame({'key': ['K0', 'K4', 'K2', 'K3'],
                       'A': ['A0', 'A1', 'A2', 'A3'],
                       'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                       'C': ['C0', 'C1', 'C2', 'C3'],
                       'D': ['D0', 'D1', 'D2', 'D3']})

In [59]:
print(left)
print(right)

  key   A   B
0  K0  A0  B0
1  K4  A1  B1
2  K2  A2  B2
3  K3  A3  B3
  key   C   D
0  K0  C0  D0
1  K1  C1  D1
2  K2  C2  D2
3  K3  C3  D3


In [60]:
# 공통된 key에 대해서만 합쳐라
pd.merge(left, right, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [61]:
# 한 쪽의 데이터를 기준으로 합쳐라
pd.merge(left, right, how='left', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [62]:
pd.merge(left, right, how='right', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K1,,,C1,D1


In [63]:
# 합집합
pd.merge(left, right, how='outer', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


In [64]:
# 교집합
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
