In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt
import seaborn as sns

## Numpy

### np array

In [2]:
arr1 = np.array([[1.0,2,3],[4,5,6],[7,8,9]])
arr1

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

### np arange를 통한 np array 생성

In [3]:
arr2 = np.arange(11,20, 1) # np.arange(start, end, step)
arr2

array([11, 12, 13, 14, 15, 16, 17, 18, 19])

### np random randint를 통한 np array 생성

In [4]:
np.random.seed(10) # random 관련 함수는 모두 seed를 사용할 수 있다.
arr3 = np.random.randint(1, 30, 16) # 1~29 범위에서 16개 반환
arr3

array([10,  5, 16,  1, 18, 28, 29, 26, 17, 18, 27,  9, 10,  1, 11,  9])

### np array 특성 조회

In [5]:
print('차원:',arr1.ndim)
print('shape:',arr1.shape)
print('size:', arr1.size)
print('데이터 타입:', arr1.dtype)
print('T:\n', arr1.T) # 원본이 바뀐 것은 아니다.

차원: 2
shape: (3, 3)
size: 9
데이터 타입: float64
T:
 [[1. 4. 7.]
 [2. 5. 8.]
 [3. 6. 9.]]


### np reshape

In [6]:
arr2 = arr2.reshape(3,3)

print('차원:',arr2.ndim)
print('shape:',arr2.shape)
print('size:', arr2.size)

차원: 2
shape: (3, 3)
size: 9


In [7]:
arr3_2 = arr3.reshape(-1,4)
arr3_2

array([[10,  5, 16,  1],
       [18, 28, 29, 26],
       [17, 18, 27,  9],
       [10,  1, 11,  9]])

In [8]:
arr1, arr2

(array([[1., 2., 3.],
        [4., 5., 6.],
        [7., 8., 9.]]),
 array([[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19]]))

In [9]:
arr1 + arr2

array([[12., 14., 16.],
       [18., 20., 22.],
       [24., 26., 28.]])

## np array에서 slicing을 할 경우 원본이 바뀌니 주의

### np array에서 원본을 바꾸지 않는 방법
*1. 최초 복사 시 .copy()를 활용한다.
*2. np.where를 사용한다.

In [10]:
arr3_2[0, 0] = 5
arr3

array([ 5,  5, 16,  1, 18, 28, 29, 26, 17, 18, 27,  9, 10,  1, 11,  9])

In [11]:
arr3_3 = arr3.copy().reshape(-1,4)
arr3_3[0,0] = 10
arr3 # copy를 사용해서 값이 변경되지 않았다.

array([ 5,  5, 16,  1, 18, 28, 29, 26, 17, 18, 27,  9, 10,  1, 11,  9])

### 조건 인덱싱

In [12]:
bool_res = arr3_2>10
bool_res

array([[False, False,  True, False],
       [ True,  True,  True,  True],
       [ True,  True,  True, False],
       [False, False,  True, False]])

In [13]:
arr3_2[bool_res]

array([16, 18, 28, 29, 26, 17, 18, 27, 11])

In [14]:
arr3_2[arr3_2 < 0] = 0
arr3_2

array([[ 5,  5, 16,  1],
       [18, 28, 29, 26],
       [17, 18, 27,  9],
       [10,  1, 11,  9]])

### np.where

In [15]:
np.where(arr3_2 == -1, -1, arr3_2)
# arr3_2 == -1이 True일 경우 '-1'을, False일 경우 'arr3_2'를 반환한다.

array([[ 5,  5, 16,  1],
       [18, 28, 29, 26],
       [17, 18, 27,  9],
       [10,  1, 11,  9]])

### np.sum

In [16]:
# 전체 합
print(np.sum(arr3_2))

# axis=0로 된 합을 반환
print(np.sum(arr3_2, axis=0))

# axis=1로 된 합을 반환
print(np.sum(arr3_2, axis=1))

230
[50 52 83 45]
[ 27 101  71  31]


### np.max

In [17]:
# 전체 합
print(np.max(arr3_2))

# axis=0로 된 합을 반환
print(np.max(arr3_2, axis=0))

# axis=1로 된 합을 반환
print(np.max(arr3_2, axis=1))

29
[18 28 29 26]
[16 29 27 11]


In [18]:
np.random.seed(10)
arr10 = np.random.randint(1, 11, 10)
arr10

array([10,  5,  1,  2, 10,  1,  2,  9, 10,  1])

## Pandas

### Series 생성

In [19]:
np.random.seed(10)
ser1 = Series(np.random.randint(1,30,6))

In [20]:
ser1

0    10
1     5
2    16
3     1
4    18
5    28
dtype: int32

In [21]:
np.random.seed(10)
ser1 = Series(np.random.randint(1,30,6), index = list('abcdef'))
ser1

a    10
b     5
c    16
d     1
e    18
f    28
dtype: int32

In [22]:
ser1.index[1]

'b'

In [23]:
ser1.values[1]

5

In [24]:
dir(ser1)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__r

### DataFrame 생성

#### 생성법 1
#### DataFrame(np.array, index(row), column)

In [25]:
np.random.seed(10)
df1 = DataFrame(np.random.randint(10,100,16).reshape(4,4), index=list('abcd'),columns = ['x', 'x1', 'x2', 'y'])
df1

Unnamed: 0,x,x1,x2,y
a,19,25,74,38
b,99,39,18,83
c,10,50,46,26
d,21,64,98,72


#### 생성법 2
#### DataFrame(dictionary, index(row)

In [26]:
# dictionary 형태로 data를 전달하게 되면 key가 column이고 value가 data값이 된다.
data = {'name':['NAND1','NAND2','DRAM1','DRAM2'], 'price':[3.12, np.nan, 4.23, 5.12],
       'capa':[30,20,50,np.nan], 'site': ['1', 'C', 'C', '1']}
df2 = DataFrame(data, index=list('abcd'))
df2

Unnamed: 0,name,price,capa,site
a,NAND1,3.12,30.0,1
b,NAND2,,20.0,C
c,DRAM1,4.23,50.0,C
d,DRAM2,5.12,,1


#### 생성법 3(파일 읽어오기) - pd.read_csv

In [27]:
df3 = pd.read_csv('../data/01. CCTV_in_Seoul.csv')
# . 하나는 현재 위치를 가리키고, .. 두 개는 상위 폴더를 가리킨다.
# 파일 확장자명도 모두 적어야 한다.
df3

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
1,강동구,773,379,99,155,377
2,강북구,748,369,120,138,204
3,강서구,884,388,258,184,81
4,관악구,1496,846,260,390,613
5,광진구,707,573,78,53,174
6,구로구,1561,1142,173,246,323
7,금천구,1015,674,51,269,354
8,노원구,1265,542,57,451,516
9,도봉구,485,238,159,42,386


### Series, DataFrame의 구조(특성) 파악

In [28]:
ser1

a    10
b     5
c    16
d     1
e    18
f    28
dtype: int32

In [29]:
print('* ser1의 index:', ser1.index)
print('* ser1의 values:', ser1.values)
print('* ser1의 values의 type:', type(ser1.values))
print('* ser1의 shape:', ser1.shape)
print('* ser1의 ndim:', ser1.ndim)

* ser1의 index: Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')
* ser1의 values: [10  5 16  1 18 28]
* ser1의 values의 type: <class 'numpy.ndarray'>
* ser1의 shape: (6,)
* ser1의 ndim: 1


In [30]:
df2

Unnamed: 0,name,price,capa,site
a,NAND1,3.12,30.0,1
b,NAND2,,20.0,C
c,DRAM1,4.23,50.0,C
d,DRAM2,5.12,,1


In [31]:
print('* df2의 index:', df2.index)
print('* df2의 columns:', df2.columns)
print('* df2의 values:')
display(df2.values)

* df2의 index: Index(['a', 'b', 'c', 'd'], dtype='object')
* df2의 columns: Index(['name', 'price', 'capa', 'site'], dtype='object')
* df2의 values:


array([['NAND1', 3.12, 30.0, '1'],
       ['NAND2', nan, 20.0, 'C'],
       ['DRAM1', 4.23, 50.0, 'C'],
       ['DRAM2', 5.12, nan, '1']], dtype=object)

In [32]:
df2.dtypes # df2.type, df2.types, df2.dtype 모두 틀린 문법이다.

name      object
price    float64
capa     float64
site      object
dtype: object

### Series sorting(value, index)

In [33]:
ser1[ser1>10].sort_values(ascending=False)
ser1

a    10
b     5
c    16
d     1
e    18
f    28
dtype: int32

In [34]:
ser1

a    10
b     5
c    16
d     1
e    18
f    28
dtype: int32

In [35]:
ser1 = ser1.sort_index(ascending=False) # 값을 반환만 하고 원본은 바뀌지 않는다.
ser1

f    28
e    18
d     1
c    16
b     5
a    10
dtype: int32

### DataFrame의 column명 변경

In [36]:
df1

Unnamed: 0,x,x1,x2,y
a,19,25,74,38
b,99,39,18,83
c,10,50,46,26
d,21,64,98,72


In [37]:
# column명 변경법 1
# 이 방법으로는 일부만 변경이 불가하고 모든 값을 한 번에 변경해야 한다.

df1.columns = ['data1', 'data2', 'data3', 'yield']
# 반환하지 않아도 원본이 변경된다.

In [38]:
df1

Unnamed: 0,data1,data2,data3,yield
a,19,25,74,38
b,99,39,18,83
c,10,50,46,26
d,21,64,98,72


In [39]:

# column명 변경법 2
# rename 함수 이용
df1.rename(columns={'data1': 'x1', 'data2': 'x2'}, inplace = True)

# inplace = True로 지정하지 않으면 원본이 변경되지 않는다. False가 defualt값
df1

Unnamed: 0,x1,x2,data3,yield
a,19,25,74,38
b,99,39,18,83
c,10,50,46,26
d,21,64,98,72


###  [ ], at, iat, loc, iloc

In [40]:
df2

Unnamed: 0,name,price,capa,site
a,NAND1,3.12,30.0,1
b,NAND2,,20.0,C
c,DRAM1,4.23,50.0,C
d,DRAM2,5.12,,1


In [41]:
# slicing
print(df2['price'])

a    3.12
b     NaN
c    4.23
d    5.12
Name: price, dtype: float64


In [42]:
# at, iat(단일 데이터 선택 시 가장 효율적)
print('at 사용')
print(df2.at['a','capa'])
print(' ')
print('iat 사용')
print(df2.iat[0,2])

at 사용
30.0
 
iat 사용
30.0


In [43]:
# loc, iloc
print('loc 사용')
print(df2.loc[:,'price'])
print('')
print('iloc 사용')
print(df2.iloc[:,1:2])

loc 사용
a    3.12
b     NaN
c    4.23
d    5.12
Name: price, dtype: float64

iloc 사용
   price
a   3.12
b    NaN
c   4.23
d   5.12


### DataFrame 정보 조회 - info, head, tail

In [44]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   기관명        25 non-null     object
 1   소계         25 non-null     int64 
 2   2013년도 이전  25 non-null     int64 
 3   2014년      25 non-null     int64 
 4   2015년      25 non-null     int64 
 5   2016년      25 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.3+ KB


In [45]:
df3.head(5)

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
1,강동구,773,379,99,155,377
2,강북구,748,369,120,138,204
3,강서구,884,388,258,184,81
4,관악구,1496,846,260,390,613


In [46]:
df3.tail(5)

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
20,용산구,1624,1368,218,112,398
21,은평구,1873,1138,224,278,468
22,종로구,1002,464,314,211,630
23,중구,671,413,190,72,348
24,중랑구,660,509,121,177,109


### 정렬 후 출력하기

In [47]:
# CCTV의 소계가 가진 높은 자치구 5개의 정보를 출력하세요.
display(df3.sort_values(by='소계', ascending=False).head(5))
# 정렬한 후에 5개를 가져와야 한다.
# head를 먼저 쓰고 정렬할 경우, 상위 5개 중에서만 정렬된다.

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,2780,1292,430,584,932
18,양천구,2034,1843,142,30,467
14,서초구,1930,1406,157,336,398
21,은평구,1873,1138,224,278,468
20,용산구,1624,1368,218,112,398


### df.value_counts() - 해당 column의 value별 count 해주는 함수
### df.site.unique() - 해당 column의 유니크한 데이터를 array로 반환
### df.site.nunique() - 해당 column의 유니크한 데이터 개수를 반환

In [48]:
# df2['site'].value_counts()
df2.value_counts() # column을 입력하지 않을 경우 unique한 row를 반환한다.
df2_del_list_nunique = []

for i in range(len(df2.columns)):
    if df2.iloc[:,i].nunique() < 10:
        print(df2.columns[i])
        print(df2.iloc[:,i].value_counts())
        print('')
        df2_del_list_nunique.append(df2.columns[i])

print('df2_del_list_nunique:', df2_del_list_nunique)

name
NAND1    1
DRAM2    1
DRAM1    1
NAND2    1
Name: name, dtype: int64

price
5.12    1
4.23    1
3.12    1
Name: price, dtype: int64

capa
30.0    1
20.0    1
50.0    1
Name: capa, dtype: int64

site
1    2
C    2
Name: site, dtype: int64

df2_del_list_nunique: ['name', 'price', 'capa', 'site']


In [49]:
# df2['site'].value_counts()
df2.value_counts() # column을 입력하지 않을 경우 unique한 row를 반환한다.
df2_del_list_nunique = []

for i in range(len(df2.columns)):
    if df2.iloc[:,i].nunique() < 10:
        print(df2.columns[i])
        print(df2.iloc[:,i].value_counts())
        print('')
        df2_del_list_nunique.append(df2.columns[i])

print('df2_del_list_nunique:', df2_del_list_nunique)

name
NAND1    1
DRAM2    1
DRAM1    1
NAND2    1
Name: name, dtype: int64

price
5.12    1
4.23    1
3.12    1
Name: price, dtype: int64

capa
30.0    1
20.0    1
50.0    1
Name: capa, dtype: int64

site
1    2
C    2
Name: site, dtype: int64

df2_del_list_nunique: ['name', 'price', 'capa', 'site']


In [50]:
## 사용하지 말기. 완성도 떨어짐

# df2['site'].value_counts()
df2.value_counts() # column을 입력하지 않을 경우 unique한 row를 반환한다.
df2_list_var = list(zip(dict(df2.var()).keys(), dict(df2.var()).values()))
df2_del_list_var = []
#df2를 먼저 정규화 작업을 해둬야 한다.
print(df2_list_var)
for i in range(len(df2_list_var)):
    if df2_list_var[i][1] < 1.5:
        print(df2_list_var[i][0])
        print(df2_list_var[i][1].var())
        print('')
        df2_del_list_var.append(df2_list_var[i][0])

print('df2_del_list_var:', df2_del_list_var)

[('price', 1.0040333333333333), ('capa', 233.33333333333331)]
price
0.0

df2_del_list_var: ['price']


### 누락 데이터 - isna

In [51]:
df2

Unnamed: 0,name,price,capa,site
a,NAND1,3.12,30.0,1
b,NAND2,,20.0,C
c,DRAM1,4.23,50.0,C
d,DRAM2,5.12,,1


In [52]:
df2.notna()

Unnamed: 0,name,price,capa,site
a,True,True,True,True
b,True,False,True,True
c,True,True,True,True
d,True,True,False,True


In [53]:
df2.isna()

Unnamed: 0,name,price,capa,site
a,False,False,False,False
b,False,True,False,False
c,False,False,False,False
d,False,False,True,False


In [54]:
df2.isna().sum()

name     0
price    1
capa     1
site     0
dtype: int64

In [55]:
df2.isna().sum(axis=0)

name     0
price    1
capa     1
site     0
dtype: int64

In [56]:
df2.isna().sum(axis=1)

a    0
b    1
c    0
d    1
dtype: int64

In [57]:
df2.isna().sum().sum()

2

In [58]:
# column별로 모든 값이 NA인 column을 제거한다.
# inplace = True로 해야 data가 변경된다.
df2.dropna(axis=0, how='all', inplace = True)
df2

Unnamed: 0,name,price,capa,site
a,NAND1,3.12,30.0,1
b,NAND2,,20.0,C
c,DRAM1,4.23,50.0,C
d,DRAM2,5.12,,1


### 누락 데이터 - dropna

In [59]:
# column별로 하나 이상의 값이 NA인 column을 제거한다.
# inplace = True로 해야 data가 변경된다.

#thresh = k일 경우, NA의 값이 k개 '미만'인 축을 제거한다는 뜻이다.
# -0을 -1로 바꾸면 column별로 2개 이상의 값이 NA인 column이 제거된다.
# -0을 -2로 바꾸면 column별로 3개 이상의 값이 NA인 column이 제거된다.
df2.dropna(axis=0, thresh=len(df2.iloc[:,0])-0,inplace = True)
df2

Unnamed: 0,name,price,capa,site
a,NAND1,3.12,30.0,1
c,DRAM1,4.23,50.0,C


In [60]:
np.random.seed(1)
df = pd.DataFrame(np.random.randn(5,5), columns = ['A', 'B', 'C', 'D', 'E'])
df = df[df>0]
df

Unnamed: 0,A,B,C,D,E
0,1.624345,,,,0.865408
1,,1.744812,,0.319039,
2,1.462108,,,,1.133769
3,,,,0.042214,0.582815
4,,1.144724,0.901591,0.502494,0.900856


In [61]:
### 누락 데이터 - fillna

In [62]:
# fillna 함수를 쓸 경우 inplace를 써줘야 원본이 변경된다.
df.fillna(0, inplace=True) # 0 값으로 대체
df.fillna(df.mean(), inplace=True) # 평균값으로 대체
df.fillna(method='ffill', inplace = True) # 앞의 값으로 대체
df.fillna(method='bfill', inplace = True) # 뒤의 값으로 대체
df

Unnamed: 0,A,B,C,D,E
0,1.624345,0.0,0.0,0.0,0.865408
1,0.0,1.744812,0.0,0.319039,0.0
2,1.462108,0.0,0.0,0.0,1.133769
3,0.0,0.0,0.0,0.042214,0.582815
4,0.0,1.144724,0.901591,0.502494,0.900856


In [63]:
df1

Unnamed: 0,x1,x2,data3,yield
a,19,25,74,38
b,99,39,18,83
c,10,50,46,26
d,21,64,98,72


In [64]:
df2

Unnamed: 0,name,price,capa,site
a,NAND1,3.12,30.0,1
c,DRAM1,4.23,50.0,C


In [65]:
# df1, df2 제거
del df1, df2

### 연결 - concat

In [66]:
df1 = pd.DataFrame({
    'K': ['K0', 'K1', 'K2'],
    'X2': ['A', 'B', 'A'],
    'X3': [1, 2, 3]
})

In [67]:
df2 = pd.DataFrame({
    'K': ['K0', 'K1', 'K2'],
    'X3': ['B', 'A', 'B'],
    'X4': [4, 5, 6]
})

In [68]:
df1

Unnamed: 0,K,X2,X3
0,K0,A,1
1,K1,B,2
2,K2,A,3


In [69]:
df2

Unnamed: 0,K,X3,X4
0,K0,B,4
1,K1,A,5
2,K2,B,6


In [70]:
# column이 모두 일치하지 않을 경우에, column은 합집합으로 나타나고(join='outer'가 default값이기 때문) 없는 값들은 NaN으로 표기된다.
pd.concat([df1, df2], axis=0)

# merge가 아닌 concat를 할 경우 공통열에 따라 합쳐지는 것이 아니다.
# 공통열을 기준으로 합치기를 하고 싶을 경우 merge를 사용해야 한다.

Unnamed: 0,K,X2,X3,X4
0,K0,A,1,
1,K1,B,2,
2,K2,A,3,
0,K0,,B,4.0
1,K1,,A,5.0
2,K2,,B,6.0


In [71]:
# join = 'inner'로 지정할 경우 교집합만 나타난다.
pd.concat([df1, df2], axis=0, join = 'inner')

Unnamed: 0,K,X3
0,K0,1
1,K1,2
2,K2,3
0,K0,B
1,K1,A
2,K2,B


In [72]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,K,X2,X3,K.1,X3.1,X4
0,K0,A,1,K0,B,4
1,K1,B,2,K1,A,5
2,K2,A,3,K2,B,6


In [73]:
pd.concat([df1, df2], axis=1, join='inner')

Unnamed: 0,K,X2,X3,K.1,X3.1,X4
0,K0,A,1,K0,B,4
1,K1,B,2,K1,A,5
2,K2,A,3,K2,B,6


### 병합 - merge

In [74]:
# 동일한 column명이 있을 경우 _x, _y와 같은 식으로 이름이 자동으로 나뉜다.
pd.merge(df1, df2, on='K', how='inner')

Unnamed: 0,K,X2,X3_x,X3_y,X4
0,K0,A,1,B,4
1,K1,B,2,A,5
2,K2,A,3,B,6


In [77]:
data = pd.Series(1)
data

0    1
dtype: int64

In [None]:
int32