# Numpy

## 배열 만들기

In [8]:
# 초기화할 값 지정하여 배열 생성
import numpy as np
np.array([1, 2, 3, 4, 5, 6])

array([1, 2, 3, 4, 5, 6])

In [9]:
# 값을 0으로 초기화하여 배열 생성
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [10]:
# 값을 1로 초기화하여 배열 생성
np.ones(5)

array([1., 1., 1., 1., 1.])

In [11]:
# 데이터 초기화 없이, 쓰레기 값으로 채워진 배열 생성
np.empty(5)

array([1., 1., 1., 1., 1.])

In [12]:
# 연속된 숫자를 채워 배열 생성
# 내장함수 range()와 유사하게
# 종료 지점에서 -1 까지만 생성됨
np.arange(20)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [13]:
# 인자를 여러 개 사용할 경우,
# 1번 째 인자는 시작 지점
# 2번 째 인자는 종료 지점
# 3번 째 인자는 Step
np.arange(20, 30, 2)

array([20, 22, 24, 26, 28])

In [14]:
# 지정한 구간에 원하는 요소 개수만큼 배열 생성
# 1번 째 인자는 시작 지점
# 2번 째 인자는 종료 지점
# 3번 째 인자는 생성하고자 하는 요소 개수
np.linspace(0, 10, num=5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [15]:
# dtype= 값으로 np.dtype을 줘서 데이터 형식을 지정할 수 있음
np.linspace(0, 10, num=5, dtype=np.int64)

array([ 0,  2,  5,  7, 10], dtype=int64)

In [16]:
# 난수 생성기 시드값(시작값) 설정
np.random.seed(1)
# 시드값을 기준으로 난수가 생성된 이후,
# 그 생성된 값을 기준으로 다음 난수가 생성되는 방식의 알고리즘..

# 랜덤값으로 배열 생성
randArray = np.random.randn(3, 3)
randArray

array([[ 1.62434536, -0.61175641, -0.52817175],
       [-1.07296862,  0.86540763, -2.3015387 ],
       [ 1.74481176, -0.7612069 ,  0.3190391 ]])

## 사용 설명 보기

In [17]:
# 메서드 사용 설명 보는 법
np.dtype?

[1;31mInit signature:[0m [0mnp[0m[1;33m.[0m[0mdtype[0m[1;33m([0m[0mself[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
dtype(dtype, align=False, copy=False)

Create a data type object.

A numpy array is homogeneous, and contains elements described by a
dtype object. A dtype object can be constructed from different
combinations of fundamental numeric types.

Parameters
----------
dtype
    Object to be converted to a data type object.
align : bool, optional
    Add padding to the fields to match what a C compiler would output
    for a similar C-struct. Can be ``True`` only if `obj` is a dictionary
    or a comma-separated string. If a struct dtype is being created,
    this also sets a sticky alignment flag ``isalignedstruct``.
copy : bool, optional
    Make a new copy of the data-type object. If ``False``, the result
    may just be a reference to a bu

## 변형

In [18]:
# 배열의 차원 변형
oneDArray = np.arange(16)

In [19]:
oneDArray.reshape(4, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [20]:
# 다시 배열을 확인해보면,
# 원본이 바뀌지는 않은 걸 확인할 수 있음
oneDArray

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [21]:
# reshape는 차원이 변형된 결과만 반환하고,
# 원본을 바꾸지는 않으므로,
# 새로운 원본을 만들어 저장할 필요가 있는 경우
# copy() 메서드를 사용하여 따로 저장해준다.

copiedOneDArray = oneDArray.reshape(4, 4).copy()
copiedOneDArray

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

## 배열 속성 확인

In [22]:
# 배열 형태 확인할 때는 shape 사용,
# pandas와 동일.
copiedOneDArray.shape

(4, 4)

In [23]:
# 데이터타입 확인
copiedOneDArray.dtype

# 확인결과 int32 
# --> (4, 4) 배열로 부동소수점이 아닌 정수형 데이터임을 확인

dtype('int32')

In [24]:
# float으로 데이터타입 형변환
# astype() 메서드 또한 원본에 적용되는 것이 아니라,
# float으로 변환된 배열을 반환하므로
# 형변환이 이루어진 값을 새로운 변수에 저장해서 사용할 필요가 있음.
copiedOneDArray.astype(float)

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., 14., 15.]])

In [25]:
# astype() 메서드 또한 원본에 적용되는 것이 아니라,
# float으로 변환된 배열을 반환하므로
# 형변환이 이루어진 값을 새로운 변수에 저장해서 사용할 필요가 있음.

astypeFloatArray = copiedOneDArray.astype(float)
astypeFloatArray.dtype

dtype('float64')

## 인덱싱 / 슬라이싱

In [26]:
arr1 = np.arange(16).reshape(4, 4)
arr1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [27]:
arr1[2]

array([ 8,  9, 10, 11])

In [28]:
arr1[1:-1]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [29]:
arr1[0:3]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [30]:
arr1[3][2:4]

array([14, 15])

In [31]:
arr1[3][2]

14

In [32]:
# 배열의 10 이상 요소 값 선택해서 변경하기
arr1[arr1 >= 10] = arr1[arr1 >= 10] * 10
arr1

array([[  0,   1,   2,   3],
       [  4,   5,   6,   7],
       [  8,   9, 100, 110],
       [120, 130, 140, 150]])

In [33]:
# dtype=int로 지정, 생성된 2차원 배열의 모든 값에 100 곱하기
arr2 = np.linspace(0, 2, num=20, dtype=int).reshape(4, 5)
arr2 = arr2 * 100
arr2

array([[  0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0],
       [100, 100, 100, 100, 100],
       [100, 100, 100, 100, 200]])

In [34]:
# dtype=float로 지정, 생성된 2차원 배열의 모든 값에 22 곱하기
arr3 = np.linspace(0, 6.6, num=25, dtype=float).reshape(5, 5)
print(f'before \n{arr3}')
print('='*40)
arr3 = arr3 * 22
print(f'after \n{arr3}')

before 
[[0.    0.275 0.55  0.825 1.1  ]
 [1.375 1.65  1.925 2.2   2.475]
 [2.75  3.025 3.3   3.575 3.85 ]
 [4.125 4.4   4.675 4.95  5.225]
 [5.5   5.775 6.05  6.325 6.6  ]]
after 
[[  0.     6.05  12.1   18.15  24.2 ]
 [ 30.25  36.3   42.35  48.4   54.45]
 [ 60.5   66.55  72.6   78.65  84.7 ]
 [ 90.75  96.8  102.85 108.9  114.95]
 [121.   127.05 133.1  139.15 145.2 ]]


In [35]:
# astype으로 형변환 전후 dtype 비교
arr4 = np.arange(16).reshape(4, 4)
print(f' arr4\'s dtype is...\n {arr4.dtype}, {arr4.shape}')
print('='*40)
arr4 = arr4.astype(float)
print(f' arr4\'s dtype is...\n {arr4.dtype}, {arr4.shape}')

 arr4's dtype is...
 int32, (4, 4)
 arr4's dtype is...
 float64, (4, 4)


## 연산 함수

In [36]:
arr5 = np.arange(4, 21, 4)
arr5

array([ 4,  8, 12, 16, 20])

In [37]:
# 배열의 각 요소 제곱
np.square(arr5)

array([ 16,  64, 144, 256, 400], dtype=int32)

In [38]:
# 배열의 각 요소에 루트 씌우기 ( 제곱근 )
print(f'sqrt result... \n ver1 : {np.sqrt(arr5)}, \n dtype : {np.sqrt(arr5).dtype} \n {"="*70} \n ver2 : {np.sqrt(arr5).astype(int)}, \n dtype : {np.sqrt(arr5).astype(int).dtype}')

sqrt result... 
 ver1 : [2.         2.82842712 3.46410162 4.         4.47213595], 
 dtype : float64 
 ver2 : [2 2 3 4 4], 
 dtype : int32


In [39]:
# 배열의 각 요소의 지수승 구하기
np.exp(arr5)

array([5.45981500e+01, 2.98095799e+03, 1.62754791e+05, 8.88611052e+06,
       4.85165195e+08])

In [40]:
# 배열의 각 요소에 로그식 대입
np.log(arr5)

array([1.38629436, 2.07944154, 2.48490665, 2.77258872, 2.99573227])

In [41]:
# 배열 더하기
arr6 = np.arange(5, 26, 5)
np.add(arr5, arr6)

array([ 9, 18, 27, 36, 45])

In [42]:
# 배열 내 모든 요소의 합
np.sum(arr5)

60

In [43]:
# 배열 내 모든 요소의 누적합
np.cumsum(arr5)

array([ 4, 12, 24, 40, 60], dtype=int32)

## 통계 지표 관련 함수

In [44]:
# 평균값
np.mean(arr5)

12.0

In [45]:
# 편차
np.var(arr5)

32.0

In [46]:
# 표준편차
np.std(arr5)

5.656854249492381

In [47]:
# 최대값
np.max(arr1)

150

In [48]:
# 최대값의 인덱스
np.argmax(arr1)

15

In [49]:
# 최소값
np.min(arr1)

0

In [50]:
# 최소값의 인덱스
np.argmin(arr1)

0

## Numpy로 생성한 ndarray - DataFrame으로 전환

In [51]:
import pandas as pd
# 값 추가해서 2차원 배열로 전환시키기
arr5 = np.append(arr5, 24)
arr5.shape

arr5 = pd.DataFrame(arr5)
arr5.describe()

Unnamed: 0,0
count,6.0
mean,14.0
std,7.483315
min,4.0
25%,9.0
50%,14.0
75%,19.0
max,24.0


In [52]:
arr1 = np.linspace(4, 24, num=6).astype(int).reshape(2, 3)
arr1

array([[ 4,  8, 12],
       [16, 20, 24]])

In [53]:
pd.DataFrame(arr1)

Unnamed: 0,0,1,2
0,4,8,12
1,16,20,24


In [54]:
# (2, 3) ndarray -> (3, 2) Dataframe으로 변환
arr1T = np.transpose(arr1)

In [55]:
arr1T = pd.DataFrame(arr1T)

In [56]:
arr1T.describe()

Unnamed: 0,0,1
count,3.0,3.0
mean,8.0,20.0
std,4.0,4.0
min,4.0,16.0
25%,6.0,18.0
50%,8.0,20.0
75%,10.0,22.0
max,12.0,24.0


In [57]:
# df columns name 지정
arr1T.rename(columns={0:'First', 1:'Second'}, inplace=True)

In [58]:
# df index name 지정
# inplace=True를 주면 해당 객체에 반영, 안주면 결과로만 반환
arr1T.rename(index={0:'One', 1:'Two', 2:'Three'}, inplace=True)
arr1T

Unnamed: 0,First,Second
One,4,16
Two,8,20
Three,12,24


## 저장

In [59]:
# 다차원 배열을 바이너리 형태로 저장,  -> .npy 확장자
# 사람이 읽을 수 있는 형태는 아니지만
# 빠른 속도로 불러오기가 가능한 형태
np.save('arr1T', arr1T)

In [60]:
# 불러오기
# 꼭 .npy 확장자를 포함할 것
loadArr = np.load('arr1T.npy')

In [61]:
loadArr

array([[ 4, 16],
       [ 8, 20],
       [12, 24]])

In [62]:
loadArr.dtype

dtype('int32')

# Pandas

## DataFrame 생성

In [63]:
# DataFrame 생성 시, 
# key에 해당하는 값이 column이 되고
# value에 해당하는 밑으로 들어감
data = {'이름':['홍길동', '김말자', '황복순', '오미자', '최태균', '구기자'],
        '나이':range(26, 32)}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이
0,홍길동,26
1,김말자,27
2,황복순,28
3,오미자,29
4,최태균,30
5,구기자,31


In [64]:
# pd.DataFrame()의 인자로 index= 에 원하는 인덱스 값을 넣어 생성할 수 있음
df = pd.DataFrame(data, index=[10, 11, 12, 13, 14, 15])

In [65]:
df

Unnamed: 0,이름,나이
10,홍길동,26
11,김말자,27
12,황복순,28
13,오미자,29
14,최태균,30
15,구기자,31


In [66]:
# scikit-learn iris_datasets 가져와서 생성하기
from sklearn.datasets import load_iris
iris = load_iris()
iris_data = pd.DataFrame(data=np.c_[iris['data'], iris['target']], columns=iris['feature_names']+['target'])
iris_data['target'] = iris_data['target'].map({0:"setosa", 1:"versicolor", 2:"virginica"})

# X_data : 구분에 실제로 사용하는 데이터
# Y_data : 구분 결과가 정확한지 맞춰볼 target 데이터
X_data = iris_data.iloc[:, :-1]
Y_data = iris_data.iloc[:, [-1]]

iris_data

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [None]:
"""
csv 파일 읽어와서 생성하는 경우
read_csv() 함수로 읽어옴

faram :
파일 경로 및 이름 : 
sep, delimiter : 데이터가 어떤 문자열로 구분되어있는지 표시함. csv = ,
header : 컬럼 이름으로 사용할 로우 번호, 기본값은 0(첫 번째 로우)
names : 컬럼 이름으로 사용할 리스트 설정
index_col : 인덱스 컬럼의 여부, True로 지정하면 0~n에 해당하는 인덱스를 추가해줌
encoding : csv파일의 인코딩 방식을 지정. 인코딩 방식이 한글을 나타내는 데 알맞지 않으면 깨진 채로 로드됨
           "EUC-KR"이나 "UTF-8" 사용
"""

## 데이터 탐색

In [67]:
df = iris_data
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [68]:
# 지정 개수 상위 로우 확인
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [69]:
# 지정 개수 하위 로우 확인
df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [70]:
# numpy ndarray와 같이 shape로 형태 확인 가능
# shape는 DataFrame 클래스 내에 작성된 함수가 아니라 선언된 데이터이므로 () 없이 불러오는 객체임
df.shape

(150, 5)

In [71]:
# 주요 통계지표 확인
df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [72]:
# DataFrame 주요 정보 확인
# 인덱스, 컬럼, 결측치 개수, 데이터타입 확인 가능
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   target             150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [73]:
# unique() 함수
# 컬럼에서 중복값 제거하고 유일한 값을 반환하므로,
# 카테고리(factor 등) 데이터의 도메인값을 확인할 수 있음
df['target'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [74]:
# 각 데이터가 몇 개 포함되어있는지 count
df['target'].value_counts()

setosa        50
versicolor    50
virginica     50
Name: target, dtype: int64

## 데이터 정렬

In [75]:
# 컬럼명 가독성 좋게 바꿈
df.rename(columns={'sepal length (cm)':'꽃받침 길이', 'sepal width (cm)':'꽃받침 너비', 'petal length (cm)':'꽃잎 길이', 'petal width (cm)':'꽃잎 너비'}, inplace=True)
df

Unnamed: 0,꽃받침 길이,꽃받침 너비,꽃잎 길이,꽃잎 너비,target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [76]:
# iris 데이터의 ['꽃잎 길이']기준으로 데이터 정렬
df.sort_values(['꽃잎 길이'])

Unnamed: 0,꽃받침 길이,꽃받침 너비,꽃잎 길이,꽃잎 너비,target
22,4.6,3.6,1.0,0.2,setosa
13,4.3,3.0,1.1,0.1,setosa
14,5.8,4.0,1.2,0.2,setosa
35,5.0,3.2,1.2,0.2,setosa
36,5.5,3.5,1.3,0.2,setosa
...,...,...,...,...,...
131,7.9,3.8,6.4,2.0,virginica
105,7.6,3.0,6.6,2.1,virginica
117,7.7,3.8,6.7,2.2,virginica
122,7.7,2.8,6.7,2.0,virginica


In [77]:
# '꽃잎 너비' 컬럼 기준으로 정렬하되, 내림차순으로 정렬
df.sort_values(['꽃잎 너비'], ascending=False)

Unnamed: 0,꽃받침 길이,꽃받침 너비,꽃잎 길이,꽃잎 너비,target
100,6.3,3.3,6.0,2.5,virginica
109,7.2,3.6,6.1,2.5,virginica
144,6.7,3.3,5.7,2.5,virginica
114,5.8,2.8,5.1,2.4,virginica
140,6.7,3.1,5.6,2.4,virginica
...,...,...,...,...,...
12,4.8,3.0,1.4,0.1,setosa
13,4.3,3.0,1.1,0.1,setosa
37,4.9,3.6,1.4,0.1,setosa
32,5.2,4.1,1.5,0.1,setosa


In [78]:
# 인덱스로 정렬하되, 내림차순으로
df.sort_index(ascending=False)

Unnamed: 0,꽃받침 길이,꽃받침 너비,꽃잎 길이,꽃잎 너비,target
149,5.9,3.0,5.1,1.8,virginica
148,6.2,3.4,5.4,2.3,virginica
147,6.5,3.0,5.2,2.0,virginica
146,6.3,2.5,5.0,1.9,virginica
145,6.7,3.0,5.2,2.3,virginica
...,...,...,...,...,...
4,5.0,3.6,1.4,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


## 데이터 선택

In [79]:
df['꽃받침 너비']

0      3.5
1      3.0
2      3.2
3      3.1
4      3.6
      ... 
145    3.0
146    2.5
147    3.0
148    3.4
149    3.0
Name: 꽃받침 너비, Length: 150, dtype: float64

In [80]:
# '꽃받침 너비' 컬럼에서 4이상인 로우만 선택
df[df['꽃받침 너비'] > 4]

Unnamed: 0,꽃받침 길이,꽃받침 너비,꽃잎 길이,꽃잎 너비,target
15,5.7,4.4,1.5,0.4,setosa
32,5.2,4.1,1.5,0.1,setosa
33,5.5,4.2,1.4,0.2,setosa


In [81]:
# lioc[인덱스 위치]를 사용한 선택
# 인덱스가 설정된 데이터프레임에 사용 가능
df2 = df.set_index('꽃받침 너비')
df2.iloc[range(30, 61, 5)] # 인덱스 30~ 60까지의 로우만 선택

Unnamed: 0_level_0,꽃받침 길이,꽃잎 길이,꽃잎 너비,target
꽃받침 너비,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3.1,4.8,1.6,0.2,setosa
3.2,5.0,1.2,0.2,setosa
3.5,5.0,1.3,0.3,setosa
3.0,4.8,1.4,0.3,setosa
3.2,7.0,4.7,1.4,versicolor
2.8,5.7,4.5,1.3,versicolor
2.0,5.0,3.5,1.0,versicolor


In [82]:
# loc[인덱스 값]를 사용한 선택
# '꽃받침 너비'가 3.1인 로우만 선택
df2.loc[3.1]

Unnamed: 0_level_0,꽃받침 길이,꽃잎 길이,꽃잎 너비,target
꽃받침 너비,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3.1,4.6,1.5,0.2,setosa
3.1,4.9,1.5,0.1,setosa
3.1,4.8,1.6,0.2,setosa
3.1,4.9,1.5,0.2,setosa
3.1,6.9,4.9,1.5,versicolor
3.1,6.7,4.4,1.4,versicolor
3.1,6.7,4.7,1.5,versicolor
3.1,6.4,5.5,1.8,virginica
3.1,6.9,5.4,2.1,virginica
3.1,6.7,5.6,2.4,virginica


In [83]:
# 컬럼의 로우의 값을 기준으로 불리언 값 반환
df2['꽃잎 길이'] == 3.0

꽃받침 너비
3.5    False
3.0    False
3.2    False
3.1    False
3.6    False
       ...  
3.0    False
2.5    False
3.0    False
3.4    False
3.0    False
Name: 꽃잎 길이, Length: 150, dtype: bool

In [84]:
# 컬럼의 로우 값을 기준으로 로우 선택
df2[df2['꽃잎 길이'] == 3.0]

Unnamed: 0_level_0,꽃받침 길이,꽃잎 길이,꽃잎 너비,target
꽃받침 너비,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2.5,5.1,3.0,1.1,versicolor


In [128]:
# 인덱스 리셋한 df3 생성
df3 = df2.reset_index()

# 해당 컬럼의 인덱스 확인
df3[df3['꽃잎 길이'] == 3.0].index

# '꽃잎 길이' 컬럼의 값이 3.0 인 로우의 인덱스 위치는 98인 것을 확인할 수 있음

Int64Index([98], dtype='int64')

In [86]:
# 꽃잎 길이가 2.5 미만인 로우에서 '꽃잎 너비'의 유일값 찾기
df3[df3['꽃잎 길이'] < 2.5]['꽃잎 너비'].unique()

array([0.2, 0.4, 0.3, 0.1, 0.5, 0.6])

## 데이터 삭제

In [87]:
# df.drop(컬럼명 or 로우인덱스)
# 컬럼명으로 삭제하고 싶으면 axis=1 인자 추가
# 원본 데이터에 반영시키고 싶으면 inplace=True 인자 추가

# 꽃잎 너비, 꽃잎 길이 컬럼 삭제
df3.drop(['꽃잎 너비', '꽃잎 길이'], axis=1)

Unnamed: 0,꽃받침 너비,꽃받침 길이,target
0,3.5,5.1,setosa
1,3.0,4.9,setosa
2,3.2,4.7,setosa
3,3.1,4.6,setosa
4,3.6,5.0,setosa
...,...,...,...
145,3.0,6.7,virginica
146,2.5,6.3,virginica
147,3.0,6.5,virginica
148,3.4,6.2,virginica


In [88]:
# 100~149번 로우인덱스 삭제
df3.drop(range(100,150))

Unnamed: 0,꽃받침 너비,꽃받침 길이,꽃잎 길이,꽃잎 너비,target
0,3.5,5.1,1.4,0.2,setosa
1,3.0,4.9,1.4,0.2,setosa
2,3.2,4.7,1.3,0.2,setosa
3,3.1,4.6,1.5,0.2,setosa
4,3.6,5.0,1.4,0.2,setosa
...,...,...,...,...,...
95,3.0,5.7,4.2,1.2,versicolor
96,2.9,5.7,4.2,1.3,versicolor
97,2.9,6.2,4.3,1.3,versicolor
98,2.5,5.1,3.0,1.1,versicolor


## 연산

### 산술 연산

In [89]:
df3['꽃잎 너비'] + 0.5

0      0.7
1      0.7
2      0.7
3      0.7
4      0.7
      ... 
145    2.8
146    2.4
147    2.5
148    2.8
149    2.3
Name: 꽃잎 너비, Length: 150, dtype: float64

In [90]:
# 산술 연산으로 새로운 컬럼 생성
df3['꽃받침 너비길이차'] = df3['꽃받침 너비'] - df3['꽃받침 길이']

In [91]:
df3

Unnamed: 0,꽃받침 너비,꽃받침 길이,꽃잎 길이,꽃잎 너비,target,꽃받침 너비길이차
0,3.5,5.1,1.4,0.2,setosa,-1.6
1,3.0,4.9,1.4,0.2,setosa,-1.9
2,3.2,4.7,1.3,0.2,setosa,-1.5
3,3.1,4.6,1.5,0.2,setosa,-1.5
4,3.6,5.0,1.4,0.2,setosa,-1.4
...,...,...,...,...,...,...
145,3.0,6.7,5.2,2.3,virginica,-3.7
146,2.5,6.3,5.0,1.9,virginica,-3.8
147,3.0,6.5,5.2,2.0,virginica,-3.5
148,3.4,6.2,5.4,2.3,virginica,-2.8


In [97]:
sepalSubtractMean = df3['꽃받침 너비길이차'].mean()
sepalSubtractStd = df3['꽃받침 너비길이차'].std()
sepalSubtractVar = df3['꽃받침 너비길이차'].var()

In [98]:
# 새로 생성한 꽃받침 너비길이차의 통계지표 확인
print(f'꽃받침 너비길이차의 평균 : {sepalSubtractMean}')
print(f'꽃받침 너비길이차의 표준편차 : {sepalSubtractStd}')
print(f'꽃받침 너비길이차의 편차 : {sepalSubtractVar}')

꽃받침 너비길이차의 평균 : -2.786
꽃받침 너비길이차의 표준편차 : 0.9800719053198672
꽃받침 너비길이차의 편차 : 0.9605409395973147


## 추출 ( 샘플링 )

- 비복원추출 : 
전체 6개의 모집단에서 5개의 표본을 추출할 때, 한 번 뽑은 데이터를 다시 뽑지 않도록 제외하고 추출하는 것.

- 복원추출 :
한 번 뽑은 데이터를 뽑는 것을 허용하여 추출하는 것

In [104]:
# 임의 숫자만큼 샘플링
# replace=True를 주면 복원추출
# 인자 없으면 디폴트 비복원추출
df3.sample(3)

Unnamed: 0,꽃받침 너비,꽃받침 길이,꽃잎 길이,꽃잎 너비,target,꽃받침 너비길이차
148,3.4,6.2,5.4,2.3,virginica,-2.8
101,2.7,5.8,5.1,1.9,virginica,-3.1
9,3.1,4.9,1.5,0.1,setosa,-1.8


In [113]:
# 추출할 비율을 지정하여 샘플링
# 10% 비율에서 무작위 추출 시행

# 100%를 넘는 비율로 추출하려면 replace=True 인자값을 넣어야 함.
# 중복 추출 허용을 해야 모집단의 개수를 넘을 수 있음
df3.sample(frac=0.1)

Unnamed: 0,꽃받침 너비,꽃받침 길이,꽃잎 길이,꽃잎 너비,target,꽃받침 너비길이차
148,3.4,6.2,5.4,2.3,virginica,-2.8
135,3.0,7.7,6.1,2.3,virginica,-4.7
46,3.8,5.1,1.6,0.2,setosa,-1.3
108,2.5,6.7,5.8,1.8,virginica,-4.2
99,2.8,5.7,4.1,1.3,versicolor,-2.9
14,4.0,5.8,1.2,0.2,setosa,-1.8
62,2.2,6.0,4.0,1.0,versicolor,-3.8
54,2.8,6.5,4.6,1.5,versicolor,-3.7
133,2.8,6.3,5.1,1.5,virginica,-3.5
114,2.8,5.8,5.1,2.4,virginica,-3.0


In [115]:
# 중복 추출을 허용하고, 모집단의 10배수에 해당하는 표본을 추출
df3.sample(frac=10, replace=True)

Unnamed: 0,꽃받침 너비,꽃받침 길이,꽃잎 길이,꽃잎 너비,target,꽃받침 너비길이차
133,2.8,6.3,5.1,1.5,virginica,-3.5
86,3.1,6.7,4.7,1.5,versicolor,-3.6
122,2.8,7.7,6.7,2.0,virginica,-4.9
74,2.9,6.4,4.3,1.3,versicolor,-3.5
44,3.8,5.1,1.9,0.4,setosa,-1.3
...,...,...,...,...,...,...
74,2.9,6.4,4.3,1.3,versicolor,-3.5
53,2.3,5.5,4.0,1.3,versicolor,-3.2
146,2.5,6.3,5.0,1.9,virginica,-3.8
126,2.8,6.2,4.8,1.8,virginica,-3.4


## 데이터프레임 값 변경

In [118]:
df3['target'].replace(['setosa', 'versicolor', 'virginica'],
                      ['세토사', '버시칼라', '버지니카']).sample(n=15)

64     버시칼라
50     버시칼라
133    버지니카
82     버시칼라
109    버지니카
97     버시칼라
135    버지니카
10      세토사
95     버시칼라
55     버시칼라
35      세토사
131    버지니카
57     버시칼라
40      세토사
88     버시칼라
Name: target, dtype: object

## 함수 적용

In [121]:
def getDate(data):
    data = str(data)
    year = data[0:4]
    month = data[4:6]
    day = data[6:8]
    return year+'-'+month+'-'+day

d = 20220625
getDate(d)

'2022-06-25'

In [202]:
# apply 함수
# df['컬럼명'].apply(함수이름)

df = {'조식':['보리밥', '미역국', '진미채', '오징어젓갈', '광천김'],
      '증식':['볶음밥', '짜장면', '짬뽕', '탕수육', '마라탕'],
      '석식':['비빔밥', '누룽지', '우엉된장국', '묵은지찜', '등뼈감자탕'],
      '일시':[20220601, 20220602, 20220603, 20220604, 20220605]}
df = pd.DataFrame(df)
df

Unnamed: 0,조식,증식,석식,일시
0,보리밥,볶음밥,비빔밥,20220601
1,미역국,짜장면,누룽지,20220602
2,진미채,짬뽕,우엉된장국,20220603
3,오징어젓갈,탕수육,묵은지찜,20220604
4,광천김,마라탕,등뼈감자탕,20220605


In [133]:
df['일시'].apply(getDate)

0    2022-06-01
1    2022-06-02
2    2022-06-03
3    2022-06-04
4    2022-06-05
Name: 일시, dtype: object

In [139]:
# 값의 포맷은 바뀌었지만,
# 데이터 형식이 바뀌지 않았으므로 변경해준다.

df['일시'].apply(getDate).astype('datetime64')

0   2022-06-01
1   2022-06-02
2   2022-06-03
3   2022-06-04
4   2022-06-05
Name: 일시, dtype: datetime64[ns]

In [140]:
# 람다식도 apply 가능
df['일시'].apply(lambda x: x + 7)

0    20220608
1    20220609
2    20220610
3    20220611
4    20220612
Name: 일시, dtype: int64

## 원핫인코딩

In [143]:
# 문자형 데이터를 숫자로 변환하는 경우, 원핫인코딩을 사용하여
# 데이터가 존재하는 부분에는 1, 없는 부분은 0으로 채워진 행열을 생성한다.
# pd.get_dummies(변환할 컬럼)

dummies = pd.get_dummies(df3['target'], prefix='타겟')
dummies

Unnamed: 0,타겟_setosa,타겟_versicolor,타겟_virginica
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0
...,...,...,...
145,0,0,1
146,0,0,1
147,0,0,1
148,0,0,1


## 결측치 처리

결측치 비율에 따라 일반적인 처리 방법
- 10% 미만 : 로우 삭제 또는 치환
- 10~50% : 모델 기반 처리
- 50% 이상 : 컬럼 삭제

In [150]:
garbageDF = df.append({'쓰레기컬럼':range(5)}, ignore_index=True)
garbageDF

  garbageDF = df.append({'쓰레기컬럼':range(5)}, ignore_index=True)


Unnamed: 0,조식,증식,석식,일시,쓰레기컬럼
0,보리밥,볶음밥,비빔밥,20220601.0,
1,미역국,짜장면,누룽지,20220602.0,
2,진미채,짬뽕,우엉된장국,20220603.0,
3,오징어젓갈,탕수육,묵은지찜,20220604.0,
4,광천김,마라탕,등뼈감자탕,20220605.0,
5,,,,,"(0, 1, 2, 3, 4)"


In [151]:
# null 값 여부 불리언 반환
garbageDF.isna()

Unnamed: 0,조식,증식,석식,일시,쓰레기컬럼
0,False,False,False,False,True
1,False,False,False,False,True
2,False,False,False,False,True
3,False,False,False,False,True
4,False,False,False,False,True
5,True,True,True,True,False


In [160]:
# null 값 총합 확인
garbageDF.isna().sum()

조식       1
증식       1
석식       1
일시       1
쓰레기컬럼    5
dtype: int64

In [152]:
# 결측치 지정한 값으로 채우기
garbageDF.fillna(0)

Unnamed: 0,조식,증식,석식,일시,쓰레기컬럼
0,보리밥,볶음밥,비빔밥,20220601.0,0
1,미역국,짜장면,누룽지,20220602.0,0
2,진미채,짬뽕,우엉된장국,20220603.0,0
3,오징어젓갈,탕수육,묵은지찜,20220604.0,0
4,광천김,마라탕,등뼈감자탕,20220605.0,0
5,0,0,0,0.0,"(0, 1, 2, 3, 4)"


In [164]:
# np.nan 으로 결측치 생성
df['간식'] = np.nan

In [166]:
df.isna()

Unnamed: 0,조식,증식,석식,일시,간식
0,False,False,False,False,True
1,False,False,False,False,True
2,False,False,False,False,True
3,False,False,False,False,True
4,False,False,False,False,True


In [167]:
df.isna().sum()

조식    0
증식    0
석식    0
일시    0
간식    5
dtype: int64

In [187]:
df.fillna('아이스크림')

Unnamed: 0,조식,증식,석식,일시,간식
0,보리밥,볶음밥,비빔밥,20220601,아이스크림
1,미역국,짜장면,누룽지,20220602,아이스크림
2,진미채,짬뽕,우엉된장국,20220603,아이스크림
3,오징어젓갈,탕수육,묵은지찜,20220604,아이스크림
4,광천김,마라탕,등뼈감자탕,20220605,아이스크림


In [189]:
df.drop(['간식'], axis=1)

Unnamed: 0,조식,증식,석식,일시
0,보리밥,볶음밥,비빔밥,20220601
1,미역국,짜장면,누룽지,20220602
2,진미채,짬뽕,우엉된장국,20220603
3,오징어젓갈,탕수육,묵은지찜,20220604
4,광천김,마라탕,등뼈감자탕,20220605


## datetime 타입 파싱하기

In [203]:
df['Datetime'] = df['일시'].apply(getDate)
df

Unnamed: 0,조식,증식,석식,일시,Datetime
0,보리밥,볶음밥,비빔밥,20220601,2022-06-01
1,미역국,짜장면,누룽지,20220602,2022-06-02
2,진미채,짬뽕,우엉된장국,20220603,2022-06-03
3,오징어젓갈,탕수육,묵은지찜,20220604,2022-06-04
4,광천김,마라탕,등뼈감자탕,20220605,2022-06-05


In [204]:
df['Datetime'].astype('datetime64')

0   2022-06-01
1   2022-06-02
2   2022-06-03
3   2022-06-04
4   2022-06-05
Name: Datetime, dtype: datetime64[ns]

In [214]:
df['Datetime'] = df['Datetime'].astype('datetime64')

In [216]:
# datetime import 하여 값 파싱하기
# 이 방법으로 나누려면 datetime 데이터 타입이어야 함.

import datetime as dt

df['Year'] = df['Datetime'].dt.year
df['Month'] = df['Datetime'].dt.month
df['Day'] = df['Datetime'].dt.day

df

Unnamed: 0,조식,증식,석식,일시,Datetime,Year,Month,Day
0,보리밥,볶음밥,비빔밥,20220601,2022-06-01,2022,6,1
1,미역국,짜장면,누룽지,20220602,2022-06-02,2022,6,2
2,진미채,짬뽕,우엉된장국,20220603,2022-06-03,2022,6,3
3,오징어젓갈,탕수육,묵은지찜,20220604,2022-06-04,2022,6,4
4,광천김,마라탕,등뼈감자탕,20220605,2022-06-05,2022,6,5


## DateFrame 구조 변형

In [219]:
# Datetime 컬럼을 기준으로 평균값 구하기
df.groupby(['Datetime']).mean()

Unnamed: 0_level_0,일시,Year,Month,Day
Datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2022-06-01,20220601.0,2022.0,6.0,1.0
2022-06-02,20220602.0,2022.0,6.0,2.0
2022-06-03,20220603.0,2022.0,6.0,3.0
2022-06-04,20220604.0,2022.0,6.0,4.0
2022-06-05,20220605.0,2022.0,6.0,5.0


### Pandas - Join
- Inner join : 가장 보편적인 방법, key를 기준으로 양 테이블에 함께 존재하는 데이터끼리 조인
- Left Join : 왼쪽 테이블의 key를 기준으로 조인
- Right Join : 오른쪽 테이블의 key를 기준으로 조인
- Outer Join : 양 테이블의 모든 key를 기준으로 조인

In [220]:
df1 = pd.DataFrame({'이름':['A', 'B', 'C', 'D', 'E'],
                    '키':[180, 160, 150, 170, 170],
                    '나이':[23, 46, 33, 65, 28],
                    '주소':['서울', '부산', '대전', '원주', '제주']})
df1                          

Unnamed: 0,이름,키,나이,주소
0,A,180,23,서울
1,B,160,46,부산
2,C,150,33,대전
3,D,170,65,원주
4,E,170,28,제주


In [221]:
df2 = pd.DataFrame({'이름':['F', 'G', 'H', 'I', 'J'],
                    '키':[190, 180, 150, 160, 170],
                    '나이':[22,18, 87, 45, 74],
                    '주소':['전주', '서울', '수원', '부산', '인천']})
df2

Unnamed: 0,이름,키,나이,주소
0,F,190,22,전주
1,G,180,18,서울
2,H,150,87,수원
3,I,160,45,부산
4,J,170,74,인천


In [223]:
# 수직으로 병합하여 반환
pd.concat([df1, df2])

Unnamed: 0,이름,키,나이,주소
0,A,180,23,서울
1,B,160,46,부산
2,C,150,33,대전
3,D,170,65,원주
4,E,170,28,제주
0,F,190,22,전주
1,G,180,18,서울
2,H,150,87,수원
3,I,160,45,부산
4,J,170,74,인천


In [224]:
# 수평으로 병합하여 반환
pd.concat([df1, df2], axis=1)

Unnamed: 0,이름,키,나이,주소,이름.1,키.1,나이.1,주소.1
0,A,180,23,서울,F,190,22,전주
1,B,160,46,부산,G,180,18,서울
2,C,150,33,대전,H,150,87,수원
3,D,170,65,원주,I,160,45,부산
4,E,170,28,제주,J,170,74,인천
