# 인공지능

* 컴퓨터가 지능이 필요한 일을 하고, 지능적 행동을 할 수 있도록 만드는 작업
* 인간의 학습 능력과 추론능력, 지각능력, 자연 언어의 이해 능력 등을 컴퓨터 프로그램으로 실현할 수 있도록 연구함으로써, 인간의 지능으로 수행할 수 있는 기능들을 컴퓨터가 수행하도록 하는 기술

|플랫폼 분류|설명|
|----|----|
|음성지능|디바이스가 사람의 음성을 인식하고 사람의 언어를 이해하여 커뮤니케이션이 가능하도록 하는 기술|
|언어지능|자연어처리, 대화 의미 분석 등 지식 생성, 문장의 분리 및 이해, 언어대화의 흐름 분석 등의 기술을 제공하는 기술|
|시각지능|배경, 상황 등을 이해하고 판단하며, 객체의 행동 해석을 통해 다음 행동 예측 등의 서비스를 제공하는 기술|
|공간지능|공간정보를 효율적으로 관리하고 지도의 특성을 일반화시켜 지도를 자동 설계하고, 공간에 대한 정보를 제공해주는 기술|
|감성지능|최신 트렌드, 여론조사 등으로부터 사람의 감정을 복제하고 모방하여 사람의 감성을 분석하는 기술|


## 머신러닝

* 인공지능의 한 분야로, 컴퓨터가 데이터로부터 스스로 학습하고 예측, 분류, 의사결정 등의 작업을 수행할 수 있도록 하는 알고리즘과 기술을 연구하는 학문

* 딥러닝 < 머신러닝 < 인공지능

### 머신러닝(기계학습)의 특징
* 데이터 기반의 학습, 일반화 능력, 자동화된 의사결덩, 다양한 알고리즘과 기법, 온라인 학습 및 적응, 인공지능과의 연계

* 딥러닝은 머신러닝의 한 유형이며, 빅데이터의 등장, 컴퓨터 하드웨어의 발전, 훈련 알고리즘의 향상, 그리고 법적/정책적 지원으로 인해 딥러닝이 가능하게 되었다.

### 머신러닝의 분류

#### 1. 지도학습
* 입력 데이터와 그에 대응하는 정답(레이블)이 주어진 경우, 알고리즘이 입력 데이터와 정답 사이의 관계를 학습하여 새로운 데이터에 대한 예측을 수행
* 회귀(Regression)와 분류(Classification)문제가 속함
#### 2. 비지도 학습
* 입력 데이터만 주어진 경우, 알고리즘이 데이터의 구조나 패턴을 찾음
* 군집화(Clustering), 차원 축소(Dimensionality Reduction), 밀도 추정(Density Estimation)등의 문제를 해결하는 데 사용
#### 3. 강화 학습
* 기계학습의 한 방법, 에이전트(Agent)가 환경(Environment)과 상호작용하여 보상(Rewqrd)을 최대화하는 행동(Action)을 학습하는 과정
* 다양한 응용 분야에서 사용되며, 게임, 로봇 제어, 자율주행 차량 등에서 성공적인 결과를 보임

### 프로그래밍
* 특정 응용에 맞는 자료구조 및 알고리즘을 선택하고, 적절한 프로그래밍 언어를 이용하여, 구체적인 프로그램으로 구현하는 작업
* 어떤 문제를 해결하기 위하여 그 처리 방법과 순서를 기술하여 컴퓨터에 주어지는 일련의 명령문 집합체

### 자료구조와 알고리즘
* 자료구조: 컴퓨터에 자료를 효율적으로 저장하는 방식
* 알고리즘: 자료구조와 함께 프로그램을 구성하는 구성요소(넓은 의미: 명령어들의 집합), 어떤 문제에 대한 답을 찾는 단계적 절차(좁은 의미: 내부함수)

### SW개발
* 사용자가 원하는 소프트웨어를 제공하기 위해 계획, 요구분석, 설계, 구현, 테스트 등을 진행하는 과정
* 개발을 위한 프로세스는 전통적으로 폭포수 모델(Waterfall Model), 프로토타입 모델(Prototype Model)등이 있으며, 최근에는 애자일 모델(Agile Model)이 주목 받음

### 애자일 모델
* 절차보다 사람을 중심으로 변화에 유연하고 신속하게 적응(Adaptive)하면서 고객과 상호작용하며 반복적으로 SW를 개발하는 모델
* SCRUM, XP

# 붓꽃데이터를 이용한 기초 머신러닝

## 데이터 전처리

![image.png](attachment:image.png)

In [2]:
# 사이킷런 버전 확인
import sklearn
print(sklearn.__version__)

1.2.2


In [1]:
!pip install scikit-learn



In [4]:
# 붓꽃 데이터셋 로드
from sklearn.datasets import load_iris

# 의사결정트리 라이브러리 임포트
from sklearn.tree import DecisionTreeClassifier

# 학습데이터와 테스트 데이터 분리를 위해 train_test_split 임포트
from sklearn.model_selection import train_test_split

# accuracy_score를 확인하기 위해 임포트
from sklearn.metrics import accuracy_score

In [5]:
# 데이터 불러오기
import pandas as pd

# 붓꽃데이터셋을 로딩하여 iris변수에 저장
iris = load_iris()

In [6]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [7]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [8]:
# data에 매핑되는 레이블값
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [9]:
# target에 매핑되는 레이블 값
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [10]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [11]:
# iris.data를 iris_data에 저장
iris_data = iris.data

In [12]:
# iris.target을 iris_label에 저장
iris_label = iris.target

In [13]:
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df['label'] = iris_label
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [14]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 11)

In [15]:
# fit() 메소드에 피쳐 데이터셋과 결정값 데이터셋 입력
dt_clf.fit(iris_data, iris_label)

In [17]:
pred = dt_clf.predict(iris_data)
print('예측 정확도: ', accuracy_score(iris_label, pred))

예측 정확도:  1.0


## 학습데이터와 테스트데이터 분리

### test_size와 random_state의 의미

* scikit-learn에서 사용하는 random_state인자는 수행시마다 동일한 결과를 얻기 위해 적용
* test_size = 0.2 의 옵션을 선언한다면, 80%의 train, 20%의 test데이터 세트를 추출한다. 하지만 추출된 데이터는 수행을 할 때마다 random하게 추출하므로 달라지게 된다.
* 예를들어 1-100까지의 일련번호로 된 100개의 데이터를 train_test_split(test_size = 0.2)로 수행하면 해당 함수를 첫번째 수행할 때는 1-80번이 train, 81-100번이 test가 될 수 있지만, 다시 수행을 할 경우 21-100번이 train, 1-20번이 test가 될 수 있다.
* 80%, 20%로 나누는건 동일하지만 함수를 수행 시마다 추출한 레코드들이 달라질 수 있다.
* 이러한 것을 random_state=11과 같이 seed값을 고정시키게 된다면, 여러번 수행하더라도 같은 레코드를 추출할 수 있다.

In [19]:
# train_test_split(학습데이터, 테스트데이터), 테스트데이터 비울=0.2, 무작위 분리를 위한 난수(양수)
# random_state = 수행시마다 동일한 결과를 얻기 위해 적용
# 난수입력은 컴퓨터 체제의 64bit한계치까지 값을 입력할 수 있다
# random_state를 지정하지 않게 되면 수행할 때마다 같은 학습/테스트 용 데이터를 만들 수 있다
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2, random_state = 11)

In [21]:
dt_clf2 = DecisionTreeClassifier(random_state = 11)
dt_clf2.fit(X_train, y_train)

In [22]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트데이터 세트로 예측 수행
pred = dt_clf2.predict(X_test)
print('예측 정확도(테스트데이터 20%분리) : ', accuracy_score(y_test, pred))

예측 정확도(테스트데이터 20%분리) :  0.9333333333333333


## 붓꽃데이터 키 살펴보기

In [23]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils._bunch.Bunch'>


In [24]:
keys = iris_data.keys()
print(keys)

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [25]:
print('\n feature_names의 type:', type(iris_data.feature_names))
print(' feature_names의 shape:', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names의 type:', type(iris_data.target_names))
print(' target_names의 shape:', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type:', type(iris_data.data))
print(' data의 shape:', iris_data.data.shape)
print(iris_data['data'])

print('\n target의 type', type(iris_data.target))
print(' target의 shape:', iris_data.target.shape)
print(iris_data.target)


 feature_names의 type: <class 'list'>
 feature_names의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names의 type: <class 'numpy.ndarray'>
 target_names의 shape: 3
['setosa' 'versicolor' 'virginica']

 data의 type: <class 'numpy.ndarray'>
 data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5

## 넘파이 복습

* 숫자 -> 스칼라(0차원 텐서)
* 1차원 배열 -> 벡터(1차원 텐서)
* 2차원 배열 -> 행렬(2차원 텐서)
* 3차원 배열 -> 텐서(3차원 텐서)
* 텐서: 다차원 배열이나 데이터 구조를 일반화한 수학적 개념

### 1차원 배열과 리스트의 차이점

* 파이썬의 리스트는 숫자형, 문자열 등 다양한 데이터 타입을 보존할 수 있지만, 넘파이 어레이는 숫자열과 문자열이 섞이면 모두 문자열(한 가지 지료형만 허용)로 전환된다.
* 파이썬 리스트는 덧셈 시 항목을 이어 붇이는 concenate 수행하며, 리스트 간의 다른 연산을 허용하지 않는다. 곱셈은 자연수곱셈은 가능하며, 원소복사를 의미한다. 반면, 어레이는 덧셈 시 항목 간 덧셈을 수행하며, 실수에 대한 사칙연산 과정도 원소 전체의 값에 대하여 수행이 가능하다.
* 리스트는 mean, argmax, round와 같은 메소드 를 지원하지 않고, 어레이는 append, remove, extend등의 리스트메소드를 지원하지 않는다.
* 연산 속도에 있어서도 numpy array가 연산 최적화가 잘되어있다. numpy배열은 C로 구현된 내부 루프를 사용하여 연산을 처리하기 때문, 벡터화 연산 시, 배열 전체에 대한 수학적 연산을 간단하게 적용하여 반복문 없이 빠르게 계산을 수행 할 수 있다.

### 1차원 배열과 2차원 배열의 차이점

* 1차원 배열은 메모리를 더 효율적으로 사용할 수 있다.(보다 적은 메모리 오버헤드 발생, 데이터 접근/처리 속도 빠름)
* 1차원 배열은 인덱싱 및 슬라이싱이 2차원 배열보다 간단
* 2차원 배열은 다차원 데이터의 표현 가능하며, 더 높은 차원의 배열로 쉽게 확장할 수 있다.
* 어떤 배열 구조를 사용할지는 데이터의 형태와 처리할 작업에 따라 다르다.
* 1차원 배열은 간단한 데이터 구조를 처리하는데 적합하고, 2차원 배열은 다차원 데이터를 다루는데 더 적합하다.

In [27]:
import numpy as np
# 길이가 3인 1차원 배열
# 1차원 배열 생성
array1 = np.array([1, 2, 3])
# 배열의 타입 확인
print('array1 type:', type(array1))
# 배열의 형태 확인
print('array1 array 형태:', array1.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)


In [28]:
# 2차원(2x3) 배열
# 2차원 배열
array2 = np.array([[1, 2, 3], [2, 3, 4]])
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape)

array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)


In [29]:
# 2차원(1x3) 배열
array3 = np.array([[1, 2, 3]])
print('array3 type:', type(array3))
print('array3 array 형태:', array3.shape)

array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)


In [31]:
# 2개의 2x3 행렬을 포함하는 3차원 배열
# 결과로 출력되는 튜블 안의 원소 개수가 차원의 개수이다
array4 = np.array([[[1, 2, 3,], [2, 3, 4]], [[1, 2, 3], [2, 3, 4]]])
print('array4 type:', type(array4))
print('array4 array 형태:', array4.shape)

array4 type: <class 'numpy.ndarray'>
array4 array 형태: (2, 2, 3)


In [32]:
# 행렬안에 행렬이 있을 경우, 그 행렬의 차원 수 역시 튜플 낭에 원소의 개수를 통해 확인할 수 있다.
array_2x2 = np.array([[1, 2], [3, 4]])
print('array_2x2 array 형태:', array_2x2.shape)

array_3x3 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print('array_3x3 array 형태:', array_3x3.shape)

matrix_3x3_1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
matrix_3x3_2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
matrix_3x3_3 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
matrix_3x3_4 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

m1_2x2_of_3x3 = np.array([[matrix_3x3_1, matrix_3x3_2], [matrix_3x3_3, matrix_3x3_4]])
print('m1_2x2_of_3x3 array 형태:', m1_2x2_of_3x3.shape)

m2_2x2_of_3x3 = np.array([[[[1,2,3],[4,5,6],[7,8,9]],
                      [[1,2,3],[4,5,6],[7,8,9]]],
                      [[[1,2,3],[4,5,6],[7,8,9]],
                      [[1,2,3],[4,5,6],[7,8,9]]]])

print('m2_2x2_of_3x3 array 형태:', m2_2x2_of_3x3.shape)

array_2x2 array 형태: (2, 2)
array_3x3 array 형태: (3, 3)
m1_2x2_of_3x3 array 형태: (2, 2, 3, 3)
m2_2x2_of_3x3 array 형태: (2, 2, 3, 3)


In [33]:
m1_2x2_of_3x3

array([[[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]],

        [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]],


       [[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]],

        [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]]])

In [34]:
m2_2x2_of_3x3

array([[[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]],

        [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]],


       [[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]],

        [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]]])

### ndarray의 데이터 타입

In [36]:
# ndarray 내의 데이터값은 숫자, 문자, 불리언(참/거짓) 모두 가능
# 다만 데이터 타입은 ndarray 내에 동일한 데이터 타입이 들어가야 함

list1 = [1, 2, 3]
print(type(list1))

# 리스트를 어레이로 변환
array1 = np.array(list1)
print(type(array1))

# 리스트변수와 그에 대한 데이터타입 출력
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [40]:
# 서로 다른 데이터 타입이 들어올 경우, 더 큰 데이터 타입으로 변환
list2 = [1, 2, 'test']
# 숫자와 문자를 array2에 저장
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 3.0]
# int와 float을 array3에 저장
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64


In [41]:
# ndarray 내 데이터 타입 변경

array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64') # astype을 이용해 int를 float으로 변경
print(array_float, array_float.dtype)

array_int1= array_float.astype('int64') # astype을 이용해 float를 int로 변경
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.9, 2.1, 3.1])
array_int2= array_float1.astype('int64') # astype을 이용해 float를 int로 변경
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int64
[1 2 3] int64


## int64와 int32의 차이

### int32
* 32비트를 사용하여 정수를 표현하는 데이터 타입
* 부호 1비트를 제외한 -2^31부터 2^31-1까지의 정수를 표현

### int64
* 64비트를 사용하여 정수를 표현하는 데이터 타입
* 부호 1비트를 제외한 -2^63부터 2^63-1까지의 정수를 표현
* int64는 더 큰 범위를 다를 수 있지만 더 많은 메모리를 사용

## float64와 float32의 차이

### float32
* 32비트를 사용하여 부동소수점 숫자를 표현하는 데이터 타입
* 유효 숫자의 비트 수는 23비트(IEEE 754 표준에서 지정), 지수부분과 부호부분을 추가하면 총 32비트를 사용
* 대략 소수점 7자리까지 정확하게 표현

### float64
* 64비트를 사용하여 부동소수점 숫자를 표현하는 데이터 타입
* 유효 숫자의 비트 수는 52비트, 지수부분과 부호부분을 추가하면 총 64비트를 사용
* 대략 소수점 15자리까지 정확하게 표현
* float64는 더 높은 정밀도를 가지고 더 큰 범위를 다룰 수 있지만 더 많은 메모리를 사용, 따라서 데이터타입 선택 시, 정밀도, 범위, 메모리 사용량 고려 필요

### ndarray를 편리하게 생성하기 - arange, zeros, ones

In [42]:
# 0부터 n-1까지의 값을 순차적으로 입력
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


In [44]:
# 원소가 모두 '0'인 행렬
zero_array = np.zeros((3, 3), dtype = 'int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)
print('\n')

# 원소가 모두 '1'인 행렬(default는 float)
one_array = np.ones((3, 3))
print(one_array)
print(one_array.dtype, one_array.shape)
print('\n')

one_array = np.ones((3, 3), dtype = int)
print(one_array)
print(one_array.dtype, one_array.shape)
print('\n')
# 단위행렬
unit_array = np.eye(3)
print(unit_array)
print(unit_array.dtype, unit_array.shape)

[[0 0 0]
 [0 0 0]
 [0 0 0]]
int32 (3, 3)


[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
float64 (3, 3)


[[1 1 1]
 [1 1 1]
 [1 1 1]]
int32 (3, 3)


[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
float64 (3, 3)


### ndarray의 차원과 크기를 변경하는 reshape()매서드

In [48]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2, 5)
print('\n array2:\n', array2)

array3 = array1.reshape(5,2)
print('\n array3:\n',array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]

 array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]

 array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [46]:
# 오류가 발생하는 예
# 10개의 배열은 4X3의 형태로 나눌 수 없기 때문
array1.reshape(4, 3)

ValueError: cannot reshape array of size 10 into shape (4,3)

In [49]:
array1 = np.arange(10)
print(array1)

# 음수가 들어올 경우, 열(5)에 맞게 반환
array2 = array1.reshape(-1, 5)
print('\n array2:\n', array2)
print('array2 shape:', array2.shape)

# 음수가 들어올 경우, 행(5)에 맞게 반환
array3 = array1.reshape(5, -1)
print('\n array3:\n', array3)
print('array3 shape:', array3.shape)

# 음수가 들어올 경우, 행(2)에 맞게 변환
array4 = array1.reshape(2,-1)
print('\n array4:\n',array4)
print('array4 shape:',array4.shape)

[0 1 2 3 4 5 6 7 8 9]

 array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array2 shape: (2, 5)

 array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
array3 shape: (5, 2)

 array4:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array4 shape: (2, 5)


In [50]:
array1 = np.arange(8)
print(array1)

[0 1 2 3 4 5 6 7]


In [52]:
# 2x2 행렬을 2개 가지는 3차원 배열
array3d = array1.reshape((2,2,2))
print('array3d:\n',array3d.tolist())

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]


In [53]:
# 3차원 ndarray를 2차원 ndarray로 변환
# reshape(-1, 1)은 원본 ndarray가 어떤 형태로든 1개 컬럼을 가진 2차원으로 변환
array5 = array3d.reshape(-1, 1)
print('array5:\n', array5.tolist())
print('array5 shape:',array5.shape)

array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)


In [54]:
# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n',array6.tolist())
print('array6 shape:',array6.shape)

array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


In [55]:
array7 = array4.reshape(-1,1)
print('array7:\n',array7.tolist())
print('array7 shape:',array6.shape)

array7:
 [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]]
array7 shape: (8, 1)


### indexing

In [59]:
# 1에서부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start = 1, stop = 10)
print('array1:', array1)

# index는 0부터 시작하므로 array[2]는 3번째 index위치의 데이터값을 의미
value = array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int32'>


In [61]:
print('맨 뒤의 값:',array1[-1], ', 맨 뒤에서 두번째 값:', array1[-2])

맨 뒤의 값: 9 , 맨 뒤에서 두번째 값: 8


In [62]:
array1[0] = 9
array1[8] = 0
print('array1:', array1)

array1: [9 2 3 4 5 6 7 8 0]


In [63]:
array1d = np.arange(start = 1, stop = 10)
array2d = array1d.reshape(3, 3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0, 0])
print('(row=0, col=1) index 가리키는 값:', array2d[0, 1])
print('(row=1, col=0) index 가리키는 값:', array2d[1, 0])
print('(row=2, col=2) index 가리키는 값:', array2d[2, 2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


### slicing

In [64]:
#':' -> 시작인덱스에서 종료인덱스-1 의 위치에 있는 데이터의 ndarray반환
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [65]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [66]:
array1d = np.arange(start = 1, stop = 10)
array2d = array1.reshape(3, 3)
print('array2d:\n', array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


In [67]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape)

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


### fancy indexing
* 리스트나 ndarray로 인덱스 집합을 지정하면, 해당 위치의 인덱스에 대한 ndarray를 반환하는 방식

In [70]:
array1d = np.arange(start = 1, stop = 10)
array2d = array1d.reshape(3, 3)

print(array1d)
print('\n', array2d)

[1 2 3 4 5 6 7 8 9]

 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [71]:
array3 = array2d[[0, 1], 2]
print('array2d[[0, 1], 2] => ', array3.tolist())

array4 = array2d[[0, 1], 0:2]
print('array2d[[0, 1], 0:2] => ', array4.tolist())

array5 = array2d[[0, 1]]
print('array2d[[0, 1]] => ', array5.tolist())

array6 = array2d[0, [0, 1]]
print('array2d[[0, [0, 1]] => ', array6.tolist())


array2d[[0, 1], 2] =>  [3, 6]
array2d[[0, 1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0, 1]] =>  [[1, 2, 3], [4, 5, 6]]
array2d[[0, [0, 1]] =>  [1, 2]


### Boolean indexing
* 조건 필터링과 검색을 동시에 할 수 있는 방식(True인 값만 반영)

In [72]:
array1d = np.arange(start = 1, stop = 10)
# []안에 array1d > 5 Boolean indexing 적용
array3 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 결과 값 : ', array3)

array1d > 5 불린 인덱싱 결과 값 :  [6 7 8 9]


In [73]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [74]:
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과: ', array3)

불린 인덱스로 필터링 결과:  [6 7 8 9]


In [75]:
indexes = np.array([5,6,7,8])
array4 = array1d[ indexes ]
print('일반 인덱스로 필터링 결과 :',array4)

일반 인덱스로 필터링 결과 : [6 7 8 9]
