#### **시험 정보**

- 범위
> - 인공지능개론, 객관식
>> - AI, 머신러닝, 딥러닝 차이점을 설명
>> - 실무적/실용적 관점에서 머신러닝을 파악
>> - 지도학습, 비지도학습의 차이점을 설명
> - 변수 선택 및 불균형 데이터, 객관식
>> - Feature Engineering 이해 및 필요성
>> - Feature Selection 차이점에 따른 이해
>> - Imbalanced Data 처리 방법
> - 회귀(Regression), 객관식+프로그래밍
>> - 단순 선형회귀, 다중 선형회귀, 다항 회귀, 정규화 기법
>> - 과적합 방지 기법 : 교차 검증, 정규화 방식
>> - 회귀 모델 평가하고 결과를 해석
> - 분류(Classification), 객관식+프로그래밍
>> - 로지스틱회귀, SVM, 의사결정나무, 랜덤포레스트, 부스팅
>> - 분류 모델 평가하고 결과를 해석
> - 비지도 학습(Unsupervised Learning), 객관식+프로그래밍
>> - 클러스터링: k-means, 차원축소: PCA
> - 신경망(Neural Network), 객관식
>> - 딥러닝의 기본적인 정의 및 개념에 대한 설명
>> - 퍼셉트론, 오차역전파에 대한 개념 이해
>> - RNN, CNN의 차이점과 적용 분야를 설명
> - 모델(지도학습) 설계/구현/해석
>> - 주어진 문제를 해결하기 위한 ML 방법론을 설계
>> - 문제 해결을 위해 선정된 ML 모델을 코드로 구현
>> - ML 모델을 활용한 분석 결과를 해석하고 문제 해결 방안을 제시

- Closed Book 방식, 플랫폼 내 부정행위 방지 기능 적용
- 합격 기준: 총 60% 이상 취득, 과락 기준: 실기문제 40% 미만

#### **전처리**

- **StandardScaler**
> - **각 특성의 평균을 0, 분산을 1로 변경하여 모든 특성이 같은 크기를 가지게 함**
> - X - X(평균) / 표준편차, 해당 값을 표준 점수, 표준값 혹은 z-점수라고 함
> - 특성의 최솟값과 최댓값 크기를 제한하지 않음

- **MinMaxScaler**
> - **모든 특성이 정확하게 0과 1사이에 위치하도록 데이터를 변경**
> - X - X(min) / (X(max) - X(min)), 데이터에서 최솟값을 빼고 전체 범위로 나눔

In [78]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

#### **회귀**

- 선형 회귀 종류: simple Linear(단순선형) vs Multiple Linear(다중선형) vs Polynomial(다항)
- 과적합 방지 1: 교차검증(k-fold 교차검증)
> - 먼저 훈련 세트와 테스트 세트를 분리
> - 훈련 세트를 k개로 분할, k개중 하나의 세트를 검증용 데이터로 사용하고 나머지를 훈련용으로 사용
> - **k번의 서로 다른 검증 과정에서 평균 성능이 최종 모델 성능**
- 과적합 방지 2: 정규화
> - **L1 : lasso, 불필요한 입력값에 대응하는 가중치를 0으로 만듦**
> - L2 : ridge, 아주 큰 값이나 작은 값을 가지는 이상치에 대한 가중치를 0에 가까운 값으로 만듦

In [69]:
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge, Lasso

#### **회귀 알고리즘 평가 지표**

- RSS(Residual Sum of Squares) - 단순오차
> - 실제값과 예측값의 **단순 오차 제곱합**
> - 직관적인 해석이 가능하나, **오차를 그대로 이용하기 때문에 입력값의 크기에 의존적임**
- MSE(Mean Squared Error) - 평균제곱오차
> - RSS에서 데이터 수만큼 나눈 값, 작을수록 모델 성능 높음
> - **이상치(outlier) 즉, 데이터들 중 크게 떨어진 값에 민감함**
- MAE(Mean Absolute Error) - 평균절대값오차
> - **실제값과 예측값의 오차의 절대값의 평균**
> - 변동성이 큰 지표와 낮은 지표를 같이 예측할 시 유용
> - **MSE나 MAE는 평균을 그대로 이용하기 때문에 입력값의 크기에 의존적임**
- R2(결정 계수)
> - 회귀 모델의 설명력을 표현하는 지표, 1에 가까울수록 높은 성능 모델
> - **백분율로 표현하기 때문에 크기에 의존적이지 않음**

In [72]:
from sklearn.metrics import explained_variance_score, mean_squared_error, mean_absolute_error, r2_score

#### **분류**

- 나이브베이즈 분류
>> - ![image.png](attachment:ca4c1b5a-5c06-4f34-afa1-ddede3d9d459.png)
> - **각 특징들이 독립이 아니면 즉, 특성들이 서로 영향을 미치면 분류 결과 신뢰성 저하**
> - 학습 데이터에 없는 범주의 데이터일 경우 정상적 예측 불가능

In [76]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC

#### **분류 알고리즘 평가 지표**

- 혼동 행렬(Confusion Matrix)
> - ![image.png](attachment:dde798b0-3c44-491b-8568-8081228b9852.png)
- **정확도(Accuracy)**
> - 전체 데이터 중에서 제대로 분류된 데이터의 비율로 모델이 얼마나 정확하게 분류하는지를 나타냄
> - Accuracy = (TP + TN) / (P + N)
> - **클래스 비율이 불균형할 경우 평가지표의 신뢰성을 잃음**
- **정밀도(Precision)**
> - 모델이 Positive라고 분류한 데이터 중에서 실제로 Positive이 데이터의 비율 (1형 오류 판별)
> - Precisition = TP / (TP + FP)
> - **Negative가 중요한 경우 즉, 실제로 Negative인 데이터를 Positive라고 판단하면 안되는 경우 사용되는 지표**
> - "일반 메일을 스펨메일(Positive)로 잘못 예측할 경우 문제 발생
- **재현율(Recall, TPR, Sensitivity)**
> - 실제로 Positive인 데이터 중에서 모델이 Positive로 분류한 데이터의 비율 (2형 오류 판별)
> - Recall = TP / (TP + FN)
> - **Positive가 중요한 경우 즉, 실제로 Positive인 데이터를 Negative라고 판단하면 안되는 경우 사용되는 지표**
> - "악성 종양(Positive)을 양성 종양(Negative)로 잘못 예측할 경우 문제 발생
- **FPR(False Positive Ratio)**
> - 실제로 Negative인 데이터 중에서 모델이 Positive로 분류한 데이터의 비율
> - FPR = FP / (FP +  TN)
> - "비정상 사용자 검출시 FPR이 높다" => 정상 사용자(Negative)를 비정상 사용자(Positive)로 검출하는 경우가 많다
- **ROC 커브, AUC**
> - **x축을 FPR, y축을 Recall(TPR)로 두고 시각화한 그래프**
> - **왼쪽 상단으로 커브가 당겨 질수록 즉, 커브 아래쪽 면적(AUC)이 증가할수록 모델 성능 향상**
> - AUC=0.5인 부분 Clasiifier의 최하 성능

#### **의사결정나무-분류**

- 구역을 어떻게 나눌까
> - 회귀: 해당 구역에 있는 데이터들의 실제값과 예측값의 오차 제곱합을 최소화하는 구역으로 나누자
>> - RSS를 최소화하는 모든 구역을 한번에 찾는것은 불가능 -> 위에서부터(top-down) 순간순간마다 가장 최선의 선택을 하자
> - 분류: 데이터의 불순도(Imputiry)를 최소화하는 구역으로 나누자
>> - 지니(Gini) 계수: 해당 구역 안에서 특정 클래스에 속하는 데이터의 비율을 모두 제외한 값 즉, 다양성을 계산하는 방법
>> - 이진 분류 문제일 경우, Gini Impurity = 1 - (yes의 확률)^2 - (no의 확률)^2

In [73]:
from sklearn.tree import DecisionTreeClassifier

#### **앙상블 기법**

- 여러 개의 깊지 않은(과적합 방지) 의사결정 나무를 같이 사용
- 종류 : Votting, Bagging, Boosting
- Votting
> - 회귀: 예측값의 평균
> - 분류: 직접투표-각 약한 모델 결과에 대한 다수결, 간접투표-각 약한모델 확률의 평균
- Bagging
> - **각 복원추출 데이터들을 이용해 약한 모델들을 훈련 시키고, 결합하여 학습된 모델의 예측 변수를 활용하여 최종 모델 생성**
> - 랜덤포레스트: 데이터 뿐만 아니라 특성들에 대해서도 복워 추출하여 개별 모델 생성, 학습된 나무들의 예측 결과값의 평균(회귀) 또는 다수결 투표(분류) 방식 이용하여 결합
- Boosting
> - 여러 개의 약한 모델을 수정하여 강한 모델을 만드는 방법, 독립적인 모델을 합산하여 산출하기 보다는 기존의 모델을 개선시키는 방향의 앙상블
> - **Ada Boost: 이전 학습 과정에서 오분류한 데이터를 다음 학습 과정에서 잘 분류할 수 있도록 하여(가중치 변경) 약한 모델을 강한 모델로 수정**
> - Gradient Boosting:
>> - Gradient Descent + Boosting
>> - Ada Boost와 동일한 원리, 차이점은 가중치 업데이트 과정에서 Gradient Descent를 사용한다는 것
>> - **오차는 손실함수로 표현되고, 이 손실함수를 최적화 하는데 있어 Gradient Descent를 사용**
> - Gradient Boosting 기반 모델
>> - **eXtreme Gradient Boosting(XGBoost)**: 일반 Gradient Boosting 모델과 작동 원리는 동일하나, **과적합을 방지하기 위해 정규화된 모델 사용**, 불순도를 감소하는 방향만 강조되는 기존 트리에서 정규화를 추가하여 모델의 복잡성도 고려
>> - **Light Gradient Boosting Model(LGBM)**: **XGBoost에 비해 더 가볍고 빠른 실행 속도를 가진 모델, 범주형 변수 처리 지원**, 적은 수의 데이터 적용 시 과적합 문제 발생 가능성
>> - **Categorical Boosting(CatBoost)**: **범주형 변수를 위한 다양한 기능 제공, 범주형 변수 전처리 문제 해결, 범주형과 수치형 변수들의 combination을 처리, 변수 간의 상관관계를 계산함과 동시에 속도 개선**

In [75]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier

#### **신경망-딥러닝**

- 다층 퍼셉트론(Multi Layer Perceptron)
> - XOR 게이트 예시 : NAND와 OR 연산을 2층으로 사용하면 XOR 표현 가능
> - Hidden Layer가 3층 이상일 시 Deep Learning이라고 부름

- 딥러닝 모델의 학습 방법
> - Loss function을 최소화하기 위해 최적화 알고리즘을 적용 => 예측값과 실제값 간의 오차값을 최소화하기 위해 오차값을 최소화하는 모델의 인자를 찾는 알고리즘을 적용
> - 최적화 알고리즘:
>> - **가장 기본적인 최적화 알고리즘, Gradient Descent(GD) : 신경망의 가중치들을 W라고 했을 때, 손실함수 Loss(W)의 값을 최소화하기 위해 기울기 Gradient(Loss(W))를 이용하는 방법, 이때 GD에 학습률 알파를 곱해 학습 정도를 조절함**
>> - 역전파(Backpropagation) : 딥러닝에서는 역전파를 통해 각 가중치들의 기울기를 구할 수 있음, 나의 목표 target 값과 실제 모델이 예측한 출력값이 얼마나 차이나는지 구한 후 오차값을 다시 뒤로 전파해가며 변수들을 갱신하는 알고리즘, 앞의 계산 결과를 사용하여 해당 층에서의 W 변화에 따른 손실함수 변화를 검토

- **딥러닝 알고리즘 문제점:** 
> **1. 학습속도문제**: 데이터의 개수가 폭발적으로 증가하여 모델 학습시 시간 증가함
>> - 전체 학습 데이터셋을 사용하여 손실함수를 계산하기 때문에 계산량이 너무 많아짐
>> - **전체 데이터가 아닌 부분 데이터만 활용하여 손실함수를 계산하자 -> Stochastic Gradient Descent(SGD)**
>> - SGD 장점: 전체 batch 대신 mini-batch에 대해서만 손실 함수를 계산, 다소 부정확할 수 있지만 훨씬 계산 속도가 빠르기 때문에 같은 시간에 더 많은 Step을 갈 수 있음
>> - **SGD 한계: Gradient 방향성 문제(mini-batch에 따라 gradient 방향 변화가 큼), Learning rate 설정 문제**
>> - **Momentum: 과거에 이동했던 방식을 기억하면서 그 방향으로 일정 정도를 추가적으로 이동하는 방식**
>> - **AdaGrad: 많이 변화하지 않은 변수들은 Learning rate을 크게 하고, 많이 변화했던 변수들은 Learning rate을 작게 -> 과거의 기울기를 제곱해서 계속 더하기 때문에 학습이 진행될수록 갱신 강도가 약해짐**
>> - **RMSProp: 갱신량이 0에 가까워 학습이 되지 않는 Adagrad의 단점을 해결 -> 과거의 기울기보다 새로운 기울기 정보를 크게 반영**
>
>
>
>> ![IMG_1086.jpeg](attachment:74cf335b-131f-43b3-9078-18b3b3e65d99.jpeg)


-
> **2. 기울기 소실 문제: 출력값과 멀어질 수록 학습이 잘 안되는 현상**
>> - Sigmoid 활성화 함수등을 지나면서 기울기가 0인 값을 전달하며 중간 전달값이 사라지는 문제에서 기인
>> - **해결: 내부 Hidden Layer에서는 ReLu를 적용하고, Output Layer에서만 Tanh를 적용**

-
> **3. 초기값 설정 문제**: 초기값 설정 방식에 따른 성능 차이가 매우 크게 발생
>> - **활성화 함수의 입력값이 너무 커지거나 작아지지 않게 만들어주는 것이 방지의 핵심**
>> - **Naive한 방법: 입력값을 표준 정규분포를 이용해 초기화**
>> - **Xavier 초기화: 표준 정규 분포를 입력 개수의 제곱근으로 나누어줌**
>> - **He 초기화: 표준 정규 분포를 입력 개수 절반의 제곱근으로 나누어줌**
>> - Sigmoid, tanh의 경우 Xavier 초기화 방법이 효율적, ReLu계의 활성화 함수 사용시 He 초기화 방법이 효율적, **최근 대부분의 모델에서는 He 초기화를 주로 선택**

-
> **4. 과적합 문제**
>> - 방지 기법: 정규화(Regularization), 드롭아웃(Dropout), 배치 정규화(Batch Normalization)
>> - 정규화: 기존 손실함수에 규제항을 더해 최적값 찾기 가능, L1 정규화-가중치의 절대값의 합을 규제항으로 정의, L2 정규화-가중치의 제곱의 합을 규제항으로 정의
>> - **드롭아웃: 각 layer마다 일정 비율의 뉴런을 임의로 드랍시켜 나머지 뉴런들만 학습하는 방법**, 드롭아웃을 적용하면 학습되는 노드와 가중치들이 매번 달라짐, 다른 정규화 기법들과 상호 보완적으로 사용 가능, **드랍된 뉴런은 역전파때 신호를 차단-> 테스트 때는 모든 뉴런에 신호를 전달**
>> - **배치 정규화: Normalization을 처음 입력 데이터 뿐만 아니라 신경망 내부 hidden layer에도 적용 -> 매 층마다 정규화를 진행하므로 가중치 초기값에 크게 의존하지 않음(초기화 중요도 감소), 과적합 억제(dropout, L1, L2 규제 필요성 감소) -> 핵심은 속도의 향상**

#### **딥러닝 활용 분야**

- 이미지 처리(합성곱 신경망): 
> - 작은 필터를 순환시키는 방식, **이미지의 패턴이 아닌 특징을 중점으로 인식**, 입력 이미지의 특징을 추출-분류하는 과정으로 동작
> - **이미지 -> Convolution Layer -> 피처맵 크기 변형 -> Pooling Layer -> Fully Connected Layer**
>> - Convolution Layer: 필터가 이미지를 이동하며 새로운 이미지(피처맵)를 생성
>> - 피처맵 크기 변형: Padding(원본 이미지의 상하좌우에 한줄씩 추가), Striding(필터를 이동시키는 거리 설정)
>> - Pooling Layer: 이미지의 왜곡 영향(노이즈)를 축소하는 과정, Max Pooling, Average Pooling
>> - Fully Connected Layer: 추출된 특성을 사용하여 이미지를 분류, **분류를 위해 마지막 계층에 Softmax 활성화 함수 사용**
>> - **정리: Convolution Layer는 특징을 찾아내고, Pooling Layer는 처리할 맵(이미지) 크기를 줄여준다. 이를 N번 반복한다. 반복할 때마다 줄어든 영역에서의 특징을 찾게 되고, 영역의 크기는 작아졌기 때문에 빠른 학습이 가능해진다.**

- 자연어 처리:
> - 자연어 처리 Process: 1.자연어 전처리(Preprocessing) -> 2.단어표현(Word Embedding)  -> 3.모델적용(Modeling)
> - **전처리: Noise Canceling, Tokenizing, StopWord removal**
>> - Noise Canceling: 자연어 문장의 스펠링 체크 및 띄어쓰기 오류 교정
>> - Tokenizing: 문장을 토큰으로 나눔, 토큰은 어절, 단어 등으로 목적에 따라 다르게 정의
>> - StopWord removal: 불필요한 단어를 의미하는 불용어(StopWord) 제거
> - **단어표현(Word Embedding): 비정형 데이터를 정형 데이터로 바꾸는 작업**
>> - **Count-based Representations: Bag of Words => One-hot encoding => Document term matrix**
>> - **Distributed Representations: Word2Vec, 단어들을 의미상으로 유사한 단어가 벡터 공간에 가까이 있도록 Mapping 시키는 작업을 의미, 특정 함수를 통해 우리가 원하는 차원으로 단어의 벡터를 Embedding함, CBOW(주변->중심), Skip-gram(중심->주변)**

- 순환 신경망:
> - 자연어 처리를 위한 딥러닝 모델, 자연어 문장을 기존 MLP 모델에 적용시키기에는 한계가 있음
> - **입력 노드는 단 하나(주로 원-핫 벡터 하나 입력) -> 동일한 출력값을 두 갈래로 나뉘어 다음 처리 네트워크에 그 중 하나를 연결, 신경망에게 '기억'하는 기능을 부여**
> - 순환 신경망 기반 다양한 자연어 처리 기술 예시: Image Captioning, 챗봇

### **교차검증 예시**

In [15]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

In [16]:
from sklearn.linear_model import LinearRegression

In [17]:
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

In [18]:
train_X, test_X, train_y, test_y = train_test_split(data, target, test_size=0.2, random_state=100)

In [19]:
n_iter = 0
model_scores =[]

kfold = KFold(n_splits=5)

for train_idx, val_idx in kfold.split(train_X):
    X_train, X_val = train_X[train_idx], train_X[val_idx]
    y_train, y_val = train_y[train_idx], train_y[val_idx]
    
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    score = model.score(X_val, y_val)
    
    train_size = X_train.shape[0]
    val_size = X_val.shape[0]
    
    print('iter:{0} Cross-Validation Accuracy:{1}, Train Data 크기:{2}, Validation Data 크기:{3}'.format(n_iter, score, train_size, val_size))
          
    model_scores.append(score)
    n_iter += 1


iter:0 Cross-Validation Accuracy:0.6225277546797339, Train Data 크기:323, Validation Data 크기:81
iter:1 Cross-Validation Accuracy:0.7158099616179285, Train Data 크기:323, Validation Data 크기:81
iter:2 Cross-Validation Accuracy:0.7986314390280331, Train Data 크기:323, Validation Data 크기:81
iter:3 Cross-Validation Accuracy:0.69522865674508, Train Data 크기:323, Validation Data 크기:81
iter:4 Cross-Validation Accuracy:0.7006957536853036, Train Data 크기:324, Validation Data 크기:80


In [20]:
np.mean(model_scores)

0.7065787131512159

In [21]:
model.score(test_X, test_y)

0.7572608014205967

### **Pandas, Series**

In [31]:
# List로 Series 선언
obj = pd.Series([4, 7, -5, 3], index=['d','b','a','c'])
# Dict로 Series 선언
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
obj3 = pd.Series(sdata)

print('{}\n\n{}'.format(obj, obj3))

d    4
b    7
a   -5
c    3
dtype: int64

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


- ***obj.values***
- ***obj.index***
- ***obj3.name = 'populations'***
- ***obj3.index.name = 'state'***

- The isnull and notnull functions in pandas should be used to detect missing data, Series also has these as instance methods:
> - ***pd.isnull(obj) = obj.isnull() :*** 

### **Pandas, DataFrame**

- There are many ways to construct a DataFrame, though one of the most common is **from a dict of equal-length lists or NumPy arrays**:

In [33]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


- If you specify a sequence of columns, the DataFrame’s columns will be arranged in that order:

In [34]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                     index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [35]:
# list assign 
frame2['debt'] = np.arange(6) #Column 이름 접근
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4
six,2003,Nevada,3.2,5


In [36]:
# Series assign
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2.debt = val #Attribute 접근
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


- ***frame2.T***
- ***frame2.columns.name = 'state'***
- ***frame2.index.append(pd.Index(['seven']))***

### **Pandas, Essential Functionality**

### Reindexing

In [40]:
# 예시: 행추가 + 행순서 변경 + 열추가 및 선택
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])

states = ['Texas', 'Utah', 'California']

frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [41]:
frame2 = frame.reindex(['a', 'b', 'c', 'd']) # b행 추가 및 행순서 변경
frame3 = frame2.reindex(columns = states) # Utah열 추가 Ohio 열제거, 열순서변경
frame3

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


### Droping Entries from an Axis

- **Calling drop with a sequence of labels will drop values from the row labels (axis 0)**:
- Drop values from the columns by passing **axis=1 or axis='columns'**:
- Many functions, like drop, which modify the size or shape of a Series or DataFrame, can **manipulate an object *in-place* without returning a new object**:

In [42]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [43]:
# 행 drop
data.drop(['Colorado', 'Ohio']) #data 변경은 없음-> 새변수 할당 필요

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [44]:
# 열 drop
data.drop(['two', 'four'], axis=1) #or axis='columns'

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [45]:
# inplace 조건
data.drop(['New York'], inplace=True)
data #원 데이터프레임 자체가 변경, 주의 필요

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11


### Indexing, Selection, and Filtering

- Slicing with labels behaves differently than normal Python slicing in that **the end‐point is inclusive**

#### Series

In [46]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

- 단독 색인

```python
obj['b'] ~ obj[1] #레이블, 정수 모두 가능
```
- Fancy 색인

```python
obj[['b', 'd']] ~ obj[[1, 3]] #레이블, 정수 모두 가능
```
- Slicing 색인

```python
obj['b' : 'c'] = obj[1 : 3] #레이블로 슬라이싱 시 end도 포함
```

#### DataFrame

In [47]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index=['Ohio', 'Colorado', 'Utah', 'New York'],
                   columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


- 단독 색인
```python
data['two'] #-> 열 접근, 레이블만 가능
```
> 단독 색인으로 레이블+정수 모두 행 접근 불가함

- Fancy 색인
```python
data[['three', 'one']] #-> 열 접근, 레이블만 가능
```
> Fancy 색인으로 레이블+정수 모두 행 접근 불가함

- Silicing 색인 -> 행 접근
```python
data['Utah':'New York'] = data[2:4] #-> 행 접근
```
> Slicing 색인으로 레이블+정수 모두 열 접근 불가함

- 행에 대한 접근을 위해 loc(레이블), iloc(정수) 도입
```python
data.loc['Colorado', ['two','three']]
data.iloc[1, [1, 2]]
data.iloc[2] #-> 단독 행 접근
```
> loc와 iloc에 대한 슬라이승 기법 사용 가능
>```python
data.loc[:'Utah', 'two']
Ohio			1
Colorado		5
Utah			9
#-------------------------------------
data.iloc[:, :3][data.three > 5]
			One		two		three
Colorado    4         5         6	
Utah		8         9         10
New York	12		13		14
```

### Sorting and Ranking
- To sort lexicographically by row or column index, use the ***sort_index*** method, which returns a new, sorted object

In [48]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                    index=['three', 'one'],
                    columns=['d','a','b','c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [49]:
frame2 = frame.sort_index()
frame2

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [50]:
frame2.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
one,4,7,6,5
three,0,3,2,1


- To sort **a Series** by its values, use its ***sort_values*** method
- Any missing valuse are sorted to the end of the Series by default

- When sorting a DataFrame, you can use the data in **one or more columns as the sort keys**. To do so, pass one or more column names to the **by option of *sort_values***:

In [52]:
frame = pd.DataFrame({'b':[4,7,-3,2], 'a':[0,1,0,1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [53]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


### Summarizing and Computing Descriptive Statics

![image.png](attachment:f9f0d4fc-3226-41c6-b2e7-ee5943ad9b3a.png)

In [54]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                 [np.nan, np.nan], [0.75, -1.3]],
                 index=['a','b','c','d'],
                 columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [55]:
df.mean(axis='columns') # or axis = 1

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [56]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [57]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


### Unique Values, Value Counts, and Membership
- Another class of related methods extracts information about the values contained in a **one-dimenstional Series**.

![image.png](attachment:49442338-1dae-4ef3-87eb-82cc8abe7a3d.png)

In [60]:
obj = pd.Series(['c','a','d','a','a','b','b','c','c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [61]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

- ***unique***, which gives you an array of the unique values in **Series**
- The unique values are not necessarily returned in sorted order, but could be sorted after the fact if needed (***uniques.sorted()***

In [59]:
obj.value_counts() # = pd.value_counts(obj.values)

c    3
a    3
b    2
d    1
dtype: int64

- ***value_counts***, which computes a Series containing value frequencies:
- The Series is sorted by value in descending order as a convenience.

In [62]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [63]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

- ***isin*** performs a vectorized set membership check and can be useful in filtering a dataset down to a subset of values in a Series or column in a DataFrame

- 실제 시험에서 군집 알고리즘의 평가 방법에 대해서 나옴(공지된 시험 범위 벗어남) : 실루엣 계수
