# 머신러닝 시작하기


---
## 머신러닝이란?

머신러닝(Machine Learning)은 컴퓨터 프로그램이 데이터를 분석하고 패턴을 학습하여 작업을 수행하도록 하는 인공 지능 분야의 하나이다. 기본 아이디어는 명시적으로 프로그래밍되지 않은 상태에서 컴퓨터가 학습하고 성능을 향상시키는 것이다.
머신러닝은 크게 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등으로 나뉜다.


1. **지도 학습 (Supervised Learning):**
    * 모델을 훈련시키기 위해 입력과 해당 출력 사이의 매핑을 학습한다.
    * 훈련 데이터에는 입력과 정답이 함께 제공된다.
    * 분류(Classification)와 회귀(Regression)가 지도 학습에 속한다.

2. **비지도 학습 (Unsupervised Learning):**
    * 모델은 레이블이 없는 데이터에서 패턴을 찾는다.
    * 주요 목표는 데이터의 숨겨진 구조나 관계를 발견하는 것이다.
    * 군집화(Clustering)와 차원 축소(Dimensionality Reduction)가 비지도 학습에 속한다.

3. **강화 학습 (Reinforcement Learning):**
    * 에이전트가 환경과 상호작용하며 특정 작업을 수행하고, 그 결과에 대한 보상 또는 벌칙을 받는다.
    * 에이전트는 시간이 지남에 따라 최적의 정책을 학습하여 높은 보상을 얻도록 노력한다.
    * 게임이나 로봇 제어 등이 강화 학습에 속한다.
    

![머신러닝의 종류]('/Users/leeseonjae/git/Aiffel_Node/images/kind_of_machine_learning.png')

지도 학습과 비지도 학습의 가장 큰 차이점은 정답을 데이터와 함께 알려주고 학습을 시켜 정답을 예측을 하는지, 정답 없이 데이터만 학습시켜 범위를 예측을 하는지이다.


---
## 과소적합과 과대적합

머신러닝 모델은 주어진 데이터에서 패턴을 학습하고, 학습된 패턴을 기반으로 새로운 데이터에 대한 예측이나 결정을 수행하는 알고리즘으로, 모든 모델은 과대적합과 과소적합을 주의해야 한다.


* **과소적합(Underfitting)**: 모델이 데이터를 충분히 학습하지 못하여 복잡한 패턴을 파악하지 못하는 상태를 의미한다.
* **과대적합(Overfitting)**: 모델이 학습 데이터에 지나치게 맞추어져 일반화 성능이 떨어지는 상태를 의미한다.


![과소적합과 과대적합 예시]('/Users/leeseonjae/git/Aiffel_Node/images/underfitting_overfitting.png')

쉽게 말해 과소적합의 경우에는 학습이 덜 되어 새로운 데이터를 제대로 처리하지 못해 모델의 성능이 저하되는 것이고, 과대적합의 경우에는 주어진 데이터 맞춤 학습을 하여 새로운 데이터에 대한 처리가 미흡해 모델의 성능이 저하되는 것이다.



---
## 머신러닝 프로세스

머신러닝 프로세스는 크게 다음과 같이 나뉜다.


1. **문제 정의** 현재 해결해야할 문제가 무엇인지, 어떤 데이터를 사용할 것인지 파악하는 과정

2. **탐색적 데이터 분석 EDA** 데이터를 조사하고 이해하기 위한 과정이다. 데이터의 특성을 탐색하고 패턴이나 규칙을 찾아내는 데 중점을 둔다.
    * 데이터 요약 및 기술 통계: 데이터의 기본 통계치를 계산하여 데이터의 분포, 중심 경향성, 분산 등을 파악한다.
    * 시각화: 그래프나 차트를 통해 데이터를 시각적으로 탐색한다. 히스토그램, 상자 그림, 산점도 등을 사용하여 패턴이나 이상치를 확인한다.
    * 상관 관계 분석: 변수 간의 상관 관계를 분석하여 어떤 변수들이 서로 영향을 미치는지를 파악한다.
    * 결측치 및 이상치 처리: 결측치나 이상치가 있는지 확인하고, 필요하다면 적절한 방법으로 처리한다.
    * 피처 엔지니어링: 기존의 특성을 사용하여 새로운 특성을 만들어내거나, 데이터를 더 잘 나타내는 형태로 변환한다.
    * 가설 검정: 데이터를 통해 가설을 세우고 검정하여 통계적으로 유의미한 결과를 도출한다.
    
3. **데이터 전처리** 머신러닝 프로세스에서 데이터 전처리는 매우 중요한 단계로, 모델 학습에 적합한 형태로 데이터를 가공하고 정리하는 과정
    * 데이터 정제(Cleaning):
        * 결측치(Missing Values): 데이터에서 누락된 값이 있는 경우, 이를 적절한 값으로 대체하거나 삭제한다.
        * 이상치(Outliers): 데이터에서 벗어난 이상치를 식별하고 처리한다.
    * 데이터 변환(Transformation):
        * 특성 엔지니어링(Feature Engineering): 기존의 특성을 사용하여 새로운 의미 있는 특성을 생성하거나, 데이터를 더 나은 형태로 변환한다.
        * 스케일링(Scaling): 다양한 특성의 값 범위를 일정하게 조정하여 모델이 각 특성을 공평하게 고려할 수 있도록 한다.
        * 원-핫 인코딩(One-Hot Encoding): 범주형 데이터를 숫자형으로 변환하여 모델이 학습할 수 있도록 한다.
    * 데이터 정규화(Normalization): 데이터의 분포를 정규분포에 가깝게 만들어 모델이 더 잘 학습할 수 있도록 한다.
    * 데이터 분할(Splitting): 전체 데이터를 학습 데이터와 테스트 데이터로 나누어 모델을 학습하고 평가할 수 있도록 한다.
    * 데이터 인코딩(Encoding): 범주형 데이터를 모델이 이해할 수 있는 형태로 변환한다. 레이블 인코딩(Label Encoding)이나 원-핫 인코딩(One-Hot Encoding) 등을 사용한다.
    * 데이터 정렬 및 인덱싱(Indexing): 데이터를 정렬하고 필요한 경우 인덱싱을 수행하여 데이터에 접근하기 쉽도록 한다.
    * 데이터 샘플링(Sampling): 데이터가 매우 큰 경우, 효율적인 학습을 위해 샘플링을 수행할 수 있다.
    * 데이터 표준화(Standardization): 특성들을 평균이 0이고 분산이 1인 표준 정규 분포로 변환하여 모델이 더 빠르고 안정적으로 수렴하도록 한다.
    
4. **모델 학습** 데이터를 사용하여 모델을 훈련시키는 과정
    * 모델 훈련: 준비된 학습 데이터를 사용하여 모델을 훈련시킨다. 이때 모델은 입력 데이터와 정답을 비교하며 내부 매개변수를 조정하여 예측을 수행하도록 업데이트된다.
    * 손실 함수 및 최적화: 모델이 예측한 결과와 실제 정답 간의 차이를 측정하는 손실 함수를 정의한다. 손실 함수의 값이 최소화되도록 모델을 훈련시키기 위해 최적화 알고리즘을 사용한다.
    * 에포크와 배치: 훈련 데이터를 여러 번 반복하는 에포크(epoch)와 한 번에 모델에 전달되는 데이터의 양을 나타내는 배치(batch)를 정의한다. 모델은 각 에포크에서 손실을 최소화하기 위해 여러 번의 반복 학습을 수행한다.
    
5. **예측** 학습이 완료된 모델과 검증 데이터를 통해 결과를 예측하고 모델의 성능을 평가하는 과정
    * 검증 데이터를 사용한 평가: 학습 중에는 검증 데이터를 사용하여 모델의 성능을 평가하고, 과적합을 방지하기 위해 필요에 따라 모델을 조정한다.
    * 하이퍼파라미터 튜닝: 모델의 성능을 향상시키기 위해 필요한 경우 하이퍼파라미터를 조정하고 최적의 설정을 찾는다.
    



---
## 데이터 핸들링(1)


#### Pandas 라이브러리
머신러닝을 시작하기에 앞서 데이터를 다루는 데에 많이 사용되는 pandas 라이브러리 사용에 익숙해져야 한다. pandas 라이브러리는 주로 표 형식의 데이터에 특화되어 있으며, 지금부터 pandas 라이브러리의 특징과 사용법에 대해 공부해보기로 한다.

In [114]:
# pandas 라이브러리 import
import pandas as pd

### 데이터 구조

1. **Series**: 1차원 배열 형태의 데이터를 나타내는 자료구조로, 각 원소에는 라벨(인덱스)이 부여된다.
2. **DataFrame**: 행과 열로 이루어진 표 형식의 데이터를 나타내는 자료구조이다. SQL의 테이블이나 엑셀의 스프레드시트와 유사한 구조를 가지고 있다.
> 데이터프레임의 각 피처(컬럼)은 시리즈로 구성되어 있다.

In [115]:
# 메뉴 데이터가 들어있는 리스트 생성
menu_list = ['fried', 'source', 'half and half']
# 메뉴 리스트로 시리즈 생성
menu = pd.Series(menu_list)
menu

0            fried
1           source
2    half and half
dtype: object

In [116]:
# 가격 데이터가 들어있는 리스트 생성
p_list = [12000,13000,13000]
# 가격 리스트로 시리즈 생성
price =pd.Series(p_list)
price

0    12000
1    13000
2    13000
dtype: int64

In [117]:
# 시리즈 타입 확인
type(price)

pandas.core.series.Series

![데이터프레임 구조]('/Users/leeseonjae/git/Aiffel_Node/images/dataframe.png')

In [118]:
# 생성한 메뉴/가격 시리즈로 데이터프레임 생성
df = pd.DataFrame({
    'menu':menu,
    'price':price
})
df

Unnamed: 0,menu,price
0,fried,12000
1,source,13000
2,half and half,13000


In [119]:
# 데이터프레임 타입 확인
type(df)

pandas.core.frame.DataFrame

---
### 데이터 불러오기 및 저장

* 매번 시리즈를 별도로 생성하여 데이터프레임을 만들 필요 없이, 딕셔너리 형태의 데이터로도 데이터프레임을 구성할 수 있다.
* pandas 라이브러리를 사용하면 생성한 데이터프레임을 csv형식으로 로컬 환경에 저장을 할 수 있다.
* to_csv()함수의 index인자에 True를 주게되면 저장되는 파일에 인덱스 데이터도 추가하게 된다.(해당 인자의 default값은 True이다.)

In [120]:
# 메뉴, 가격, 호수, 칼로리 데이터를 포함한 딕셔너리 생성
data = {
    'menu':['Fried','Seasoning','Soy Sauce','Galic Sauce','Leek','Bonelessness','Half and Half'],
    'price':[12000,13000,14000,14000,14000,15000,13000],
    'size':['1050g','1050g','950g','950g','1150g','1250g','1050g'],
    'kcal':[1000,1400,1600,1800,1300,1500,1300]
}
# 딕셔너리를 사용하여 데이터프레임 생성
df = pd.DataFrame(data)
# 생성한 데이터프레임을 'Seonjae's_Chicken'이라는 이름의 csv 파일로 저장한다.
df.to_csv('csv_dir/Seonjae\'s_Chicken.csv', index=False)

* pandas 라이브러리를 사용하면 로컬환경의 csv 파일을 불러올 수 있다.

In [121]:
# csv 파일 불러오기
pd.read_csv('csv_dir/Seonjae\'s_Chicken.csv')

Unnamed: 0,menu,price,size,kcal
0,Fried,12000,1050g,1000
1,Seasoning,13000,1050g,1400
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
4,Leek,14000,1150g,1300
5,Bonelessness,15000,1250g,1500
6,Half and Half,13000,1050g,1300


In [122]:
# scv 파일을 불러와 변수에 바인딩
d = pd.read_csv('csv_dir/Seonjae\'s_Chicken.csv')

* 데이터가 너무 많아서 전부 확인하기 번거로울 때 head()함수를 사용하면 원하는 만큼의 데이터만 볼 수 있다.(인수의 default값은 5이다.)

In [123]:
# csv 파일의 맨 위 5개의 인덱스에 해당하는 데이터 읽기
d.head()

Unnamed: 0,menu,price,size,kcal
0,Fried,12000,1050g,1000
1,Seasoning,13000,1050g,1400
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
4,Leek,14000,1150g,1300


In [124]:
# csv 파일의 맨 위 2개의 인덱스에 해당하는 데이터 읽기
d.head(2)

Unnamed: 0,menu,price,size,kcal
0,Fried,12000,1050g,1000
1,Seasoning,13000,1050g,1400


In [125]:
# csv 파일의 맨 아래 5개의 인덱스에 해당하는 데이터 읽기
d.tail()

Unnamed: 0,menu,price,size,kcal
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
4,Leek,14000,1150g,1300
5,Bonelessness,15000,1250g,1500
6,Half and Half,13000,1050g,1300


In [126]:
# csv 파일의 맨 아래 2개의 인덱스에 해당하는 데이터 읽기
d.tail(2)

Unnamed: 0,menu,price,size,kcal
5,Bonelessness,15000,1250g,1500
6,Half and Half,13000,1050g,1300


In [127]:
d.to_csv('csv_dir/test.csv', index = False)

In [128]:
pd.read_csv('csv_dir/test.csv')

Unnamed: 0,menu,price,size,kcal
0,Fried,12000,1050g,1000
1,Seasoning,13000,1050g,1400
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
4,Leek,14000,1150g,1300
5,Bonelessness,15000,1250g,1500
6,Half and Half,13000,1050g,1300


---
### 특정 피처의 데이터 조회

* '[]' 안에 피처명을 넣으면 해당 피처에 해당하는 데이터만 조회할 수 있다.
> 2개 이상의 피처에 대한 데이터를 조회하려면 '[[]]'와 같이 '[]'안에 조회하고자 하는 피처들을 리스트의 형태로 넣어준다.
* 변수명.피처명 의 방식으로도 해당 피처에 해당하는 데이터를 조회할 수 있지만, 띄어쓰기는 인식하지 못하기 때문에 위의 방법을 쓰는게 효율적이다.

In [129]:
# 단일 피처 데이터 조회
df['menu']
# df.menu

0            Fried
1        Seasoning
2        Soy Sauce
3      Galic Sauce
4             Leek
5     Bonelessness
6    Half and Half
Name: menu, dtype: object

In [130]:
# 복수 개의 피처 데이처 조회
df[['menu','price']]

Unnamed: 0,menu,price
0,Fried,12000
1,Seasoning,13000
2,Soy Sauce,14000
3,Galic Sauce,14000
4,Leek,14000
5,Bonelessness,15000
6,Half and Half,13000


In [131]:
#조회한 데이터의 타입 확인
type(df[['menu','price']])

pandas.core.frame.DataFrame

---


### 선택한 피처에 조건 부여하기

* 피처를 선택한 후, 파이썬의 연산자를 사용하여 데이터에 조건을 부여할 수 있다.
* 조건을 부여한 후 출력하면 Bool 형태로 출력이 되지만, 데이터프레임에 반영하면 해당 조건에 부합하는 데이터를 조회한다.
* 특정 값을 가지고 있는 데이터를 조회하고 싶은 경우, isin(data)함수를 사용한다.

In [132]:
# 가격이 14000원 이상인 조건을 부여한 후, 결과 출력
df['price'] >= 14000

0    False
1    False
2     True
3     True
4     True
5     True
6    False
Name: price, dtype: bool

In [133]:
# 가격이 14000원 이상인 조건이 부여된 데이터를 변수에 바인딩
cond = df['price'] >= 14000
# 위의 조건에서 True인 데이터만 출력된다.
df[cond]

Unnamed: 0,menu,price,size,kcal
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
4,Leek,14000,1150g,1300
5,Bonelessness,15000,1250g,1500


In [134]:
# 가격이 14000원 이상인 조건
cond1 = df['price'] >= 14000
# 호수가 9호인 조건
cond2 = df['size'] == '950g'
# 가격이 14000원 이상이고, 호수가 9호인 데이터 출력
df[cond1 & cond2]

Unnamed: 0,menu,price,size,kcal
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800


In [135]:
# 가격이 14000원 이상인 조건
cond1 = df['price'] >= 14000
# 호수가 9호인 조건
cond2 = df['size'] == '950g'
# 가격이 14000원 이상이거나, 호수가 9호인 데이터 출력
df[cond1 | cond2]

Unnamed: 0,menu,price,size,kcal
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
4,Leek,14000,1150g,1300
5,Bonelessness,15000,1250g,1500


In [136]:
# 호수가 9호, 10호인 데이터를 변수에 바인딩
cond = df['size'].isin(['950g','1050g'])
# 호수가 9,10호인 데이터 출력
df[cond]

Unnamed: 0,menu,price,size,kcal
0,Fried,12000,1050g,1000
1,Seasoning,13000,1050g,1400
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
6,Half and Half,13000,1050g,1300


---
#### 인덱싱/슬라이싱


* 인덱스 지정/해제:
    * 인덱스 지정: 인덱스로 지정하고자 하는 피처를 인덱스로 지정할 수 있다.
    > set_index(keys=['피처명'])함수 사용
    * 인덱스 해제: 지정된 인덱스를 해제한다.
    > reset_index(drop=T/F)함수 사용
    > drop 인자의 값을 True로 한다면 설정된 인덱스 데이터를 삭제한다.(해당 인수의 default값은 False이며, Falseㅇ일 경우에는 일반 피처로 전환된다.)
    
* 인덱싱/슬라이싱 방법: 인덱스 명 또는 피처 명을 사용하는 방법과 인덱스만을 사용하는 방법이 있다.
    * loc[행 범위, 열 범위] - 인덱스 명 또는 피처 명으로 인덱싱/슬라이싱
    * iloc[행 범위, 열 범위] - 데이터의 인덱스로 인덱싱/슬라이싱



In [137]:
df = pd.read_csv('csv_dir/test.csv')
df

Unnamed: 0,menu,price,size,kcal
0,Fried,12000,1050g,1000
1,Seasoning,13000,1050g,1400
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
4,Leek,14000,1150g,1300
5,Bonelessness,15000,1250g,1500
6,Half and Half,13000,1050g,1300


In [138]:
# a~g까지의 값을 가진 index 피처 생성
df['index'] = ['a','b','c','d','e','f','g']
# index 피처를 인덱스로 지정
df = df.set_index(keys=['index'])
df

Unnamed: 0_level_0,menu,price,size,kcal
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,Fried,12000,1050g,1000
b,Seasoning,13000,1050g,1400
c,Soy Sauce,14000,950g,1600
d,Galic Sauce,14000,950g,1800
e,Leek,14000,1150g,1300
f,Bonelessness,15000,1250g,1500
g,Half and Half,13000,1050g,1300


In [139]:
# loc를 사용하여 'a'인덱스의 데이터 조회
df.loc['a']

menu     Fried
price    12000
size     1050g
kcal      1000
Name: a, dtype: object

In [140]:
# 전체 데이터 중, 피처 명이 price(가격)인 데이터 조회 
df.loc[:,'price']

index
a    12000
b    13000
c    14000
d    14000
e    14000
f    15000
g    13000
Name: price, dtype: int64

In [141]:
# 'b'인덱스의 데이터 중, 피처명이 price(가격)인 데이터 조회 - 특정 데이터를 조회하는 방법
df.loc['b','price']

13000

In [142]:
# 'c'인덱스의 데이터 중, 피처명의 범위가 menu(메뉴)~price(가격) 내에 있는 데이터 조회
df.loc['c','menu':'price']

menu     Soy Sauce
price        14000
Name: c, dtype: object

In [143]:
# 'c'인덱스의 데이터 중, 피처명의 범위가 menu(메뉴)~kcal(열량) 내에 있는 데이터 조회
df.loc['c','menu':'kcal']

menu     Soy Sauce
price        14000
size          950g
kcal          1600
Name: c, dtype: object

In [144]:
# 'c'인덱스의 데이터 중, 피처명이 menu(메뉴),kcal(열량)인 데이터 조회 - 복수 개의 피처 데이터를 조회할 때에는 리스트 형식을 사용
df.loc['c',['menu','kcal']]

menu    Soy Sauce
kcal         1600
Name: c, dtype: object

In [145]:
# 'b'인덱스 ~ 'd'인덱스까지의 데이터 중, 피처명이 menu(메뉴),price(가격)인 데이터 조회
df.loc['b':'d','menu':'price']

Unnamed: 0_level_0,menu,price
index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,Seasoning,13000
c,Soy Sauce,14000
d,Galic Sauce,14000


In [146]:
df

Unnamed: 0_level_0,menu,price,size,kcal
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,Fried,12000,1050g,1000
b,Seasoning,13000,1050g,1400
c,Soy Sauce,14000,950g,1600
d,Galic Sauce,14000,950g,1800
e,Leek,14000,1150g,1300
f,Bonelessness,15000,1250g,1500
g,Half and Half,13000,1050g,1300


In [147]:
# iloc를 사용하여 0번째 인덱스에 있는 데이터 조회
df.iloc[0]

menu     Fried
price    12000
size     1050g
kcal      1000
Name: a, dtype: object

In [148]:
# 전체 데이터 중에 피처 인덱스가 1인 데이터 조회
df.iloc[:, 1]

index
a    12000
b    13000
c    14000
d    14000
e    14000
f    15000
g    13000
Name: price, dtype: int64

In [149]:
# 행 인덱스가 2인 데이터 중에 열 인덱스가 0~1인 데이터 조회
df.iloc[2,0:2]

menu     Soy Sauce
price        14000
Name: c, dtype: object

In [150]:
# 행 인덱스가 1~2인 데이터 중에 마지막 인덱스 전까지의 데이터 조회
df.iloc[1:3, :-1]

Unnamed: 0_level_0,menu,price,size
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
b,Seasoning,13000,1050g
c,Soy Sauce,14000,950g


---
### Index 가지고 놀아보기


* 지금까지 학습한 내용을 가지고 이러쿵 저러쿵 만져본다.

In [151]:
# test.csv 파일 불러오기
df = pd.read_csv('csv_dir/test.csv')
df

Unnamed: 0,menu,price,size,kcal
0,Fried,12000,1050g,1000
1,Seasoning,13000,1050g,1400
2,Soy Sauce,14000,950g,1600
3,Galic Sauce,14000,950g,1800
4,Leek,14000,1150g,1300
5,Bonelessness,15000,1250g,1500
6,Half and Half,13000,1050g,1300


In [152]:
# 메뉴 피처를 인덱스로 설정
df = df.set_index(keys=['menu'])
df

Unnamed: 0_level_0,price,size,kcal
menu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fried,12000,1050g,1000
Seasoning,13000,1050g,1400
Soy Sauce,14000,950g,1600
Galic Sauce,14000,950g,1800
Leek,14000,1150g,1300
Bonelessness,15000,1250g,1500
Half and Half,13000,1050g,1300


In [153]:
# 양념치킨과 마늘치킨의 호수와 열량 데이터 조회
df.loc['Seasoning':'Galic Sauce','size':'kcal']

Unnamed: 0_level_0,size,kcal
menu,Unnamed: 1_level_1,Unnamed: 2_level_1
Seasoning,1050g,1400
Soy Sauce,950g,1600
Galic Sauce,950g,1800


In [154]:
# 1~3까지의 행 인덱스에 해당하는 데이터 중에 1번째 인덱스부터 끝까지의 데이터 조회
df.iloc[1:4,1:]

Unnamed: 0_level_0,size,kcal
menu,Unnamed: 1_level_1,Unnamed: 2_level_1
Seasoning,1050g,1400
Soy Sauce,950g,1600
Galic Sauce,950g,1800


In [155]:
#메뉴 인덱스를 일반 피처로 전환
df = df.reset_index()

---
### 행과 열 추가

* 피처 데이터를 연산하여 데이터 값을 새로 생성할 수 있다.
    * 인덱스 값은 꼭 숫자가 아니어도 된다.
    * 리스트나 딕셔너리 형태의 데이터로도 행 데이터를 추가할 수 있다.
* 결측치 추가
> numpy 라이브러리를 사용하여 결측치를 만들 수 있다.
* replace()함수를 사용하여 기존 값을 대치할 수 있다.
> replace('기존 값','대체할 값')의 형태로 사용한다.
    * 복수 개의 데이터를 대치할 경우
        * 연달아 사용 : replace('기존 값','대체할 값').replace('기존 값','대체할 값').replace('기존 값','대체할 값')
        * 딕셔너리를 인수로 사용 : {'기존 값':'대체할 값', '기존 값':'대체할 값', '기존 값':'대체할 값'}
    

In [156]:
# 할인율 피처 생성 - 데이터는 전부 0.2로 통일
df['dc rate'] = 0.2
df

Unnamed: 0,menu,price,size,kcal,dc rate
0,Fried,12000,1050g,1000,0.2
1,Seasoning,13000,1050g,1400,0.2
2,Soy Sauce,14000,950g,1600,0.2
3,Galic Sauce,14000,950g,1800,0.2
4,Leek,14000,1150g,1300,0.2
5,Bonelessness,15000,1250g,1500,0.2
6,Half and Half,13000,1050g,1300,0.2


In [157]:
# 가격 * (1-할인율)의 데이터를 가지고 있는 할인가 피처 생성
df['dc price'] = df['price'] * (1-df['dc rate'])
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price
0,Fried,12000,1050g,1000,0.2,9600.0
1,Seasoning,13000,1050g,1400,0.2,10400.0
2,Soy Sauce,14000,950g,1600,0.2,11200.0
3,Galic Sauce,14000,950g,1800,0.2,11200.0
4,Leek,14000,1150g,1300,0.2,11200.0
5,Bonelessness,15000,1250g,1500,0.2,12000.0
6,Half and Half,13000,1050g,1300,0.2,10400.0


In [158]:
#numpy 라이브러리 import
import numpy as np
# 원산지 피처 생성 후, 결측치로 초기화
df['origin'] = np.nan
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Fried,12000,1050g,1000,0.2,9600.0,
1,Seasoning,13000,1050g,1400,0.2,10400.0,
2,Soy Sauce,14000,950g,1600,0.2,11200.0,
3,Galic Sauce,14000,950g,1800,0.2,11200.0,
4,Leek,14000,1150g,1300,0.2,11200.0,
5,Bonelessness,15000,1250g,1500,0.2,12000.0,
6,Half and Half,13000,1050g,1300,0.2,10400.0,


In [159]:
# 바베큐 신메뉴 출시 - 리스트 사용
bbq = ['bbq',16000,'1150g',1200,0.5,8000,'Korea']
# 인덱스는 숫자가 아닌 문자로 지정
df.loc['new'] = bbq
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Fried,12000,1050g,1000,0.2,9600.0,
1,Seasoning,13000,1050g,1400,0.2,10400.0,
2,Soy Sauce,14000,950g,1600,0.2,11200.0,
3,Galic Sauce,14000,950g,1800,0.2,11200.0,
4,Leek,14000,1150g,1300,0.2,11200.0,
5,Bonelessness,15000,1250g,1500,0.2,12000.0,
6,Half and Half,13000,1050g,1300,0.2,10400.0,
new,bbq,16000,1150g,1200,0.5,8000.0,Korea


In [160]:
# 오꾸닭 신메뉴 출시 - 딕셔너리 사용
oven = {'menu':'oven-baked','price':10000,'size':'1050g'}
df.loc[10] = oven
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Fried,12000,1050g,1000.0,0.2,9600.0,
1,Seasoning,13000,1050g,1400.0,0.2,10400.0,
2,Soy Sauce,14000,950g,1600.0,0.2,11200.0,
3,Galic Sauce,14000,950g,1800.0,0.2,11200.0,
4,Leek,14000,1150g,1300.0,0.2,11200.0,
5,Bonelessness,15000,1250g,1500.0,0.2,12000.0,
6,Half and Half,13000,1050g,1300.0,0.2,10400.0,
new,bbq,16000,1150g,1200.0,0.5,8000.0,Korea
10,oven-baked,10000,1050g,,,,


In [161]:
# 후라이드 치킨 원산지 국내산으로 변경
df.loc[0,'origin'] = 'Korea'
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Fried,12000,1050g,1000.0,0.2,9600.0,Korea
1,Seasoning,13000,1050g,1400.0,0.2,10400.0,
2,Soy Sauce,14000,950g,1600.0,0.2,11200.0,
3,Galic Sauce,14000,950g,1800.0,0.2,11200.0,
4,Leek,14000,1150g,1300.0,0.2,11200.0,
5,Bonelessness,15000,1250g,1500.0,0.2,12000.0,
6,Half and Half,13000,1050g,1300.0,0.2,10400.0,
new,bbq,16000,1150g,1200.0,0.5,8000.0,Korea
10,oven-baked,10000,1050g,,,,


In [162]:
# 파닭과 순살 원산지 브라질로 변경
df.iloc[4,-1] = 'Brazil'
df.iloc[5,-1] = 'Brazil'
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Fried,12000,1050g,1000.0,0.2,9600.0,Korea
1,Seasoning,13000,1050g,1400.0,0.2,10400.0,
2,Soy Sauce,14000,950g,1600.0,0.2,11200.0,
3,Galic Sauce,14000,950g,1800.0,0.2,11200.0,
4,Leek,14000,1150g,1300.0,0.2,11200.0,Brazil
5,Bonelessness,15000,1250g,1500.0,0.2,12000.0,Brazil
6,Half and Half,13000,1050g,1300.0,0.2,10400.0,
new,bbq,16000,1150g,1200.0,0.5,8000.0,Korea
10,oven-baked,10000,1050g,,,,


In [163]:
# 반반 치킨 이름 약어로 변경
df = df.replace('Half and Half', 'HaH')
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Fried,12000,1050g,1000.0,0.2,9600.0,Korea
1,Seasoning,13000,1050g,1400.0,0.2,10400.0,
2,Soy Sauce,14000,950g,1600.0,0.2,11200.0,
3,Galic Sauce,14000,950g,1800.0,0.2,11200.0,
4,Leek,14000,1150g,1300.0,0.2,11200.0,Brazil
5,Bonelessness,15000,1250g,1500.0,0.2,12000.0,Brazil
6,HaH,13000,1050g,1300.0,0.2,10400.0,
new,bbq,16000,1150g,1200.0,0.5,8000.0,Korea
10,oven-baked,10000,1050g,,,,


In [164]:
# 바베큐와 오꾸닭 앞에 인기메뉴, 베스트메뉴 타이틀 추가 - 이어서 대치하는 방법 사용
df = df.replace('bbq','[popular]bbq').replace('oven-baked','[best]oven-baked')
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Fried,12000,1050g,1000.0,0.2,9600.0,Korea
1,Seasoning,13000,1050g,1400.0,0.2,10400.0,
2,Soy Sauce,14000,950g,1600.0,0.2,11200.0,
3,Galic Sauce,14000,950g,1800.0,0.2,11200.0,
4,Leek,14000,1150g,1300.0,0.2,11200.0,Brazil
5,Bonelessness,15000,1250g,1500.0,0.2,12000.0,Brazil
6,HaH,13000,1050g,1300.0,0.2,10400.0,
new,[popular]bbq,16000,1150g,1200.0,0.5,8000.0,Korea
10,[best]oven-baked,10000,1050g,,,,


In [165]:
# 후라이드는 황금 후라이드로, 양념은 매운양념으로 이름 변경 - 딕셔너리 사용
d = {'Fried':'Gold Fried','Seasoning':'Hot Seasoning'}
df = df.replace(d)
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Gold Fried,12000,1050g,1000.0,0.2,9600.0,Korea
1,Hot Seasoning,13000,1050g,1400.0,0.2,10400.0,
2,Soy Sauce,14000,950g,1600.0,0.2,11200.0,
3,Galic Sauce,14000,950g,1800.0,0.2,11200.0,
4,Leek,14000,1150g,1300.0,0.2,11200.0,Brazil
5,Bonelessness,15000,1250g,1500.0,0.2,12000.0,Brazil
6,HaH,13000,1050g,1300.0,0.2,10400.0,
new,[popular]bbq,16000,1150g,1200.0,0.5,8000.0,Korea
10,[best]oven-baked,10000,1050g,,,,


In [166]:
# 값이 10000인 데이터를 9900으로 대치
df = df.replace(10000,9900)
df

Unnamed: 0,menu,price,size,kcal,dc rate,dc price,origin
0,Gold Fried,12000,1050g,1000.0,0.2,9600.0,Korea
1,Hot Seasoning,13000,1050g,1400.0,0.2,10400.0,
2,Soy Sauce,14000,950g,1600.0,0.2,11200.0,
3,Galic Sauce,14000,950g,1800.0,0.2,11200.0,
4,Leek,14000,1150g,1300.0,0.2,11200.0,Brazil
5,Bonelessness,15000,1250g,1500.0,0.2,12000.0,Brazil
6,HaH,13000,1050g,1300.0,0.2,10400.0,
new,[popular]bbq,16000,1150g,1200.0,0.5,8000.0,Korea
10,[best]oven-baked,9900,1050g,,,,


In [167]:
df.to_csv('csv_dir/New_Seonjae_Chicken.csv')

---
## 마무리하며

> 머신러닝의 기본 개념만 학습한 것 만으로도 벌써부터 AI를 만진다는 기대에 부푸는 것 같다. pandas라는 라이브러리가 아직은 많이 낯설지만, 데이터를 내가 원하는대로 핸들링할 수 있다는 매력이 결코 작지 않다. 아직은 기본 개념만 학습한 상태이기에 머신러닝이라는 분야에 대한 명확한 그림이 그려지지 않고 앞으로 학습해야할 통계학 분야에 대해 걱정이 많지만, 지금까지 해왔던대로 차근 차근 정리를 하면서 나만의 파이프라인을 구축해 나가면 그 끝엔 AI 전문가가 되어있을 내가 있다고 믿는다.  


## 회고

#### KEEP:
* 실습을 진행하면서 코드만 치고 넘어가는게 아닌, 실제로 데이터의 변화에 주목했다.
* 코드 한 줄 한 줄에 주석을 달아봄으로서 다시 한 번 코드를 이해하며 넘어갔다.
#### PROBLEM:
* 학습이 끝난 후, 곧바로 복습에 들어갔어야 했는데, 너무 미뤘다.
* 학습을 진행하면서 별 다른 질문을 남기지 않았다.
#### TRY:
* 최대한 바로 바로 복습을 하여 정리를 할 수 있도록 해야겠다.
* 시간이 빠듯하더라도 질문이 생기면 메모를 해놓는 습관을 들이자.


*본 게시글은 제가 혼자 공부하며 기록하는 내용으로 실제 사실과 다른 정보가 기재되어 있을 수 있습니다. 사실과 다른 내용을 발견하시면 친절하게 댓글로 지도 부탁 드립니다.*