# CHAPTER 01. 파이썬 기반의 머신러닝과 생태계

## 목차

* [머신러닝 기초 개념](#머신러닝-기초-개념)
* [넘파이](#넘파이)
* [판다스](#판다스)
* [DataFrame 행/열 삭제](#DataFrame-행/열-삭제)
* [index와 reset_index](#index와-reset_index)
* [DataFrame의 인덱싱](#DataFrame의-인덱싱)
* [타이타닉 데이터로 해보는 연습](#타이타닉-데이터로-해보는-연습)
* [불린 인덱싱 / 복합 조건 연결식](#불린-인덱싱-/-복합-조건-연결식)
* [정렬, Aggregation 함수, GroupBy 적용](#정렬,-Aggregation-함수,-GroupBy-적용)
* [groupby() 적용](#groupby()-적용)
* [결손 데이터 처리](#결손-데이터-처리)
* [apply lambda로 데이터 가공](#apply-lambda로-데이터-가공)

### 머신러닝 기초 개념
- 머신러닝 
    - 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭  
    - 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출  
    - 예측 오류를 최소화하기 위해 다양하 수학적 기법을 적용  
    - 단점 : 데이터 의존적. Garbage in, Garbage out
    - 최적의 알고리즘, 모델 파라미터 구축 + 데이터의 전처리
- 머신러닝의 분류
    - 지도학습(Supervised Learning) / 비지도학습(Un-supervised Learning)/ 강화학습(Reinforcement Learning)  
    - 지도학습 : 분류/회귀/추천시스템/시각,음성감지,인지/텍스트분석,NLP
    - 비지도학습 : 클러스터링,차원축소,강화학습

### 넘파이
- 수치해석용 Python 라이브러리
    - C로 구현 (파이썬용 C라이브러리)
    - 빠른 수치 계산을 위한 Structured Array 제공
- Home : http://www.numpy.org/
- Documentation : http://docs.scipy.org/doc/
- Tutorial
    - http://www.scipy-lectures.org/intro/numpy/index.html
    - https://docs.scipy.org/doc/numpy-dev/user/quickstart.html
- 필요성
    - C/C++과 같은 저수준 언어 기반의 호환 API 제공
    - 수행 성능이 매우 중요한 부분은 C/C++기반의 코드로 작성 -> 이를 numpy에서 호출하면 통합가능
        - 구글의 딥러닝 프레임워크인 tensorflow가 위의 방식 사용, 배열 연산 수행 속도를 개선, 넘파이와 호환될 수 있게 작성되었음
    - 데이터 분석은 pandas가 더 용이하나, **많은 머신러닝 알고리즘이 넘파이를 기반으로 작성됨**
    - 또한 ML 알고리즘의 입/출력 데이터가 넘파이 배열 타입으로 사용되므로 이해할 필요가 있음
- Python List vs NumPy Array
    - Python List
        - 여러가지 타입의 원소
        - 메모리 용량이 크고 속도가 느림
        - nesting 가능
        - 전체 연산 불가
    - NumPy Array
        - 동일 타입의 원소
        - 메모리 최적화, 계산 속도 향상
        - 크기(dimension)이 명확하게 정의
        - 전체 연산 가능

#### numpy 연산 정리
  
- numpy 기초  
|Operator|Description|  
|---|---|  
np.array([1,2,3])|1d array  
np.array([(1,2,3),(4,5,6)])|2d array  
np.arange(start,stop,step)|range array  
  
- Placeholders  
|Operator|Description|  
|---|---|  
|np.linspace(0,2,9)|	Add evenly spaced values btw interval to array of length|  
|np.zeros((1,2))	|Create and array filled with zeros|  
|np.ones((1,2))	|Creates an array filled with ones|  
|np.random.random((5,5))|	Creates random array|  
|np.empty((2,2))	|Creates an empty array|  
  
- Array  
|Syntax	|Description|  
|---|---|  
|array.shape	|Dimensions (Rows,Columns)|  
|len(array)	|Length of Array|  
|array.ndim|	Number of Array Dimensions|  
|array.dtype	|Data Type|  
|array.astype(type)|	Converts to Data Type|  
|type(array)	|Type of Array|  
  
- Slicing and Subsetting  
|Operator|Description|  
|---|---|  
array[i]	|1d array at index i  
array[i,j]	|2d array at index[i][j]  
array[i<4]	|Boolean Indexing, see Tricks  
array[0:3]	|Select items of index 0, 1 and 2  
array[0:2,1]	|Select items of rows 0 and 1 at column 1  
array[:1]	|Select items of row 0 (equals array[0:1, :])  
array[1:2, :]	|Select items of row 1  
[comment]: <> (	|array[1,...]  
array[ : :-1]	|Reverses array  
  
- Copying/Sorting  
|Operator|Description|  
|---|---|  
|np.copy(array)|	Creates copy of array|  
|other = array.copy()|	Creates deep copy of array|  
|array.sort()|	Sorts an array|  
|array.sort(axis=0)	|Sorts axis of array|  
  
#### Array Manipulation  
- Adding or Removing Elements  
|Operator|Description|  
|---|---|  
|np.append(a,b)|	Append items to array|  
|np.insert(array, 1, 2, axis)	|Insert items into array at axis 0 or 1|  
|np.resize((2,4))|	Resize array to shape(2,4)|  
|np.delete(array,1,axis)	|Deletes items from array|  
  
- Combining Arrays  
|Operator|Description|  
|---|---|  
|np.concatenate((a,b),axis=0)|	Concatenates 2 arrays, adds to end|  
|np.vstack((a,b))|	Stack array row-wise|  
|np.hstack((a,b))|	Stack array column wise|  
  
- Splitting Arrays  
|Operator|Description|  
|---|---|  
|numpy.split()|	Split an array into multiple sub-arrays|  
|np.array_split(array, 3)|	Split an array in sub-arrays of (nearly) identical size|  
|numpy.hsplit(array, 3)|	Split the array horizontally at 3rd index|  
  
- More  
|Operator|Description|  
|---|---|  
|other = ndarray.flatten()|	Flattens a 2d array to 1d|  
|array = np.transpose(other)    |Transpose array|  
|array.T	                    |Transpose array|  
|inverse = np.linalg.inv(matrix)	|Inverse of a given matrix|  
  
#### Mathematics  
- Operations  
|Operator|Description|  
|---|---|  
|np.add(x,y)|Addition  
|x + y	|Addition  
|np.substract(x,y)|Subtraction  
|x - y	|Subtraction  
|np.divide(x,y)|Division  
|x / y	|Division  
|np.multiply(x,y)|Multiplication  
|x @ y	|Multiplication  
|np.sqrt(x)|	Square Root  
|np.sin(x)	|Element-wise sine  
|np.cos(x)	|Element-wise cosine  
|np.log(x)|	Element-wise natural log  
|np.dot(x,y)	|Dot product  
|np.roots([1,0,-4])	|Roots of a given polynomial coefficients  
  
- Basic Statistics  
|Operator|Description|  
|---|---|  
np.mean(array)|	Mean  
np.median(array)|	Median  
array.corrcoef()|	Correlation Coefficient  
np.std(array)	|Standard Deviation  
  
- More  
|Operator|Description|  
|---|---|  
array.sum()	|Array-wise sum  
array.min()	|Array-wise minimum value  
array.max(axis=0)	|Maximum value of specified axis  
array.cumsum(axis=0)|	Cumulative sum of specified axis  
  
(from https://www.w3resource.com/python-exercises/numpy/index.php)  

---------------------

### **판다스**
- 데이터 : 일반적으로 2차원 (row * column)
- numpy보다 유연하고 편리한 데이터 핸들링
- 핵심 객체 : DataFrame(행,열로 구성된 2차원 데이터를 담은 데이터 구조체)
    - Series : 칼럼이 1개뿐인 데이터 구조체
    - DataFrame : 칼럼이 여러 개인 데이터 구조체
    - index : 개별 데이터를 고유하게 식별하는 Key값, Series와 Dataframe 모두 index를 가짐
- 주로 read_csv(filepath_or buffer, sep=',', ...) 사용 -> csv : comma-separated values. 칼럼을 ','로 구분한 파일 포맷
    - filepath에서 주의할 사항
        - ipynb파일위치 != data위치 : read_csv(r'file path', sep = '..')
        - ipynb파일위치 == data위치 : read_csv('file name', sep = "..") 
          
Q. Why do we have to use 'r' before path-name while using pd.read_csv?  
A. In python, backslash is used to signify special character. Pathnames on Windows tend to have backslashes in them. But we want them to mean actual backslashes, not special characters.  
'r' stands for 'raw' and will cause backslashes in the string to be interpreted as actual backslashes rather than special character.

- list, dictionary로부터 DataFrame 생성 : pd.DataFrame
    - from list : col_name list생성, 이중list로 value표현
    - from dictionary : key값은 칼럼명, value는 각 칼럼 데이터로 매핑됨

In [9]:
# list로부터 DataFrame 생성

# 칼럼명이 될 리스트 생성
col_name = ['A','B','C']

# value에 대한 리스트 생성
value_list = [['v1','v2','v3'],
             [1,2,3]]

# DataFrame 생성
df_from_list = pd.DataFrame(data=value_list, columns=col_name)
df_from_list

Unnamed: 0,A,B,C
0,v1,v2,v3
1,1,2,3


In [11]:
# dictionary로부터 DataFrame 생성

# Key는 문자열 칼럼명으로 매핑, Value는 리스트 형 또는 ndarray 칼럼 데이터로 매핑
dictionary = {'A':['v1',1], 'B':['v2',2], 'C':['v3',3]}
df_from_dict = pd.DataFrame(dictionary)
df_from_dict

Unnamed: 0,A,B,C
0,v1,v2,v3
1,1,2,3


### DataFrame 행/열 삭제

- **DataFrame 데이터 삭제 : df.drop()**
    - axis = 1 : column 삭제
        - df.drop(['col1','col2',...], axis=1)
    - axis = 0 : row 삭제
    - inplace = True : 원본파괴
    - inplace = False (default) : 새로운 객체로 받아야 함  

### index와 reset_index
- **DataFrame_name.index or Series_name.index : generator와 같은 상태 (반복문 대상 가능)**
    - 리스트 형태로 출력 : df.index.values or series.index.values
  
  
- **reset_index() ★★★**
    - 새롭게 인덱스를 연속 숫자형으로 할당.
    - inplace=True : 원본 파괴
    - inplace=False(default) : 원본은 유지, 새로운 객체에 할당해야함. 
    - drop=True 
        - parameter 추가하지 않으면 기존의 index는 'index' 칼럼명을 가진채 칼럼으로 새로 추가됨

In [12]:
df_from_dict.drop('A', axis=1, inplace=True)

Unnamed: 0,B,C
0,v2,v3
1,2,3


In [13]:
df_from_dict.reset_index(inplace=True, drop=False)
df_from_dict

Unnamed: 0,index,B,C
0,0,v2,v3
1,1,2,3


### **DataFrame의 인덱싱**

- **DataFrame의 [ ]연산자**
    - DataFrame 바로 뒤의 '[ ]'안에 들어갈 수 있는 것?
        - 칼럼명문자(또는 칼럼 명의 리스트 객체)
            - titanic_df['Pclass']
        - 인덱스로 변환 가능한 표현식(불린 인덱싱)
            - titanic_df[0:2]
            - titanic_df[titanic_df['Sex']=='Female']
- **명칭기반인덱싱 vs 위치기반인덱싱**
    - 명칭기반인덱싱 : 칼럼의 명칭을 기반으로 위치를 지정 
        - loc
        - 슬라이싱에서 a:b일 때, b 포함O -> **슬라이싱에서 끝을 포함!**
        - loc는 불린 인덱싱 지원 O
    - 위치기반인덱싱 : 0을 출발점으로 하는 가로, 세로의 좌표기반의 행/열 위치로 데이터 지정
        - iloc
        - 슬라이싱에서 a:b일 때, b 포함X
        - iloc는 불린 인덱싱 지원 X
- df.loc[index, column]

In [17]:
df_from_dict.loc[0, ['B']]

B    v2
Name: 0, dtype: object

### **타이타닉 데이터로 해보는 연습**

In [4]:
import pandas as pd
df = pd.read_csv(r'data/titanic_train.csv')
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [5]:
# shape : row, column 크기 파악
df.shape

(891, 12)

- info() / describe() 함수 : 메타 데이터 조회
    - info() : 총 데이터 건수, 데이터 타입, Null 건수 파악
    - describe() : 숫자형 데이터로 된 컬럼에 대해 작동, n-percentile 분포, 평균, 최대최소값 등 개략적인 데이터 분포도 확인

In [6]:
# info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [8]:
# describe
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### **불린 인덱싱 / 복합 조건 연결식**
    - df[df[컬럼]에 대한 조건][[여러 컬럼들]] -> 컬럼설정 시 이중대괄호 주의
    - df.loc[불린식, [컬럼들]]
    - 복합 조건 연결식
        - and 조건 : &
        - or 조건 : |
        - Not 조건 : ~

In [19]:
df[df['Age']>60][['Fare','Sex','Survived']].head(3) # [[컬럼]] 컬럼 순서도 변환됨 주의!

Unnamed: 0,Fare,Sex,Survived
33,10.5,male,0
54,61.9792,male,0
96,34.6542,male,0


In [21]:
# 위의 불린 인덱싱을 loc로 표현
df.loc[df['Age']>60, ['Fare','Sex','Survived']].head(3)

Unnamed: 0,Fare,Sex,Survived
33,10.5,male,0
54,61.9792,male,0
96,34.6542,male,0


In [25]:
# 복합 조건 연결식

# 여러 불린식과 여러 컬럼을 한번에 지정하기

# 1. 불린식에 이중인덱스 적용
df[ (df['Sex']=='male') & (df['Survived']==1) &
       (df['Age']>50) ][['Name','Age','SibSp','Fare']].head(3)

Unnamed: 0,Name,Age,SibSp,Fare
449,"Peuchen, Major. Arthur Godfrey",52.0,0,30.5
570,"Harris, Mr. George",62.0,0,10.5
587,"Frolicher-Stehli, Mr. Maxmillian",60.0,1,79.2


In [26]:
# 2. 불린식을 변수로 받고, 이중인덱스 적용
con1 = df['Sex']=='male'
con2 = df['Survived']==1
con3 = df['Age']>50

df[ con1&con2&con3 ][['Name','Age','SibSp','Fare']].head(3)

Unnamed: 0,Name,Age,SibSp,Fare
449,"Peuchen, Major. Arthur Godfrey",52.0,0,30.5
570,"Harris, Mr. George",62.0,0,10.5
587,"Frolicher-Stehli, Mr. Maxmillian",60.0,1,79.2


In [27]:
# 3. ★ 불린식을 변수로 받고, loc 활용
df.loc[ con1&con2&con3, ['Name','Age','SibSp','Fare'] ].head(3)

Unnamed: 0,Name,Age,SibSp,Fare
449,"Peuchen, Major. Arthur Godfrey",52.0,0,30.5
570,"Harris, Mr. George",62.0,0,10.5
587,"Frolicher-Stehli, Mr. Maxmillian",60.0,1,79.2


### **정렬, Aggregation 함수, GroupBy 적용**
- DataFrame, Series의 정렬 : sort_values()
    - value_counts()는 series만 됨. sort_values()는 DataFrame도 됨
    - 주요 파라미터 : by, ascending, inplace
        - by 특정칼럼 : 정렬기준
        - ascending=True(default) : 오름차순
        - ascending=False : 내림차순
        - inplace=False(default) : 원본 유지, 새로운 객체 할당 필요
        - inplace=True : 원본파괴
- Aggregation 함수 적용
    - min(), max(), sum(), count() ... 등등
    - DataFrame에서 바로 agg함수 호출 시 : 모든 칼럼에 agg 적용
    - 특정 컬럼 적용 원하면 먼저 컬럼 추출 -> 뒤이어 agg 적용
        - ex)df['Age','Pclass'].mean()

In [37]:
# sort_values
df_sorted = df.sort_values(by=['Name'])[['Name','Sex','Age','Pclass']]
df_sorted.head(5)

Unnamed: 0,Name,Sex,Age,Pclass
845,"Abbing, Mr. Anthony",male,42.0,3
746,"Abbott, Mr. Rossmore Edward",male,16.0,3
279,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,3
308,"Abelson, Mr. Samuel",male,30.0,2
874,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,2


In [41]:
# sort_values
df_sorted2 = df.sort_values(by=['Pclass','Name'], ascending=False)[['Name','Sex','Age','Pclass']]
df_sorted2.head(5)

Unnamed: 0,Name,Sex,Age,Pclass
868,"van Melkebeke, Mr. Philemon",male,,3
153,"van Billiard, Mr. Austin Blyler",male,40.5,3
282,"de Pelsmaeker, Mr. Alfons",male,16.0,3
286,"de Mulder, Mr. Theodore",male,30.0,3
559,"de Messemaeker, Mrs. Guillaume Joseph (Emma)",female,36.0,3


In [45]:
# Aggregation 함수 적용
df[['Age','Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

### **groupby() 적용**
- matplotlib 등 그림 그리기 전에 많이 사용함
- by에 칼럼을 입력하면 대상 칼럼으로 groupby됨
- DataFrame에 groupby()를 호출하면 DataFrameGroupBy라는 또 다른 형태의 DataFrame 반환
- agg 함수 적용하지 않으면 generator의 상태와 비슷하게..형태 바로 확인할 수 없음
- **DataFrame의 groupby()에 특정칼럼만 agg를 반영하려면?**
    - 1.groupby먼저 적용
    - 2.[ 컬럼 ] 추출 덧붙이기 -> 여러개의 컬럼일 경우 이중대괄호 주의!
    - 3.agg 최종 적용
    - ex) train.groupby(by='Pclass')[['Age','Fare']].mean()

In [46]:
df_group = df.groupby('Pclass').count()
df_group.head(3)

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [50]:
df_group_some = df.groupby('Pclass')[['PassengerId','Survived']].count()
df_group_some

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [51]:
df_group_2 = df.groupby(['Pclass','Sex'])[['PassengerId','Survived']].count()
df_group_2

Unnamed: 0_level_0,Unnamed: 1_level_0,PassengerId,Survived
Pclass,Sex,Unnamed: 2_level_1,Unnamed: 3_level_1
1,female,94,94
1,male,122,122
2,female,76,76
2,male,108,108
3,female,144,144
3,male,347,347


### **groupby에서 컬럼별로 다른 agg 적용하기!**
- agg()의 입력 값으로 dictionary mapping을 사용
- 컬럼 : agg함수 로 매칭시킴

In [52]:
agg_format = {'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


### **결손 데이터 처리**
- 결손데이터(Missing Data) : 칼럼에 값이 없는, 즉 NULL인 경우를 의미, numpy의 NaN으로 표시
- 결손데이터를 채우는 과정이 중요한 이유
    - **머신러닝은 기본적으로 이 NaN값을 처리 하지 않음**
    - NaN 값은 평균, 총합 등의 함수 연산 시 제외됨
- NaN여부 확인 API : isna(), isnull()
    - 모든 칼럼의 값이 NaN인지 아닌지를 True or False로 알려줌
    - sum()과 함께 사용함
        - True = 1
        - False = 0
- NaN 값을 대체하는 (채우는) API : fillna()
    - inplace=True : 원본파괴
    - inplace=False(default) : 원본 비파괴, 새로운 객체에 할당 필요

In [53]:
# isna() or isnull()로 결손 데이터 여부 확인
df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [54]:
# isna()/isnull() and sum()
df.isnull().sum() # 결측치의 개수만 확인 가능

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [55]:
# 'Cabin'칼럼의 결측치는 'C000'으로 채우기
# 'Age'칼럼의 결측치는 'Age'칼럼의 평균값으로 채우기
# 'Embarked'칼럼의 결측치는 'S'로 채우기

df['Cabin'].fillna('C000', inplace=True)
df['Age'].fillna(df['Age'].mean(), inplace=True)
df['Embarked'].fillna('S',inplace=True)
df.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

### **apply lambda로 데이터 가공**
- apply함수에 lambda식을 결합해 DataFrame이나 Series의 레코드별로 데이터를 가공
- pandas의 경우 칼럼에 일괄적으로 데이터 가공을 하는 것이 속도는 더 빠름
- 복잡한 데이터 가공이 필요한 경우에 apply lambda 사용
    - lambda 입력인자 : 입력인자를 기반으로 한 계산식
    - ex) lambda x : x ** 2
- lambda 식을 이용할 때, **여러 개의 값을 입력 인자로** 사용해야 할 경우? **map()함수를 결합!**
    - ex)
    - a = [1,2,3]
    - squares = map(lambda x:x**2, a)
    - list(squares) # squares까지만 하면 class 'map' 상태임
    - 결과 : [1,4,9]

In [56]:
df['Name_len'] = df['Name'].apply(lambda x:len(x)) # ['Name']칼럼의 각 value가 x에 들어감
df[['Name','Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


#### **lambda와 if else 절 복합 사용**

In [57]:
df['Child_Adult'] = df['Age'].apply(lambda x:'Child' if x<=15 else 'Adult')
df[['Age','Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


**lambda 안에 if else가 두 번 이상 등장할 경우에는 별도의 함수를 만드는 것이 편리**

In [59]:
# 나이에 따라 세분화된 분류를 수행하는 함수
def get_category(age):
    cat=''
    if age <= 5: cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else: cat = 'Elderly'
    
    return cat
# lambda식에 위에서 생성한 get_category() 함수를 반환 값으로 지정
# get_category(x)는 입력값으로 'Age'칼럼 값을 받아서 해당하는 cat 반환

df['Age_cat'] = df['Age'].apply(lambda x:get_category(x))
df[['Age','Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult
